the anatomy of a large-scale hypertextual web search...

17
The Anatomy of a Large The Anatomy of a Large - - Scale Scale Hypertextual Hypertextual Web Search Engine Web Search Engine Art Art í í culo de Sergey Brin y Lawrence Page culo de Sergey Brin y Lawrence Page Departamento de Ciencias de la Computación Universidad de Stanford California, 1998 Presentaci Presentaci ó ó n: n: Carlos M. Lorenzetti Carlos M. Lorenzetti Depto. de Cs. e Ingeniería de la Computación Prof. Ana G. Maguitman Técnicas Empíricas y Formales para el Análisis de la Web 05 de Mayo de 2006 / Primer Cuatrimestre 2006

Upload: others

Post on 03-Oct-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: The Anatomy of a Large-Scale Hypertextual Web Search Enginecs.uns.edu.ar/~agm/mineriaweb/downloads/Slides/... · 13/06/2006 Carlos M. Lorenzetti 3 The Anatomy of a Large-Scale Hypertextual

The Anatomy of a LargeThe Anatomy of a Large--Scale Scale Hypertextual Hypertextual Web Search EngineWeb Search Engine

ArtArtíículo de Sergey Brin y Lawrence Pageculo de Sergey Brin y Lawrence PageDepartamento de Ciencias de la ComputaciónUniversidad de StanfordCalifornia, 1998

PresentaciPresentacióón:n: Carlos M. LorenzettiCarlos M. Lorenzetti

Depto. de Cs. e Ingeniería de la ComputaciónProf. Ana G. MaguitmanTécnicas Empíricas y Formales para el Análisis de la Web05 de Mayo de 2006 / Primer Cuatrimestre 2006

Page 2: The Anatomy of a Large-Scale Hypertextual Web Search Enginecs.uns.edu.ar/~agm/mineriaweb/downloads/Slides/... · 13/06/2006 Carlos M. Lorenzetti 3 The Anatomy of a Large-Scale Hypertextual

13/06/200613/06/2006 Carlos M. LorenzettiCarlos M. Lorenzetti 22

The Anatomy of a LargeThe Anatomy of a Large--Scale Hypertextual Scale Hypertextual Web Search EngineWeb Search Engine

Problemas que comenzaban a notarse:Problemas que comenzaban a notarse:–– Crecimiento de la WebCrecimiento de la Web

Incremento de la informaciIncremento de la informacióónnIncremento de los usuariosIncremento de los usuarios

–– ÍÍndices manualesndices manualesSubjetivosSubjetivosCaros de construir y mantenerCaros de construir y mantenerLentos Lentos Poca coberturaPoca cobertura

–– ÍÍndices automndices automááticosticosPoca calidad de los resultadosPoca calidad de los resultados

Se propone un nuevo sistemaSe propone un nuevo sistema

Page 3: The Anatomy of a Large-Scale Hypertextual Web Search Enginecs.uns.edu.ar/~agm/mineriaweb/downloads/Slides/... · 13/06/2006 Carlos M. Lorenzetti 3 The Anatomy of a Large-Scale Hypertextual

13/06/200613/06/2006 Carlos M. LorenzettiCarlos M. Lorenzetti 33

The Anatomy of a LargeThe Anatomy of a Large--Scale Scale HypertextualHypertextual Web Search EngineWeb Search Engine

ObjetivosObjetivos–– Calidad de las respuestasCalidad de las respuestas

Se pensaba que con tener todas las pSe pensaba que con tener todas las pááginas indexadas alcanzabaginas indexadas alcanzaba–– HabHabíía pocas pa pocas pááginasginas

Con el crecimiento de la Web esto cambiCon el crecimiento de la Web esto cambióó–– No pueden analizarse todos los resultadosNo pueden analizarse todos los resultados

Se necesita PrecisiSe necesita Precisióón, an, aúún relegando n relegando RecallRecall

–– AnAnáálisis de las blisis de las búúsquedas de los usuariossquedas de los usuariosConstrucciConstruccióón de un n de un frameworkframework para realizar investigacionespara realizar investigaciones

Page 4: The Anatomy of a Large-Scale Hypertextual Web Search Enginecs.uns.edu.ar/~agm/mineriaweb/downloads/Slides/... · 13/06/2006 Carlos M. Lorenzetti 3 The Anatomy of a Large-Scale Hypertextual

13/06/200613/06/2006 Carlos M. LorenzettiCarlos M. Lorenzetti 44

The Anatomy of a LargeThe Anatomy of a Large--Scale Scale HypertextualHypertextual Web Search EngineWeb Search Engine

Elige una URLal azar

Recorre lapágina

Elige una URLde la página para

continuar navegando

Modelo de Surfer

Page 5: The Anatomy of a Large-Scale Hypertextual Web Search Enginecs.uns.edu.ar/~agm/mineriaweb/downloads/Slides/... · 13/06/2006 Carlos M. Lorenzetti 3 The Anatomy of a Large-Scale Hypertextual

13/06/200613/06/2006 Carlos M. LorenzettiCarlos M. Lorenzetti 55

The Anatomy of a LargeThe Anatomy of a Large--Scale Scale HypertextualHypertextual Web Search EngineWeb Search Engine

Suposiciones detrSuposiciones detráás del uso de hiperenlacess del uso de hiperenlaces

1.1. RecomendaciRecomendacióónn

2.2. LocalidadLocalidad

3.3. Anchor Anchor TextText

Page 6: The Anatomy of a Large-Scale Hypertextual Web Search Enginecs.uns.edu.ar/~agm/mineriaweb/downloads/Slides/... · 13/06/2006 Carlos M. Lorenzetti 3 The Anatomy of a Large-Scale Hypertextual

13/06/200613/06/2006 Carlos M. LorenzettiCarlos M. Lorenzetti 66

The Anatomy of a LargeThe Anatomy of a Large--Scale Scale HypertextualHypertextual Web Search EngineWeb Search Engine

PageRankPageRankEs un distribuciEs un distribucióón de probabilidad que se utiliza para n de probabilidad que se utiliza para representar la posibilidad de que una persona, que parte de representar la posibilidad de que una persona, que parte de una puna páágina inicial aleatoria, llegue a una pgina inicial aleatoria, llegue a una páágina particular.gina particular.

versiversióón simplificadan simplificada

AA BB CC DD1/4 1/4 1/4 1/4

Page 7: The Anatomy of a Large-Scale Hypertextual Web Search Enginecs.uns.edu.ar/~agm/mineriaweb/downloads/Slides/... · 13/06/2006 Carlos M. Lorenzetti 3 The Anatomy of a Large-Scale Hypertextual

13/06/200613/06/2006 Carlos M. LorenzettiCarlos M. Lorenzetti 77

The Anatomy of a LargeThe Anatomy of a Large--Scale Scale HypertextualHypertextual Web Search EngineWeb Search Engine

AA0.25

Entonces cada página le cede a A su 0.25 y el algoritmo se resume en calcular el PageRank de A

PR(A) = PR(B)+ PR(C)+ PR(D)

BB0.25

CC0.25

DD0.25

0.75

0.25

0.25

0.25

Page 8: The Anatomy of a Large-Scale Hypertextual Web Search Enginecs.uns.edu.ar/~agm/mineriaweb/downloads/Slides/... · 13/06/2006 Carlos M. Lorenzetti 3 The Anatomy of a Large-Scale Hypertextual

13/06/200613/06/2006 Carlos M. LorenzettiCarlos M. Lorenzetti 88

The Anatomy of a LargeThe Anatomy of a Large--Scale Scale HypertextualHypertextual Web Search EngineWeb Search Engine

AA0.25

BB0.25

CC0.25

DD0.25

Ahora cada voto se divide entre todos los enlaces salientes

BB0.25

AA CC

0.125 0.125

Page 9: The Anatomy of a Large-Scale Hypertextual Web Search Enginecs.uns.edu.ar/~agm/mineriaweb/downloads/Slides/... · 13/06/2006 Carlos M. Lorenzetti 3 The Anatomy of a Large-Scale Hypertextual

13/06/200613/06/2006 Carlos M. LorenzettiCarlos M. Lorenzetti 99

The Anatomy of a LargeThe Anatomy of a Large--Scale Scale HypertextualHypertextual Web Search EngineWeb Search Engine

AA0.25

BB0.25

CC0.25

DD0.25

Ahora cada voto se divide entre todos los enlaces salientes

0.125 0.125 3)(

1)(

2)()( DPRCPRBPRAPR ++=

( ) ( ) ( )( )( ) ( ) ( )

PR B PR C PR DPR AL B L C D

= + +

Page 10: The Anatomy of a Large-Scale Hypertextual Web Search Enginecs.uns.edu.ar/~agm/mineriaweb/downloads/Slides/... · 13/06/2006 Carlos M. Lorenzetti 3 The Anatomy of a Large-Scale Hypertextual

13/06/200613/06/2006 Carlos M. LorenzettiCarlos M. Lorenzetti 1010

The Anatomy of a LargeThe Anatomy of a Large--Scale Scale HypertextualHypertextual Web Search EngineWeb Search Engine

Elige una URLal azar

Recorre lapágina

Elige una URLde la página para

continuar navegando

Se aburre

Page 11: The Anatomy of a Large-Scale Hypertextual Web Search Enginecs.uns.edu.ar/~agm/mineriaweb/downloads/Slides/... · 13/06/2006 Carlos M. Lorenzetti 3 The Anatomy of a Large-Scale Hypertextual

13/06/200613/06/2006 Carlos M. LorenzettiCarlos M. Lorenzetti 1111

The Anatomy of a LargeThe Anatomy of a Large--Scale Scale HypertextualHypertextual Web Search EngineWeb Search Engine

Se introduce un factor de Se introduce un factor de aburrimientoaburrimiento y la fy la fóórmula final queda:rmula final queda:

( )( ) (1 )( )Q P

d PR QPR P dn L Q∀ →

= + − ∑

Ventajas:Ventajas:

••Independiente de la consultaIndependiente de la consulta

••Resume la Resume la ““opiniopinióón de la n de la webweb”” acerca de la importancia de la pacerca de la importancia de la pááginagina

Probabilidad de que salte a una página aleatoria

Número total de páginas

Probabilidad de que nosalte a una página aleatoria

Se puede calcular con un método iterativo simple

Es el autovector ppal de la matriz normalizada de

enlaces

Page 12: The Anatomy of a Large-Scale Hypertextual Web Search Enginecs.uns.edu.ar/~agm/mineriaweb/downloads/Slides/... · 13/06/2006 Carlos M. Lorenzetti 3 The Anatomy of a Large-Scale Hypertextual

13/06/200613/06/2006 Carlos M. LorenzettiCarlos M. Lorenzetti 1212

The Anatomy of a LargeThe Anatomy of a Large--Scale Scale HypertextualHypertextual Web Search EngineWeb Search Engine

ProblemasProblemas–– PPááginas con links perdidosginas con links perdidos

–– BuclesBucles

–– SpamSpam

Enlaces a pEnlaces a pááginas sin enlacesginas sin enlaces

Enlaces a pEnlaces a pááginas que aginas que aúún no n no descargamosdescargamos

XX YY ZZ

Page 13: The Anatomy of a Large-Scale Hypertextual Web Search Enginecs.uns.edu.ar/~agm/mineriaweb/downloads/Slides/... · 13/06/2006 Carlos M. Lorenzetti 3 The Anatomy of a Large-Scale Hypertextual

13/06/200613/06/2006 Carlos M. LorenzettiCarlos M. Lorenzetti 1313

The Anatomy of a LargeThe Anatomy of a Large--Scale Scale HypertextualHypertextual Web Search EngineWeb Search Engine

SpammingSpamming un Motor de Bun Motor de BúúsquedasquedaManipular deliberada y deshonestamente los motores de Manipular deliberada y deshonestamente los motores de bbúúsqueda para incrementar el ranking de una psqueda para incrementar el ranking de una páágina.gina.

tagstags META fraudulentosMETA fraudulentospalabras clave invisiblespalabras clave invisibleslinkslinks

Ejemplos:Ejemplos:Realizar una bRealizar una búúsqueda en squeda en GoogleGoogle: : ““miserable miserable failurefailure””

Page 14: The Anatomy of a Large-Scale Hypertextual Web Search Enginecs.uns.edu.ar/~agm/mineriaweb/downloads/Slides/... · 13/06/2006 Carlos M. Lorenzetti 3 The Anatomy of a Large-Scale Hypertextual

13/06/200613/06/2006 Carlos M. LorenzettiCarlos M. Lorenzetti 1414

The Anatomy of a LargeThe Anatomy of a Large--Scale Scale HypertextualHypertextual Web Search EngineWeb Search Engine

Sitios que apuntan a la página oficial:

•43% sitios .gov

•43% spammers

•14% discusión de spam

Page 15: The Anatomy of a Large-Scale Hypertextual Web Search Enginecs.uns.edu.ar/~agm/mineriaweb/downloads/Slides/... · 13/06/2006 Carlos M. Lorenzetti 3 The Anatomy of a Large-Scale Hypertextual

13/06/200613/06/2006 Carlos M. LorenzettiCarlos M. Lorenzetti 1515

The Anatomy of a LargeThe Anatomy of a Large--Scale Scale HypertextualHypertextual Web Search EngineWeb Search Engine

Page 16: The Anatomy of a Large-Scale Hypertextual Web Search Enginecs.uns.edu.ar/~agm/mineriaweb/downloads/Slides/... · 13/06/2006 Carlos M. Lorenzetti 3 The Anatomy of a Large-Scale Hypertextual

13/06/200613/06/2006 Carlos M. LorenzettiCarlos M. Lorenzetti 1616

The Anatomy of a LargeThe Anatomy of a Large--Scale Scale HypertextualHypertextual Web Search EngineWeb Search Engine

URL Server Crawler Store Server

Repository

IndexerURL Resolver

AnchorsAnchorsAnchors

LexiconLexiconLexicon

BarrelsBarrelsBarrelsLinksLinksLinks

DocDocDocIndexIndexIndex

Sorter

PageRank Searcher

Page 17: The Anatomy of a Large-Scale Hypertextual Web Search Enginecs.uns.edu.ar/~agm/mineriaweb/downloads/Slides/... · 13/06/2006 Carlos M. Lorenzetti 3 The Anatomy of a Large-Scale Hypertextual

13/06/200613/06/2006 Carlos M. LorenzettiCarlos M. Lorenzetti 1717

The Anatomy of a LargeThe Anatomy of a Large--Scale Scale HypertextualHypertextual Web Search EngineWeb Search Engine