introducción a la recuperación de información information...

38
Introducción a la Recuperación de información Information Retrieval Raquel Trillo Lado ([email protected]) Sistemas de Información Curso 2012-2013

Upload: others

Post on 10-May-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Introducción a la Recuperación de información Information ...webdiis.unizar.es/~raqueltl/SI/T9_IR.pdf · En la mayoría de los casos no basta un simple emparejamiento de patrones

Introducción a la Recuperación de información

Information Retrieval

Raquel Trillo Lado ([email protected])

Sistemas de Información Curso 2012-2013

Page 2: Introducción a la Recuperación de información Information ...webdiis.unizar.es/~raqueltl/SI/T9_IR.pdf · En la mayoría de los casos no basta un simple emparejamiento de patrones

!   Recuperación de información en grandes corpus documentales   Introducción   Arquitectura genérica de un sistema de Recuperación de

información   El modelo booleano   El modelo vectorial   El modelo probabilístico

!   Recuperación de información en la web   Directorios y motores de búsqueda   Funcionamiento de los buscadores web   La Web oculta

!   Bibliografía y referencias

Guión: Recuperación de Información

Page 3: Introducción a la Recuperación de información Information ...webdiis.unizar.es/~raqueltl/SI/T9_IR.pdf · En la mayoría de los casos no basta un simple emparejamiento de patrones

!  RI trata el problema de recuperar los documentos relevantes a una necesidad de información expresada en forma de consulta (query) dada una colección de documentos (texto no estructurado).   Ejemplo 1:

 Corpus: Noticias publicadas en un determinado periódico  Consulta (query): Las noticias acerca de los partidos Barcelona-Madrid

  Ejemplo 2:  Corpus: Historial médico de todos los aragoneses  Consulta (query): Área donde viven los enfermos afectados por legionela

RI en corpus documentales Introducción

Page 4: Introducción a la Recuperación de información Information ...webdiis.unizar.es/~raqueltl/SI/T9_IR.pdf · En la mayoría de los casos no basta un simple emparejamiento de patrones

!  En la mayoría de los casos no basta un simple emparejamiento de patrones (pattern matching/matching sintáctico).   Ejemplo 1:

 Un documento en el que aparezcan las palabras Barcelona, Madrid y partido de futbol no tiene porque ser relevante a la consulta.

  Ejemplo 2:  Un documento en el que no aparezcan las palabras legionela enfermo

puede ser relevante para la consulta.  Un documento en el que se hable de síntomas de neumonía en un paciente

puede ser relevante  Un documento donde se denomine a la enfermedad con el nombre

científico Legionella pneumophila.

RI en corpus documentales Introducción

Page 5: Introducción a la Recuperación de información Information ...webdiis.unizar.es/~raqueltl/SI/T9_IR.pdf · En la mayoría de los casos no basta un simple emparejamiento de patrones

!  Es un problema distinto al abordado en el campo de las BDs:   Se trata con objetos (datos) que tienen una estructura y semántica bien

definida a través del modelo relacional o modelo entidad-relación   Existe un lenguaje de consulta definido para recuperar los datos: el

álgebra relacional o el sql.   Ejemplo 1:

 Una base de datos donde se almacenaran los partidos de futbol de los últimos años.

  Select * from partido where local=‘Barcelona’ and visitante=‘Madrid’;

RI en corpus documentales Introducción

Page 6: Introducción a la Recuperación de información Information ...webdiis.unizar.es/~raqueltl/SI/T9_IR.pdf · En la mayoría de los casos no basta un simple emparejamiento de patrones

!  Un modelo de RI se compone de:   Un formalismo para representar documentos y consultas (queries)   Una medida de similaridad entre un documento y una consulta.

!  Existen diferentes modelos:   Modelo Booleano.

  El primero por lo tanto el más antiguo

  Modelos vectoriales

  Modelos probabilísticos

RI en corpus documentales Introducción

Page 7: Introducción a la Recuperación de información Information ...webdiis.unizar.es/~raqueltl/SI/T9_IR.pdf · En la mayoría de los casos no basta un simple emparejamiento de patrones

!  Para evaluar la efectividad de los modelos y técnicas de RI:   Precision (P): nº de doc. relevantes recuperados/ nº total de doc. recuperados   Recall (R): nº de doc. relevantes recuperados/ nº total de doc. Relevantes

  F-measurement: Media harmónica de P y R: (1+B2) P R / B2 (P + R)   Curva precision/recall: Calcular la precisión para distintos niveles de recall   Corpus TREC y la competición

RI en corpus documentales Introducción

Documentos relevantes

Corpus documental Doc. Recuperados

Page 8: Introducción a la Recuperación de información Information ...webdiis.unizar.es/~raqueltl/SI/T9_IR.pdf · En la mayoría de los casos no basta un simple emparejamiento de patrones

!  Además de ser efectivo un sistema de RI debe ser eficiente (rápido, bajo coste en espacio, ...)

!  RI no sólo trata modelos para representar documentos y consultas (queries) sino también:   Métodos de almacenamiento de documentos

 Métodos de compresión.  Métodos de indexación de documentos

  Métodos de organización de documentos  Almacenamiento de metadatos y búsquedas de metadatos  Clasificación automática de documentos (text classification)  Agrupamiento de documentos similares (clustering)

RI en corpus documentales Introducción

Page 9: Introducción a la Recuperación de información Information ...webdiis.unizar.es/~raqueltl/SI/T9_IR.pdf · En la mayoría de los casos no basta un simple emparejamiento de patrones

Arquitectura genérica de un sistema de Recuperación de información

Usuario

Índices sobre los documentos

Módulo de gestión de documentos

Colección de

documentos

Interfaz de usuario consulta

Indexador Ficheros de

índices invertidos

Módulo de operaciones de texto

Representación

Representación

Módulo de operaciones de queries

Buscador

Ranking

Interfaz de documentos

Texto

Texto

Page 10: Introducción a la Recuperación de información Information ...webdiis.unizar.es/~raqueltl/SI/T9_IR.pdf · En la mayoría de los casos no basta un simple emparejamiento de patrones

!  Módulo de gestión de documentos   Parsear los documentos que forman la colección para extraer

información de ellos (autor, título, palabras clave, extraer metadatos, clasificar los documentos...)

  Acceder a los documentos o a la información asociada a estos

!  Módulo de operaciones de texto   Transformar el documento original en una representación del mismo

(vista lógica):   En general la vista lógica consiste en una secuencia de términos (terms).

Técnicas tradicionalmente empleadas son las stoplist y los stemmers  Otras técnicas empleadas: Procesamiento de lenguaje natural (NLP),

obtención de estadísticas por ejemplo para obtener el sentido de una determinada palabra o para obtener representaciones basadas en pares de términos como ‘data bases’.

Arquitectura genérica de un sistema de Recuperación de información

Page 11: Introducción a la Recuperación de información Information ...webdiis.unizar.es/~raqueltl/SI/T9_IR.pdf · En la mayoría de los casos no basta un simple emparejamiento de patrones

!  Módulo de operaciones de texto   Transformar la consulta (query) original en una representación de la

misma (vista lógica). Esto no se aplica en todos los modelos.

!  Módulo de indexación   Construir índices sobre los documentos.

  Los más conocidos y probados son los ficheros invertidos o índices invertidos.

  La unidad de indexación es el término (term): una palabra, una frase, conjunto de palabras o frases o una raíz (stem)

  Los recursos de tiempo y espacio que conllevan la creación de índices se amortizan en la recuperación.

Arquitectura genérica de un sistema de Recuperación de información

Page 12: Introducción a la Recuperación de información Information ...webdiis.unizar.es/~raqueltl/SI/T9_IR.pdf · En la mayoría de los casos no basta un simple emparejamiento de patrones

!  Son una estructura eficiente para almacenar datos a los que se necesita acceder.

!  Son independientes del modelo de RI que se use !  A cada término relevante de los documentos (del vocabulario)

se le asocian los documentos en los que aparece y el offset dentro de estos donde está.

!  Compromiso entre coste de construir el índice y aumento de la velocidad de acceso a la información   Corpus de más de 200 Mb compensa.

Índices invertidos

Page 13: Introducción a la Recuperación de información Information ...webdiis.unizar.es/~raqueltl/SI/T9_IR.pdf · En la mayoría de los casos no basta un simple emparejamiento de patrones

!  Módulo de operaciones de queries:   Expansión de términos de la representación (vista lógica) de la query.

  Ejemplo: ‘coche’ pasa a ser ‘coche o auto o carro’   Pueden obtenerse mediante:

 Recursos lingüísticos como Thesaurus Léxicos (WordNet)  Otros recursos como ontologías  Mediante un proceso de relevance feedback por parte del usuario

  Eliminación de términos

!  Módulo de búsqueda   Busca en los índices para lograr matchings entre las representaciones de

los documentos y la query.

Arquitectura genérica de un sistema de Recuperación de información

Page 14: Introducción a la Recuperación de información Information ...webdiis.unizar.es/~raqueltl/SI/T9_IR.pdf · En la mayoría de los casos no basta un simple emparejamiento de patrones

!  Módulo de ranking:   Ordena los documentos recuperados de acuerdo con la relevancia

respecto a la query   A veces también se cierra el ciclo aquí con relevance feedback.

!  Otros módulos: Compresores   Para reducir el espacio que ocupa el almacenamiento de los documentos

y los índices   Fundamentalmente se distingue entre técnicas de compresión que

permiten la búsqueda sobre texto comprimido y entre las que no. (Las primeras son más eficientes)

Arquitectura genérica de un sistema de Recuperación de información

Page 15: Introducción a la Recuperación de información Information ...webdiis.unizar.es/~raqueltl/SI/T9_IR.pdf · En la mayoría de los casos no basta un simple emparejamiento de patrones

!  1º modelo de recuperación de información !  Se utilizó en:

  Bibliotecas: Buscar información en los resúmenes (abstracts) de los libros.

  Documentos legales en E.E.U.U., el sistema Lexis Nexis.

  Documentos médicos.

!  Cada documento se representa por una lista de bits (0 o 1) que indican si en ese documento aparece determinado término o no.   Ejemplo 1:

  Lista de términos: CASA, ES, VERDE, AZUL, AMARILLA, CARA, BARATA.

 Documento: “Mi casa es amarilla y barata” -> vista lógica (1,1,0,0,1,0,1)  Consulta 1 (query): Casa and barata -> (1,0,0,0,0,0,1)

Modelo Booleano

Page 16: Introducción a la Recuperación de información Information ...webdiis.unizar.es/~raqueltl/SI/T9_IR.pdf · En la mayoría de los casos no basta un simple emparejamiento de patrones

 Consulta 2 (query): Casa and (amarilla or azul) -> (1,0,0,1,0,0,0) or (1,0,0,0,1,0,0)

  Ejemplo 2:  Consulta (query): (coste OR precio) AND papel  Documento 1: “El coste del papel aumentó un 5%” (Documento relevante)  Documento 2: “El precio de los alimentos aumentó” (Documento no relevante)

!  Ventajas:   Existen implementaciones eficientes mediante operaciones con bits e índices invertidos

!  Problemas:   Dificultad de los usuarios para expresar queries booleanas   Recupera muy pocos documentos o demasiados

Modelo Booleano

Page 17: Introducción a la Recuperación de información Information ...webdiis.unizar.es/~raqueltl/SI/T9_IR.pdf · En la mayoría de los casos no basta un simple emparejamiento de patrones

!  En lugar de considerar sólo 0 y 1 en los vectores considera la frecuencia con que aparece un término en un documento.

!  Ventajas:   Se puede hacer un ranking de los documentos recuperados: los que tienen

frecuencias más altas en los términos indicados por el usuario/a van antes que los documentos con menos apariciones en dichos términos.

  Dio lugar al Modelo Vectorial (Vector Space Model)

Modelo Booleano Extendido

Page 18: Introducción a la Recuperación de información Information ...webdiis.unizar.es/~raqueltl/SI/T9_IR.pdf · En la mayoría de los casos no basta un simple emparejamiento de patrones

!  Marcó el inicio de la investigación en el campo de la RI. !  Ofrece altas prestaciones y permite ranking. !  Las queries y los documentos se representan mediante vectores.

  Dimensión del espacio vectorial es la cardinalidad del conjunto de términos

  En modelos avanzados se usan técnicas de reducción de las dimensiones   Cada dimensión representa la frecuencia para cada término (El nº de

veces que aparece un término en un documento)   Ejemplo:

 Considerar un vocabulario de 3 términos A, B y C   Sean Di documentos tales que: - D1 contiene los términos A, B y C una vez

- D2 contiene el término A una vez - D3 contiene los términos A y B una vez

Modelo Vectorial

Page 19: Introducción a la Recuperación de información Information ...webdiis.unizar.es/~raqueltl/SI/T9_IR.pdf · En la mayoría de los casos no basta un simple emparejamiento de patrones

!  Para obtener el ranking se considera la similaridad a través del coseno del ángulo que forman la query y los documentos.

Modelo Vectorial

A

B

C

D2 D1

D3

Page 20: Introducción a la Recuperación de información Information ...webdiis.unizar.es/~raqueltl/SI/T9_IR.pdf · En la mayoría de los casos no basta un simple emparejamiento de patrones

!  Si X e Y son dos vectores y alfa el ángulo que forman:   X Y = |X| |Y| cos (alfa)   Cos (alfa) = X Y / |X| |Y|   Cos (alfa) € [0-1]

 Cuanto más parecidos sean X e Y más próximo a 1 será el cos (alfa)  Cuanto más diferentes sean X e Y más próximo a 0 estará el cos(alfa)

!  Ejemplo:   Consulta (query) q: documentos con A y B   q = <1,1,0>   D1 = <1,1,1>   D2 = <1,0,0>

  D3 = <1,1,0>

Modelo Vectorial

Page 21: Introducción a la Recuperación de información Information ...webdiis.unizar.es/~raqueltl/SI/T9_IR.pdf · En la mayoría de los casos no basta un simple emparejamiento de patrones

  q D1 = 1 1 + 1 1 + 0 1 = 2   |q| = sqrt(1^2 + 1^2 + 0^2) = sqrt(2)   |D1| = sqrt(1^2 + 1^2 + 1^2) = sqrt(3)   Cos(q y D1) = 2/(sqrt(2) sqrt(3)) = 2 / (1.414 )(1.732) = 2 / 2.449 = 0,81

  q D2 = 1 1 + 1 0 + 0 0 = 1

  |D2| = sqrt(1^2 + 0^2 + 0^2) = sqrt(1)=1   Cos(q y D2) = 1/(sqrt(2) 1)= 1/sqrt(2)= 1 / 1.414 = 0.707

  q D3 = 1 1 + 1 1 + 0 0 = 2   |D3| = sqrt(1^2 + 1^2 + 0^2) = sqrt(2)   Cos(q y D3) = 2/(sqrt(2) sqrt(2))= 2 / 2 = 1

Modelo Vectorial

Page 22: Introducción a la Recuperación de información Information ...webdiis.unizar.es/~raqueltl/SI/T9_IR.pdf · En la mayoría de los casos no basta un simple emparejamiento de patrones

!  Existen muchas variantes considerando otras medidas de similitud:   Dice: similaridad (X, Y) = (2 X Y )/ (X^2 Y^2)   Jaccard: similaridad (X, Y) = (X Y) / (X^2 + Y^2 - |X||Y|)

!  Otras variantes:   En lugar de considerar la frecuencia de los términos (tf: term frequency)

consideran la frecuencia inversa de los términos (idf).   Las palabras de menor frecuencia en un documento son más informativas

  Utilizar log(idf) en lugar de valores absolutos  Con frecuencias bajas las considera muy similares, sin embargo las

frecuencias altas las considera muy distantes (No es lo mismo cambiar de 1 a 2 que de 25 a 26, le da más importancia al cambio de 25 a 26)

Modelo Vectorial

Page 23: Introducción a la Recuperación de información Information ...webdiis.unizar.es/~raqueltl/SI/T9_IR.pdf · En la mayoría de los casos no basta un simple emparejamiento de patrones

!  Ventajas:   Poco coste computacional   Muy popular: SMART (Sistema libre)

  Alto rendimiento

!  Inconvenientes:   Asume independencia de términos (cada dimensión se trata de forma

independiente de las otras)   No tiene en cuenta el tamaño de los documentos (en documentos más

grandes es más probable encontrar más términos)

Modelo Vectorial

Page 24: Introducción a la Recuperación de información Information ...webdiis.unizar.es/~raqueltl/SI/T9_IR.pdf · En la mayoría de los casos no basta un simple emparejamiento de patrones

!  Estrategia adaptativa, las anteriores eran representativas y tiene un mayor fundamento lógico-matemático (las anteriores se basaban en heurísticas).

!  Estudia la probabilidad de relevancia dada una query q y un documento Di:   Probabilidad (Di sea relevante a q/ Di tiene las características X) = = p(rel/x)

!  Hace el ranking de los documentos recuperados ordenándolos según la probabilidad de relevancia.

Modelo probabilístico

Page 25: Introducción a la Recuperación de información Information ...webdiis.unizar.es/~raqueltl/SI/T9_IR.pdf · En la mayoría de los casos no basta un simple emparejamiento de patrones

!  Directorios de búsqueda:   Organización manual de las páginas en unas categorías.   Ejemplos:

 Yahoo empezó siendo un directorio de búsqueda  Hoy en día la mayoría de los buscadores mantienen también un directorio.

  Inconvenientes: Organización manual y cubren una parte muy pequeña de la web

!  Motores de búsqueda o buscadores:   Los motores de búsqueda son sistemas que buscan en Internet cuando

les pedimos información sobre algún tema. Normalmente por palabras clave.

  Ejemplos:  Altavista, Google, Alltheweb....

Recuperación de información en la Web: Introducción

Page 26: Introducción a la Recuperación de información Information ...webdiis.unizar.es/~raqueltl/SI/T9_IR.pdf · En la mayoría de los casos no basta un simple emparejamiento de patrones

!  Metabuscadores:   Definición: Buscadores que buscan en buscadores y luego integran sus

resultados en tiempo real.   Se han utilizado para mejorar la relevancia en buscadores en Internet.

Mediante algoritmos de ponderación: MetaCrawler, SavvySearch, Multibuscador,...

  En entorno corporativo surgen como soluciones de ‘búsqueda federada’   Dificultades:

  Traducción de consultas del formato general al de la fuente: Traducción de sintaxis y postprocesados

 Construcción de ‘envoltorios’ sobre los buscadores origen.  Relevancia ponderada de resultados: relevancia del origen, de la fuente...   Eficiencia en las consultas

Recuperación de información en la Web: Introducción

Page 27: Introducción a la Recuperación de información Information ...webdiis.unizar.es/~raqueltl/SI/T9_IR.pdf · En la mayoría de los casos no basta un simple emparejamiento de patrones

Arquitectura genérica de un sistema de Recuperación de Información Web

Usuario

Índices sobre los documentos

Módulo de gestión de documentos

Colección de

documentos

Interfaz de usuario consulta

Indexador Ficheros de

índices invertidos

Módulo de operaciones de texto

Representación

Representación

Módulo de operaciones de queries

Buscador

Ranking

Crawlers o arañas

Texto

Texto

Page 28: Introducción a la Recuperación de información Information ...webdiis.unizar.es/~raqueltl/SI/T9_IR.pdf · En la mayoría de los casos no basta un simple emparejamiento de patrones

!  Motores de Recuperación de información web:   Construcción de un gran índice de palabras sobre todos los documentos

del web estático.   Búsquedas por palabras clave o keywords sobre el índice, obteniendo

granularidad de documento.

!  Problemas adicionales de investigación:   Construcción del índice (arañas o crawling)   Distribución del índice (gran volumen de información)   Algoritmo de ejecución distribuida de consultas.   Algoritmos de relevancia mucho más críticos. Hay que sacar partido de

la estructura proporcionada por los hiperenlaces   Problema de la web oculta (todavía sin resolver)

RI en Web: Funcionamiento de los buscadores web

Page 29: Introducción a la Recuperación de información Information ...webdiis.unizar.es/~raqueltl/SI/T9_IR.pdf · En la mayoría de los casos no basta un simple emparejamiento de patrones

!  Motores de Recuperación de información web:   Ejemplo clásico: Altavista.

 Arquitectura basada en grandes servidores -> No escala  Algoritmos de relevancia de las páginas basados en los tradicionales de

bases de datos documentales -> Se inundaron por la cantidad de información. Además contar los hiperenlaces no resuelve el problema porque algunas páginas son muy comunes en cualquier contexto.

  Sólo tratan la web estática

  Ejemplo avanzado: Google  Arquitectura distribuida basada en miles de estaciones de bajo precio  Algoritmos de relevancia que sacan partido de la estructura basada en

hiperenlaces de formas más sofisticadas.   Siguen limitándose a la web estática aunque investigan en la línea de la

web oculta.

RI en Web: Funcionamiento de los buscadores web

Page 30: Introducción a la Recuperación de información Information ...webdiis.unizar.es/~raqueltl/SI/T9_IR.pdf · En la mayoría de los casos no basta un simple emparejamiento de patrones

!  Google debe su éxito al pagerank:   Los enlaces son considerados como ‘citas’ de otros documentos.   Se asumen como más relevantes lo documentos más citados.

  También importa quién es el que te cita.   Una página tiene un pagerank alto si tiene muchas páginas que la

apuntan o la apuntan páginas con un PageRank alto (“Hubs”).   El texto en los enlaces se asocia también a la página destino.

RI en Web: Funcionamiento de los buscadores web

Page 31: Introducción a la Recuperación de información Information ...webdiis.unizar.es/~raqueltl/SI/T9_IR.pdf · En la mayoría de los casos no basta un simple emparejamiento de patrones

!  Relevancia basada en hiperenlaces fue: HITS   Búsqueda previa sobre un índice pre-construido.   Algorimo iterativo sobre los enlaces entre documentos.

 Hubs son páginas que enlazan muchas ‘páginas buenas’ (autoridades)  Autoridades son páginas enlazadas desde muchos ‘referentes buenos’.

(hubs).  Si buscamos autoridades relacionadas con un cierto tema, no llega con que sean

páginas apuntadas desde muchas otras: debe existir cierto solape entre las páginas que las apuntan (hubs).

RI en Web: Funcionamiento de los buscadores web

Page 32: Introducción a la Recuperación de información Information ...webdiis.unizar.es/~raqueltl/SI/T9_IR.pdf · En la mayoría de los casos no basta un simple emparejamiento de patrones

!  Procedimiento básico HITS:   Se realiza la búsqueda en un motor tradicional   Se expanden sus resultados con páginas que ‘son apuntadas’ por

páginas de los resultados y con páginas que ‘apuntan’ a páginas resultados, hasta un cierto nivel de profundidad.

  Cada página (nodo del grafo) comienza con un ‘peso de hub’ y un ‘peso de autoridad’

  En cada iteración, el peso de’autoridad’ de un nodo se calcula como la suma del ‘peso de hub’ de la iteración anterior de los nodos que lo apuntan.

  El ‘peso de hub’ se calcula como la suma del ‘peso de autoridad’ de los nodos a los que apunta.

  Se demuestra que el algoritmo converge

RI en Web: Funcionamiento de los buscadores web

Page 33: Introducción a la Recuperación de información Information ...webdiis.unizar.es/~raqueltl/SI/T9_IR.pdf · En la mayoría de los casos no basta un simple emparejamiento de patrones

!  Relevancia basada en hiperenlaces: PageRank   Idea similar a HITS   PR(A) = (1-d) + d(PR(t1)/C(t1)+...... (PR(tn)/C(tn))

  T1,Tn son las páginas que apuntan a A   C(Ti) número de enlaces salientes de Ti.   D. ‘damping factor’ es 0.85.   Una página tiene un PageRank alto si la apuntan muchas páginas, o la

apuntan menos páginas pero con un PageRank muy alto.   Eficiente y no dependiente de búsqueda inicial como HITS.

RI en Web: Funcionamiento de los buscadores web

Page 34: Introducción a la Recuperación de información Information ...webdiis.unizar.es/~raqueltl/SI/T9_IR.pdf · En la mayoría de los casos no basta un simple emparejamiento de patrones

!  Hace referencia a las páginas generadas dinámicamente:   Cliente: Javascript, HTML dinámico, applets, etc   Servidor: CGIs, Servlets, JSPs, ASPs, PHPs,..

  Los crawlers tradicionales no pueden acceder a esta información:  Dificil implementar soporte para JavaScript

 Objetos del browser (navegador)  Frames  Etc

  ¿Cómo entender formularios, aprender a consultarlos y saber consultar en ellos? ¿Problemas de acceso mediante claves?

RI en Web: La web oculta

Page 35: Introducción a la Recuperación de información Information ...webdiis.unizar.es/~raqueltl/SI/T9_IR.pdf · En la mayoría de los casos no basta un simple emparejamiento de patrones

!  Caracterización de la web oculta:   Entre 400 y 500 veces mayor que la web estática   Unos 300.000 sitios web

  Sitios de la web oculta reciben en torno al 65% más de tráfico que los sitios de la web estática.

  Crece mucho más rápido que la web estática.   Más del 60% de los sitos son bases de datos de temas específicos que

proporcionan información de alta calidad.   Más del 80% de los datos están accesibles públicamente.

RI en Web: La web oculta

Page 36: Introducción a la Recuperación de información Information ...webdiis.unizar.es/~raqueltl/SI/T9_IR.pdf · En la mayoría de los casos no basta un simple emparejamiento de patrones

!  Avances en la web oculta cliente:   Aparecen primeros sistemas capaces de tratar JavaScript real.   El proceso de crawling pierde eficiencia (crawler es casi un browser),

con lo que su utilidad se restringe a problemas específicos.

!  Avances en la web oculta servidor:   Actualmente sólo mediante ‘wrappers’ o envoltorios ad-hoc para cada

fuente, o mediante acuerdos particulares.   Se parte de una especificación de dominio (por ejemplo: tiendas

electrónicas de libros)   Se estudian los atributos: tipos de datos y nombres posibles   Se dan ejemplos de datos reales   Se configura especificamente el dominio

RI en Web: La web oculta

Page 37: Introducción a la Recuperación de información Information ...webdiis.unizar.es/~raqueltl/SI/T9_IR.pdf · En la mayoría de los casos no basta un simple emparejamiento de patrones

!  Avances en la web oculta servidor:   Se parte de una especificación de dominio (por ejemplo: tiendas

electrónicas de libros)   Se estudian los atributos: tipos de datos y nombres posibles.   Se dan ejemplos de datos reales.   Se configura especificamente el dominio.

  Tareas:   Identificar automáticamente formularios relevantes.  Aprender a realizar consultas sobre el formulario.  Generar consultas relevantes partiendo de los ejemplos del dominio y de

los obtenidos de consultas previas.

RI en Web: La web oculta

Page 38: Introducción a la Recuperación de información Information ...webdiis.unizar.es/~raqueltl/SI/T9_IR.pdf · En la mayoría de los casos no basta un simple emparejamiento de patrones

  Information Retrieval, Ricardo Baeza-Yates   2 volúmenes. Cubre algoritmos de stemming y búsqueda de cadenas

  Managing Gigabytes, Moffat and Zobel  Cubre detalles de implementación de RI y Recuperación de imágenes.

  Information Retrieval, Gerard Salton   Es un libro clásico, la última versión es de 1989

  Information Retrieval, Jerry Kowalski  Un buen resumen de las arquitecturas de los sistemas de RI.

Bibliografía y referencias