information retrieval e motori di ricerca ( in riferimento a … · 2017. 10. 24. · information...

33
Information retrieval Tecniche d’information retrieval Information retrieval e motori di ricerca ( in riferimento a [SA15, Cap. 4] ) Eugenio Omodeo Universit` a degli Studi di Trieste. Trieste, 25.10.2018 Eugenio Omodeo Universit` a degli Studi di Trieste. Information retrieval e motori di ricerca ( in riferimento a [SA1

Upload: others

Post on 22-Aug-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Information retrieval e motori di ricerca ( in riferimento a … · 2017. 10. 24. · Information retrieval e motori di ricerca ( in riferimento a [SA15, Cap. 4] ) Information retrieval

Information retrievalTecniche d’information retrieval

Information retrieval e motori di ricerca( in riferimento a [SA15, Cap. 4] )

Eugenio OmodeoUniversita degli Studi di Trieste.

Trieste, 25.10.2018

Eugenio Omodeo Universita degli Studi di Trieste. Information retrieval e motori di ricerca ( in riferimento a [SA15, Cap. 4] )

Page 2: Information retrieval e motori di ricerca ( in riferimento a … · 2017. 10. 24. · Information retrieval e motori di ricerca ( in riferimento a [SA15, Cap. 4] ) Information retrieval

Information retrievalTecniche d’information retrieval

Sunto

Cominciamo con la discussione dei sistemi d’ information retrieval

prima di passare ai motori di ricerca .1

1Per i secondi, una comparazione tecnica e piuttosoto difficile dato che ognimotore realizza le proprie funzionalita mediante tecniche proprietarie i cuidettagli non vengono resi pubblici.Eugenio Omodeo Universita degli Studi di Trieste. Information retrieval e motori di ricerca ( in riferimento a [SA15, Cap. 4] )

Page 3: Information retrieval e motori di ricerca ( in riferimento a … · 2017. 10. 24. · Information retrieval e motori di ricerca ( in riferimento a [SA15, Cap. 4] ) Information retrieval

Information retrievalTecniche d’information retrieval

Visione di un importante inventore del ?? sec.

Much needs to occur, however, between the collection ofdata and observations, the extraction of parallel materialfrom the existing record, and the final insertion of newmaterial into the general body of the common record.

For mature thought there is no mechanical substitute.

But creative thought and essentially repetitive thoughtare very different things. For the latter there are, andmay be, powerful mechanical aids.

[· · · ]

Eugenio Omodeo Universita degli Studi di Trieste. Information retrieval e motori di ricerca ( in riferimento a [SA15, Cap. 4] )

Page 4: Information retrieval e motori di ricerca ( in riferimento a … · 2017. 10. 24. · Information retrieval e motori di ricerca ( in riferimento a [SA15, Cap. 4] ) Information retrieval

Information retrievalTecniche d’information retrieval

Visione di un importante inventore del XX sec.

We seem to be worse off than before —for we can enormously extend the record; yet even in itspresent bulk we can hardly consult it.

This is a much larger matter than merely the extractionof data for the purposes of scientific research; it involvesthe entire process by which man profits by his inheritanceof acquired knowledge. The prime action of use isselection , and here we are halting indeed. There may be

millions of fine thoughts, and the account of theexperience on which they are based, all encased withinstone walls of acceptable architectural form; but if thescholar can get at only one a week by diligent search, hissyntheses are not likely to keep up with the current scene.

[· · · ]Eugenio Omodeo Universita degli Studi di Trieste. Information retrieval e motori di ricerca ( in riferimento a [SA15, Cap. 4] )

Page 5: Information retrieval e motori di ricerca ( in riferimento a … · 2017. 10. 24. · Information retrieval e motori di ricerca ( in riferimento a [SA15, Cap. 4] ) Information retrieval

Information retrievalTecniche d’information retrieval

Visione di un importante inventore del XX sec.

Selection, in this broad sense, is a stone adze in thehands of a cabinetmaker.

Vannevar Bush, As we may think, 1945

La selezione, in questo senso,e un’ascia di pietra nelle manidi un ebanista.

Eugenio Omodeo Universita degli Studi di Trieste. Information retrieval e motori di ricerca ( in riferimento a [SA15, Cap. 4] )

Page 6: Information retrieval e motori di ricerca ( in riferimento a … · 2017. 10. 24. · Information retrieval e motori di ricerca ( in riferimento a [SA15, Cap. 4] ) Information retrieval

Information retrievalTecniche d’information retrieval

Il memex di Vannevar Bush

Vannevar Bush ( Everett, 11 mar 1890 — Belmont, 30 giu 1974 )e stato uno scienziato e tecnologo statunitense. Fu un inventore ecoordino le attivita di ricerca degli USA durante la seconda guerramondiale; precursore degli ipertesti, e stato l’ideologo del supportodelle attivita di ricerca ai fini del potenziamento delle democrazie.

Eugenio Omodeo Universita degli Studi di Trieste. Information retrieval e motori di ricerca ( in riferimento a [SA15, Cap. 4] )

Page 7: Information retrieval e motori di ricerca ( in riferimento a … · 2017. 10. 24. · Information retrieval e motori di ricerca ( in riferimento a [SA15, Cap. 4] ) Information retrieval

Information retrievalTecniche d’information retrieval

Vannevar Bush ( 1890–1974 )

Eugenio Omodeo Universita degli Studi di Trieste. Information retrieval e motori di ricerca ( in riferimento a [SA15, Cap. 4] )

Page 8: Information retrieval e motori di ricerca ( in riferimento a … · 2017. 10. 24. · Information retrieval e motori di ricerca ( in riferimento a [SA15, Cap. 4] ) Information retrieval

Information retrievalTecniche d’information retrieval

Scaletta

Information retrievalMansioniOrganizzazione interna

Tecniche d’information retrievalTecniche di analisiTecniche d’indicizzazione e di matching

Eugenio Omodeo Universita degli Studi di Trieste. Information retrieval e motori di ricerca ( in riferimento a [SA15, Cap. 4] )

Page 9: Information retrieval e motori di ricerca ( in riferimento a … · 2017. 10. 24. · Information retrieval e motori di ricerca ( in riferimento a [SA15, Cap. 4] ) Information retrieval

Information retrievalTecniche d’information retrieval

MansioniOrganizzazione interna

Cos’e l’Information retrieval ?

I sistemi d’Information Retrieval sono stati concepiticon l’obiettivo di mediare l’interazione fra l’utente e ilcorpus di documenti che egli desidera interrogare.

Tipicamente, l’utente sottopone al sistema una o piuchiavi di ricerca ( keyword ) che denotano il suobisogno d’informazione e il sistema, consultando ilcorpus, restituisce l’insieme di documenti che sonovalutati come pertinenti rispetto alla richiesta.

[CFM09, pag. 66]

Eugenio Omodeo Universita degli Studi di Trieste. Information retrieval e motori di ricerca ( in riferimento a [SA15, Cap. 4] )

Page 10: Information retrieval e motori di ricerca ( in riferimento a … · 2017. 10. 24. · Information retrieval e motori di ricerca ( in riferimento a [SA15, Cap. 4] ) Information retrieval

Information retrievalTecniche d’information retrieval

MansioniOrganizzazione interna

Efficacia ed efficienza nell’Information retrieval

I L’utente desidera una risposta accurata alla propria richiesta,cioe costituita da tutti i documenti del corpus che sonorilevanti.

I Desidera anche un basso tempo d’attesa tra la formulazionedella richiesta e la ricezione del risultato.

Questi obiettivi sono tra loro contrastanti

Eugenio Omodeo Universita degli Studi di Trieste. Information retrieval e motori di ricerca ( in riferimento a [SA15, Cap. 4] )

Page 11: Information retrieval e motori di ricerca ( in riferimento a … · 2017. 10. 24. · Information retrieval e motori di ricerca ( in riferimento a [SA15, Cap. 4] ) Information retrieval

Information retrievalTecniche d’information retrieval

MansioniOrganizzazione interna

Rappresentazione di sintesi nell’Information retrieval

I sistemi d’I.R. eseguono operazioni di manipolazione del corpusper estrarne una rappresentazione di sintesi del contenutoinformativo di ciascun documento e memorizzare talirappresentazioni in modo efficiente.

L’utente non ha accesso diretto alle rappres. di sintesi

Eugenio Omodeo Universita degli Studi di Trieste. Information retrieval e motori di ricerca ( in riferimento a [SA15, Cap. 4] )

Page 12: Information retrieval e motori di ricerca ( in riferimento a … · 2017. 10. 24. · Information retrieval e motori di ricerca ( in riferimento a [SA15, Cap. 4] ) Information retrieval

Information retrievalTecniche d’information retrieval

MansioniOrganizzazione interna

Esempio d’interrogazione ad un sistema d’I.R.

Eugenio Omodeo Universita degli Studi di Trieste. Information retrieval e motori di ricerca ( in riferimento a [SA15, Cap. 4] )

Page 13: Information retrieval e motori di ricerca ( in riferimento a … · 2017. 10. 24. · Information retrieval e motori di ricerca ( in riferimento a [SA15, Cap. 4] ) Information retrieval

Information retrievalTecniche d’information retrieval

MansioniOrganizzazione interna

Articolazione di un sistema d’Information retrieval

Eugenio Omodeo Universita degli Studi di Trieste. Information retrieval e motori di ricerca ( in riferimento a [SA15, Cap. 4] )

Page 14: Information retrieval e motori di ricerca ( in riferimento a … · 2017. 10. 24. · Information retrieval e motori di ricerca ( in riferimento a [SA15, Cap. 4] ) Information retrieval

Information retrievalTecniche d’information retrieval

MansioniOrganizzazione interna

Analisi e indicizzazione

Le componenti di analisi e indicizzazione

I vengono invocate allorche nuovi documenti vengono aggiuntial sistema e

I alimentano l’archivio dei documenti.

Analisi: Elabora il documento originale memorizzandolo nelcorpus e producendone una rappresentazione disintesi.

Indicizzazione: Ricava dalla rappresentazione di sintesi un indice,i.e. una struttura di accesso efficiente ai documenti.

Eugenio Omodeo Universita degli Studi di Trieste. Information retrieval e motori di ricerca ( in riferimento a [SA15, Cap. 4] )

Page 15: Information retrieval e motori di ricerca ( in riferimento a … · 2017. 10. 24. · Information retrieval e motori di ricerca ( in riferimento a [SA15, Cap. 4] ) Information retrieval

Information retrievalTecniche d’information retrieval

MansioniOrganizzazione interna

Corpus e indice

Almeno a livello concettuale, i due oggetti sono ben diversi:

Corpus: e l’insieme dei documentiinseriti nel sistema;

Indice: e una struttura basata sullerappresentazioni di sintesi.

Eugenio Omodeo Universita degli Studi di Trieste. Information retrieval e motori di ricerca ( in riferimento a [SA15, Cap. 4] )

Page 16: Information retrieval e motori di ricerca ( in riferimento a … · 2017. 10. 24. · Information retrieval e motori di ricerca ( in riferimento a [SA15, Cap. 4] ) Information retrieval

Information retrievalTecniche d’information retrieval

MansioniOrganizzazione interna

Interrogazione e matching

Interrogazione: E la componente cui l’utente somministra leproprie richieste: essa le prepara per la ricerca.

Matching: E la componente che confronta ogni richiesta conl’indice, per individuare nel corpus i documentirilevanti: il risultato.

Eugenio Omodeo Universita degli Studi di Trieste. Information retrieval e motori di ricerca ( in riferimento a [SA15, Cap. 4] )

Page 17: Information retrieval e motori di ricerca ( in riferimento a … · 2017. 10. 24. · Information retrieval e motori di ricerca ( in riferimento a [SA15, Cap. 4] ) Information retrieval

Information retrievalTecniche d’information retrieval

MansioniOrganizzazione interna

Thesaurus

Le fasi di analisi e di matching potranno far uso di un thesaurus edi altre tecniche linguistiche per migliorare l’efficacia delreperimento.

Eugenio Omodeo Universita degli Studi di Trieste. Information retrieval e motori di ricerca ( in riferimento a [SA15, Cap. 4] )

Page 18: Information retrieval e motori di ricerca ( in riferimento a … · 2017. 10. 24. · Information retrieval e motori di ricerca ( in riferimento a [SA15, Cap. 4] ) Information retrieval

Information retrievalTecniche d’information retrieval

MansioniOrganizzazione interna

Un’applicaz. di tecniche d’I.R. ( Si pensi pure a Spotlight )

Eugenio Omodeo Universita degli Studi di Trieste. Information retrieval e motori di ricerca ( in riferimento a [SA15, Cap. 4] )

Page 19: Information retrieval e motori di ricerca ( in riferimento a … · 2017. 10. 24. · Information retrieval e motori di ricerca ( in riferimento a [SA15, Cap. 4] ) Information retrieval

Information retrievalTecniche d’information retrieval

Tecniche di analisiTecniche d’indicizzazione e di matching

Eliminazione delle stop word

Si tratta di particelle ( articoli, preposiz., congiunz. ) la cuieliminazione non ha importanti ripercussioni sul contenutoinformativo, ma puo ridurre significativamente ( anchedimezzandola ) la lunghezza del testo.

Eugenio Omodeo Universita degli Studi di Trieste. Information retrieval e motori di ricerca ( in riferimento a [SA15, Cap. 4] )

Page 20: Information retrieval e motori di ricerca ( in riferimento a … · 2017. 10. 24. · Information retrieval e motori di ricerca ( in riferimento a [SA15, Cap. 4] ) Information retrieval

Information retrievalTecniche d’information retrieval

Tecniche di analisiTecniche d’indicizzazione e di matching

Eliminazione delle stop word Esempio dell’italiano

http:

//snowball.tartarus.org/algorithms/italian/stop.txt

Eugenio Omodeo Universita degli Studi di Trieste. Information retrieval e motori di ricerca ( in riferimento a [SA15, Cap. 4] )

Page 21: Information retrieval e motori di ricerca ( in riferimento a … · 2017. 10. 24. · Information retrieval e motori di ricerca ( in riferimento a [SA15, Cap. 4] ) Information retrieval

Information retrievalTecniche d’information retrieval

Tecniche di analisiTecniche d’indicizzazione e di matching

Estrazione di stem

Il dizionario italiano HOEPLI definisce tema e lemma,2 nel sensodella morfologia, rispettivam. cosı:

5 LING Parte fissa della parola, alla quale si salda ladesinenza producendo la flessione

3 LING Ognuna delle voci definite da un dizionario oda un’enciclopedia

Il processo di stemming consiste nel sostituire tutte le formederivate con il tema corrispondente, per favorire l’estrazione diparole ad elevata rappresentativita.

2Spesso useremo ‘termine’ per ‘lemma’.Eugenio Omodeo Universita degli Studi di Trieste. Information retrieval e motori di ricerca ( in riferimento a [SA15, Cap. 4] )

Page 22: Information retrieval e motori di ricerca ( in riferimento a … · 2017. 10. 24. · Information retrieval e motori di ricerca ( in riferimento a [SA15, Cap. 4] ) Information retrieval

Information retrievalTecniche d’information retrieval

Tecniche di analisiTecniche d’indicizzazione e di matching

Combinazione di desinenze Esempio

http://snowball.tartarus.org/texts/romance.html

Eugenio Omodeo Universita degli Studi di Trieste. Information retrieval e motori di ricerca ( in riferimento a [SA15, Cap. 4] )

Page 23: Information retrieval e motori di ricerca ( in riferimento a … · 2017. 10. 24. · Information retrieval e motori di ricerca ( in riferimento a [SA15, Cap. 4] ) Information retrieval

Information retrievalTecniche d’information retrieval

Tecniche di analisiTecniche d’indicizzazione e di matching

Abolizione di desinenze Esempi

http://snowball.tartarus.org/texts/romance.html

Eugenio Omodeo Universita degli Studi di Trieste. Information retrieval e motori di ricerca ( in riferimento a [SA15, Cap. 4] )

Page 24: Information retrieval e motori di ricerca ( in riferimento a … · 2017. 10. 24. · Information retrieval e motori di ricerca ( in riferimento a [SA15, Cap. 4] ) Information retrieval

Information retrievalTecniche d’information retrieval

Tecniche di analisiTecniche d’indicizzazione e di matching

Estrazione di stem Esempio lingue romanze

http://snowball.tartarus.org/texts/romance.html

Eugenio Omodeo Universita degli Studi di Trieste. Information retrieval e motori di ricerca ( in riferimento a [SA15, Cap. 4] )

Page 25: Information retrieval e motori di ricerca ( in riferimento a … · 2017. 10. 24. · Information retrieval e motori di ricerca ( in riferimento a [SA15, Cap. 4] ) Information retrieval

Information retrievalTecniche d’information retrieval

Tecniche di analisiTecniche d’indicizzazione e di matching

Scelta di termini ad elevato potere discriminante

Queste tecniche mirano a estrarre i termini che megliorappresentano il contenuto informativo di un documento. Se ilcorpus e

eterogeneo, i.e. costituito da documenti riguardanti argomentivari, verranno selezionati come significativi ,all’interno di ciascun documento, quei termini che vioccorrono con maggiore frequenza.

omogeneo: verranno selezionati come distintivi di ciascundocumento quei termini che ricorrono frequentementein un documento ma raramente nel corpus.

In alternativa. . .

Eugenio Omodeo Universita degli Studi di Trieste. Information retrieval e motori di ricerca ( in riferimento a [SA15, Cap. 4] )

Page 26: Information retrieval e motori di ricerca ( in riferimento a … · 2017. 10. 24. · Information retrieval e motori di ricerca ( in riferimento a [SA15, Cap. 4] ) Information retrieval

Information retrievalTecniche d’information retrieval

Tecniche di analisiTecniche d’indicizzazione e di matching

. . . ci si rifara a un thesaurus

Un thesaurus correla termini mediante relazioni di

I sinonimıa, come ad es. ( pressappoco ) morsel / mouthful

I iperonimıa / iponimıa, come ad es. computer / elaboratore

I meronimıa / olonimıa, come ad es. dito / mano, ruota / auto

I ecc.

Eugenio Omodeo Universita degli Studi di Trieste. Information retrieval e motori di ricerca ( in riferimento a [SA15, Cap. 4] )

Page 27: Information retrieval e motori di ricerca ( in riferimento a … · 2017. 10. 24. · Information retrieval e motori di ricerca ( in riferimento a [SA15, Cap. 4] ) Information retrieval

Information retrievalTecniche d’information retrieval

Tecniche di analisiTecniche d’indicizzazione e di matching

Formulazione manuale / automatica di un thesaurus

Utilizzando strumenti quali http://wordnet.princeton.edu, unutente esperto potra associare manualmente a ogni documentouna lista di termini che ne rappresentano il contenuto informativo.

In alternativa, ci si potra avvalere di strumenti automatici dinatura statistica.

In un approccio combinato, si procedera dai risultati automatici auna convalida / revisione manuale.

Eugenio Omodeo Universita degli Studi di Trieste. Information retrieval e motori di ricerca ( in riferimento a [SA15, Cap. 4] )

Page 28: Information retrieval e motori di ricerca ( in riferimento a … · 2017. 10. 24. · Information retrieval e motori di ricerca ( in riferimento a [SA15, Cap. 4] ) Information retrieval

Information retrievalTecniche d’information retrieval

Tecniche di analisiTecniche d’indicizzazione e di matching

Strumenti lessicali utili nella formulazione di un thesaurus

Eugenio Omodeo Universita degli Studi di Trieste. Information retrieval e motori di ricerca ( in riferimento a [SA15, Cap. 4] )

Page 29: Information retrieval e motori di ricerca ( in riferimento a … · 2017. 10. 24. · Information retrieval e motori di ricerca ( in riferimento a [SA15, Cap. 4] ) Information retrieval

Information retrievalTecniche d’information retrieval

Tecniche di analisiTecniche d’indicizzazione e di matching

Indicizzazione

L’indice di un corpus e costituito da coppie:

( `i , Ri ) dove ogni `i e un termine e

il corrispondente Ri riferisce l’insieme dei documenticollegati a `i .

Certe tecniche memorizzano negli Ri oltre ai documenti riferitianche:

I la frequenza con cui `i occorre all’interno di Ri ;

I in quali parti di ciascun documento figura `i ;

I la vicinanza nello stesso documento di altri termini.

Eugenio Omodeo Universita degli Studi di Trieste. Information retrieval e motori di ricerca ( in riferimento a [SA15, Cap. 4] )

Page 30: Information retrieval e motori di ricerca ( in riferimento a … · 2017. 10. 24. · Information retrieval e motori di ricerca ( in riferimento a [SA15, Cap. 4] ) Information retrieval

Information retrievalTecniche d’information retrieval

Tecniche di analisiTecniche d’indicizzazione e di matching

Matching

L’interfaccia d’interrogazione permette all’utente finale di formulareuna lista di chiavi di ricerca ( usualmente in congiunzione ).

Perche un documento sia restituito nel risultato, il sistema devetrovare almeno un termine che combaci con ciascuna chiave.

Tramite tecniche preparatorie dette di normalizzazione verracostruita una lista di termini di cui effettuare la ricerca.

Eugenio Omodeo Universita degli Studi di Trieste. Information retrieval e motori di ricerca ( in riferimento a [SA15, Cap. 4] )

Page 31: Information retrieval e motori di ricerca ( in riferimento a … · 2017. 10. 24. · Information retrieval e motori di ricerca ( in riferimento a [SA15, Cap. 4] ) Information retrieval

Information retrievalTecniche d’information retrieval

Tecniche di analisiTecniche d’indicizzazione e di matching

Matching esatto o per similarita ?

La ricerca di matching esatto e piu semplice, ma in genere menosoddisfacente; quella per similarita puo basarsi su tecniche

sintattiche, quali la distanza di editing che fa apparire cittadelladistante 3 da cittadina, perche basta cambiare trecaratteri per ottenere una dall’altra.

linguistiche, che tengono conto di eventuali relazioniterminologiche fra quanto cercato e quantoesaminato. Ad es:

I citta e centro urbano hanno somiglianzamassima, in quanto sinonimi;

I metropoli e centro urbano sono molto vicini, inquanto correlati da iper-/ipo-nimia.

Eugenio Omodeo Universita degli Studi di Trieste. Information retrieval e motori di ricerca ( in riferimento a [SA15, Cap. 4] )

Page 32: Information retrieval e motori di ricerca ( in riferimento a … · 2017. 10. 24. · Information retrieval e motori di ricerca ( in riferimento a [SA15, Cap. 4] ) Information retrieval

Information retrievalTecniche d’information retrieval

Tecniche di analisiTecniche d’indicizzazione e di matching

Il risultato di un’interrogazione

Il risultato sara composto da una lista di documenti con unvalore di rilevanza associato a ciascuna voce della lista.

Eugenio Omodeo Universita degli Studi di Trieste. Information retrieval e motori di ricerca ( in riferimento a [SA15, Cap. 4] )

Page 33: Information retrieval e motori di ricerca ( in riferimento a … · 2017. 10. 24. · Information retrieval e motori di ricerca ( in riferimento a [SA15, Cap. 4] ) Information retrieval

Information retrievalTecniche d’information retrieval

Tecniche di analisiTecniche d’indicizzazione e di matching

Riferimenti bibliografici

Silvana Castano, Alfio Ferrara, and Stefano Montanelli.Informazione, conoscenza e web — per le scienze umanistiche.Pearson / Addison Wesley, 2009.

Lawrence Snyder and Alessandro Amoroso.FLUENCY –Conoscere e usare l’informatica.Pearson Italia, Milano-Torino, 5a edition, 2015.

Eugenio Omodeo Universita degli Studi di Trieste. Information retrieval e motori di ricerca ( in riferimento a [SA15, Cap. 4] )