to retrieve or not to retrieve, that's the question retrieval van wetenschappelijke informatie...

46
to retrieve or not to retrieve, that's the question retrieval van wetenschappelijke informatie eric sieverts

Upload: vincent-bos

Post on 08-Jun-2015

219 views

Category:

Documents


2 download

TRANSCRIPT

Page 1: To retrieve or not to retrieve, that's the question retrieval van wetenschappelijke informatie eric sieverts

to retrieve or not to retrieve, that's the question

retrieval van wetenschappelijke informatie

eric sieverts

Page 2: To retrieve or not to retrieve, that's the question retrieval van wetenschappelijke informatie eric sieverts

• wat er gebeurt in retrieval-land• nieuwe technieken• klassieke technieken• wat wel en niet wordt toegepast• de problematiek van grote bibliotheken• oplossingen?

to retrieve or not to retrieve, that's the question

Eric Sieverts - Universiteitsbibliotheek Utrecht / Hogeschool van Amsterdam | Workshop zoeken & vinden | 15 oktober 2002

Page 3: To retrieve or not to retrieve, that's the question retrieval van wetenschappelijke informatie eric sieverts

wat er gebeurt in retrieval-land

Eric Sieverts - Universiteitsbibliotheek Utrecht / Hogeschool van Amsterdam | Workshop zoeken & vinden | 15 oktober 2002

• dankzij het web is information retrieval in beweging • veel van de nieuwe ontwikkelingen zijn practische

toepassing van oude ideeën• vooral gericht op niet-gestructureerde informatie,

zoals web-pagina’s en tekstdocumenten• meer gericht op betere precisie dan op betere recall,

omdat Google uit 2,5 miljard moet kunnen selecteren• deel van “onze” gebruikers hecht ook wel degelijk

aan recall

Page 4: To retrieve or not to retrieve, that's the question retrieval van wetenschappelijke informatie eric sieverts

toegepaste technieken betere precisie

Eric Sieverts - Universiteitsbibliotheek Utrecht / Hogeschool van Amsterdam | Workshop zoeken & vinden | 15 oktober 2002

• probabilistische of andere techniek voor relevantie-ordening• hoe meer van gevraagde termen hoe beter (op web: alle termen)

• belang van termen in document (term-positie - in de titel, vooraan,

in koppen / relatieve termfrequentie - tfidf)

• gewenste term-relatie (term-afstand en -volgorde)

• probabilistische termgewichten (zeldzame termen belangrijker)

• populariteit=kwaliteit van document (aantal hyperlink verwijzingen,

gebruiks-/bezoek-frequentie)

Page 5: To retrieve or not to retrieve, that's the question retrieval van wetenschappelijke informatie eric sieverts
Page 6: To retrieve or not to retrieve, that's the question retrieval van wetenschappelijke informatie eric sieverts

toegepaste technieken betere precisie

Eric Sieverts - Universiteitsbibliotheek Utrecht / Hogeschool van Amsterdam | Workshop zoeken & vinden | 15 oktober 2002

• probabilistische of andere techniek voor relevantie-ordening• hoe meer van gevraagde termen hoe beter (op web: alle termen)

• belang van termen in document (term-positie - in titel, vooraan, in

koppen - / relatieve termfrequentie - tfidf)

• gewenste term-relatie (term-afstand en -volgorde)

• probabilistische termgewichten (zeldzame termen belangrijker)

• populariteit=kwaliteit van document (aantal hyperlink

verwijzingen, gebruiks-/bezoek-frequentie)wel goed bij Google, maar misschien niet zo goed toepasbaar voor wetenschappelijke artikelen ?

Page 7: To retrieve or not to retrieve, that's the question retrieval van wetenschappelijke informatie eric sieverts

toegepaste technieken betere precisie

Eric Sieverts - Universiteitsbibliotheek Utrecht / Hogeschool van Amsterdam | Workshop zoeken & vinden | 15 oktober 2002

• probabilistische of andere techniek voor relevantie-ordening• statistiek / kennisregels voor preciseren en/of disambigueren

• al verkregen zoekresultaat clusteren in betekenissen / contexten• uit al verkregen zoekresultaat afleiden van suggesties voor

termen om te preciseren / in te perken

Page 8: To retrieve or not to retrieve, that's the question retrieval van wetenschappelijke informatie eric sieverts

custom search folders

Page 9: To retrieve or not to retrieve, that's the question retrieval van wetenschappelijke informatie eric sieverts
Page 10: To retrieve or not to retrieve, that's the question retrieval van wetenschappelijke informatie eric sieverts
Page 11: To retrieve or not to retrieve, that's the question retrieval van wetenschappelijke informatie eric sieverts
Page 12: To retrieve or not to retrieve, that's the question retrieval van wetenschappelijke informatie eric sieverts
Page 13: To retrieve or not to retrieve, that's the question retrieval van wetenschappelijke informatie eric sieverts

toegepaste technieken betere precisie

Eric Sieverts - Universiteitsbibliotheek Utrecht / Hogeschool van Amsterdam | Workshop zoeken & vinden | 15 oktober 2002

• probabilistische of andere techniek voor relevantie-ordening• statistiek / kennisregels voor preciseren en/of disambigueren• semantische kennis (koppeling aan semantisch netwerk)

voor onderscheiden van betekenissen (disambigueren)woorden in omgeving van term in document matchen met nabije termen in semantisch netwerk

Page 14: To retrieve or not to retrieve, that's the question retrieval van wetenschappelijke informatie eric sieverts

toegepaste technieken betere precisie

Eric Sieverts - Universiteitsbibliotheek Utrecht / Hogeschool van Amsterdam | Workshop zoeken & vinden | 15 oktober 2002

• probabilistische of andere techniek voor relevantie-ordening• statistiek / kennisregels voor preciseren en/of disambigueren• semantische kennis (koppeling aan semantisch netwerk)

voor onderscheiden van betekenissen (disambigueren)• relevance feedback: verder zoeken op basis van als relevant

aangemerkte resultaten(nu of later) verder zoeken op woorden of “patronen” uit aangevinkte resultaten uit voorgaande vraag

(ook : query-by-example / more-like-this)

Page 15: To retrieve or not to retrieve, that's the question retrieval van wetenschappelijke informatie eric sieverts

toegepaste technieken betere precisie

Eric Sieverts - Universiteitsbibliotheek Utrecht / Hogeschool van Amsterdam | Workshop zoeken & vinden | 15 oktober 2002

• probabilistische of andere techniek voor relevantie-ordening• statistiek / kennisregels voor preciseren en/of disambigueren• semantische kennis (koppeling aan semantisch netwerk)

voor onderscheiden van betekenissen (disambigueren)• relevance feedback: verder zoeken op basis van als relevant

aangemerkte resultaten• relevance feedback: aanpassen van term-probabilistiek

woorden uit relevante documenten krijgen hoger gewicht bij berekening van relevantie-volgordes

Page 16: To retrieve or not to retrieve, that's the question retrieval van wetenschappelijke informatie eric sieverts

toegepaste technieken betere precisie

Eric Sieverts - Universiteitsbibliotheek Utrecht / Hogeschool van Amsterdam | Workshop zoeken & vinden | 15 oktober 2002

• probabilistische of andere techniek voor relevantie-ordening• statistiek / kennisregels voor preciseren en/of disambigueren• semantische kennis (koppeling aan semantisch netwerk)

voor onderscheiden van betekenissen (disambigueren)• relevance feedback: verder zoeken op basis van als relevant

aangemerkte resultaten• relevance feedback: aanpassen van term-probabilistiek• opgebouwde gebruikersprofielen

relevance feedback, monitoren zoekgedrag, ingebracht interesseprofielbut how about privacy ?

Page 17: To retrieve or not to retrieve, that's the question retrieval van wetenschappelijke informatie eric sieverts

toegepaste technieken betere recall

Eric Sieverts - Universiteitsbibliotheek Utrecht / Hogeschool van Amsterdam | Workshop zoeken & vinden | 15 oktober 2002

• (morfologische) stemming van woordenin document en in query:

computer, computers, computing, computation, … comput

community, communism, communication, ………. commun ??

Page 18: To retrieve or not to retrieve, that's the question retrieval van wetenschappelijke informatie eric sieverts

toegepaste technieken betere recall

Eric Sieverts - Universiteitsbibliotheek Utrecht / Hogeschool van Amsterdam | Workshop zoeken & vinden | 15 oktober 2002

• (morfologische) stemming van woorden• fuzzy zoeken

morfologie morphologieduivendak duijvendak, duitenzak, ...kok kop, kak, …

Page 19: To retrieve or not to retrieve, that's the question retrieval van wetenschappelijke informatie eric sieverts

toegepaste technieken betere recall

Eric Sieverts - Universiteitsbibliotheek Utrecht / Hogeschool van Amsterdam | Workshop zoeken & vinden | 15 oktober 2002

• (morfologische) stemming van woorden• fuzzy zoeken• zoekvraag uitbreiden met synoniemen / verwante termen

ontleend aan semantisch netwerk

(of aan thesaurus, of aan ontologie?)

Page 20: To retrieve or not to retrieve, that's the question retrieval van wetenschappelijke informatie eric sieverts

visualisatievan “wordnet”

Page 21: To retrieve or not to retrieve, that's the question retrieval van wetenschappelijke informatie eric sieverts
Page 22: To retrieve or not to retrieve, that's the question retrieval van wetenschappelijke informatie eric sieverts

toegepaste technieken betere recall

Eric Sieverts - Universiteitsbibliotheek Utrecht / Hogeschool van Amsterdam | Workshop zoeken & vinden | 15 oktober 2002

• (morfologische) stemming van woorden• fuzzy zoeken• zoekvraag uitbreiden met synoniemen / verwante termen

ontleend aan vocabulair• zoekvraag uitbreiden met synoniemen / verwante termen

afgeleid uit documenten in zoekresultaat statistische analyse van kenmerkende termen uit documenten in eerder zoekresultaat

eventueel ook via relevance feedback - alleen uit als relevant gemarkeerde documenten

Page 23: To retrieve or not to retrieve, that's the question retrieval van wetenschappelijke informatie eric sieverts
Page 24: To retrieve or not to retrieve, that's the question retrieval van wetenschappelijke informatie eric sieverts
Page 25: To retrieve or not to retrieve, that's the question retrieval van wetenschappelijke informatie eric sieverts
Page 26: To retrieve or not to retrieve, that's the question retrieval van wetenschappelijke informatie eric sieverts

toegepaste technieken betere recall

Eric Sieverts - Universiteitsbibliotheek Utrecht / Hogeschool van Amsterdam | Workshop zoeken & vinden | 15 oktober 2002

• (morfologische) stemming van woorden• fuzzy zoeken• zoekvraag uitbreiden met synoniemen / verwante termen

ontleend aan vocabulair• zoekvraag uitbreiden met synoniemen / verwante termen

afgeleid uit documenten in zoekresultaat • suggesties voor (meer) correcte spelling van zoekterm

Page 27: To retrieve or not to retrieve, that's the question retrieval van wetenschappelijke informatie eric sieverts
Page 28: To retrieve or not to retrieve, that's the question retrieval van wetenschappelijke informatie eric sieverts

klassieke technieken

Eric Sieverts - Universiteitsbibliotheek Utrecht / Hogeschool van Amsterdam | Workshop zoeken & vinden | 15 oktober 2002

• gebruik maken van structuur van documentenklassiek: velden,

nieuw: xml-elementen,

nieuw: kenmerkende paragrafen uit full-text document (doelstelling, methode, conclusies)

• gebruik van classificaties en thesauri o.a. voor recall-verbetering door o.a. generiek zoeken

Page 29: To retrieve or not to retrieve, that's the question retrieval van wetenschappelijke informatie eric sieverts

wat wel en niet wordt toegepast

Eric Sieverts - Universiteitsbibliotheek Utrecht / Hogeschool van Amsterdam | Workshop zoeken & vinden | 15 oktober 2002

waar

wat

bibliografische databases

full-text artikelen

het web

nieuwe vrijwel niet beperkt vrij veel

klassieke vaak wel beperkt vrijwel niet

Page 30: To retrieve or not to retrieve, that's the question retrieval van wetenschappelijke informatie eric sieverts

de problematiek van grote bibliotheken

Eric Sieverts - Universiteitsbibliotheek Utrecht / Hogeschool van Amsterdam | Workshop zoeken & vinden | 15 oktober 2002

• voor gebruikers te veel afzonderlijke bronnen te doorzoekenin Utrecht bijna 200 databases

Page 31: To retrieve or not to retrieve, that's the question retrieval van wetenschappelijke informatie eric sieverts
Page 32: To retrieve or not to retrieve, that's the question retrieval van wetenschappelijke informatie eric sieverts

de problematiek van grote bibliotheken

Eric Sieverts - Universiteitsbibliotheek Utrecht / Hogeschool van Amsterdam | Workshop zoeken & vinden | 15 oktober 2002

• voor gebruikers te veel afzonderlijke bronnen te doorzoekenin Utrecht bijna 200 databases

in Utrecht bijna 6000 digitale tijdschriften

Page 33: To retrieve or not to retrieve, that's the question retrieval van wetenschappelijke informatie eric sieverts
Page 34: To retrieve or not to retrieve, that's the question retrieval van wetenschappelijke informatie eric sieverts

de problematiek van grote bibliotheken

Eric Sieverts - Universiteitsbibliotheek Utrecht / Hogeschool van Amsterdam | Workshop zoeken & vinden | 15 oktober 2002

• voor gebruikers te veel afzonderlijke bronnen te doorzoekenin Utrecht bijna 200 databases

in Utrecht bijna 6000 digitale tijdschriften

• bijna alle bronnen met eigen zoekinterface en functionaliteit

Page 35: To retrieve or not to retrieve, that's the question retrieval van wetenschappelijke informatie eric sieverts

de problematiek van grote bibliotheken

Eric Sieverts - Universiteitsbibliotheek Utrecht / Hogeschool van Amsterdam | Workshop zoeken & vinden | 15 oktober 2002

• voor gebruikers te veel afzonderlijke bronnen te doorzoekenin Utrecht bijna 200 databases

in Utrecht bijna 6000 digitale tijdschriften

• bijna alle bronnen met eigen zoekinterface en functionaliteit• veel interfaces met uitgebreide / complexe functionaliteit

(is dat wel allemaal ergonomisch verantwoord?)

Page 36: To retrieve or not to retrieve, that's the question retrieval van wetenschappelijke informatie eric sieverts
Page 37: To retrieve or not to retrieve, that's the question retrieval van wetenschappelijke informatie eric sieverts

huidige oplossingen voor grote bibliotheken

Eric Sieverts - Universiteitsbibliotheek Utrecht / Hogeschool van Amsterdam | Workshop zoeken & vinden | 15 oktober 2002

• geïntegreerde toegang via uniform eenvoudig interface(one-stop-shopping)

centrale index- eigen keuze geavanceerde zoek-

machine / retrieval software - vaak nog probleem met indexeren

van extern opgeslagen data- problemen met niet-uniforme

gecontroleerde ontsluiting

meta-search / portal- extern en lokaal beschikbare

retrieval systemen bevraagd met enkele query (via Z39.50, http, ...)

- geen geavanceerde retrieval; beperkt tot grootste gemene deler van klassieke booleaanse functies

- problemen met niet-uniformiteit van zoekvelden en gecontroleerde ontsluiting

Page 38: To retrieve or not to retrieve, that's the question retrieval van wetenschappelijke informatie eric sieverts

indexer

internet

document text files

central index

searchintegrated system:local central index solution

indexing-rules fortargets

full-text links

document text files

Page 39: To retrieve or not to retrieve, that's the question retrieval van wetenschappelijke informatie eric sieverts

muscat / verity / autonomy / ...

internet

document text files

central index

searchintegrated system:local central index solution

indexing-rules fortargets

full-text links

document text files

Page 40: To retrieve or not to retrieve, that's the question retrieval van wetenschappelijke informatie eric sieverts
Page 41: To retrieve or not to retrieve, that's the question retrieval van wetenschappelijke informatie eric sieverts

huidige oplossingen voor grote bibliotheken

Eric Sieverts - Universiteitsbibliotheek Utrecht / Hogeschool van Amsterdam | Workshop zoeken & vinden | 15 oktober 2002

• geïntegreerde toegang via uniform eenvoudig interface

centrale index- eigen keuze geavanceerde zoek-

machine / retrieval software - vaak nog probleem met indexeren

van extern opgeslagen data- problemen met niet-uniforme

gecontroleerde ontsluiting

meta-search / portal- extern en lokaal beschikbare

retrieval systemen bevraagd met enkele query (via Z39.50, http, ...)

- geen geavanceerde retrieval; beperkt tot grootste gemene deler van klassieke booleaanse functies

- problemen met niet-uniformiteit van zoekvelden en gecontroleerde ontsluiting

Page 42: To retrieve or not to retrieve, that's the question retrieval van wetenschappelijke informatie eric sieverts

internet

searchintegrated system:metasearch /portal solution

index

files

search

query-generator / result-collector

index

search

index

search

index index index

Z39.50

Z39.50 Z39.50

internal api

http http xml

Z39.50 http

configurationdata fortargets

search search search

files

files files files files

Page 43: To retrieve or not to retrieve, that's the question retrieval van wetenschappelijke informatie eric sieverts

internet

searchintegrated system:metasearch /portal solution

index

files

search

metalib / iPort / zPortal / muse / ...

index

search

index

search

index index index

Z39.50

Z39.50 Z39.50

internal api

http http xml

Z39.50 http

configurationdata fortargets

search search search

files

files files files files

Page 44: To retrieve or not to retrieve, that's the question retrieval van wetenschappelijke informatie eric sieverts
Page 45: To retrieve or not to retrieve, that's the question retrieval van wetenschappelijke informatie eric sieverts

huidige oplossingen voor grote bibliotheken

Eric Sieverts - Universiteitsbibliotheek Utrecht / Hogeschool van Amsterdam | Workshop zoeken & vinden | 15 oktober 2002

• geïntegreerde toegang via uniform eenvoudig interface

centrale index- eigen keuze geavanceerde zoek-

machine / retrieval software - vaak nog probleem met indexeren

van extern opgeslagen data- problemen met niet-uniforme

gecontroleerde ontsluiting

meta-search / portal- extern en lokaal beschikbare

retrieval systemen bevraagd met enkele query (via Z39.50, http, ...)

- geen geavanceerde retrieval; beperkt tot grootste gemene deler van klassieke booleaanse functies

- problemen met niet-uniformiteit van zoekvelden en gecontroleerde ontsluiting

Page 46: To retrieve or not to retrieve, that's the question retrieval van wetenschappelijke informatie eric sieverts

oplossingen voor grote bibliotheken

Eric Sieverts - Universiteitsbibliotheek Utrecht / Hogeschool van Amsterdam | Workshop zoeken & vinden | 15 oktober 2002

• geïntegreerde toegang (one-stop-shopping principe)

• via uniform eenvoudig interface (als "Google")

• met geavanceerde retrieval-techniek

• met behoud van gebruik van gecontroleerde ontsluiting

wel al

soms wel

nauwelijks

vrijwel niet