to retrieve or not to retrieve, that's the question retrieval van wetenschappelijke informatie...

Post on 08-Jun-2015

219 Views

Category:

Documents

2 Downloads

Preview:

Click to see full reader

TRANSCRIPT

to retrieve or not to retrieve, that's the question

retrieval van wetenschappelijke informatie

eric sieverts

• wat er gebeurt in retrieval-land• nieuwe technieken• klassieke technieken• wat wel en niet wordt toegepast• de problematiek van grote bibliotheken• oplossingen?

to retrieve or not to retrieve, that's the question

Eric Sieverts - Universiteitsbibliotheek Utrecht / Hogeschool van Amsterdam | Workshop zoeken & vinden | 15 oktober 2002

wat er gebeurt in retrieval-land

Eric Sieverts - Universiteitsbibliotheek Utrecht / Hogeschool van Amsterdam | Workshop zoeken & vinden | 15 oktober 2002

• dankzij het web is information retrieval in beweging • veel van de nieuwe ontwikkelingen zijn practische

toepassing van oude ideeën• vooral gericht op niet-gestructureerde informatie,

zoals web-pagina’s en tekstdocumenten• meer gericht op betere precisie dan op betere recall,

omdat Google uit 2,5 miljard moet kunnen selecteren• deel van “onze” gebruikers hecht ook wel degelijk

aan recall

toegepaste technieken betere precisie

Eric Sieverts - Universiteitsbibliotheek Utrecht / Hogeschool van Amsterdam | Workshop zoeken & vinden | 15 oktober 2002

• probabilistische of andere techniek voor relevantie-ordening• hoe meer van gevraagde termen hoe beter (op web: alle termen)

• belang van termen in document (term-positie - in de titel, vooraan,

in koppen / relatieve termfrequentie - tfidf)

• gewenste term-relatie (term-afstand en -volgorde)

• probabilistische termgewichten (zeldzame termen belangrijker)

• populariteit=kwaliteit van document (aantal hyperlink verwijzingen,

gebruiks-/bezoek-frequentie)

toegepaste technieken betere precisie

Eric Sieverts - Universiteitsbibliotheek Utrecht / Hogeschool van Amsterdam | Workshop zoeken & vinden | 15 oktober 2002

• probabilistische of andere techniek voor relevantie-ordening• hoe meer van gevraagde termen hoe beter (op web: alle termen)

• belang van termen in document (term-positie - in titel, vooraan, in

koppen - / relatieve termfrequentie - tfidf)

• gewenste term-relatie (term-afstand en -volgorde)

• probabilistische termgewichten (zeldzame termen belangrijker)

• populariteit=kwaliteit van document (aantal hyperlink

verwijzingen, gebruiks-/bezoek-frequentie)wel goed bij Google, maar misschien niet zo goed toepasbaar voor wetenschappelijke artikelen ?

toegepaste technieken betere precisie

Eric Sieverts - Universiteitsbibliotheek Utrecht / Hogeschool van Amsterdam | Workshop zoeken & vinden | 15 oktober 2002

• probabilistische of andere techniek voor relevantie-ordening• statistiek / kennisregels voor preciseren en/of disambigueren

• al verkregen zoekresultaat clusteren in betekenissen / contexten• uit al verkregen zoekresultaat afleiden van suggesties voor

termen om te preciseren / in te perken

custom search folders

toegepaste technieken betere precisie

Eric Sieverts - Universiteitsbibliotheek Utrecht / Hogeschool van Amsterdam | Workshop zoeken & vinden | 15 oktober 2002

• probabilistische of andere techniek voor relevantie-ordening• statistiek / kennisregels voor preciseren en/of disambigueren• semantische kennis (koppeling aan semantisch netwerk)

voor onderscheiden van betekenissen (disambigueren)woorden in omgeving van term in document matchen met nabije termen in semantisch netwerk

toegepaste technieken betere precisie

Eric Sieverts - Universiteitsbibliotheek Utrecht / Hogeschool van Amsterdam | Workshop zoeken & vinden | 15 oktober 2002

• probabilistische of andere techniek voor relevantie-ordening• statistiek / kennisregels voor preciseren en/of disambigueren• semantische kennis (koppeling aan semantisch netwerk)

voor onderscheiden van betekenissen (disambigueren)• relevance feedback: verder zoeken op basis van als relevant

aangemerkte resultaten(nu of later) verder zoeken op woorden of “patronen” uit aangevinkte resultaten uit voorgaande vraag

(ook : query-by-example / more-like-this)

toegepaste technieken betere precisie

Eric Sieverts - Universiteitsbibliotheek Utrecht / Hogeschool van Amsterdam | Workshop zoeken & vinden | 15 oktober 2002

• probabilistische of andere techniek voor relevantie-ordening• statistiek / kennisregels voor preciseren en/of disambigueren• semantische kennis (koppeling aan semantisch netwerk)

voor onderscheiden van betekenissen (disambigueren)• relevance feedback: verder zoeken op basis van als relevant

aangemerkte resultaten• relevance feedback: aanpassen van term-probabilistiek

woorden uit relevante documenten krijgen hoger gewicht bij berekening van relevantie-volgordes

toegepaste technieken betere precisie

Eric Sieverts - Universiteitsbibliotheek Utrecht / Hogeschool van Amsterdam | Workshop zoeken & vinden | 15 oktober 2002

• probabilistische of andere techniek voor relevantie-ordening• statistiek / kennisregels voor preciseren en/of disambigueren• semantische kennis (koppeling aan semantisch netwerk)

voor onderscheiden van betekenissen (disambigueren)• relevance feedback: verder zoeken op basis van als relevant

aangemerkte resultaten• relevance feedback: aanpassen van term-probabilistiek• opgebouwde gebruikersprofielen

relevance feedback, monitoren zoekgedrag, ingebracht interesseprofielbut how about privacy ?

toegepaste technieken betere recall

Eric Sieverts - Universiteitsbibliotheek Utrecht / Hogeschool van Amsterdam | Workshop zoeken & vinden | 15 oktober 2002

• (morfologische) stemming van woordenin document en in query:

computer, computers, computing, computation, … comput

community, communism, communication, ………. commun ??

toegepaste technieken betere recall

Eric Sieverts - Universiteitsbibliotheek Utrecht / Hogeschool van Amsterdam | Workshop zoeken & vinden | 15 oktober 2002

• (morfologische) stemming van woorden• fuzzy zoeken

morfologie morphologieduivendak duijvendak, duitenzak, ...kok kop, kak, …

toegepaste technieken betere recall

Eric Sieverts - Universiteitsbibliotheek Utrecht / Hogeschool van Amsterdam | Workshop zoeken & vinden | 15 oktober 2002

• (morfologische) stemming van woorden• fuzzy zoeken• zoekvraag uitbreiden met synoniemen / verwante termen

ontleend aan semantisch netwerk

(of aan thesaurus, of aan ontologie?)

visualisatievan “wordnet”

toegepaste technieken betere recall

Eric Sieverts - Universiteitsbibliotheek Utrecht / Hogeschool van Amsterdam | Workshop zoeken & vinden | 15 oktober 2002

• (morfologische) stemming van woorden• fuzzy zoeken• zoekvraag uitbreiden met synoniemen / verwante termen

ontleend aan vocabulair• zoekvraag uitbreiden met synoniemen / verwante termen

afgeleid uit documenten in zoekresultaat statistische analyse van kenmerkende termen uit documenten in eerder zoekresultaat

eventueel ook via relevance feedback - alleen uit als relevant gemarkeerde documenten

toegepaste technieken betere recall

Eric Sieverts - Universiteitsbibliotheek Utrecht / Hogeschool van Amsterdam | Workshop zoeken & vinden | 15 oktober 2002

• (morfologische) stemming van woorden• fuzzy zoeken• zoekvraag uitbreiden met synoniemen / verwante termen

ontleend aan vocabulair• zoekvraag uitbreiden met synoniemen / verwante termen

afgeleid uit documenten in zoekresultaat • suggesties voor (meer) correcte spelling van zoekterm

klassieke technieken

Eric Sieverts - Universiteitsbibliotheek Utrecht / Hogeschool van Amsterdam | Workshop zoeken & vinden | 15 oktober 2002

• gebruik maken van structuur van documentenklassiek: velden,

nieuw: xml-elementen,

nieuw: kenmerkende paragrafen uit full-text document (doelstelling, methode, conclusies)

• gebruik van classificaties en thesauri o.a. voor recall-verbetering door o.a. generiek zoeken

wat wel en niet wordt toegepast

Eric Sieverts - Universiteitsbibliotheek Utrecht / Hogeschool van Amsterdam | Workshop zoeken & vinden | 15 oktober 2002

waar

wat

bibliografische databases

full-text artikelen

het web

nieuwe vrijwel niet beperkt vrij veel

klassieke vaak wel beperkt vrijwel niet

de problematiek van grote bibliotheken

Eric Sieverts - Universiteitsbibliotheek Utrecht / Hogeschool van Amsterdam | Workshop zoeken & vinden | 15 oktober 2002

• voor gebruikers te veel afzonderlijke bronnen te doorzoekenin Utrecht bijna 200 databases

de problematiek van grote bibliotheken

Eric Sieverts - Universiteitsbibliotheek Utrecht / Hogeschool van Amsterdam | Workshop zoeken & vinden | 15 oktober 2002

• voor gebruikers te veel afzonderlijke bronnen te doorzoekenin Utrecht bijna 200 databases

in Utrecht bijna 6000 digitale tijdschriften

de problematiek van grote bibliotheken

Eric Sieverts - Universiteitsbibliotheek Utrecht / Hogeschool van Amsterdam | Workshop zoeken & vinden | 15 oktober 2002

• voor gebruikers te veel afzonderlijke bronnen te doorzoekenin Utrecht bijna 200 databases

in Utrecht bijna 6000 digitale tijdschriften

• bijna alle bronnen met eigen zoekinterface en functionaliteit

de problematiek van grote bibliotheken

Eric Sieverts - Universiteitsbibliotheek Utrecht / Hogeschool van Amsterdam | Workshop zoeken & vinden | 15 oktober 2002

• voor gebruikers te veel afzonderlijke bronnen te doorzoekenin Utrecht bijna 200 databases

in Utrecht bijna 6000 digitale tijdschriften

• bijna alle bronnen met eigen zoekinterface en functionaliteit• veel interfaces met uitgebreide / complexe functionaliteit

(is dat wel allemaal ergonomisch verantwoord?)

huidige oplossingen voor grote bibliotheken

Eric Sieverts - Universiteitsbibliotheek Utrecht / Hogeschool van Amsterdam | Workshop zoeken & vinden | 15 oktober 2002

• geïntegreerde toegang via uniform eenvoudig interface(one-stop-shopping)

centrale index- eigen keuze geavanceerde zoek-

machine / retrieval software - vaak nog probleem met indexeren

van extern opgeslagen data- problemen met niet-uniforme

gecontroleerde ontsluiting

meta-search / portal- extern en lokaal beschikbare

retrieval systemen bevraagd met enkele query (via Z39.50, http, ...)

- geen geavanceerde retrieval; beperkt tot grootste gemene deler van klassieke booleaanse functies

- problemen met niet-uniformiteit van zoekvelden en gecontroleerde ontsluiting

indexer

internet

document text files

central index

searchintegrated system:local central index solution

indexing-rules fortargets

full-text links

document text files

muscat / verity / autonomy / ...

internet

document text files

central index

searchintegrated system:local central index solution

indexing-rules fortargets

full-text links

document text files

huidige oplossingen voor grote bibliotheken

Eric Sieverts - Universiteitsbibliotheek Utrecht / Hogeschool van Amsterdam | Workshop zoeken & vinden | 15 oktober 2002

• geïntegreerde toegang via uniform eenvoudig interface

centrale index- eigen keuze geavanceerde zoek-

machine / retrieval software - vaak nog probleem met indexeren

van extern opgeslagen data- problemen met niet-uniforme

gecontroleerde ontsluiting

meta-search / portal- extern en lokaal beschikbare

retrieval systemen bevraagd met enkele query (via Z39.50, http, ...)

- geen geavanceerde retrieval; beperkt tot grootste gemene deler van klassieke booleaanse functies

- problemen met niet-uniformiteit van zoekvelden en gecontroleerde ontsluiting

internet

searchintegrated system:metasearch /portal solution

index

files

search

query-generator / result-collector

index

search

index

search

index index index

Z39.50

Z39.50 Z39.50

internal api

http http xml

Z39.50 http

configurationdata fortargets

search search search

files

files files files files

internet

searchintegrated system:metasearch /portal solution

index

files

search

metalib / iPort / zPortal / muse / ...

index

search

index

search

index index index

Z39.50

Z39.50 Z39.50

internal api

http http xml

Z39.50 http

configurationdata fortargets

search search search

files

files files files files

huidige oplossingen voor grote bibliotheken

Eric Sieverts - Universiteitsbibliotheek Utrecht / Hogeschool van Amsterdam | Workshop zoeken & vinden | 15 oktober 2002

• geïntegreerde toegang via uniform eenvoudig interface

centrale index- eigen keuze geavanceerde zoek-

machine / retrieval software - vaak nog probleem met indexeren

van extern opgeslagen data- problemen met niet-uniforme

gecontroleerde ontsluiting

meta-search / portal- extern en lokaal beschikbare

retrieval systemen bevraagd met enkele query (via Z39.50, http, ...)

- geen geavanceerde retrieval; beperkt tot grootste gemene deler van klassieke booleaanse functies

- problemen met niet-uniformiteit van zoekvelden en gecontroleerde ontsluiting

oplossingen voor grote bibliotheken

Eric Sieverts - Universiteitsbibliotheek Utrecht / Hogeschool van Amsterdam | Workshop zoeken & vinden | 15 oktober 2002

• geïntegreerde toegang (one-stop-shopping principe)

• via uniform eenvoudig interface (als "Google")

• met geavanceerde retrieval-techniek

• met behoud van gebruik van gecontroleerde ontsluiting

wel al

soms wel

nauwelijks

vrijwel niet

top related