to retrieve or not to retrieve, that's the question retrieval van wetenschappelijke informatie...

to retrieve or not to retrieve, that's the question

retrieval van wetenschappelijke informatie

eric sieverts

• wat er gebeurt in retrieval-land• nieuwe technieken• klassieke technieken• wat wel en niet wordt toegepast• de problematiek van grote bibliotheken• oplossingen?

to retrieve or not to retrieve, that's the question

Eric Sieverts - Universiteitsbibliotheek Utrecht / Hogeschool van Amsterdam | Workshop zoeken & vinden | 15 oktober 2002

wat er gebeurt in retrieval-land

• dankzij het web is information retrieval in beweging • veel van de nieuwe ontwikkelingen zijn practische

toepassing van oude ideeën• vooral gericht op niet-gestructureerde informatie,

zoals web-pagina’s en tekstdocumenten• meer gericht op betere precisie dan op betere recall,

omdat Google uit 2,5 miljard moet kunnen selecteren• deel van “onze” gebruikers hecht ook wel degelijk

aan recall

toegepaste technieken betere precisie

• probabilistische of andere techniek voor relevantie-ordening• hoe meer van gevraagde termen hoe beter (op web: alle termen)

• belang van termen in document (term-positie - in de titel, vooraan,

in koppen / relatieve termfrequentie - tfidf)

• gewenste term-relatie (term-afstand en -volgorde)

• probabilistische termgewichten (zeldzame termen belangrijker)

• populariteit=kwaliteit van document (aantal hyperlink verwijzingen,

gebruiks-/bezoek-frequentie)

• probabilistische of andere techniek voor relevantie-ordening• hoe meer van gevraagde termen hoe beter (op web: alle termen)

• belang van termen in document (term-positie - in titel, vooraan, in

koppen - / relatieve termfrequentie - tfidf)

• gewenste term-relatie (term-afstand en -volgorde)

• probabilistische termgewichten (zeldzame termen belangrijker)

• populariteit=kwaliteit van document (aantal hyperlink

verwijzingen, gebruiks-/bezoek-frequentie)wel goed bij Google, maar misschien niet zo goed toepasbaar voor wetenschappelijke artikelen ?

• probabilistische of andere techniek voor relevantie-ordening• statistiek / kennisregels voor preciseren en/of disambigueren

• al verkregen zoekresultaat clusteren in betekenissen / contexten• uit al verkregen zoekresultaat afleiden van suggesties voor

termen om te preciseren / in te perken

custom search folders

• probabilistische of andere techniek voor relevantie-ordening• statistiek / kennisregels voor preciseren en/of disambigueren• semantische kennis (koppeling aan semantisch netwerk)

voor onderscheiden van betekenissen (disambigueren)woorden in omgeving van term in document matchen met nabije termen in semantisch netwerk

voor onderscheiden van betekenissen (disambigueren)• relevance feedback: verder zoeken op basis van als relevant

aangemerkte resultaten(nu of later) verder zoeken op woorden of “patronen” uit aangevinkte resultaten uit voorgaande vraag

(ook : query-by-example / more-like-this)

aangemerkte resultaten• relevance feedback: aanpassen van term-probabilistiek

woorden uit relevante documenten krijgen hoger gewicht bij berekening van relevantie-volgordes

aangemerkte resultaten• relevance feedback: aanpassen van term-probabilistiek• opgebouwde gebruikersprofielen

relevance feedback, monitoren zoekgedrag, ingebracht interesseprofielbut how about privacy ?

toegepaste technieken betere recall

• (morfologische) stemming van woordenin document en in query:

computer, computers, computing, computation, … comput

community, communism, communication, ………. commun ??

• (morfologische) stemming van woorden• fuzzy zoeken

morfologie morphologieduivendak duijvendak, duitenzak, ...kok kop, kak, …

• (morfologische) stemming van woorden• fuzzy zoeken• zoekvraag uitbreiden met synoniemen / verwante termen

ontleend aan semantisch netwerk

(of aan thesaurus, of aan ontologie?)

visualisatievan “wordnet”

ontleend aan vocabulair• zoekvraag uitbreiden met synoniemen / verwante termen

afgeleid uit documenten in zoekresultaat statistische analyse van kenmerkende termen uit documenten in eerder zoekresultaat

eventueel ook via relevance feedback - alleen uit als relevant gemarkeerde documenten

ontleend aan vocabulair• zoekvraag uitbreiden met synoniemen / verwante termen

afgeleid uit documenten in zoekresultaat • suggesties voor (meer) correcte spelling van zoekterm

klassieke technieken

• gebruik maken van structuur van documentenklassiek: velden,

nieuw: xml-elementen,

nieuw: kenmerkende paragrafen uit full-text document (doelstelling, methode, conclusies)

• gebruik van classificaties en thesauri o.a. voor recall-verbetering door o.a. generiek zoeken

wat wel en niet wordt toegepast

bibliografische databases

full-text artikelen

het web

nieuwe vrijwel niet beperkt vrij veel

klassieke vaak wel beperkt vrijwel niet

de problematiek van grote bibliotheken

• voor gebruikers te veel afzonderlijke bronnen te doorzoekenin Utrecht bijna 200 databases

in Utrecht bijna 6000 digitale tijdschriften

• bijna alle bronnen met eigen zoekinterface en functionaliteit

• bijna alle bronnen met eigen zoekinterface en functionaliteit• veel interfaces met uitgebreide / complexe functionaliteit

(is dat wel allemaal ergonomisch verantwoord?)

huidige oplossingen voor grote bibliotheken

• geïntegreerde toegang via uniform eenvoudig interface(one-stop-shopping)

centrale index- eigen keuze geavanceerde zoek-

machine / retrieval software - vaak nog probleem met indexeren

van extern opgeslagen data- problemen met niet-uniforme

gecontroleerde ontsluiting

meta-search / portal- extern en lokaal beschikbare

retrieval systemen bevraagd met enkele query (via Z39.50, http, ...)

- geen geavanceerde retrieval; beperkt tot grootste gemene deler van klassieke booleaanse functies

- problemen met niet-uniformiteit van zoekvelden en gecontroleerde ontsluiting

indexer

internet

document text files

central index

searchintegrated system:local central index solution

indexing-rules fortargets

full-text links

document text files

muscat / verity / autonomy / ...

internet

document text files

central index

searchintegrated system:local central index solution

indexing-rules fortargets

full-text links

document text files

• geïntegreerde toegang via uniform eenvoudig interface

internet

searchintegrated system:metasearch /portal solution

search

query-generator / result-collector

search

index index index

Z39.50

Z39.50 Z39.50

internal api

http http xml

Z39.50 http

configurationdata fortargets

search search search

files files files files

internet

searchintegrated system:metasearch /portal solution

search

metalib / iPort / zPortal / muse / ...

search

index index index

Z39.50

Z39.50 Z39.50

internal api

http http xml

Z39.50 http

configurationdata fortargets

search search search

files files files files

• geïntegreerde toegang via uniform eenvoudig interface

oplossingen voor grote bibliotheken

• geïntegreerde toegang (one-stop-shopping principe)

• via uniform eenvoudig interface (als "Google")

• met geavanceerde retrieval-techniek

• met behoud van gebruik van gecontroleerde ontsluiting

wel al

soms wel

nauwelijks

vrijwel niet

to retrieve or not to retrieve, that's the question retrieval van wetenschappelijke informatie...

omgeving van term

alle termen belang van

frequentie dia

semantisch netwerk dia

te perken dia

nabije termen

document termpositie

custom search folders

Documents

patterns of post-acquisition integration in...

cloud object storage | store & retrieve data anywhere...

university of groningen cooperative breeding and density...

retrieve data

hyperion retrieve

repository.ubn.ru.nl...moleculair identification of calcium...

eric sieverts university library utrecht it department...

easy to retrieve

the impact of influencers - kommunikationsforum ·...

bulletin des séances contents mededelingen der...

christian sieverts, bornholms

henning sieverts — double quartet · henning sieverts...

sieverts sports amsterdam black friday ad

web 2.0 en de informatievoorziening eric sieverts...

how to retrieve your quote-quotes version - funeralwise to...

de structuur van wetenschappelijke revoluties...30 de...

retrieve file

retrieve filing

thomas sieverts - agent of change - tom coward - urban ......

de toekomst van vlaanderen–academisch onderzoek: knaw,...