vergleich internetsuchmaschinen fachdatenbankenfiz1.fh-potsdam.de/volltext/wildau/07134.pdf ·...
TRANSCRIPT
Department of Computer and Information Science at the University of Constance
Vergleich von Internetsuchmaschinen & Fachdatenbanken
Dr. Joachim Griesbaum InformationswissenschaftUniversität KonstanzFach D 87D-78457 Konstanz
2 Internetsuchmaschinen & Fachdatenbanken Informationswissenschaft Konstanz
Inhalt
(1) Überblick Retrievalsysteme: Einordnung Internetsuchmaschinen & Fachdatenbanken
(2) Vergleich von Internetsuchmaschinen & Fachdatenbanken
a) Dokumentkollektion
b) Repräsentation der Dokumente
c) Anfrageninterpretation & -verarbeitung
d) Retrievalfunktion
(3) Recherchebeispiel
(4) Ergebnis
3 Internetsuchmaschinen & Fachdatenbanken Informationswissenschaft Konstanz
Suchanfrage
Architektur von Retrievalsystemen
Anfrageninterpretation& -verarbeitung
Suchergebnis
Nutzer mit Informations-bedarf
Wissensbasis
Abgleich mittels einer Retrievalfunktion
Verfahren der Dokumentbeschaffung bestimmen Umfang und Inhalt derDokumentkollektion
Repräsentation der Dokumente
Wissens-objekt
Input
Retrievalsystem
Wissens-objekt
Wissens-objekt
Repräsentation desInformationsbedarfs
4 Internetsuchmaschinen & Fachdatenbanken Informationswissenschaft Konstanz
Internetsuchdienste ermöglichen das Auffinden von Wissensbeständen im Internet.
Einordnung Internetsuchdienste – Fachdatenbanken
Kataloge Suchmaschinen – roboterbasierte Suchdienste
Fachdatenbanken sind i.d.R online zugängliche fachspezifische Retrievalsysteme, die den Zugriff auf bzw. den Nachweis von Fachinformationen ermöglichen.
Referenzdatenbankenbibliographische Datenbanken mit Sekundärinformationen zu Veröffentlichungen Volltextdatenbanken
Faktendatenbanken
5 Internetsuchmaschinen & Fachdatenbanken Informationswissenschaft Konstanz
Suchmaschinen
Internet
Nutzer Index -automatische Term-extraktion (Volltext):Position & Häufigkeit, Funktions- Struktur-,Formatelemente-Links
Suchanfrage Anfragenbearbeitung
Automatische Sortierung nach Relevanzkriterien
Webpages
DokumentbeschaffungRoboter/Anmeldung
Bsp.: www.google.deask.de, Tipp: exalead.deu.a. mit Wortstammsuche
6 Internetsuchmaschinen & Fachdatenbanken Informationswissenschaft Konstanz
Fachdatenbanken
NutzerIndex bestehend aus bibliographischen Daten und zusätzlicheninhaltserschließenden Angaben•Titel•Autor•Schlagwörter (Controlled,free terms)•Klassifikation•Abstract•...
Boole´scheSuchanfragen Anfragenbearbeitung
Treffermengen Ausgabe (meist Sortierung nach formalen und Relevanzkriterien möglich)
Bsp.: INSPEC, INFODATA, SOLIS, COMPUSCIENCE
Zyklische Aktualisierung, Meist intellektuelle Inhaltserschließung
FachliteraturProceedings
Zeitschriften Dissertationen
Bücher
Reports
7 Internetsuchmaschinen & Fachdatenbanken Informationswissenschaft Konstanz
Inhalt
(1) Überblick Retrievalsysteme: Einordnung Internetsuchmaschinen & Fachdatenbanken
(2) Vergleich von Internetsuchmaschinen & Fachdatenbanken
a)Dokumentkollektionb) Repräsentation der Dokumente
c) Anfrageninterpretation & -verarbeitung
d) Retrievalfunktion
(3) Recherchebeispiel
(4) Ergebnis
8 Internetsuchmaschinen & Fachdatenbanken Informationswissenschaft Konstanz
Dokumentraum und Dokumentbeschaffung
Internetsuchmaschinen
Suchmaschinen erfassen z.T. zwar viele Milliarden Dokumente, aber das ist nur einen Teil des Internet
Informationsressourcen inhaltlich, strukturell und qualitativ sehr heterogen
Hochgradig veränderlicher Dokumentraum
Unsicherheit bzgl. Vollständigkeit und Qualität der Ergebnisse
Fachdatenbanken
Je nach Scope und Umfang der Datenbank fachlich einschlägig und das Themengebiet abdeckend
Dokumente qualitativ hochwertig
State of the Art-Recherchen grundsätzlich möglich
9 Internetsuchmaschinen & Fachdatenbanken Informationswissenschaft Konstanz
Inhalt
(1) Überblick Retrievalsysteme: Einordnung Internetsuchmaschinen & Fachdatenbanken
(2) Vergleich von Internetsuchmaschinen & Fachdatenbanken
a) Dokumentkollektion
b) Repräsentation der Dokumentec) Anfrageninterpretation & -verarbeitung
d) Retrievalfunktion
(3) Recherchebeispiel
(4) Ergebnis
10 Internetsuchmaschinen & Fachdatenbanken Informationswissenschaft Konstanz
Suchmaschinenspider-Simulation für Amazon.de
Darstellung zur Veranschaulichung gekürzt, vgl. [www.se-spider.com]
11 Internetsuchmaschinen & Fachdatenbanken Informationswissenschaft Konstanz
Beispiel für Erschließung aus INSPECAccession numberAuthor(s) & EditorsSourceDateCountryAbstract & Abstract NumberSubject Headings (kontrolliertes Vokabular)Key Phrase Identifiers (freies Vokabular)Classification Codes (Klassifikation)Treatment (Objekttyp: z.B. Product Review) CODEN: Code zur Identif. von z.B. Zeitschriften LanguageISSNU.S. Copyright Clearance Center Code Doc. N.Publication TypeSICI (Code nach ANSI Standard Z39.56) Update CodeCopyright
Volltext (noch) frei erhältlich unter web.archive.org/web/20040724094753/http://www.scils.rutgers.edu/~muresan/Docs/ipmSpink2002.pdf (letzter Zugriff 16.03.2007)
12 Internetsuchmaschinen & Fachdatenbanken Informationswissenschaft Konstanz
Repräsentation der Dokumente
Internetsuchmaschinen
Geringer Strukturierungsgrad & keine verlässlichen Standards (Metadaten)
Missbrauch von Textinhalten (Spam)
Repräsentation der Verlinkungsstruktur
Reverse (Zitations-)Suche
Fachdatenbanken
Strukturierte Feldschemata
Vorh. Informationen werden mit inhaltserschließenden Angaben ergänzt
Indexierung: Vergabe kontrollierter und freier Schlagwörter & Klassifikation
Strukturierte Anfragen (Felder)
Eindeutiges Vokabular
13 Internetsuchmaschinen & Fachdatenbanken Informationswissenschaft Konstanz
Inhalt
(1) Überblick Retrievalsysteme: Einordnung Internetsuchmaschinen & Fachdatenbanken
(2) Vergleich von Internetsuchmaschinen & Fachdatenbanken
a) Dokumentkollektion
b) Repräsentation der Dokumente
c) Anfrageninterpretation & -verarbeitungd) Retrievalfunktion
(3) Recherchebeispiel
(4) Ergebnis
14 Internetsuchmaschinen & Fachdatenbanken Informationswissenschaft Konstanz
Matcht exakte Terme: keine TrunkierungBsp:Treffermengen: search engines = 82 Mio. URLssearch engine =302 Mio. URLs (16.03.2007)
Keine Suche in Metadaten (Ausnahme: Title)Teilweise Zugriff auf Funktions-und Strukturelemente: site, link,daterange, filetype
Voreingestellt AND-Verknüpfung OR und NOT sind extra anzugeben
Keine Klammern, OR wird vor AND interpretiert, d.h
Anfragenverarbeitung in Internetsuchmaschinen – Bsp. Google [www.google.com/help/basics.html]
Maximale Anfragenlänge 32 Terme
wenig Gestaltungsraumfür komplexe Suchanfragen.
patent AND (verzeichnis OR katalog) = patent verzeichnis OR katalog
15 Internetsuchmaschinen & Fachdatenbanken Informationswissenschaft Konstanz
Benutzeroberfläche und Dialoggestaltung in Internetsuchmaschinen
Simple Benutzerschnittstelle.
Dialogführung. Request-Response-Paradigma. Optionen zur Modifikation der letzten Suchanfrage (related queries, related pages).
16 Internetsuchmaschinen & Fachdatenbanken Informationswissenschaft Konstanz
Anfragenverarbeitung in FachdatenbankenTerme werden mit Hilfe von boole´schen Operatoren AND, OR, NOT verknüpft. Verschachtelung mit Hilfe von Klammern möglich.
Häufig zusätzlich Proximity-Operatoren (Abstandsbedingungen).
Trunkierung: Suche nach Wörtern mit bestimmtem Wortstamm.
Feldsuche: Einschränkung der Anfrage auf spezifische Felder.
Beisp.: „Suche alle Dokumente der Autorin Spink, die sich mit der Evaluation von Suchmaschinen befassen und nach 2003 erschienen sind“
(Search engine? and evaluation)/TITLE AND information retrieval/CONTROLLED-TERMS AND spink/AUTHOR LIMIT:YEAR>2003
17 Internetsuchmaschinen & Fachdatenbanken Informationswissenschaft Konstanz
Anfragenverarbeitung in FachdatenbankenAnfragenlänge: Singuläre Anfragen i.d.R. bis zu 256 Zeichen
Suchdialog: Suchhistorie bietet direkten Zugriff auf und Weiterverarbeitung vorheriger Anfragen. D.h. Anfragen nahezu beliebig komplex Elaborierte Suchstrategien umsetzbar
1: TermA1 OR TermA2 OR TermA3
2: TermB1 OR TermB2 OR TermB3
3: TermC1 OR TermC2 OR TermC3
4: 1 AND 2 AND 3 =(A1 OR A2 OR A3) AND (B1 OR B2 OR B3) AND (C1 OR C2 OR C3)
5: ...Abl
auf d
er S
uche
18 Internetsuchmaschinen & Fachdatenbanken Informationswissenschaft Konstanz
Inhalt
(1) Überblick Retrievalsysteme: Einordnung Internetsuchmaschinen & Fachdatenbanken
(2) Vergleich von Internetsuchmaschinen & Fachdatenbanken
a) Dokumentkollektion
b) Repräsentation der Dokumente
c) Anfrageninterpretation & -verarbeitung
d) Retrievalfunktion(3) Recherchebeispiel
(4) Ergebnis
19 Internetsuchmaschinen & Fachdatenbanken Informationswissenschaft Konstanz
Retrievalfunktion
Internetsuchmaschinen
Ranking der primäre Erfolgsfaktor
Automatische Sortierung: Rankingfaktoren
Wortokurrenzen in Bezug auf Position, Häufigkeit, Funktion, Formatierung
Analyse von Linkstrukturen (Linkpopularity/Pagerank)
Sprach- bzw. lokalitätsbasierte Filter
Funktioniert häufig sehr gut
Zustandekommen der Suchergebnisse kaum nachvollziehbar
Fachdatenbanken
Ranking von geringer Bedeutung
Explizite Sortierung der Treffer nach Term-häufigkeiten & formalen Kriterien möglich
Relevanz der Treffer ist vollständig von der Qualität der Rechercheformulierung abhängig.
20 Internetsuchmaschinen & Fachdatenbanken Informationswissenschaft Konstanz
Inhalt
(1) Überblick Retrievalsysteme: Einordnung Internetsuchmaschinen & Fachdatenbanken
(2) Vergleich von Internetsuchmaschinen & Fachdatenbanken
a) Dokumentkollektion
b) Repräsentation der Dokumente
c) Anfrageninterpretation & -verarbeitung
d) Retrievalfunktion
(3) Recherchebeispiel(4) Ergebnis
21 Internetsuchmaschinen & Fachdatenbanken Informationswissenschaft Konstanz
Recherchebeispiel "Evaluierung von Suchdiensten im WWW"
Im Rahmen eines Forschungsprojekts soll die Qualität verschiedener Suchdienste bestimmt werden. Um das methodische Vorgehen zu entwickeln, ist zunächst der gegenwärtige Forschungsstand bei der Evaluation von Retrievalsystemen zu ermitteln.
Die Recherche soll eine hohe Vollständigkeit erreichen und möglichst alle zentralen Artikel zum Themenfeld nachweisen.
22 Internetsuchmaschinen & Fachdatenbanken Informationswissenschaft Konstanz
Recherche in Google„information retrieval“ „search engine“ evaluation 403.000 Treffer
„information retrieval“„search engine“ evaluation filetype:pdf 138.000 Treffer
„information retrieval“ intitle:„search engine“ evaluation 666 Treffer
„information retrieval“ intitle:„search engine“ evaluation filetype:pdf 233 Treffer
„information retrieval“ intitle:„search engine“ intitle:evaluation 39 Treffer
„information retrieval“ intitle:„search engine“ intitle:evaluation filetype:pdf 4 Treffer
Reverse Suche zu einer relevanten gefundene Website
link:http://trec.nist.gov 62 Treffer
Erwartung: In Google zumindest einige relevante Websites zu finden. Suche eher intuitiv unsystematisch, explorativ. Oft Zugriff auf Informationen möglich, die nicht (so schnell) in Fachdatenbanken erfasst werden. Trotz z.T. hoher Trefferzahlen ist der Vollständigkeitsgrad der Ergebnisse völlig unbekannt.
23 Internetsuchmaschinen & Fachdatenbanken Informationswissenschaft Konstanz
Recherche in INSPEC
Systematische Suche im freien und kontrollierten Vokabular. Erwartung: Die zentralen und wichtigen Dokumente sind nahezu vollständig und umfassend in Ergebnis #8 nachgewiesen.
24 Internetsuchmaschinen & Fachdatenbanken Informationswissenschaft Konstanz
Inhalt
(1) Überblick Retrievalsysteme: Einordnung Internetsuchmaschinen & Fachdatenbanken
(2) Vergleich von Internetsuchmaschinen & Fachdatenbanken
a) Dokumentkollektion
b) Repräsentation der Dokumente
c) Anfrageninterpretation & -verarbeitung
d) Retrievalfunktion
(3) Recherchebeispiel
(4) Ergebnis
25 Internetsuchmaschinen & Fachdatenbanken Informationswissenschaft Konstanz
Internetsuchmaschinen & Fachdatenbanken: Vertrauen vs. Kontrolle? Zufallstreffer vs. hochwertiger Information?
In Internetsuchmaschinen sind systematische Suchstrategien kaum möglich. Sie eignen sich deshalb bei Recherchen vor allem für eine erste Orientierung und auch als Ausgangspunkt für das Aufspüren relevanter Communities, Portale und spezieller Suchdienste. D. h. Suchmaschinen sind einerseits für explorative Suchkontexte sinnvoll, des Weiteren stellen Sie auch ein hervorragendes Hilfsmittel zum langfristigen Aufbau und Erhalt von Expertise dar.
Fachdatenbanken sind extrem mächtige Suchdienste, aber ohne Einarbeitung nicht intuitiv nutzbar. Für State of theArt-Suchkontexte, in denen alle zentralen und wichtigen Dokumente vollständig & umfassend nachgewiesen werden sollen, nach wie vor unverzichtbar.
Kombination beider Instrumente empfehlenswert
26 Internetsuchmaschinen & Fachdatenbanken Informationswissenschaft Konstanz
Links & LiteraturRecherchebeispiel unter http://www.inf-wiss.uni-konstanz.de/CURR/summer05/infauf/recherchebeispiel_suchmaschinenevaluation_inspec.html
Brin, S.; Page, L. (1998), The Anatomy of a Large-Scale Hypertextual Web Search Engine, 1998[http://citeseer.ist.psu.edu/brin98anatomy.html 24.10.2006]Broder, A. (2006), From query based Information Retrieval tocontext driven Information Supply[http://grupoweb.upf.es/workshop/slides/fws_broder.pdf01.11.2006]
Ferber, R. (2003), Information Retrieval. Suchmodelle und Data-Mining-Verfahren für Textsammlungen und das Web. Heidelberg:dpunkt.
27 Internetsuchmaschinen & Fachdatenbanken Informationswissenschaft Konstanz
Links & LiteraturFuhr, N. (2004), Theorie des Information RetrievaI: Modelle, in: Kuhlen, Rainer; Seeger, Thomas; Strauch, Dieter (Hg.): Grundlagen der praktischen Information und Dokumentation. 5. völlig neu gefasste Auflage. Band 1 - Handbuch zur Einführung in die Informationswissenschaft und -praxis. München: K G Saur, 2004, S.207-214.
Korfhage, R. R. (1997), Information storage and retrieval. Wiley: New York.
Lewandowski, D. (2005), Web Information Retrieval: Technologien zur Informationssuche im Internet, Frankfurt a.M.: DGI [http://www.durchdenken.de/lewandowski/web-ir/ 23.10.2006].
Smyth, B.; Balfe, E. (2006), Anonymous personalization incollaborative web search. Inf. Retr. 9(2): 165-190 (2006) [http://www.springerlink.com/media/570cdglxvm1twclrrvv3/contributions/4/9/j/6/49j6313t495h0w26.pdf 30.10.2006]