vergleich internetsuchmaschinen fachdatenbankenfiz1.fh-potsdam.de/volltext/wildau/07134.pdf ·...

28
Department of Computer and Information Science at the University of Constance Vergleich von Internetsuchmaschinen & Fachdatenbanken Dr. Joachim Griesbaum Informationswissenschaft Universität Konstanz Fach D 87 D-78457 Konstanz

Upload: lyhuong

Post on 17-Sep-2018

214 views

Category:

Documents


0 download

TRANSCRIPT

Department of Computer and Information Science at the University of Constance

Vergleich von Internetsuchmaschinen & Fachdatenbanken

Dr. Joachim Griesbaum InformationswissenschaftUniversität KonstanzFach D 87D-78457 Konstanz

2 Internetsuchmaschinen & Fachdatenbanken Informationswissenschaft Konstanz

Inhalt

(1) Überblick Retrievalsysteme: Einordnung Internetsuchmaschinen & Fachdatenbanken

(2) Vergleich von Internetsuchmaschinen & Fachdatenbanken

a) Dokumentkollektion

b) Repräsentation der Dokumente

c) Anfrageninterpretation & -verarbeitung

d) Retrievalfunktion

(3) Recherchebeispiel

(4) Ergebnis

3 Internetsuchmaschinen & Fachdatenbanken Informationswissenschaft Konstanz

Suchanfrage

Architektur von Retrievalsystemen

Anfrageninterpretation& -verarbeitung

Suchergebnis

Nutzer mit Informations-bedarf

Wissensbasis

Abgleich mittels einer Retrievalfunktion

Verfahren der Dokumentbeschaffung bestimmen Umfang und Inhalt derDokumentkollektion

Repräsentation der Dokumente

Wissens-objekt

Input

Retrievalsystem

Wissens-objekt

Wissens-objekt

Repräsentation desInformationsbedarfs

4 Internetsuchmaschinen & Fachdatenbanken Informationswissenschaft Konstanz

Internetsuchdienste ermöglichen das Auffinden von Wissensbeständen im Internet.

Einordnung Internetsuchdienste – Fachdatenbanken

Kataloge Suchmaschinen – roboterbasierte Suchdienste

Fachdatenbanken sind i.d.R online zugängliche fachspezifische Retrievalsysteme, die den Zugriff auf bzw. den Nachweis von Fachinformationen ermöglichen.

Referenzdatenbankenbibliographische Datenbanken mit Sekundärinformationen zu Veröffentlichungen Volltextdatenbanken

Faktendatenbanken

5 Internetsuchmaschinen & Fachdatenbanken Informationswissenschaft Konstanz

Suchmaschinen

Internet

Nutzer Index -automatische Term-extraktion (Volltext):Position & Häufigkeit, Funktions- Struktur-,Formatelemente-Links

Suchanfrage Anfragenbearbeitung

Automatische Sortierung nach Relevanzkriterien

Webpages

DokumentbeschaffungRoboter/Anmeldung

Bsp.: www.google.deask.de, Tipp: exalead.deu.a. mit Wortstammsuche

6 Internetsuchmaschinen & Fachdatenbanken Informationswissenschaft Konstanz

Fachdatenbanken

NutzerIndex bestehend aus bibliographischen Daten und zusätzlicheninhaltserschließenden Angaben•Titel•Autor•Schlagwörter (Controlled,free terms)•Klassifikation•Abstract•...

Boole´scheSuchanfragen Anfragenbearbeitung

Treffermengen Ausgabe (meist Sortierung nach formalen und Relevanzkriterien möglich)

Bsp.: INSPEC, INFODATA, SOLIS, COMPUSCIENCE

Zyklische Aktualisierung, Meist intellektuelle Inhaltserschließung

FachliteraturProceedings

Zeitschriften Dissertationen

Bücher

Reports

7 Internetsuchmaschinen & Fachdatenbanken Informationswissenschaft Konstanz

Inhalt

(1) Überblick Retrievalsysteme: Einordnung Internetsuchmaschinen & Fachdatenbanken

(2) Vergleich von Internetsuchmaschinen & Fachdatenbanken

a)Dokumentkollektionb) Repräsentation der Dokumente

c) Anfrageninterpretation & -verarbeitung

d) Retrievalfunktion

(3) Recherchebeispiel

(4) Ergebnis

8 Internetsuchmaschinen & Fachdatenbanken Informationswissenschaft Konstanz

Dokumentraum und Dokumentbeschaffung

Internetsuchmaschinen

Suchmaschinen erfassen z.T. zwar viele Milliarden Dokumente, aber das ist nur einen Teil des Internet

Informationsressourcen inhaltlich, strukturell und qualitativ sehr heterogen

Hochgradig veränderlicher Dokumentraum

Unsicherheit bzgl. Vollständigkeit und Qualität der Ergebnisse

Fachdatenbanken

Je nach Scope und Umfang der Datenbank fachlich einschlägig und das Themengebiet abdeckend

Dokumente qualitativ hochwertig

State of the Art-Recherchen grundsätzlich möglich

9 Internetsuchmaschinen & Fachdatenbanken Informationswissenschaft Konstanz

Inhalt

(1) Überblick Retrievalsysteme: Einordnung Internetsuchmaschinen & Fachdatenbanken

(2) Vergleich von Internetsuchmaschinen & Fachdatenbanken

a) Dokumentkollektion

b) Repräsentation der Dokumentec) Anfrageninterpretation & -verarbeitung

d) Retrievalfunktion

(3) Recherchebeispiel

(4) Ergebnis

10 Internetsuchmaschinen & Fachdatenbanken Informationswissenschaft Konstanz

Suchmaschinenspider-Simulation für Amazon.de

Darstellung zur Veranschaulichung gekürzt, vgl. [www.se-spider.com]

11 Internetsuchmaschinen & Fachdatenbanken Informationswissenschaft Konstanz

Beispiel für Erschließung aus INSPECAccession numberAuthor(s) & EditorsSourceDateCountryAbstract & Abstract NumberSubject Headings (kontrolliertes Vokabular)Key Phrase Identifiers (freies Vokabular)Classification Codes (Klassifikation)Treatment (Objekttyp: z.B. Product Review) CODEN: Code zur Identif. von z.B. Zeitschriften LanguageISSNU.S. Copyright Clearance Center Code Doc. N.Publication TypeSICI (Code nach ANSI Standard Z39.56) Update CodeCopyright

Volltext (noch) frei erhältlich unter web.archive.org/web/20040724094753/http://www.scils.rutgers.edu/~muresan/Docs/ipmSpink2002.pdf (letzter Zugriff 16.03.2007)

12 Internetsuchmaschinen & Fachdatenbanken Informationswissenschaft Konstanz

Repräsentation der Dokumente

Internetsuchmaschinen

Geringer Strukturierungsgrad & keine verlässlichen Standards (Metadaten)

Missbrauch von Textinhalten (Spam)

Repräsentation der Verlinkungsstruktur

Reverse (Zitations-)Suche

Fachdatenbanken

Strukturierte Feldschemata

Vorh. Informationen werden mit inhaltserschließenden Angaben ergänzt

Indexierung: Vergabe kontrollierter und freier Schlagwörter & Klassifikation

Strukturierte Anfragen (Felder)

Eindeutiges Vokabular

13 Internetsuchmaschinen & Fachdatenbanken Informationswissenschaft Konstanz

Inhalt

(1) Überblick Retrievalsysteme: Einordnung Internetsuchmaschinen & Fachdatenbanken

(2) Vergleich von Internetsuchmaschinen & Fachdatenbanken

a) Dokumentkollektion

b) Repräsentation der Dokumente

c) Anfrageninterpretation & -verarbeitungd) Retrievalfunktion

(3) Recherchebeispiel

(4) Ergebnis

14 Internetsuchmaschinen & Fachdatenbanken Informationswissenschaft Konstanz

Matcht exakte Terme: keine TrunkierungBsp:Treffermengen: search engines = 82 Mio. URLssearch engine =302 Mio. URLs (16.03.2007)

Keine Suche in Metadaten (Ausnahme: Title)Teilweise Zugriff auf Funktions-und Strukturelemente: site, link,daterange, filetype

Voreingestellt AND-Verknüpfung OR und NOT sind extra anzugeben

Keine Klammern, OR wird vor AND interpretiert, d.h

Anfragenverarbeitung in Internetsuchmaschinen – Bsp. Google [www.google.com/help/basics.html]

Maximale Anfragenlänge 32 Terme

wenig Gestaltungsraumfür komplexe Suchanfragen.

patent AND (verzeichnis OR katalog) = patent verzeichnis OR katalog

15 Internetsuchmaschinen & Fachdatenbanken Informationswissenschaft Konstanz

Benutzeroberfläche und Dialoggestaltung in Internetsuchmaschinen

Simple Benutzerschnittstelle.

Dialogführung. Request-Response-Paradigma. Optionen zur Modifikation der letzten Suchanfrage (related queries, related pages).

16 Internetsuchmaschinen & Fachdatenbanken Informationswissenschaft Konstanz

Anfragenverarbeitung in FachdatenbankenTerme werden mit Hilfe von boole´schen Operatoren AND, OR, NOT verknüpft. Verschachtelung mit Hilfe von Klammern möglich.

Häufig zusätzlich Proximity-Operatoren (Abstandsbedingungen).

Trunkierung: Suche nach Wörtern mit bestimmtem Wortstamm.

Feldsuche: Einschränkung der Anfrage auf spezifische Felder.

Beisp.: „Suche alle Dokumente der Autorin Spink, die sich mit der Evaluation von Suchmaschinen befassen und nach 2003 erschienen sind“

(Search engine? and evaluation)/TITLE AND information retrieval/CONTROLLED-TERMS AND spink/AUTHOR LIMIT:YEAR>2003

17 Internetsuchmaschinen & Fachdatenbanken Informationswissenschaft Konstanz

Anfragenverarbeitung in FachdatenbankenAnfragenlänge: Singuläre Anfragen i.d.R. bis zu 256 Zeichen

Suchdialog: Suchhistorie bietet direkten Zugriff auf und Weiterverarbeitung vorheriger Anfragen. D.h. Anfragen nahezu beliebig komplex Elaborierte Suchstrategien umsetzbar

1: TermA1 OR TermA2 OR TermA3

2: TermB1 OR TermB2 OR TermB3

3: TermC1 OR TermC2 OR TermC3

4: 1 AND 2 AND 3 =(A1 OR A2 OR A3) AND (B1 OR B2 OR B3) AND (C1 OR C2 OR C3)

5: ...Abl

auf d

er S

uche

18 Internetsuchmaschinen & Fachdatenbanken Informationswissenschaft Konstanz

Inhalt

(1) Überblick Retrievalsysteme: Einordnung Internetsuchmaschinen & Fachdatenbanken

(2) Vergleich von Internetsuchmaschinen & Fachdatenbanken

a) Dokumentkollektion

b) Repräsentation der Dokumente

c) Anfrageninterpretation & -verarbeitung

d) Retrievalfunktion(3) Recherchebeispiel

(4) Ergebnis

19 Internetsuchmaschinen & Fachdatenbanken Informationswissenschaft Konstanz

Retrievalfunktion

Internetsuchmaschinen

Ranking der primäre Erfolgsfaktor

Automatische Sortierung: Rankingfaktoren

Wortokurrenzen in Bezug auf Position, Häufigkeit, Funktion, Formatierung

Analyse von Linkstrukturen (Linkpopularity/Pagerank)

Sprach- bzw. lokalitätsbasierte Filter

Funktioniert häufig sehr gut

Zustandekommen der Suchergebnisse kaum nachvollziehbar

Fachdatenbanken

Ranking von geringer Bedeutung

Explizite Sortierung der Treffer nach Term-häufigkeiten & formalen Kriterien möglich

Relevanz der Treffer ist vollständig von der Qualität der Rechercheformulierung abhängig.

20 Internetsuchmaschinen & Fachdatenbanken Informationswissenschaft Konstanz

Inhalt

(1) Überblick Retrievalsysteme: Einordnung Internetsuchmaschinen & Fachdatenbanken

(2) Vergleich von Internetsuchmaschinen & Fachdatenbanken

a) Dokumentkollektion

b) Repräsentation der Dokumente

c) Anfrageninterpretation & -verarbeitung

d) Retrievalfunktion

(3) Recherchebeispiel(4) Ergebnis

21 Internetsuchmaschinen & Fachdatenbanken Informationswissenschaft Konstanz

Recherchebeispiel "Evaluierung von Suchdiensten im WWW"

Im Rahmen eines Forschungsprojekts soll die Qualität verschiedener Suchdienste bestimmt werden. Um das methodische Vorgehen zu entwickeln, ist zunächst der gegenwärtige Forschungsstand bei der Evaluation von Retrievalsystemen zu ermitteln.

Die Recherche soll eine hohe Vollständigkeit erreichen und möglichst alle zentralen Artikel zum Themenfeld nachweisen.

22 Internetsuchmaschinen & Fachdatenbanken Informationswissenschaft Konstanz

Recherche in Google„information retrieval“ „search engine“ evaluation 403.000 Treffer

„information retrieval“„search engine“ evaluation filetype:pdf 138.000 Treffer

„information retrieval“ intitle:„search engine“ evaluation 666 Treffer

„information retrieval“ intitle:„search engine“ evaluation filetype:pdf 233 Treffer

„information retrieval“ intitle:„search engine“ intitle:evaluation 39 Treffer

„information retrieval“ intitle:„search engine“ intitle:evaluation filetype:pdf 4 Treffer

Reverse Suche zu einer relevanten gefundene Website

link:http://trec.nist.gov 62 Treffer

Erwartung: In Google zumindest einige relevante Websites zu finden. Suche eher intuitiv unsystematisch, explorativ. Oft Zugriff auf Informationen möglich, die nicht (so schnell) in Fachdatenbanken erfasst werden. Trotz z.T. hoher Trefferzahlen ist der Vollständigkeitsgrad der Ergebnisse völlig unbekannt.

23 Internetsuchmaschinen & Fachdatenbanken Informationswissenschaft Konstanz

Recherche in INSPEC

Systematische Suche im freien und kontrollierten Vokabular. Erwartung: Die zentralen und wichtigen Dokumente sind nahezu vollständig und umfassend in Ergebnis #8 nachgewiesen.

24 Internetsuchmaschinen & Fachdatenbanken Informationswissenschaft Konstanz

Inhalt

(1) Überblick Retrievalsysteme: Einordnung Internetsuchmaschinen & Fachdatenbanken

(2) Vergleich von Internetsuchmaschinen & Fachdatenbanken

a) Dokumentkollektion

b) Repräsentation der Dokumente

c) Anfrageninterpretation & -verarbeitung

d) Retrievalfunktion

(3) Recherchebeispiel

(4) Ergebnis

25 Internetsuchmaschinen & Fachdatenbanken Informationswissenschaft Konstanz

Internetsuchmaschinen & Fachdatenbanken: Vertrauen vs. Kontrolle? Zufallstreffer vs. hochwertiger Information?

In Internetsuchmaschinen sind systematische Suchstrategien kaum möglich. Sie eignen sich deshalb bei Recherchen vor allem für eine erste Orientierung und auch als Ausgangspunkt für das Aufspüren relevanter Communities, Portale und spezieller Suchdienste. D. h. Suchmaschinen sind einerseits für explorative Suchkontexte sinnvoll, des Weiteren stellen Sie auch ein hervorragendes Hilfsmittel zum langfristigen Aufbau und Erhalt von Expertise dar.

Fachdatenbanken sind extrem mächtige Suchdienste, aber ohne Einarbeitung nicht intuitiv nutzbar. Für State of theArt-Suchkontexte, in denen alle zentralen und wichtigen Dokumente vollständig & umfassend nachgewiesen werden sollen, nach wie vor unverzichtbar.

Kombination beider Instrumente empfehlenswert

26 Internetsuchmaschinen & Fachdatenbanken Informationswissenschaft Konstanz

Links & LiteraturRecherchebeispiel unter http://www.inf-wiss.uni-konstanz.de/CURR/summer05/infauf/recherchebeispiel_suchmaschinenevaluation_inspec.html

Brin, S.; Page, L. (1998), The Anatomy of a Large-Scale Hypertextual Web Search Engine, 1998[http://citeseer.ist.psu.edu/brin98anatomy.html 24.10.2006]Broder, A. (2006), From query based Information Retrieval tocontext driven Information Supply[http://grupoweb.upf.es/workshop/slides/fws_broder.pdf01.11.2006]

Ferber, R. (2003), Information Retrieval. Suchmodelle und Data-Mining-Verfahren für Textsammlungen und das Web. Heidelberg:dpunkt.

27 Internetsuchmaschinen & Fachdatenbanken Informationswissenschaft Konstanz

Links & LiteraturFuhr, N. (2004), Theorie des Information RetrievaI: Modelle, in: Kuhlen, Rainer; Seeger, Thomas; Strauch, Dieter (Hg.): Grundlagen der praktischen Information und Dokumentation. 5. völlig neu gefasste Auflage. Band 1 - Handbuch zur Einführung in die Informationswissenschaft und -praxis. München: K G Saur, 2004, S.207-214.

Korfhage, R. R. (1997), Information storage and retrieval. Wiley: New York.

Lewandowski, D. (2005), Web Information Retrieval: Technologien zur Informationssuche im Internet, Frankfurt a.M.: DGI [http://www.durchdenken.de/lewandowski/web-ir/ 23.10.2006].

Smyth, B.; Balfe, E. (2006), Anonymous personalization incollaborative web search. Inf. Retr. 9(2): 165-190 (2006) [http://www.springerlink.com/media/570cdglxvm1twclrrvv3/contributions/4/9/j/6/49j6313t495h0w26.pdf 30.10.2006]

28 Internetsuchmaschinen & Fachdatenbanken Informationswissenschaft Konstanz

Vielen Dank für Ihre Aufmerksamkeit![www.web-information-retrieval.de/vergleich_internetsuchmaschinen_fachdatenbanken.pdf]