cht - uni-due.de · 2004-06-11 · assign doc id's term weighting stoplist stemming stemming...

181
Information Retrieval 1/181 10 Implementierung von IR-Systemen ¨ Ubersicht Hardware-Aspekte Aufbau von IRS Dokument-Architektur Zugriffspfade Scanning Invertierte Listen PAT Trees N. Fuhr 11. Juni 2004

Upload: others

Post on 23-May-2020

2 views

Category:

Documents


0 download

TRANSCRIPT

Info

rmation

Ret

riev

al

1/181

10

Imple

men

tier

ung

von

IR-S

yste

men

Uber

sich

t

•H

ardwar

e-A

spek

te

•A

ufb

auvo

nIR

S

•D

okum

ent-

Arc

hitek

tur

•Zugr

iffsp

fade

–Sca

nnin

g

–In

vert

iert

eListe

n

–PAT

Tre

es

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

2/181

10.1

Har

dwar

e-A

spek

te

10.1

.1Spei

cher

bed

arf

ASCII-T

ext

2K

B

Tex

tdat

ei10

KB

Gra

phik

20K

B

Tex

t-Fak

sim

ile,30

0dpi,

kom

prim

iert

50K

B

Bild

-Fak

sim

ile,30

0dpi,

kom

prim

iert

200

KB

Fot

oin

Tru

eCol

our,

2000

dpi

bis

40M

B

Vid

eo(M

PEG)

170

–75

0K

B/s

ec

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

3/181

10.1

.2Spei

cher

med

ien

Optisc

he

Spei

cher

med

ien

CD

-RO

M

•nur

lese

nder

Zugr

iff

•K

apaz

itat

650

MB

•CD

-Wec

hsler

•hoh

erei

nm

alig

erH

erst

ellu

ngs

aufw

and

•ge

ringe

Stu

ckko

sten

•fu

rVer

teilu

ng

von

Dat

enbas

enin

ausr

eich

ender

Stu

ckza

hl

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

4/181

WO

RM

-CD

(Write

Once

Rea

dM

any)

•nur

einm

albes

chre

ibbar

•nic

ht

losc

hbar

•K

apaz

itat

650

MB

(kom

pat

ibel

zuCD

-RO

M)

•Ju

kebox

en

•fu

rVer

teilu

ng

inge

ringe

nStu

ckza

hle

n

RO

D

(Rew

rita

ble

Optica

lD

isk)

•bel

iebig

oft

bes

chre

ibbar

•K

apaz

itat

128

MB

–13

00M

B

•Ju

kebox

en

•fu

rte

mpor

are

Dat

enN

.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

5/181

10.1

.3K

ennza

hle

nvo

nSpei

cher

med

ien

Typ

Kap

azitat

Lat

ency

Positio-

Tra

ns-

Kost

en

nie

rzei

tfe

rrat

eG

erat

Dat

entr

ager

MB

ms

ms

MB

/s

TD

MD

M/M

B

Mag

net

pla

tten

200-8

000

2.3

-4.6

7-1

23-2

00.4

RO

D128-1

300

12

30-4

00.6

91

WO

RM

650

0.8

10.1

6

CD

-RO

M650

1.2

0.2

0.0

2

DV

D4700-1

7000

Diske

tten

0.7

-30.2

2

Mag

net

kass

ette

n200-5

000

10.3

DAT

500-5

000

1.5

0.0

1

Vid

eo-8

5000

2.5

0.0

1

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

6/181

10.1

.4Ein

-/A

usg

abeg

erate

10.1

.4.1

Ein

gabeg

erate

Sca

nner

:60

0dpi(≈

0.04

mm

)op

tisc

he

Auflos

ung

(fur

Gra

phik

enund

Fak

sim

ile-D

arst

ellu

ng

von

Dok

um

ente

n)

Kla

rsch

rift

lese

r

(erfor

der

nm

anuel

leN

achbea

rbei

tung

des

einge

scan

nte

nTex

tes)

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

7/181

10.1

.4.2

Ausg

abeg

erate

Dru

cker

:

Lase

rdru

cker

:bis

1200

dpi

(auch

inFar

be)

Foto

satz

:>

1000

dpi(≈

0.02

5m

m)

Auflos

ung

Monitore

typisch

bis

2M

io.Pix

els

(≈10

0dpi)

(bei

CAD

und

Ele

ctro

nic

Publis

hin

gau

chhoh

ere

Auflos

ung)

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

8/181

10.1

.5K

om

munik

ationsn

etzw

erke

•Eth

ernet

:10

0M

bit/s

ec

•G

igab

itEth

ernet

:1

Gbit/s

ec

•AT

M:15

5–

622

Mbit/s

ec

•FD

DI:

100

Mbit/s

ec

•IS

DN

:64

Kbit/s

ec

•A

DSL:8

MB

it/s

ecEm

pfa

ng,

768

KB

it/s

ecSen

den

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

9/181

10.2

Aufb

au

von

IRS

10.2

.1Funktionale

Sic

ht

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

10/181

brea

kin

to w

ords

assi

gn d

oc id

’s

term

wei

ghtin

gst

oplis

t

stem

min

g

stem

min

g

pars

e qu

ery

rank

ing

Dat

abas

e

Inte

rfac

e

rele

vanc

eju

dgm

ents

Use

r

Doc

umen

ts

text

wor

ds

stem

med

wor

dste

rm

docu

men

t num

bers

and

field

num

bers

docu

men

ts

retr

ieve

d do

cum

ent s

et

rank

ed d

ocum

ent s

et

quer

y te

rms

stem

med

wor

ds

quer

ies

docu

men

ts

quer

y

non−

stop

list

wor

ds

quer

ies

wei

ghts

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

11/181

10.2

.2D

ate

ien

•D

okum

ent-

Dat

ei

•W

orte

rbuch

•in

vert

edFile

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

12/181

Info

rmation

Ret

riev

al

Syst

eme

Nutz

er

Wort

erbuch

Com

pute

r2

-

3-

4-

4-

2-

13

12

4

12

45

14

35

25

Inver

ted

File

num

mer

Dokum

ent-

Auto

r

Titel

Index

ieru

ng

Asp

ekte

com

pute

rgest

utz

ter

Info

rmati

on

Retr

ieval-

syst

em

e

Com

pute

rIn

form

ati

on

Retr

ieval-

Syst

em

e

12

34

5

Ash

Bro

wn

Jones

Reynold

sSm

ith

Ein

eU

mfr

age

beiN

utz

ern

von

Info

rmati

on

Retr

ieval-

syst

em

en

Info

rmati

on

Retr

ieval

Nutz

er

Gesc

hic

hte

der

Com

pute

r-

syst

em

e

Com

pute

r

Syst

em

e

Zum

Sta

nd

der

Ent-

wic

klu

ng

von

Retr

ieval-

syst

em

en

Info

rmati

on

Retr

ieval-

Syst

em

e

Benutz

er

neuer

Retr

ieval-

syst

em

e

Retr

ieval

Syst

em

eN

utz

er

Abbild

ung

1:D

atei

stru

ktur

eines

IRS

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

13/181

10.2

.3D

ialo

gfu

nktionen

her

kom

mlic

her

IRS

•Zuga

ngs

kontr

olle

•A

usw

ahlder

Dat

enbas

is

•A

nze

ige

des

Wor

terb

uch

s/

Thes

auru

s

•For

mulie

rung

von

Anfrag

en

•A

nze

ige

von

Antw

orte

n

•Ver

wal

tung

von

Such

profi

len

(ein

schlie

ßlic

hSD

I-Lau

fe/D

ownlo

adin

g)

•D

ruck

envo

nA

ntw

orte

n

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

14/181

10.3

Dokum

enta

rchitek

ture

n

Pro

ble

mau

sIR

-Sic

ht:

Fes

tleg

ung

eines

Ein

gabe-

und

Dar

stel

lungs

form

ates

fur

die

Dok

um

ente

aber

:

Dok

um

entf

orm

ate

spie

len

auch

eine

Rol

lebei

•D

okum

ente

rste

llung

(mit

Tex

tver

arbei

tungs

syst

emen

)

•el

ektr

onisch

emD

okum

ente

nau

stau

sch

(ele

ctro

nic

mai

l)

Zie

l:

Sta

ndar

disie

rung

von

Dok

um

ente

nfo

rmat

enfu

rdie

vers

chie

den

enSys

tem

e,die

Dok

um

ente

bea

rbei

ten

oder

verw

alte

n

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

15/181

10.3

.1O

DA

OD

A(O

ffice

Docu

men

tA

rchitec

ture

)

defi

nie

rtei

nD

okum

enta

rchitek

tur-

Model

l,das

die

Be-

und

Ver

arbei

tung

von

Dok

um

ente

ndurc

hunte

rsch

iedlic

he

Sys

tem

eer

mog

licht.

OD

IF(O

ffice

Docu

men

tIn

terc

hange

Form

at)

defi

nie

rtdas

zuge

hor

ige

Aust

ausc

hfo

rmat

zur

Uber

trag

ung

von

Dok

um

ente

n

zwisch

enve

rsch

ieden

enSys

tem

en

10.3

.1.1

Gru

ndko

nze

pte

von

OD

A

Str

ukt

urier

ung

des

Inhal

tsei

nes

Dok

um

ente

sin

•lo

gisc

he

Str

ukt

ur:

Unte

rtei

lung

inK

apitel

,A

bsc

hnitte

,Sat

ze,Bild

er,Tab

elle

nusw

.

•Lay

out-

Str

ukt

ur:

Unte

rtei

lung

inSei

ten

und

rech

teck

ige

Ber

eich

eau

fden

Sei

ten

Str

ukt

ure

ni.w

.al

sH

iera

rchie

von

Obje

kten

dar

gest

ellt,

zusa

tzlic

he

nic

ht-

hie

rarc

hisch

eRel

atio

nen

,z.

B.fu

rVer

wei

seau

fFußn

oten

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

16/181

Sch

nitts

telle

zwisch

enD

okum

ents

truktu

ren

und

Dokum

entinhalt:

nur

Obje

kte

der

unte

rste

nStu

feko

nnen

Inhal

tbes

itze

n

(Tex

t,Ras

terg

raphik

,Vek

torg

raphik

usw

.),

der

gem

aßder

zuge

hor

igen

Inhal

tsar

chitek

tur

stru

kturier

tist.

Erw

eite

rbar

keit

der

Nor

mdurc

hH

inzu

fuge

nwei

tere

rIn

hal

tsar

chitek

ture

n

Obje

ktk

lass

enfu

rlo

gisc

he

und

Lay

out-

Obje

kte

Dok

um

ent

als

Obje

ktge

hor

tzu

Dok

um

entk

lass

e

Defi

nitio

nei

ner

Dok

um

entk

lass

e:

Defi

nitio

nvo

nO

bje

ktkl

asse

n

+gg

fs.

vorg

egeb

ene

Inhal

tsst

uck

e(g

ener

icco

nte

nt)

fur

Obje

kte

bes

tim

mte

r

Obje

ktkl

asse

n

z.B

.Log

os,Sta

ndar

dpar

agra

phen

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

17/181

Dok

umen

tkla

sse

Reg

eln

Gen

eric

Con

tent

Exe

mpl

ar

von

Dok

umen

t

Str

uktu

ren

Inha

lt

logi

sche

Sic

htLa

yout

−S

icht

Dok

umen

te a

us d

er S

icht

von

OD

A

Abbild

ung

2:D

okum

ente

aus

der

Sic

ht

von

OD

A

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

18/181

Lay

out−

Log

isch

eSt

rukt

urL

ayou

t−st

rukt

ur

Inha

lt(z

.B. T

ext,

geom

. Gra

phik

, Fot

os)

Proz

ess

Dok

umen

t−in

halt

stru

ktur

enD

okum

ent−

Abbild

ung

3:D

okum

ents

trukt

ure

nund

Dok

um

entinhal

t

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

19/181

10.3

.1.2

Str

uktu

ren

inO

DA

logi

sche

und

Lay

out-

Str

ukt

ur

als

Hie

rarc

hie

von

Obje

kten

jedes

Obje

ktge

hor

tzu

einer

Obje

ktk

lass

eund

einem

Obje

ktt

yp:

•O

bje

ktty

p:in

der

Nor

mdefi

nie

rt,

zusa

mm

enm

itden

dar

auf

anwen

dbar

enAtt

ribute

nund

ihre

rRol

lein

der

Dok

um

enta

rchitek

tur

•O

bje

ktkl

asse

:Spez

ifizi

erung

inder

Dok

um

entk

lass

endefi

nitio

n,

aufder

Bas

isvo

nO

bje

ktty

pen

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

20/181

Obje

ktt

ypen

fur

die

logisch

eStr

uktu

r:

•docu

men

tlo

gica

lro

ot

ober

ste

Stu

feder

logi

schen

Str

ukt

ur

•bas

iclo

gica

lob

ject

unte

rste

Eben

eder

logi

schen

Str

ukt

ur

(Bla

tter

des

Str

ukt

urb

aum

es)

•co

mpos

ite

logi

calob

ject

auf

den

Hie

rarc

hie

eben

enzw

isch

endocu

men

tlo

gica

lro

otund

bas

iclo

gica

l

obje

ct(o

hne

Inhal

t)

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

21/181

Obje

ktt

ypen

fur

die

Lay

out-

Str

uktu

r:

docu

men

tla

yout

root

ober

ste

Stu

feder

Lay

out-

Str

ukt

ur

page

set

Zusa

mm

enfa

ssung

einer

Gru

ppe

von

Sei

ten

page

zwei

dim

ension

aler

Ber

eich

,au

fdem

der

Dok

um

entinhal

tpos

itio

nie

rtund

dar

gest

ellt

wird

fram

ere

chte

ckig

erB

erei

chau

fei

ner

Sei

te,in

den

der

Inhal

tbei

der

Lay

outg

esta

l-

tung

form

atie

rtwer

den

kann.

Ein

fram

een

thal

ti.a.

meh

rere

Blo

cke,

aber

kein

Blo

ckdar

fau

ßerh

alb

eines

fram

esau

ftre

ten

blo

cken

thal

tIn

hal

tei

ner

einzi

gen

Inhal

tsar

chitek

tur

(z.Z

t.ge

nor

mt:

char

acte

rco

nte

nt

arch

itec

ture

,ge

omet

ric

grap

hic

sco

nte

nt

arch

itec

ture

,ra

ster

grap

hic

sco

nte

nt

arch

itec

ture

)

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

22/181

Zuor

dnung

zwisch

enbas

iclo

gica

lob

ject

sund

Blo

cken

:

sowoh

lm

ehre

rebas

iclo

gica

lob

ject

szu

einem

Blo

ck

(z.B

.K

apitel

uber

schrift

bes

tehen

dau

sN

um

mer

und

Tex

t)

als

auch

meh

rere

Blo

cke

zuei

nem

bas

iclo

gica

lob

ject

(z.B

.A

uft

eilu

ng

eines

Absa

tzes

aufzw

eiSei

ten)

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

23/181

Firm

en−

zeic

hen−

Blo

ck

Fra

me

Adr

esse

n−

Adr

esse

n−

Blo

ck

Dat

ums−

Fra

me

Dat

ums−

Blo

ck

Anr

ede−

Blo

ck

Rum

pf−

Fra

me

1

Abs

chni

tts−

Blo

ck

Rum

pf−

Fra

me

2

Abs

chni

tts−

Blo

ck

Abs

chni

tts−

Blo

ck

Unt

ersc

hrift

Blo

ck

Abbild

ung

4:A

uft

eilu

ng

eines

Dok

um

ente

sin

Blo

cke

und

Fra

mes

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

24/181

Logi

sche

Str

uktu

r

Layo

ut−

Str

uktu

r

Ers

te

Sei

te

Brie

fLay

out

Firm

en−

zeic

hen

Blo

ck

Adr

ess−

Blo

ck

Adr

ess−

Fra

me

Dat

ums−

Blo

ck

Dat

ums−

Fra

me

Anr

ede−

Blo

ck

Abs

ch.−

Blo

ck

Rum

pf−

Fra

me

1

Abs

ch.−

Blo

ck

Abs

ch.−

Blo

ck

Unt

ersc

hr.−

Blo

ck

Rum

pf−

Fra

me

2

And

ere

Sei

te

Adr

esse

Dat

umA

nred

eA

bsch

nitt

Abs

chn.

Abs

chn.

Rum

pf

Brie

f

Abbild

ung

5:Log

isch

eund

Lay

out-

Sic

ht

des

selb

enD

okum

ente

s

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

25/181

Att

ribute

bes

chre

iben

die

Eig

ensc

haf

ten

von

Obje

kten

jedes

Att

ribut

hat

Att

ributt

ypund

Wer

t

Att

ributt

yp

legt

die

Sem

antik

eines

Att

ributs

fest

z.B

.D

imen

sion

fur

Obje

kte

vom

Typ

pag

e,fram

eund

Blo

ck,

Pos

itio

nfu

rO

bje

kte

vom

Typ

fram

eoder

Blo

ck

Att

ribute

sind

entw

eder

•ex

pliz

itbei

Obje

kten

ange

geben

oder

•au

sst

yles

abge

leitet

(Att

ributs

amm

lung

bei

der

zuge

hor

igen

Obje

ktkl

asse

nbes

chre

ibung

oder

der

hie

rarc

hisch

uber

geor

dnet

enO

bje

ktkl

asse

)

10.3

.1.3

Aust

ausc

hfo

rmat

Dar

stel

lung

eines

OD

A-D

okum

ente

sal

sB

itst

rom

(zur

Uber

trag

ung

zwisch

en

vers

chie

den

enSys

tem

en)

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

26/181

Mach

tigke

itder

Aust

ausc

hfo

rmate

variie

rtbzg

l.

•M

enge

der

verw

endbar

enIn

haltsa

rchitek

ture

n:

char

acte

rco

nte

ntar

chitec

ture

inal

len

Aust

ausc

hfo

rmat

en,zu

satz

liche

Inhal

ts-

arch

itek

ture

nin

kom

ple

xere

nA

ust

ausc

hfo

rmat

en

•U

ber

tragung

inwei

terb

earb

eitb

arer

und/oder

form

atier

ter

Form

:

abhan

gig

vom

Zwec

kdes

Aust

ausc

hs

–fo

rmat

iert

eFor

m:

erla

ubt

nur

das

orig

inal

getr

eue

Rep

roduzi

eren

des

Dok

um

ente

s

z.B

.Fax

,Tel

ex

–wei

terb

earb

eitb

are

For

m

erm

oglic

ht

die

Wei

terb

earb

eit

ung

des

Dok

um

ente

sbei

mEm

pfa

nge

r,

Lay

out

muß

vom

Em

pfa

nge

rdefi

nie

rtwer

den

–wei

terb

earb

eitb

are

form

atie

rte

For

m:

volls

tandig

eU

ber

trag

ung

des

Dok

um

ente

s,

erla

ubt

Wei

terb

earb

eitu

ng

und

orig

inal

getr

eue

Rep

rodukt

ion

des

Dok

u-

men

tes

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

27/181

10.3

.2M

arkup-S

pra

chen

Mar

kup-A

nsa

tze:

1.Zei

chen

setz

ung

2.Lay

out

(WYSIW

YG)

3.pr

ozed

ura

l(T

roff,TeX

,LaT

eX)

4.des

krip

tiv

(GM

L,SG

ML)

5.re

fere

ntiel

l(e

mbed

,in

clude;

SGM

L)

6.M

eta-

Mar

kup

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

28/181

10.3

.2.1

SG

ML

•SGM

L=

ISO

8879

,

Sta

ndar

dG

ener

aliz

edM

arku

pLan

guag

e

•Ver

wan

dte

Sta

ndar

ds:

–IS

O10

179:

DSSSL,

Docu

men

tSty

leSem

antics

&Spec

ifica

tion

s

(Lay

out-

Spez

ifika

tion

sspr

ache

fur

SG

ML-D

okum

ente

)

–IS

O86

13:O

DA

,

Offi

ceD

ocu

men

tA

rchitec

ture

:

(For

mat

ieru

ng,

Dar

stel

lung,

Aust

ausc

h)

OD

ML:SGM

L-D

TD

fur

OD

A-D

okum

ente

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

29/181

Eig

ensc

haft

envo

nSG

ML

SGM

List

•A

usz

eich

nungs

spra

che,

DB

-Spr

ache

•er

wei

terb

are

Dok

um

ent-

Bes

chre

ibungs

spra

che

•M

etas

prac

he

zur

Defi

nitio

nvo

nD

okum

entt

ypen

SGM

Lunte

rstu

tzt

•lo

gisc

he

Str

ukt

ure

n,H

iera

rchie

n

•Ver

knupfu

ng

und

Adre

ssie

rung

von

Dat

eien

•M

ultim

edia

und

Hyp

erte

xt

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

30/181

Ver

arbei

tung

von

SG

ML-D

okum

ente

n

•sy

nta

ktisch

eU

ber

prufu

ng

gem

aßei

ner

DT

D

•A

usd

ruck

enge

maß

einer

DSSSL-S

pez

ifika

tion

•A

nze

igen

amB

ildsc

hirm

(gem

aßei

ner

DSSSL-S

pez

ifika

tion

)

•In

dex

iere

nfu

rK

onte

xt-o

rien

tier

teSuch

e

•U

ber

setz

ung

inei

ne

ander

eRep

rase

nta

tion

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

31/181

SG

ML

—M

arkup

SGM

Lunte

rstu

tzt

4A

rten

von

Mar

kup:

1.des

krip

tiv:

Tag

s

2.re

fere

ntiel

l:Ref

eren

zen

aufO

bje

kte

3.M

eta-

Mar

kup:M

arku

p-D

ekla

ration

en(D

TD

)

4.pr

ozed

ura

l:LIN

K,CO

NCU

R

des

krip

tive

rM

arku

p

•Ele

men

te:

–G

I(g

ener

icid

entifier

):in

Sta

rt-

und

Ende-

Tag

s

–id

=id

ref

–Att

ribut-

Wer

te-P

aare

–In

hal

t

•ob

erst

esEle

men

t:D

okum

ent

•Ele

men

tehab

enei

nIn

hal

ts-M

odel

l(G

ram

mat

ik-P

rodukt

ion)

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

32/181

DT

Ds

•D

efinie

ren

eine

Kla

sse

von

Dok

um

ente

n

•Spez

ialis

iere

nSGM

Lfu

rD

okum

ente

einer

Kla

sse

•B

einhal

ten

eine

Att

ribut-

Gra

mm

atik

•B

einhal

ten

eine

Sch

achte

lungs

-Gra

mm

atik

•U

nte

rstu

tzung

von

Hie

rarc

hie

ndurc

hSch

achte

lung

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

33/181

Bei

spie

lei

ner

SG

ML-D

TD

:

<!ELEMENT

article

--

(title,

abstract,

section+)>

<!ELEMENT

title

--

(#PCDATA)>

<!ELEMENT

abstract

-o

(#PCDATA)>

<!ELEMENT

section

-o

((title,

body+)

|(title,

body*,

subsectn+))>

<!ELEMENT

subsectn

-o

(title,

body+)>

<!ELEMENT

body

-o

(figure

|paragr)>

<!ELEMENT

figure

-o

EMPTY>

<!ELEMENT

paragr

-o

(#PCDATA)>

<!ATTLIST

article

author

NAMES

#REQUIRED

status

(final

|draft)

draft

>

<!ATTLIST

figure

file

ENTITY

#IMPLIED>

<!ENTITY

file

SYSTEM

"/tmp/picture.ps")

NDATA>

<!ENTITY

amp

"&">

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

34/181

Dokum

ent

zur

DT

D:

<article

status

=draft"

author

="Cluet

Christophides">

<title>From

Structured

Documents

to

...</title>

<abstract>Structured

Documents

(e.g

SGML)

can

benefit

from...

<section>

<title>Introduction</title>

<body><paragr>This

Paper

is

organized

as

follows.

...

</body></section>

<section>

<title>SGML

preliminaries</title>

<body>

<figure>

</article>

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

35/181

Ele

men

t:

<!ELEMENT

Ele

men

tnam

eom

itst

art

omiten

dPro

dukt

ion

>

Att

ributliste

zuEle

men

ten:

<!ATTLIST

Ele

men

tnam

eAtt

ributn

ame

Wer

teber

eich

Default>

Entita

ten:(E

rset

zungs

mec

han

ism

us)

<!ENTITY

Enam

eW

ert>

Ref

eren

zier

ung:

&Enam

e

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

36/181

10.3

.2.2

HT

ML

<!ELEMENT

HTML

OO

HEAD,

BODY

--HTML

document-->

<!ELEMENT

HEAD

OO

TITLE>

<!ELEMENT

TITLE

--

#PCDATA>

<!ELEMENT

BODY

OO

%content>

<!ENTITY

%content

"(%heading

|%htext

|%block

|HR)*">

<!ENTITY

%heading

"H1|H2|H3|H4|H5|H6">

<!ENTITY

%htext

"A

|%text"

--hypertext-->

<!ENTITY

%text

"#PCDATA

|IMG

|BR">

<!ELEMENT

IMG

-O

EMPTY

--Embed.

image-->

<!ELEMENT

BR

-O

EMPTY>

<!ENTITY

%block

"P

|PRE">

<!ELEMENT

P-

O(%htext)+

--paragraph-->

<!ELEMENT

PRE

--

(%pre.content)+

--preform.-->

<!ENTITY

%pre.content

"#PCDATA

|A">

<!ELEMENT

A-

-(%text)+

--anchor-->

<!ELEMENT

HR

-O

EMPTY

--

horizontal

rule

-->

<!ATTLIST

A

NAME

CDATA

#IMPLIED

HREF

CDATA

#IMPLIED

--link-->

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

37/181

<!ATTLIST

IMG

SRC

CDATA

#REQUIRED

--URL

of

img--

ALT

CDATA

#REQUIRED

ALIGN

(top|middle|bottom)

#IMPLIED

ISMAP

(ISMAP)

#IMPLIED

>

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

38/181

HT

ML

als

Hyp

erte

xt-M

arkup-S

pra

che

Anke

r:

<A

NAME=¨A

nam

HREF=¨U

RL¨>

Anke

r-Tex

t/-B

ild</A>

NA

ME

zur

Ref

eren

zier

ung

als

Zie

lei

nes

Ver

wei

ses

HREF

Zie

ldes

Ver

wei

ses

(URL)

URL

Unifor

mRes

ourc

elo

cato

r

http://Rec

hner

nam

e/P

fad/#

Anke

rnam

e

ISM

AP:

grap

hisch

erA

nke

r,

Bro

wse

ruber

mitte

ltPos

itio

nim

Bild

Form

ula

re:

Bro

wse

ruber

mitte

ltau

sgef

ullt

eW

erte

/au

sgew

ahlte

Men

uei

ntr

age

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

39/181

HT

ML

vs.SG

ML

•en

tspr

icht

einer

SG

ML-D

okum

entk

lass

e(D

TD

)

•M

isch

ung

von

logi

schen

und

Lay

out-

Tag

s

•ke

ine

verb

indlic

he

DSSSL-S

pez

ifika

tion

,

kein

eM

oglic

hke

itzu

mU

ber

mitte

lnvo

nD

SSSL-S

pez

ifika

tion

en

Fol

geru

nge

n:

•H

TM

List

wen

iger

flex

ibel

als

SG

ML

•nur

min

imal

elo

gisc

he

Str

ukt

urier

ung

mog

lich

(ers

chwer

tRet

riev

al)

•Lay

out

kann

durc

hden

Anbie

ter

nur

teilw

eise

bee

influßt

wer

den

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

40/181

10.3

.2.3

XM

L

vere

infa

chte

sSG

ML:

•Sta

rt-

und

Ende-

Tag

sm

uss

enim

mer

ange

geben

wer

den

•Spez

ialfor

m:ko

mbin

iert

esSta

rt-E

nde-

Tag

z.B

.<BR/>,<IMG

src="icon.gif"/>

•D

TD

nic

ht

imm

ernot

wen

dig

:

wel

l-fo

rmed

XM

L:

synta

ktisch

korr

ekte

sX

ML-D

okum

ent

valid

XM

L:

XM

L-D

okum

ent,

das

zuge

hor

ige

DT

Der

fullt

•Ele

men

tnam

en:Gro

ß-K

lein

schre

ibung

wic

htig,

Unte

rstr

ich

und

Dop

pel

punkt

erla

ubt

•za

hlrei

che

Spez

ialfal

leau

sSG

ML

verb

oten

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

41/181

Bei

spie

lei

ner

XM

L-D

TD

<!ELEMENT

article

(title,

abstract,

section+)>

<!ELEMENT

title

(#PCDATA)>

<!ELEMENT

abstract

(#PCDATA)>

<!ELEMENT

section

((title,

body+)

|(title,

body*,

subsectn+))>

<!ELEMENT

subsectn

(title,

body+)>

<!ELEMENT

body

(figure

|paragr)>

<!ELEMENT

figure

EMPTY>

<!ELEMENT

paragr

(#PCDATA)>

<!ATTLIST

article

author

CDATA

#REQUIRED

status

(final

|draft)

"draft">

<!ATTLIST

figure

file

ENTITY

#IMPLIED>

<!ENTITY

file

SYSTEM

"/tmp/picture.ps")

NDATA

postscript>

<!ENTITY

amp

"&">

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

42/181

Dokum

ent

zur

DT

D:

<?xml

version="1.0"

encoding="ISO-8859-1"?>

<!DOCTYPE

article

SYSTEM

"/services/dtds/article.dtd">

<article

status

=draft"

author

="Cluet

Christophides">

<title>From

Structured

Documents

to

...</title>

<abstract>Structured

Documents

(e.g

SGML)

can

benefit

from...

</abstract>

<section>

<title>Introduction</title>

<body><paragr>This

Paper

is

organized

as

follows.

...

</body></section>

<section>

<title>SGML

preliminaries</title>

<body>

<figure/>

</body></section>

</article>

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

43/181

2A

rten

von

XM

L-A

nwen

dungen

1.st

rukt

urier

teD

okum

ente

DT

Ds

fur

Dok

um

ente

aus

spez

ielle

nBer

eich

en,z.

B.

•M

athM

L:M

athem

atik

•CM

L:Chem

ie

•SM

IL:m

ultim

edia

leD

okum

ente

2.fo

rmat

iert

eD

aten

(z.B

.Spr

eadsh

eets

,M

etad

aten

,D

aten

ban

ken,..

.)

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

44/181

Zusa

tze

zuX

ML:

XSL

(XM

LSty

leLan

guag

e):

Defi

nitio

nvo

nSty

lesh

eets

zur

Pra

senta

tion

bisher

stan

dar

disie

rt:XSLT

zur

Tra

nsf

orm

atio

nzw

isch

enX

ML-D

okum

ente

n

(z.B

.nac

hH

TM

L)

XLin

kD

efinitio

nvo

nH

yper

text

-Lin

ks

inte

r/ex

tern

,Typ

isie

rung,

meh

rere

Zie

le,ve

rsch

.A

ktio

nen

XPoin

ter

Adre

ssie

rungs

mec

han

ism

enfu

rXM

L

(zur

Spez

ifika

tion

von

Anke

rnbei

XLin

k)

XM

Lquer

yla

nguage

(noch

inEntw

ickl

ung)

Zie

l:K

ombin

atio

nvo

nTex

tret

riev

alund

Dat

enban

ksuch

e

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

45/181

10.4

Zugriffsp

fade

10.4

.1Sca

nnin

g

10.4

.1.1

Gen

erel

leU

ber

legungen

Ver

zich

tau

fAnle

gen

eines

geso

nder

ten

Zugr

iffsp

fades

,st

attd

esse

nm

oglic

hst

effizi

ente

sequen

tiel

leSuch

e

→er

spar

tden

Ove

rhea

dfu

rdas

Anle

gen

des

Zugr

iffsp

fades

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

46/181

Pro

ble

me:

Aufw

and

wach

stlin

ear

mit

dem

Date

nvo

lum

en,

dah

ernurfu

rkl

einer

eD

aten

-

bes

tande

geei

gnet

(insb

eson

der

eau

chin

Tex

teditor

enei

nge

setz

t)

Ber

uck

sich

tigung

von

Fle

xions-

und

Der

ivationse

ndungen

erhoh

tdie

Kom

-

ple

xita

tund

den

Ber

echnungs

aufw

and

der

Alg

orithm

en

Wort

reih

enfo

lge

und

Sto

ppwort

elim

ination:

dito

info

rmat

ion

retr

ieva

l—

retr

ieva

lof

info

rmat

ion

Rankin

galg

orith

men

:sc

hle

cht

kom

bin

ierb

ar

(inve

rse

Dok

um

enth

aufigk

eitst

ehter

stnac

hdem

Durc

hla

ufe

nal

lerD

okum

ente

fest

)

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

47/181

Anwen

dungs

ber

eich

e:

•har

dwar

emaß

igim

ple

men

tier

t:

Ver

arbei

tungs

gesc

hw

indig

keit≥

Tra

nsf

erra

teder

Pla

tten

laufw

erke

•H

ighlig

hting

von

Such

beg

riffen

bei

der

Anze

ige

von

gefu

nden

enD

okum

ente

n

•Ver

glei

chsk

ompon

ente

inSig

nat

ur-

Sys

tem

en

(Sig

nat

ure

nw

irke

nnur

als

Filt

er)

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

48/181

10.4

.1.2

Vorb

emer

kungen

zuSca

nnin

g-A

lgorith

men

imfo

lgen

den

nur

Pat

tern

sbes

tehen

dau

sei

ner

fest

enZei

chen

folg

ebet

rach

tet

(kei

ne

Alter

nat

iven

,ke

ine

“don

’tca

re’s”)

Not

atio

nen

:

nLan

gedes

Tex

tes

mLan

gedes

Pat

tern

s(s

eist

ets

m≤

n)

cG

roße

des

zugr

undel

iege

nden

Alp

hab

ets

Σ

Cn

Erw

artu

ngs

wer

tfu

rdie

Anza

hlder

zeic

hen

wei

sen

Ver

glei

che

inei

nem

Alg

o-

rith

mus

fur

einen

Tex

tder

Lan

gen

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

49/181

Anal

yse

bas

iert

aufA

nnah

me

einer

zufa

llige

nZei

chen

kett

e

(Zei

chen

kett

eder

Lan

gel

bes

teht

aus

der

Kon

kate

nat

ion

von

lZei

chen

,die

unab

han

gig

und

glei

chve

rtei

ltzu

falli

gau

entn

omm

enwer

den

)

Wah

rsch

einlic

hke

itfu

rdie

Gle

ichhei

tvo

nzw

eizu

falli

gau

sgew

ahlten

Zei

chen

:1/

c

Wah

rsch

einlic

hke

itfu

rden

mat

chzw

eier

Zei

chen

folg

eder

Lan

gem

:1/

cm

Erw

artu

ngs

wer

tder

Anza

hlTre

ffer

tfu

rei

nPat

tern

der

Lan

gem

inei

nem

Str

ing

der

Lan

gen:

E(t

)=

n−

m+

1cm

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

50/181

10.4

.1.3

Der

naiv

eA

lgorith

mus

Pat

tern

:abracadabra

aababcabcdabracadabra

ab abr

a

abr

a

a

abr

a

a

a

abracadabra

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

51/181

Alg

orith

mus:

naivesearch(text,

n,

pat,

m)

/*

Search

pat[1..m]

*/

char

text[],

pat[];

int

n,

m;

int

i,

j,

k,

lim;

lim

=n

-m

+1

for

(i

=1;

i<=

lim;i++)

/*

Search

*/

k=

i;

for

(j

=1;

j<=

m&&text[k]

==

pat[j];

j++)

k++;

if

(j

>m

)

Report_match_at_position(i

-j

+1);

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

52/181

Absc

hatz

ung

des

Aufw

ands:

Erw

artu

ngs

wer

tfu

rdie

Anza

hlVer

glei

che

bis

zum

erst

enTre

ffer

:

Cfirst

matc

h=

cm+

1

c−

1−

c

c−

1

Erw

artu

ngs

wer

tfu

rdie

Ges

amtz

ahlder

Ver

glei

che:

Cn

=c

c−

1

( 1−

1 cm

) (n−

m+

1)+

O(1

)

(wor

stca

seer

ford

ert

m·n

Ver

glei

che)

Ver

bes

seru

ng

des

naiv

enA

lgorith

mus’:

bes

tim

mte

Rec

hner

arch

itek

ture

nbie

ten

spez

ielle

nM

asch

inen

bef

ehlzu

rSuch

enac

h

dem

erst

enAuft

rete

nei

nes

bes

tim

mte

nZei

chen

s

(bzw

.au

sei

ner

Men

gevo

nZei

chen

)

(IBM

/360

-Arc

hitek

tur:

Bef

ehl“T

ranslat

ean

dTes

t”)

→Ein

satz

fur

die

Such

enac

hdem

erst

enZei

chen

des

Pat

tern

sN

.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

53/181

10.4

.1.4

Der

Knuth

-Morr

is-P

ratt

-Alg

orith

mus

Gru

ndid

ee:

wen

nber

eits

eine

teilw

eise

Uber

einst

imm

ung

zwisch

enPat

tern

und

Str

ing

gefu

nden

wurd

e,bev

ordas

erst

eve

rsch

ieden

eZei

chen

auft

ritt

,ka

nn

die

seIn

form

atio

nzu

r

Wah

lei

nes

bes

sere

nA

ufs

etzp

unkt

esge

wah

ltwer

den

aababrabrabracadabra

ab abr abrac brac bracadabra

Beo

bac

htu

nge

n:

•wen

iger

Aufs

etzp

unkt

eal

sbei

mnai

ven

Alg

orithum

s

•Zei

ger

imStr

ing

muß

nie

zuru

ckge

setz

twer

den

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

54/181

Vor

proz

essier

ung

des

Pat

tern

snot

wen

dig

:

Tab

elle

next[1..m]

gibt

die

nac

hst

ePos

itio

nim

Pat

tern

an,

mit

der

bei

Ungl

eich

hei

tve

rglic

hen

wer

den

muß:

nex

t[j]

=m

axi|(p

att

ern[k

]=patt

ern[j−

i+

k]

for

k=

1,..

.,i−

1)

and

patt

ern[i]6=

patt

ern[j

]

(Such

enac

hdem

langs

ten

uber

einst

imm

enden

Pra

fix,

sodaß

das

nac

hst

eZei

chen

imPat

tern

vers

chie

den

ist

von

dem

Zei

chen

,bei

dem

die

Ungl

eich

hei

tau

ftra

t)

Tab

elle

next

fur

den

Pat

tern

abracadabra:

ab

ra

ca

da

br

a

next[j]

01

10

20

20

11

05

next[i]=

0→

Zei

ger

imTex

tum

eins

vorr

uck

enund

wie

der

mit

dem

Anfa

ng

des

Pat

tern

sve

rgle

ichen

next[m+1]

defi

nie

rtA

ufs

etzp

unkt

imFal

lei

nes

Mat

chs

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

55/181

Alg

orith

mus

kmpsearch(char

text[],int

n,

char

pat[],

int

m)

/*

Search

pat[1..m]in

text[1..n]

*/

int

j,

k,

resume,

matches;

int

next[MAX_PATTERN_SIZE];

pat[m

+1]

=CHARACTER_NOT_IN_THE_TEXT;

/*

Preprocess

pattern*/

initnext(pat,

m+

1,

next);

resume

=next[m

+1];

next[m+1]

=-1;

j=k

=1;

do

/*

Search

*/

if

(j

==

0||

text[k]==

pat[j])

k++;

j++;

else

j=

next[j];

if

(j

>m)

Report_match_at_position(k

-j

+1);

while(k

<=

n);

pat[m

+1]

=END_OF_STRING;

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

56/181

ober

eSch

ranke

fur

den

Erw

artu

ngs

wer

tder

Ges

amtz

ahlder

Ver

glei

che:

(bei

groß

enAlp

hab

eten

)

Cn n≤

1+

1 c−

1 cm

Ver

ringe

rung

des

Aufw

ands

bei

mK

MP-A

lgor

ithm

us

imVer

hal

tnis

zum

nai

ven:

KM

P

naiv

e≈

1−

2 c2

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

57/181

10.4

.1.5

Der

Boye

r-M

oore

-Alg

orith

mus

Gru

ndid

een:

•Ver

glei

chdes

Pat

tern

svo

nre

chts

nac

hlin

ks

•M

atch

-Heu

rist

iken

(ahnlic

hw

iebei

KM

P)

•Vor

kom

men

sheu

rist

ik

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

58/181

Matc

h-H

eurist

ik:

Shift,

sodaß

ander

neu

enVer

glei

chsp

ositio

n

1.Pat

tern

alle

vorh

eruber

einst

imm

enden

Zei

chen

mat

cht

2.ei

nan

der

esZei

chen

als

vorh

eran

der

Ver

glei

chsp

ositio

nst

eht

Bei

spie

lzu

rM

atch

-Heu

rist

ik

..xaxraxxxxxxabracadabra

a ra

bra

dabra

abracadabra

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

59/181

Imple

men

tier

ung

der

Mat

ch-H

eurist

ikal

sTab

elledd

(gib

tden

Shift

imTex

tan

,Ver

glei

chje

wei

lsbeg

innen

dm

itdem

letz

ten

Pat

tern

-

Zei

chen

)

dd[j

]=

mins

+m−

j|s≥

1an

d

((s≥

jor

patt

ern[j−

s]6=

patt

ern[j

])an

d

((s≥

ior

patt

ern[i−

s]=

patt

ern[i])

for

j<

i≤

m)

Bei

spie

l:Tab

elle

dd

fur

den

Pat

tern

abracadabra:

ab

ra

ca

da

br

a

dd[j]

17

16

15

14

13

12

11

13

12

41

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

60/181

Vork

om

men

sheu

rist

ik

Ausr

ichte

nder

Tex

tpos

itio

n,an

der

Ungl

eich

hei

tau

ftra

t,m

itdem

erst

enuber

ein-

stim

men

den

Zei

chen

imPat

tern

Defi

nitio

nei

ner

uber

das

Tex

tzei

chen

indiz

iert

enTab

elled

(gib

teb

enfa

llsShift

im

Tex

tan

,Ver

glei

chje

wei

lsbeg

innen

dm

itdem

letz

ten

Pat

tern

-Zei

chen

)

d[x

]=

mins|s

=m

or

(0≤

s<

man

dpatt

ern[m−

s]=

x)

Bei

spie

l:Tab

elle

dfu

rden

Pat

tern

abracadabra:

d[′ a

′ ]=

0d[′ b

′ ]=

2d[′ c

′ ]=

6d[′ d

′ ]=

4d[′ r

′ ]=

1

(fur

alle

ander

enZei

chen

xistd[x]

=11)

Alg

orith

mus

wahlt

jewei

lsden

gro

ßer

enShift

von

Matc

h-

und

Vork

om

-

men

sheu

rist

ik

(gle

iche

Shift-

Str

ateg

ienac

hei

nem

Tre

ffer

)

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

61/181

Alg

orith

mus

bmsearch(char

text[],

int

n,

char

pat[],

int

m)

/*

Search

pat[1..m]in

text[1..n]

*/

int

k,

j,

skip;

int

dd[MAX_PATTERN_SIZE],

d[MAX_ALPHABET_SIZE];

/*

Preprocess

the

pattern

*/

initd(pat,

m,

d);

initdd(pat,

m,

dd);

k=

m;

skip

=dd[1]

+1;

while(k

<=

n)

/*

Search

*/

j=

m;

while

(j

>0

&&

text[k]

==

pat[j])

j--;

k--;

if

(j

==

0)

Report_match_at_position(k

+1);

k+=

skip;

else

k+=

max(d[text[k]],

dd[j]);

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

62/181

Aufw

andsa

bsc

hatz

ungen

•wor

stca

se:O

(n+

rm)

mit

r=

Anza

hlTre

ffer

(im

ungu

nst

igst

enFal

lw

ienai

ver

Alg

orithm

us)

•unte

reSch

ranke

fur

groß

eA

lphab

ete

und

m

n:

Cn n≥

1 m+

m(m

+1)

2m2c

+O

(c−

2)

•bei

ungl

eich

erAuftre

tensw

ahrs

chei

nlic

hke

itder

Zei

chen

gilt

Cn/n

<1

unte

r

der

Vor

auss

etzu

ng

c

( 1−

c ∑ i=1

p2 i

) >1

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

63/181

10.4

.1.6

Der

Boye

r-M

oore

-Hors

pool-A

lgorith

mus

vere

infa

chte

,bes

chle

unig

teVar

iante

des

Boy

er-M

oor

e-A

lgor

ithm

us’

nur

Vor

kom

men

sheu

rist

ik:

ber

echne

Shift

mit

dem

Zei

chen

imTex

t,des

sen

Pos

itio

nm

omen

tan

mit

dem

letz

ten

Zei

chen

des

Pat

tern

sko

rres

pon

die

rt

Bei

spie

l

..xaxxrbxdabracadabra

ra

a

a

a

adabra

a

abracadabra

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

64/181

Son

der

fall:

wen

nTex

t-Zei

chen

mit

dem

letz

ten

Zei

chen

des

Pat

tern

suber

einst

imm

t

(aber

wei

ter

vorn

eist

eine

Ungl

eich

hei

tau

fget

rete

n):

Set

zezu

erst

korr

espon

die

rendes

Zei

chen

inder

Shift-

Tab

elle

aufden

Wer

tm

und

ber

echne

dan

ndie

Shift-

Tab

elle

fur

die

erst

enm−

1Zei

chen

des

Pat

tern

s:

d[x

]=

mins|s

=m

or(1≤

s<

mand

patt

ern[m−

s]=

x)

Bei

spie

l:Tab

elle

dfu

rden

Pat

tern

abracadabra:

d[′ a

′ ]=

3d[′ b

′ ]=

2d[′ c

′ ]=

6d[′ d

′ ]=

4d[′ r

′ ]=

1

(fur

alle

ander

enZei

chen

xistd[x]

=11)

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

65/181

Alg

orith

mus

bmhsearch(char

text[],

int

n,

char

pat[],

int

m)

/*

Search

pat[1..m]

in

text[1..n]

*/

int

d[MAX_ALPHABET_SIZE],

i,

j,

k;

/*

Preprocessing

*/

for

(j

=0;

j<

MAX_ALPHABET_SIZE;

j++)

d[j]

=m;

for

(j

=1;

j<

m;

j++)

d[pat[j]]

=m

-j;

/*

To

avoid

having

code

*/

pat[0]

=CHARACTER_NOT_IN_THE_TEXT;

/*

for

special

cases

*/

text[0]

=CHARACTER_NOT_IN_THE_PATTERN;

i=

m;

while(i

<=

n)

/*

Search

*/

k=

i;

for

(j

=m;

text[k]

==

pat[j];

j--,

k--);

if

(j

==

0)

Report_match_atposition(k

+1);

i+=

d[text[i]];

/*

restore

pat[0]

and

text[0]

if

necessary

*/

N

.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

66/181

asym

pto

tisc

her

Aufw

and

fur

nund

c(m

itc

nund

m>

4):

Cn n

=1 m

+m

+1

2mc

+O

(c−

2)

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

67/181

10.4

.1.7

Der

Shift-

Or-

Alg

orith

mus

Ech

tzei

t-Alg

orithm

us,

ohne

Zw

isch

ensp

eich

erung

des

Tex

tes

→fu

rhar

dwar

emaß

ige

Imple

men

tier

ung

geei

gnet

bas

iert

aufder

Theo

rie

der

endlic

hen

Auto

mat

en:

Vek

tor

von

mve

rsch

ieden

eZust

andsv

aria

ble

n,

ite

Var

iable

gibt

den

Zust

and

des

Ver

glei

chs

zwisch

enden

Pos

itio

nen

1,..

.,i

des

Pat

tern

sund

den

Pos

itio

nen

(j−

i+

1),.

..,j

des

Tex

tes

an

(j=

aktu

elle

Tex

tpos

itio

n)

ite

bin

are

Zust

andsv

aria

ble

s i:

=0,

falls

letz

tei

Zei

chen

uber

einst

imm

en

=1,

sonst

Rep

rase

nta

tion

des

Zust

andsv

ekto

rsst

ate

als

Bin

arza

hl:

state

=m−

1 ∑ i=0

s i+

1·2

i

Mat

chen

den

dan

der

aktu

elle

nPos

itio

n,wen

ns m

=0

(bzw

.st

ate

<2m

−1)

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

68/181

Updat

edes

Sta

tusv

ekto

rsbei

mLes

enei

nes

neu

enZei

chen

sau

sdem

Tex

t:

•Sta

tusv

ekto

rum

1nac

hlin

kssh

ifte

nund

s 1=

0se

tzen

•A

ktual

isie

ren

des

Sta

tusv

ekto

rsen

tspr

echen

ddem

nac

hst

enei

nge

lese

nen

Zei

chen

(mit

Hilf

eei

ner

Tab

elle

Tm

itEin

trag

enfu

rje

des

Zei

chen

des

Alp

hab

ets)

neu

erSta

tusv

ekto

rer

gibt

sich

aus

Oder

-Ver

knupfu

ng

von

alte

mVek

tor

mit

Tab

elle

nei

ntr

ag

For

mal

:

state

=(s

tate

<<

1)or

T[c

urr

char]

(<<

=Lin

kssh

ift)

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

69/181

Bei

spie

lfu

rTab

elle

T:

Alp

hab

et:a

,b,c

,d

Pat

tern

:aba

bc

T[a]=11010

T[b]=10101

T[c]=01111

T[d]=11111

Defi

nitio

nder

Tab

elle

T:

Tx

=m−

1 ∑ i=0

δ(pat i

+1

=x)·2

i

mit

δ(C

)=

0,fa

llsdie

Bed

ingu

ng

Cer

fullt

ist

(son

st1)

Bei

spie

lfu

rdie

Such

enac

hababc

imTex

tabdabababc:

Text

:a

bd

ab

T[x]

:11010

10101

11111

11010

10101

state:

11110

11101

11111

11110

11101

Text

:a

ba

bc

T[x]

:11010

10101

11010

10101

01111

state:

11010

10101

11010

10101

01111

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

70/181

Alg

orith

mus

sosearch(register

char

*text,

int

n,

char

pat[],

int

m)

/*

Search

pat[1..m]

in

text[1..n]

*/

register

char

*end;

register

unsigned

int

state,

lim;

unsigned

int

T[MAXSYM],

i,

j=

1;

if(m

>WORD)

Abort("Use

pat

size

<=

word

size");

/*

Preprocessing

*/

for

(lim

=0,

i=

0;

i<

MAXSYM;

i++)

T[i]

=0;

for

(i

=1;

i<=

m;

lim

|=

j,

j<<=

B,

i++)

T[pat[i]]

&=

j;

lim

=(lim

>>

B);

text++;

end

=text

+n

+1;

/*

Search

*/

state

=0;

/*

Initial

state

*/

for

(char

*start

=text;

text

<end;

text++)

/*

Next

state

*/

state

=(state

<<

B)

|T[*text];

if

(state

<lim)

Report_match_at_position(text-start-m+2);

N

.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

71/181

Kom

ple

xita

t:O

(dm wen

)(d

abei

istdm we

der

Aufw

and

zur

Ber

echnung

eines

Shifts

bzw

.zu

rO

der

-

Ver

knupfu

ng

von

Bitst

rings

der

Lan

gem

bei

einer

Wor

tlan

gevo

nw

)

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

72/181

Shi

ft−O

r

Knu

th−

Mor

ris−

Pra

tt

Nai

ve

Boy

er−

Moo

re

Boy

er−

Moo

re−

Hor

spoo

l

101520253035404550556065707580859095100

34

56

78

910

1112

1314

1516

1718

1920

2

(sec

)

time

Leng

th o

f Pat

tern

(m

)

Abbild

ung

6:Exp

erim

ente

lleErg

ebnisse

fur

engl

isch

spra

chig

enTex

t

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

73/181

10.4

.1.8

Erw

eite

rungen

des

Shift-

Or-

Alg

orith

mus’

Zei

chen

kla

ssen

:

xbes

tim

mte

sZei

chen

.bel

iebig

esZei

chen

[Z]

Zei

chen

aus

der

Men

geZ

CK

omple

men

tmen

geder

Kla

sse

C

Bei

spie

l:

M[a

e][ij]

.[g−

ot−

z]m

atch

tM

eier

,M

ajer

,M

eise

,ab

ernic

ht

Mal

eroder

Mai

en

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

74/181

Beh

andlu

ng

durc

hA

nder

ung

der

Defi

nitio

nder

Tab

elle

T:

Tx

=m−

1 ∑ i=0

δ(pat i

+16∈

Cla

ssi+

1)·2

i

→M

odifi

kation

der

Pra

proz

essier

ung

des

Pat

tern

sA

lgor

ithm

us

sonst

unve

rander

t!

Bei

spie

l:T

zum

Pat

tern

ab[

ab]

b[a−

c]:

T[a

]=

1100

0

T[b

]=

1001

1

T[c

]=

1110

1

T[d

]=

0110

1

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

75/181

Zei

chen

kett

ensu

che

mit

erla

ubte

nFeh

lern

Max

imal

zahler

laubte

rFeh

ler

vorg

egeb

en

→er

setz

eB

its

imSta

tusv

ekto

rdurc

hZah

ler

fur

Anza

hlder

Feh

ler,

Additio

nder

Ein

trag

eau

sT

stat

tO

R-V

erkn

upfu

ng

Bei

spie

lfu

rdie

Such

enac

hababc

mit

hoc

hst

ens

2Feh

lern

imStr

ingabdabababc:

text

:a

bd

ab

ab

ab

c

T[x

]:11010

10101

11111

11010

10101

11010

10101

11010

10101

01111

state

:99990

99901

99121

92220

32301

34020

50301

14020

50301

04121

**

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

76/181

Alter

native

Patt

erns

Such

enac

hp1∨

...∨

pl

a)m

itei

genem

Sta

tusv

ekto

rfu

rje

des

Pat

tern

Sei

mm

ax

=m

axi(|p

i|).

Aufw

and:O

(dm

ma

x

wel

n)

b)

Ver

kett

ung

alle

rSta

tusv

ekto

ren

Sei

msu

m=∑ i|p

i|.A

ufw

and:O

(dm

su

m

wen

)

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

77/181

10.4

.1.9

Ahnlic

hke

itvo

nZei

chen

kett

en

(insb

eson

der

efu

rdie

Such

enac

hEig

ennam

enund

zur

Kor

rekt

ur

von

Tip

pfe

hle

rn,

erse

tzt

nic

ht

die

lingu

istisc

he

Gru

ndfo

rm-bzw

.Sta

mm

form

redukt

ion)

•phon

etisch

eG

leic

hhei

t:

Wor

ter

wer

den

durc

hei

nen

Phon

etisie

rungs

algo

rith

mus

auf

einen

inte

rnen

Code

abge

bild

et,phon

etisch

glei

che

Wor

ter

dab

eiau

fden

glei

chen

Code

(z.B

.SO

UN

DEX

-Alg

orithm

us

bild

etden

glei

chen

Code

fur

die

engl

isch

spra

-

chig

enW

orte

r”D

ixon

“,”D

ikse

n“und

”Dic

kson

“)

aber

:

ahnlic

hge

schrieb

ene

Wor

ter

wer

den

hau

fig

aufunte

rsch

iedlic

he

Codes

abge

-

bild

et

z.B

.”R

odge

rs“

und

”Rog

ers“

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

78/181

•D

amer

au-L

even

stei

n-M

etrik:

Ahnlic

hke

itsm

aßfu

rZei

chen

kett

en,so

llZah

lder

Tip

pfe

hle

ran

nah

ern

vier

mog

liche

Feh

ler:

Ein

fugu

ng,

Los

chung,

Subst

itution

,Tra

nsp

ositio

n

DL-M

etrik

ber

echnet

fur

zwei

Zei

chen

kett

endie

min

imal

eA

nza

hlFeh

ler,

mit

der

die

sein

einan

der

uber

fuhrt

wer

den

konnen

Zei

chen

Oper

atio

nK

oste

n

MC

Subst

itution

1

OE

Subst

itution

1

NN

=0

S–

Ein

fugu

ng

1

TT

=0

ER

hal

be

Tra

nsp

os.

1/2

RE

hal

be

Tra

nsp

os.

1/2

Sum

me

4

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

79/181

Nac

hte

ileder

DL-M

etrik:

–re

lativ

aufw

endig

zuber

echnen

–B

esch

leunig

ung

der

bes

t-m

atch

-Such

enur

durc

hClu

ster

ing

mog

lich

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

80/181

•A

hnlic

hke

itss

uch

euber

Trigr

ams

(Trigr

am=

Zei

chen

folg

eder

Lan

ge3)

einfa

ches

,ab

erw

irku

ngs

volle

sA

hnlic

hke

itsm

Wor

ter

wer

den

aufdie

Men

geder

enth

alte

nen

Trigr

ams

abge

bild

et

‘MEN

GE’→‘

ME’,

‘MEN

’,‘E

NG

’,‘N

GE’,

‘GE

’A

hnlic

hke

itss

uch

e=

Such

enac

hW

orte

rn,

die

inm

oglic

hst

viel

enTrigr

ams

mit

dem

gege

ben

enW

ort

uber

einst

imm

en

Bes

chle

unig

ung

durc

hsp

ezie

lleZugr

iffsp

fade:

inve

rtie

rte

Liste

noder

Sig

nat

ure

n

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

81/181

10.4

.2In

vert

iert

eListe

n

10.4

.2.1

Prinzipie

ller

Aufb

au

aufs

teig

end

sort

iert

eListe

nvo

nD

okum

entn

um

mer

n,in

den

enei

nTer

mvo

rkom

mt:

t 1d2

d15

d23

d89

...

t 2d5

d15

d89

...

Spei

cher

pla

tzbed

arf:

3B

ytes

fur

dund

1Byt

efu

rf d

,t→

4B

ytes

/Ein

trag

Bei

spie

l:2

GB

TREC-K

olle

ktio

n→

733

MB

inv.

Liste

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

82/181

Anwen

dung

fur

Boole

sches

Ret

riev

al:

∨—

Ver

einig

ender

Liste

n

∧—

Sch

nei

den

der

Liste

n

∧¬—

Diff

eren

zbild

ung

Erg

ebnislis

tefu

rt 1∨

t 2

d2

d5

d15

d23

d89

...

Erg

ebnislis

tefu

rt 1∧

t 2

d15

d89

...

Erw

eite

rung

der

Ein

trag

efu

rdie

Wor

tabst

andss

uch

e:

Anga

ben

uber

alle

Vor

kom

men

inei

nem

Dok

um

ent

wer

den

mit

abge

legt

(z.B

.Fel

dke

nnung,

Sat

znum

mer

,W

ortn

um

mer

)

fuhrt

aber

zuhoh

emSpei

cher

pla

tzbed

arf

(bis

zu10

0%der

Prim

ardat

en)

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

83/181

10.4

.2.2

Rankin

gm

itin

vert

iert

enListe

n

Aufg

aben

stel

lung:

Bes

tim

mung

der

kD

okum

ente

mit

dem

hoc

hst

enRet

riev

alge

wic

ht

Annahm

en:

•Ska

larp

rodukt

als

Ret

riev

alfu

nkt

ion

•Ein

trag

ein

der

inve

rtie

rten

Liste

enth

alte

nzu

satz

lich

das

Index

ieru

ngs

gew

icht

des

Ter

ms

Zie

l:

Anza

hlder

Pla

tten

zugr

iffe

soll

min

imie

rtwer

den

(dah

erB

erec

hnung

nur

uber

die

inve

rtie

rten

Liste

n)

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

84/181

Naiv

erA

lgorith

mus

Prinzipie

lleVorg

ehen

swei

se:

Misch

ender

inve

rtie

rten

Liste

nw

iebei

OD

ER-V

erkn

upfu

ng,

dab

eizu

satz

lich

Ber

echnung

der

Ret

riev

alge

wic

hte

t 1d2,u

12,

d15,u

115

d23,u

123

d89,u

189

...

t 2d5,u

25

d15,u

215

d89,u

289

...

Erg

ebnis:

d2:w

1·u

12,d5:w

2·u

15,d15:w

1·u

115+

w2·u

115,d23:w

1·u

123,

d89:w

1·u

189+

w2·u

189

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

85/181

Alg

orith

mus

fur

Ska

larp

rodukt

1.Fur

jedes

Dok

um

ent

der

Kol

lekt

ion:Set

zeAkk

um

ula

tor

Ad

auf0

2.Fur

jeden

Ter

mder

Anfrag

e:

(a)

Hol

eI t

,die

inve

rtie

rte

Liste

fur

t.

(b)

Fur

jedes

Paa

r〈

Dok

um

entn

um

mer

d,

Index

ieru

ngs

gew

icht

ud,t〉

inI t

setz

eA←

Ad

+w

q,t·u

d,t.

3.Bes

tim

me

die

khoc

hst

enW

erte

Ad

4.Fur

jedes

die

ser

kD

okum

ente

d:

•a)

Hol

edie

Adre

sse

von

Dok

um

ent

d.

•b)

Hol

eD

okum

ent

dan

dpr

asen

tier

ees

dem

Ben

utz

er.

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

86/181

10.4

.2.3

Kom

prim

ieru

ng

inve

rtie

rter

Liste

n

Idee

:Lau

flan

genco

die

rung

Bei

spie

l:

5,8,

12,13

,15

,18

,23

,28

,29

,40

,60

Lau

flan

gen:

5,3,

4,1,

2,3,

5,5,

1,11

,20

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

87/181

Codes

fur

Lauflangen

Codie

rung

einer

nat

urlic

hen

Zah

lx:

γ-C

ode:

1.bl

og2xc+

1im

1er-

Code

(d.h

.bl

og2xc

1-B

its

gefo

lgt

von

einem

0-B

it)

2.x−

2blo

g2

xc

imBin

arco

de

δ-Code:

1.γ-C

odie

rung

vonbl

og2xc+

1

2.x−

2blo

g2

xc

imBin

arco

de

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

88/181

Bei

spie

l:

Codie

rungs

met

hode Gol

omb,

δb

=3

10,

0,0,

0

210

,010

0,0

0,10

310

,110

0,1

0,11

411

0,00

101,

0010

,0

511

0,01

101,

0110

,10

611

0,10

101,

1010

,11

711

0,11

101,

1111

0,0

811

10,0

0011

000,

000

110,

10

•δ-

Code

ben

otigbl

og2xc

+O

(log

log

x)

Bits

•fu

rx

<15

γ-C

ode

mei

st

bes

ser,

dan

ach

δ-Code

nie

schle

chte

r

•γ-

und

δ-Code

sind

Pra

fix-

frei

(kei

ne

zusa

tzlic

hen

Bits,

kein

Bac

ktra

ckin

gbei

Dec

odie

-

rung)

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

89/181

gen

erel

les

Codie

rungss

chem

a

NA

nza

hlD

okum

ente

der

Kol

lekt

ion

V=

(v1,v

2,v

3,.

..)

Vek

tor

nat

urlic

her

Zah

len

mit

v j≤

N

Codie

rung

von

Lau

flan

gex≥

1:

1.finde

k≥

1m

itk−

1 ∑ j=

1

v j<

x≤

k ∑ j=

1

v j

2.co

die

rek

inge

eign

eter

Rep

rase

nta

tion

3.ber

echne

Res

tr

=x−

k−

1 ∑ j=

1

v j−

1

4.Codie

rer

bin

ar:

•m

itbl

og2v kc

Bits

fur

r<

2dlo

g2

vke−

v k,

•m

itdl

og2v ke

Bits

sonst

.

(γ-C

ode

ents

pric

ht

Codie

rung

mit

V=

(1,2

,4,8

,16,

...)

)N

.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

90/181

Golo

mb-C

ode

ben

utz

tVek

tor

VG

=(b

,b,b

,...

)

Codie

rung

ist

optim

alfu

rb

=⌈ lo

g(2−

p)

−lo

g(1−

p)

⌉A

nnah

me:

geom

etrisc

he

Ver

teilu

ng

mit

p=

Wah

rsch

einlic

hke

itfu

rdas

Auft

rete

n

eines

Ter

ms

inei

nem

Dok

um

ent

→W

ahrs

chei

nlic

hke

itfu

rLuck

eder

Lan

gex:(1−

p)x−

1p

Effek

tive

Kom

prim

ieru

ng:

•G

olom

b-C

ode

fur

Lau

flan

gen

•γ-C

ode

fur

Vor

kom

men

shau

figk

eite

nf d

,t

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

91/181

10.4

.2.4

Boole

sches

Ret

riev

al

1.For

each

quer

yte

rmt,

(a)

Sea

rch

the

voca

bula

ryfo

rt.

(b)

Rec

ord

f tan

dth

ead

dre

ssif

I t,th

ein

vert

edlis

tfo

rt.

2.Id

entify

the

quer

yte

rmt

with

the

smal

lest

f t.

3.Rea

dth

eco

rres

pon

din

gin

vert

edlis

t.U

seit

toin

itia

lize

C,th

elis

tof

candid

ates

.

4.For

each

rem

ainin

gte

rmt,

inin

crea

sing

order

off t

,

(a)

Rea

dth

ein

vert

edlis

t,I t

.

(b)

For

each

d∈

C,if

d6∈

I t,th

ense

tC←

C−

dd.

(c)

If|C|=

0,re

turn

,since

ther

ear

eno

answ

ers.

5.For

each

d∈

C,

(a)

Look

up

the

addre

ssof

docu

men

td.

(b)

Ret

riev

edocu

men

td

and

pres

ent

itto

the

use

r.

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

92/181

Zwei

stufige

Str

uktu

rin

vert

iert

erListe

n

Pro

zess

ieru

ng

konju

nkt

iver

Anfrag

en:

kA

nza

hlD

okum

ente

imZw

isch

ener

gebnis

pH

aufigk

eit

des

nac

hst

enzu

ber

uck

sich

tige

nden

Ter

ms

(Anza

hlEin

trag

ein

der

inve

rtie

rten

Liste

)

t dRec

hen

zeit

zur

Dec

odie

rung

eines

Ein

trag

s

Td

Rec

hen

zeit

zur

Dec

odie

rung

der

inve

rtie

rten

Liste

:

Td

=t d

p

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

93/181

Ver

bes

seru

ng:Spru

nglis

te

inve

rtie

rte

Liste

:

〈5,1〉〈

8,1〉〈1

2,2〉〈1

3,3〉〈1

5,1〉〈1

8,1〉〈2

3,2〉〈2

8,1〉〈2

9,1〉

....

Lau

flan

genco

die

rung:

〈5,1〉〈

3,1〉〈4

,2〉〈

1,3〉〈2

,1〉〈

3,1〉〈5

,2〉〈

5,1〉〈1

,1〉..

..

Spr

unge

uber

je3

Dok

um

ente

:

〈〈5,

a2〉〉〈5

,1〉〈

3,1〉〈4

,2〉〈〈1

3,a3〉〉〈1

,3〉〈

2,1〉〈3

,1〉

〈〈23

,a4〉〉〈5

,2〉〈

5,1〉〈1

,1〉〈〈4

0,a5〉〉

....

Codie

rung

der

Adre

ssen

als

Diff

eren

zen,

Weg

lass

ender

Num

mer

des

erst

en

Dok

um

ente

sje

der

Gru

ppe:

〈〈5,

a2〉〉〈1〉〈

3,1〉〈4

,2〉〈〈8

,a3−

a2〉〉〈3〉〈

2,1〉〈3

,1〉

〈〈10

,a4−

a3〉〉〈2〉〈

5,1〉〈1

,1〉〈〈1

7,a5−

a4〉〉

....

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

94/181

Aufw

andsa

bsc

hatz

ung

kA

nza

hlD

okum

ente

imZw

isch

ener

gebnis

pH

aufigk

eit

des

nac

hst

enzu

ber

uck

sich

tige

nden

Ter

ms

(Anza

hlEin

trag

ein

der

inve

rtie

rten

Liste

)

LA

nza

hlEin

trag

epr

oG

ruppe

p1

Anza

hlSpr

unge

intr

age

inder

Liste

:p1

=dp

/Le

t dRec

hen

zeit

zur

Dec

odie

rung

eines

Ein

trag

sder

inv.

Liste

Td

Rec

hen

zeit

zur

Dec

odie

rung

der

inve

rtie

rten

Liste

:

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

95/181

Annah

men

:

1.Anza

hlzu

dec

odie

render

Gru

ppen

:k/2

2.Aufw

and

zur

Dec

odie

rung

eines

Spr

ung-

Ein

trag

s:2t

d

Ges

amta

ufw

and

zur

Dec

odie

rung:

Td

=t d

( 2p1

+kp

2p1

)w

ird

min

imal

fur

p1

=√

kp

2

Bei

spie

l:

k=

60,p

=60

000,

L=

63,t d

=2.

5µs

ohne

Spr

ungl

iste

:0.

150

s

mit

Spr

ungl

iste

:0.

009

s

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

96/181

Ber

uck

sich

tigung

der

zusa

tzlic

hen

Ein

lese

zeit

(fur

L=

63w

achst

inve

rtie

rte

Liste

um

ca.3

%)

t rZei

tzu

mEin

lese

nei

nes

Ein

trag

esder

inve

rtie

rten

Liste

TVer

wei

lzei

tzu

mEin

lese

nund

Dec

odie

ren

einer

Liste

:

T=

t d

( 2p1

+kp

2p1

) +t r

(p+

2p1)

wird

min

imal

fur

p1

=

√ kp/(1

+t r

/t d

)2

Bei

spie

l:

k=

60,p

=60

000,

L=

63,t d

=2.

5µs,

t r=

0.5µ

s

ohne

Spr

ungl

iste

:0.

180

s,m

itSpr

ungl

iste

:0.

040

s,unko

mpr

imie

rte

Liste

:0.

120

s

Spei

cher

pla

tzbed

arf:

kom

prim

iert

ein

vert

iert

eListe

:10

%des

Tex

tes

mit

Spr

ungl

iste

:11

-12%

des

Tex

tes

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

97/181

Boole

sches

Ret

riev

alm

itSpru

nglis

ten

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

98/181

10.4

.2.5

Rankin

gm

itin

vert

iert

enListe

n

Naiv

erA

lgorith

mus

(Alg

orithm

us

fur

Cos

inusm

aß)

1.For

each

docu

men

td

inth

eco

llect

ion,se

tac

cum

ula

tor

Ad

toze

ro.

2.For

each

term

tin

the

quer

y,

(a)

Ret

riev

eI t

,th

ein

vert

edlis

tfo

rt.

(b)

For

each〈d

ocu

men

tnum

ber

d,

wor

dfreq

uen

cyf d

,t〉

poi

nte

rin

I tse

t

A←

Ad

+w

q,t·w

d,t.

3.For

each

docu

men

td,

calc

ula

teC

d←

Ad/W

d,

wher

eW

dis

the

lengt

hof

docu

men

td,an

dC

dis

the

final

valu

eof

cosi

ne(

d,q

).

4.Id

entify

the

rhig

hes

tva

lues

ofC

d,w

her

er

isth

enum

ber

ofre

cord

sto

be

pres

ente

dto

the

use

r.

5.For

each

docu

men

td

sose

lect

ed,

(a)

Look

up

the

addre

ssof

docu

men

td.

(b)

Ret

riev

edocu

men

td

and

pres

ent

itto

the

use

r.N

.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

99/181

Rankin

gm

itSpru

nglis

ten

a)

Quit-A

lgorith

mus

Idee

:H

aufige

Ter

me

(mit

nie

drige

mid

f-Gew

icht)

ignor

iere

n

1.O

rder

the

wor

ds

inth

equer

yfrom

hig

hes

tto

lowes

t.

2.Set

A←∅

Ais

the

curr

ent

set

ofac

cum

ula

tors

.

3.For

each

term

tin

the

quer

y,

(a)

Ret

riev

eI t

,th

ein

vert

edlis

tfo

rt.

(b)

For

each〈d

,fd,t〉

poi

nte

rin

I t,

i.If

Ad∈

A,ca

lcula

teA

d←

A+

wq,t·w

d,t.

ii.O

ther

wise,

set

A←

A+A

d,

calc

ula

teA

d←

wq,t·w

d,t.

(c)

If|A|>

K,go

tost

ep4

4.For

each

docu

men

td

such

that

Ad∈

A,ca

lcula

teC

d←

Ad/W

d.

5.Id

entify

the

rhig

hes

tva

lues

ofC

d.

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

100/181

b)

Continue-

Alg

orith

mus

Idee

:H

aufige

Ter

me

nur

zur

Ret

riev

alwer

tber

echnung

ber

uck

sich

tige

n,ab

ernic

ht

zur

Dok

um

ents

elek

tion

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

101/181

1.O

rder

the

wor

ds

inth

equer

yfrom

hig

hes

tto

lowes

t.

2.Set

A←∅.

3.For

each

term

tin

the

quer

y,

(a)

Ret

riev

eI t

.

(b)

For

each〈d

,fd,t〉

poi

nte

rin

I t,

i.If

Ad∈

A,ca

lcula

teA

d←

A+

wq,t·w

d,t.

ii.O

ther

wise,

set

A←

A+A

d,

calc

ula

teA

d←

wq,t·w

d,t.

(c)

If|A|>

K,go

tost

ep4

4.For

each

rem

ainin

gte

rmt

inth

equer

y,

(a)

Ret

riev

eI t

.

(b)

For

each

dsu

chth

atA

d∈

A,

if〈d

,fd,t〉∈

I d,ca

lcula

teA

d←

Ad

+w

q,t·w

q,t.

5.For

each

docu

men

td

such

that

Ad∈

A,ca

lcula

teC

d←

Ad/W

d.

6.Id

entify

the

rhig

hes

tva

lues

ofC

d.

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

102/181

Ret

riev

alq

ualit

at

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

103/181

Effi

zien

z

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

104/181

10.4

.3PAT

-Tre

es

Gru

ndko

nze

pte

•D

okum

entk

olle

ktio

nal

sei

nStr

ing

Doc1()

Doc2()

Doc3(

Ch1()

Ch2()

)Doc4(

Tit()

Abstr()

Sec1(

Subs1()

Subs2())

Sec2()

)Doc5()

•B

eruck

sich

tigu

ng

der

Dok

um

ents

trukt

ur

bei

der

Such

eSuch

eSec

tion

,in

der

“PAT

”vo

rkom

mt

•Pos

itio

n=

sist

ring

(sem

i-in

finite

string)

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

105/181

Defi

nitio

nen

•sist

ring

=Str

ing

abPos

itio

nbis

Ende

des

Ges

amts

trin

gs,

ID=

Pos

itio

n

Str

ing:

THIS

IS

ASAMPLE

STRING

sist

rings

:

01

-THIS

IS

ASAMPLESTRING

02

-HIS

IS

ASAMPLE

STRING

03

-IS

IS

ASAMPLE

STRING

04

-S

IS

ASAMPLE

STRING

05

-IS

ASAMPLE

STRING

06

-IS

ASAMPLE

STRING

07

-S

ASAMPLE

STRING

07

-A

SAMPLE

STRING

...

•le

xiko

grap

hisch

eO

rdnung

aufden

sist

rings

“ASA

...”

<“A

MP”

<“E

ST

”N

.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

106/181

•PAT

-Tre

e=

Pat

rici

a-Tre

eal

ler

sist

rings

eines

Tex

tes

•Pat

rici

a-Tre

e:

–B

inar

erD

igital

Bau

m

–n

exte

rne

Knot

enm

itSch

luss

elwer

ten

(ID

s)

–n−

1in

tern

eK

not

en

(Wer

t=

abso

lute

/re

lative

Pos

itio

nim

sist

ring)

01

10

01

00

01

01

11

−−

Te

xt1

23

45

67

89

01

23

4 −

− P

osi

tion

2

7

3

5

48

01

0

3

511

00

100

2

360

1

100 4

2

11 1

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

107/181

Alg

orith

men

aufPAT

-Tre

es

Pra

fix-

Such

e

01

10

01

00

01

01

11

−−

Te

xt1

23

45

67

89

01

23

4 −

− P

osi

tion

2

7

3

5

48

01

0

3

511

00

100

2

360

1

100 4

2

11 1

Pref

ix =

100

Such

enac

h10

0*lie

fert

Tei

lbau

mm

it3

und

6

(Such

em

uber

spru

nge

ne

Bits

kontr

ollie

ren)

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

108/181

Rei

hen

folg

e

01

10

01

00

01

01

11

−−

Te

xt1

23

45

67

89

01

23

4 −

− P

osi

tion

2

7

3

5

48

01

0

3

511

00

100

2

360

1

100 4

2

11 1

"01"

,*,"

00"

1.Such

eder

einze

lnen

Wor

ter

(lie

fert

Tei

lbau

me)

2.Bild

ung

alle

rko

rrek

ten

Kom

bin

atio

nen

von

exte

rnen

Knot

en

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

109/181

Ber

eich

ssuch

e

01

10

01

00

01

01

11

−−

Te

xt1

23

45

67

89

01

23

4 −

− P

osi

tion

2

7

3

5

48

01

0

3

511

00

100

2

360

1

100 4

2

11 1

"001

0 ...

100

1"

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

110/181

Langst

eW

ieder

holu

ng

01

10

01

00

01

01

11

−−

Te

xt1

23

45

67

89

01

23

4 −

− P

osi

tion

2

7

3

5

48

01

0

3

511

00

100

2

360

1

100 4

2

11 1

Such

enac

hin

tern

emK

not

enm

itdem

groß

ten

Abst

and

zur

Wurz

el

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

111/181

Haufigke

itss

uch

e

01

10

01

00

01

01

11

−−

Te

xt1

23

45

67

89

01

23

4 −

− P

osi

tion

2

7

3

5

48

01

0

3

511

00

100

2

360

1

100 4

2

11 1

Such

enac

hin

tern

emK

not

enm

itden

mei

sten

Knot

enim

zuge

hor

igen

Tei

lbau

m

hau

figs

tes

Big

ram

=00

kom

mt

3mal

vor

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

112/181

Reg

ula

reA

usd

ruck

e 01

10

01

00

01

01

11

−−

Te

xt1

23

45

67

89

01

23

4 −

− P

osi

tion

2

7

3

5

48

01

0

3

511

00

100

2

360

1

100 4

2

1

Reg

exp

0 [0

1]*1

1,

8

01

0,1

1 1

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

113/181

PAT

Arr

ays

•Sor

tier

tesist

rings→

Arr

aym

itID

s

•B

aum

stru

ktur

imA

rray→

O(n

log

n)

Zugr

iffe

•Sch

nel

lePra

fix-

und

Ber

eich

ssuch

en

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

114/181

10.4

.4Sig

natu

ren

10.4

.4.1

Das

Sig

natu

rkonze

pt

Gru

ndid

ee

Abbild

ung

von

Wor

tern

und

Tex

ten

aufB

itst

rings

fest

erLan

ge(=

Sig

nat

ure

n)

Such

oper

atio

nen

aufSig

nat

ure

neffi

zien

teral

sau

fden

Tex

ten,wei

tere

Bes

chle

uni-

gung

durc

hsp

ezie

lleSpei

cher

ungs

form

enfu

rdie

Sig

nat

ure

nm

oglic

h

Sig

nat

ur:

S:=

<b 1

,b2,.

..,b

L>

mit

b i∈0

,1,

L∈N

Erz

eugu

ng

von

Sig

nat

ure

ndurc

hsu

rjek

tive

Abbild

ung

von

Wor

tern

aufB

itst

rings

(i.a

.durc

hH

ashin

g)

Hom

onym

e:gl

eich

eSig

nat

ure

nfu

rve

rsch

ieden

eW

orte

r

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

115/181

Art

envo

nSig

natu

ren:

a)

Bin

ars

ignatu

ren:

Abbild

ung

von

Wor

tern

aufal

le2L

mog

lichen

Sig

nat

ure

n

Sig

nat

uro

per

ator

=S

pruft

die

Gle

ichhei

tvo

nA

nfrag

e-und

Sat

zsig

nat

ur

b)

uber

lager

ungsf

ahig

eSig

natu

ren:

Wer

tei

ner

Sig

nat

ur

wird

nur

durc

hdie

gese

tzte

nB

its

bes

tim

mt

g=

Sig

nat

urg

ewic

ht

=#

gese

tzte

rB

its

(fur

alle

Wor

ter

glei

ch)

→A

bbild

ung

von

Wor

tern

auf( L g

) vers

chie

den

eSig

nat

ure

n

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

116/181

Uber

lager

ung

:

durc

hO

DER-V

erkn

upfu

ng

der

Sig

nat

ure

n

text

010010001000

S1

sear

ch010000100100

S2

met

hods

100100000001

S3

110110101101

S1∨

S2∨

S3

Vor

-und

Nac

hte

ileuber

lage

rungs

fahig

erSig

nat

ure

n:

–Ents

tehung

von

Phanto

men

(ges

etzt

eB

its

sind

nic

ht

meh

rei

ndeu

tig

den

Ausg

angs

sign

ature

nzu

zuor

dnen

)

+Bild

ung

von

Index

stru

kture

nm

oglic

h

+Blo

ckSuper

impos

edCodin

gzu

rA

bbild

ung

einer

Men

gevo

nW

orte

rnau

fei

ne

einzi

geSig

nat

ur

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

117/181

Sig

nat

uro

per

ator⊇

S

pruft

das

Enth

alte

nse

inder

Anfrag

esig

nat

ur

inei

ner

Sat

zsig

nat

ur:

S⊇

SS

Q⇔

(∀)(

(1≤

i≤

L)∧

((bQ i

=1)⇒

(bi=

1)))

,

S,S

Q∈

SL.

Zuru

ckfu

hru

ng

aufeffi

zien

teB

itop

erat

ionen

:

S⊇

SS

Q⇔

S∧

SQ

=S

Q⇔

(¬S

)∧

SQ

=0 S

text

sear

chm

ethods

1101

1010

1101

inse

arch

ofkn

owle

dge

-bas

edIR

0101

1010

1110

anop

tica

lsy

stem

for

full

text

sear

ch01

0110

1011

00

the

lexi

con

and

IR10

1001

0010

01

Anfrag

e:

text

sear

ch01

0010

1011

00

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

118/181

false

dro

ps:

fehle

rhaf

teA

ntw

orte

n(e

nts

tehen

durc

hH

omon

yme

und

Phan

tom

e)

ImFol

genden

nur

uber

lage

rungs

fahig

erSig

nat

ure

n

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

119/181

Prinzipie

lleO

rganisation

eines

Sig

natu

r-Sys

tem

s

Zug

riffs

−m

anag

er

Mas

ken−

gene

rato

r

Adr

ess−

Aus

wah

l−K

ompo

nent

e

Ver

glei

chs−

kom

pone

nte

Sig

natu

r−

Dat

ei

Dat

en−

Dat

ei

Q SR

DD

F

K

KF

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

120/181

10.4

.4.2

Codie

rungsm

ethoden

Disjo

int

Codin

g

(auch

wor

dco

din

gge

nan

nt,

wen

nau

fW

orte

ran

gewen

det

)

Jedes

Wor

tw

ird

einze

lnau

fei

ne

Sig

nat

urab

gebild

et,die

indie

serFor

mge

spei

cher

t

wird

(abge

sehen

von

einer

mog

lichen

ansc

hlie

ßenden

Kom

prim

ieru

ng,

hie

rnic

ht

bet

rach

tet)

Not

atio

nen

:

LLan

geder

Sig

nat

ur

gSig

nat

urg

ewic

ht

(Anza

hlge

setz

ter

1-B

its)

SP

=S

P(L

,g):

Sig

nat

urp

oten

tial

=#

vers

chie

den

erer

zeugb

arer

Kodie

runge

n

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

121/181

Maxi

mie

rung

des

Sig

natu

rpote

ntials

fur

vorg

egeb

ene

Sig

nat

urlan

geL

:

SP

=( L g

) =L

!g!(

L−

g)!

max

imal

fur

g=

L 2

Bew

eiss

kizz

e:

Da( L g

) =( L L

−g

) ,nur

Bet

rach

tung

von

g≤bL 2c

not

wen

dig

.

Annah

me,

daß

SP

1=

SP

(L,b

L 2c)

und

SP

2=

SP

(L,b

L 2c−

1)=

SP

g

L−

(g−

1).

Weg

eng≤

L 2fo

lgt

SP

2≤

SP

1·( ⌊

L 2

⌋⌊ L 2

⌋ +1

) <S

P1

Ansc

hlie

ßend

Indukt

ionsb

ewei

suber

gund

uber

L

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

122/181

Feh

lerr

ate

FFeh

lerr

ate

=#

zuer

war

tende

Feh

ler

(fal

schlic

her

wei

sege

funden

eSig

nat

ure

n)

WW

orte

rbuch

groß

e

(#Typ

es=

#ve

rsch

ieden

erW

orte

r)

N#

Sat

zsig

nat

ure

n

Abbild

ung

der

Wor

ter

aufSig

nat

ure

n:

Wve

rsch

ieden

eW

orte

rau

fS

P=( L b

L 2c) ve

rsch

ieden

eSig

nat

ure

n

→ei

ner

Sig

nat

ur

sind

imM

itte

lW SP

Typ

eszu

geor

dnet

Ret

riev

alfu

rei

nbes

tim

mte

sW

ort

liefe

rtW SP−

1Sig

nat

ure

nzu

ander

enW

orte

rn

→Erw

arte

teFeh

lerr

ate:

F=( W S

P−

1) N W(1

)

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

123/181

Fes

tleg

ung

der

Sig

natu

rlange

fur

eine

bes

tim

mte

Anwen

dung

Sig

nat

urp

oten

tial

als

Funkt

ion

der

Feh

lerr

ate,

der

Wor

terb

uch

groß

eund

des

Dat

envo

lum

ens:

SP

=W·N

F·W

+N

dar

aus

Ber

echnung

der

Sig

nat

urlan

gem

oglic

h

Lg

SP

84

70

168

1287

0

2412

270

415

6

3216

601

08039

0

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

124/181

Blo

ckwei

seCodie

rung

von

Wort

ern

Abbild

ung

der

Men

geder

Wor

ter,

die

inei

nem

Tex

tblo

ckau

ftre

ten,au

fei

ne

Fol

ge

von

Sig

nat

ure

n

BA

nza

hlder

Blo

cke

wA

nza

hl(v

ersc

hie

den

er)

Wor

ter

pro

Blo

ck

Feh

lerr

ate

bei

blo

ckwei

ser

Codie

rung

bei

zufa

llige

rVer

teilu

ng

von

xTok

enei

nes

Wor

tes

uber

BB

lock

e:

Erw

artu

ngs

wer

tfu

rdie

Anza

hlB

lock

e,in

den

endas

Wor

tau

ftritt

:

B

( 1−( 1−

1 B

) x)

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

125/181

ImM

itte

lB

w SP

Tok

enpr

oSig

nat

ur

mit

x=

Bw SP

folg

tfu

rer

folg

lose

Anfrag

en

F≈

B

( 1−( 1−

1 B

) Bw SP

)≈

B( 1−

exp( −w S

P

))≈

Bw SP

Feh

lerw

ahrs

chei

nlic

hke

it:

f≈

1−

exp( −w S

P

)≈

w SP

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

126/181

Blo

ckSuper

impose

dCodin

g

Uber

lage

rung

meh

rere

rSig

nat

ure

n(d

urc

hO

DER-V

erkn

upfu

ng)

erla

ubt

Abbild

ung

einer

Men

gevo

nW

orte

rn

(z.B

.ei

nes

Tex

tblo

cks)

aufei

ne

einzi

geSig

nat

ur

LLan

geder

Sig

nat

ur

gG

ewic

ht

(=Anza

hlge

setz

ter

Bits)

fur

ein

einze

lnes

Wor

t

λA

nza

hluber

lage

rte

Wor

tsig

nat

ure

n

tA

nza

hlge

setz

ter

Bits

inder

uber

lage

rten

Sig

nat

ur

Wah

rsch

einlic

hke

it,daß

durc

hU

ber

lage

rung

von

λW

orts

ignat

ure

nder

Lan

geL

mit

Gew

icht

gei

ne

Sig

nat

ur

ents

teht,

die

ant

bes

tim

mte

nSte

llen

eine

1en

thal

t:

p(L

,g,λ

,t)

=t ∑ j=

1

(−1)

j

( t j)( (L−

jg

) ( L g

)) λ

Fur

klei

ne

t,λ:

p(L

,g,λ

,t)≈

[p(L

,g,λ

,1)]

t=

(1−

(1−

g L)λ

)t

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

127/181

Absc

hat

zung

der

Feh

lerw

ahrs

chei

nlic

hke

it:

FA

nza

hlFeh

ler

NA

nza

hlD

aten

satz

e

f(t

)Feh

lerw

ahrs

chei

nlic

hke

it,f(t

)=

F/N

Annah

me

daß

sich

kein

Tre

ffer

unte

rden

Dat

ensa

tzen

befi

ndet

→.f(t

)=

p(L

,g,λ

,t)

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

128/181

Bes

tim

mung

der

optim

ale

nSig

natu

rlange

fur

eine

vorg

egeb

ene

max

imal

enFeh

lerr

ate

am

ittler

eA

nza

hlW

orte

rin

einer

Anfrag

e

γdurc

hsc

hnittlic

hes

Sig

nat

urg

ewic

ht

einer

Anfrag

e

γ=

L ∑ i=1

p(1

)=

L·(

1−

(1−

g L)a

)

Ein

setz

enin

die

Appr

oxim

atio

nder

Feh

lerw

ahrs

chei

nlic

hke

it:

f≈

(1−

(1−

g L)λ

)γ(2

)

lnf≈

L·(

1−

(1−

g L)a

)·l

n(1−

(1−

g L)λ

)

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

129/181

Ers

etze

(1−

g L)a

durc

hex

p( a λ·l

n(1−

g L)λ)

und

setz

ey

=(1−

g L)λ

:

lnf≈

L·( 1−

exp( a λ

lny)) ·

ln(1−

y)

Nah

erung

durc

hPot

enzr

eihe ex

=∞ ∑ i=

0

xi i!

mit

x=

a λ

Da

a λ

1,nur

Ber

uck

sich

tigu

ng

der

erst

enbei

den

Glie

der

:

lnf≈−

L·a λ·l

ny·l

n(1−

y)

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

130/181

Min

imie

rung

der

Feh

lerw

ahrs

chei

nlic

hke

it

(L,a

und

λko

nst

ant)→

y=

1 2.

Ein

setz

envo

nf

=F N

und

y=

1 2lie

fert

ln(F N

)≈−

L·a λ·(

ln1 2)2

→optim

ale

Sig

natu

rlange

Lopt=

λ

a·l

n2·l

og2

N F

y=

1 2=

(1−

g L)λ

→optim

ale

sW

ort

gew

icht

g opt=

L·(

1−

2−1 λ)

→Erw

artu

ngsw

ert

des

Satz

signatu

rgew

ichts

:

Γ=

L ∑ i=1

p(g

opt)

=L·(

1−

(1−

g opt

L)λ

)=

L 2N

.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

131/181

Abhangig

keit

der

Feh

lerw

ahrs

chei

nlic

hke

itvo

nder

Anza

hlW

ort

erin

der

Anfrage:

Ein

setz

envo

ng o

pt

indie

Appr

oxim

atio

nder

Feh

lerw

ahrs

chei

nlic

hke

itlie

fert

:

f(t

)=

2−t

und

F(t

)=

N·2

−t

wob

eifu

ra

qW

orte

rin

der

Anfrag

et

Bits

gese

tzt

sind:

t=

g(a

q)

a·l

n2·l

og2

N F·(

1−

2−a

q λ)

—fu

ra

q=

aist

f(g

(aq))

=F

/N

—f(g

(aq))

fallt

expon

entiel

lm

itwac

hse

ndem

aq

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

132/181

Sig

natu

rentw

urf

setz

tD

aten

anal

yse

vora

us.

Pro

ble

me:

1.D

efinitio

nei

ner

mog

lichst

glei

chve

rtei

lten

Abbild

ung

der

Att

ributw

erte

aufdie

Sig

nat

ur

2.Fes

tleg

enei

ner

mittler

enA

nza

hla

Att

ributw

erte

inder

Anfrag

e.

Bea

chte

:

•er

ford

erlic

he

Sig

nat

urlan

geist

um

geke

hrt

prop

ortion

alzu

a

•Feh

lerw

ahrs

chei

nlic

hke

itfa

lltm

it2e

r-Pot

enz

von

aq

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

133/181

Codie

rung

fur

den

Subst

ring

Matc

h

Rep

rase

nta

tion

eines

Str

ings

durc

hdie

Men

geder

enth

alte

nen

n-g

ram

s

(Ublic

her

wei

sen

=2

oder

n=

3)er

gibt

fur

Str

ingl

ange

=l−

n+

1n-g

ram

s

Abbild

ung

aufSig

natu

ren

(mit

g=

1)

Feh

lerw

ahrs

chei

nlic

hke

itfu

rν Q

n-g

ram

sin

der

Anfrag

e:

f(ν

Q)

=(1−

(1−

1 L)ν

)γ,γ

=L·(

1−

(1−

1 L)ν

Q).

Erw

.G

ewic

ht

einer

Str

ings

ignat

ur

Γ=

L ∑ i=1

f(1

)=

L·(

1−

(1−

1 L)ν

).

Γ=

L/2

liefe

rtal

sop

tim

ale

Sig

nat

urlan

geL

=1

1−

2−1 ν

mit

der

Feh

lerw

ahrs

chei

nlic

hke

itf(ν

Q)

=2−

γ=

21−

Q/

ν

1−

21

/ν≈

2−ν

Q

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

134/181

Pro

ble

m:hau

fig

Feh

lerr

ate

zuhoch

(Subst

ring

mit

ν Q=

6lie

fert

Feh

lerw

ahrs

chei

nlic

hke

it>

1%)

→B

estim

mung

der

Sig

nat

urlan

geuber

die

akze

ptier

teFeh

lerw

ahrs

chei

nlic

hke

it:

f(ν

Q)≈

( 1−( 1−

1 L

) ν)γ

≈( 1−( 1−

ν L

)) ν Q=

( ν L

) ν Qer

gibt

Sig

nat

urlan

ge

L=

ν·( N F

)1 νQ

→Sig

nat

urlan

gesinkt

dra

stisch

mit

wac

hse

nder

Such

stringl

ange

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

135/181

Wah

lvo

nn:

•n

=1

wurd

und

ν Qm

axim

iere

nund

dad

urc

hStr

ingl

ange

min

imie

ren.

Aber

:

1.Sig

nat

urp

oten

tial

wird

nur

ausg

enutz

t,wen

nfu

rdie

Kar

din

alitat

Ωdes

vorlie

genden

Alp

hab

ets

L≤

Ωn

gilt.

2.ungl

eich

eH

aufigk

eite

nvo

nn-g

ram

sin

Tex

ten

(Wid

ersp

ruch

zuran

genom

men

enG

leic

hve

rtei

lung,

fuhrt

zurErh

ohung

der

Feh

lerr

ate)

•zu

groß

esn:

Sig

nat

urv

erfa

hre

nist

erst

aufStr

ings

abLan

gen

anwen

dbar

(son

stse

quen

tiel

leSuch

enot

wen

dig

)

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

136/181

empirisch

eStr

euung

von

n-g

ram

sin

deu

tsch

spra

chig

enTex

ten:

10.3

4%

35,8

2%

20.6

8%

Buch

stab

en55

.26

%al

ler

Vor

kom

men

31.0

2%

70.6

7%

1.00

%19

.69

%

2.00

%B

igra

ms

29.6

9%

alle

rVor

kom

men

3.00

%37

.57

%

1.00

%12

.82

%

2.00

%Trigr

ams

19.9

2%

alle

rVor

kom

men

3.00

%25

.03

%

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

137/181

Pro

ble

me:

1.U

ngl

eich

vert

eilu

ng

→A

bbild

ungs

tabel

len

zur

Gla

ttung

not

wen

dig

(Bild

ung

von

Kla

ssen

mit

glei

chgr

oßer

Wah

rsch

einlic

hke

it)

IBuch

stab

enH

aufigk

eit

0e

17.3

%

1a,

j,n,p

,x,y

11.8

%

2r,u

11.8

%

3c,

i,k

11.8

%

4h,o

,s11

.8%

5m

,o,t,w

11.8

%

6d,g

,l,q

11.8

%

7a,

b,u

,v,z

,f11

.8%

Tab

elle

1:A

bbild

ungs

tabel

lefu

rBuch

stab

enin

der

deu

tsch

enSpr

ache

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

138/181

2.au

fein

ander

folg

ende

Zei

chen

(und

dam

itau

chn-g

ram

s)sind

nic

ht

unab

han

gig

vonei

nan

der

:

→n

mog

lichst

groß

wah

len

Nac

hte

il:

Abbild

ungs

tabel

lem

itΩ

nEin

trag

ennot

wen

dig

Los

ungs

mog

lichke

it:

t-gr

am-C

odie

rung

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

139/181

t-gra

m-C

odie

rung

Zer

legu

ng

von

n-g

ram

sin

nic

ht-

uber

lappen

de

t-gr

ams

(mit

1≤

t≤

n)

Tra

nsf

orm

atio

n: T(n−

gram

)=

T(t−

gram

n t−

1,.

..,t−

gram

0)

=

n t−

1 ∑ i=0

ci·I

(t−

gram

i)

Dab

eibild

etI(t−

gram

)je

des

t-gr

amau

fei

nen

der

cK

lass

enin

dic

es0

...c−

1ab

→n-g

ram

swer

den

inZah

len

aus

dem

Inte

rval

l[0

,cn t−

1]um

gese

tzt

→w

ahle

cso

,daß

cdie

groß

tega

nze

Zah

list,

fur

die

gilt

cn t≤

L.

Bild

ung

von

cm

oglic

hst

glei

chwah

rsch

einlic

he

Kla

ssen

ist

einNP

-vol

lsta

ndig

es

Pro

ble

mN

.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

140/181

Heu

rist

ik:

1.Sor

tier

enal

ler

Sym

bol

enac

hih

ren

Hau

figk

eite

n

2.Ber

echne

Hau

figk

eits

schra

nke

als

Quot

ient

aus

der

Sum

me

der

Vor

kom

-

men

shau

figk

eite

nder

noch

nic

ht

vert

eilten

Sym

bol

eund

der

Anza

hlnoch

offen

erK

lass

en

3.W

enn

Sym

bol

existier

t,das

die

seSch

ranke

uber

schre

itet

,so

bild

etes

eine

eige

ne

Kla

sse;

wei

ter

mit

2

4.Ver

teilu

ng

der

rest

lichen

Sym

bol

ein

der

Rei

hen

folg

eab

stei

gender

Hau

figk

eite

n,

indem

jewei

lsdie

hau

figs

ten

Sym

bol

eso

zusa

mm

enge

faßt

wer

den

,daß

sie

die

letz

teH

aufigk

eits

schra

nke

einhal

ten

5.D

urc

hAust

ausc

hen

einze

lner

Sym

bol

eka

nn

die

Ein

teilu

ng

noch

verb

esse

rt

wer

den

.

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

141/181

Ver

bes

seru

ngs

mog

lichke

itdurc

hFilt

ern:

Nic

htb

eruck

sich

tigu

ng

sehr

hau

fige

rt-

gram

s

(max

imal

1-3

%der

Typ

es)

→er

hoh

tdie

Sel

ektivi

tat

von

Sig

nat

ure

nfu

rA

nfrag

en,

die

die

set-

gram

snic

ht

enth

alte

n

aber

:

Feh

lerr

ate

fur

Anfrag

enm

itdie

sen

t-gr

ams

nim

mt

zu.

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

142/181

10.4

.4.3

Spei

cher

ungss

truktu

ren

Seq

uen

tiel

leSig

natu

ren

b∗ 1b∗ 2

b∗ 3b∗ 4

b∗ 5b∗ 6

b∗ 7b∗ 8

@R

S1

00

10

10

11

@r 1

S2

10

11

10

00

@r 2

S3

01

10

01

10

@r 3

S4

10

01

01

11

@r 4

S5

11

10

01

00

@r 5

S6

01

10

01

01

@r 6

S7

10

00

10

10

@r 7

S8

00

01

11

01

@r 8

Seq

uen

tiel

leSpei

cher

ung

der

Sig

nat

ure

nzu

sam

men

mit

den

Adre

ssen

der

Da-

tensa

tze

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

143/181

LLan

geder

Sig

nat

ur

(in

Bits)

size @

Lan

geei

ner

Adre

sse

size p

Sei

tengr

oße

size r

Gro

ßeei

nes

Dat

ensa

tzes

NA

nza

hlD

aten

satz

e

MA

nza

hlD

aten

seiten

M=

N ⌊ siz

ep

siz

er

⌋ F

Anza

hlfa

lse

dro

ps

DA

nza

hlec

hte

rTre

ffer

Pla

tzbed

arffu

rei

ne

Sig

nat

ur

mit

Adre

sse:⌈ L 8

⌉ +si

ze @

Anza

hlEin

trag

epr

oSei

te:

K=

⌊si

ze P

⌈ L 8

⌉ +si

ze @

⌋N

.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

144/181

Anza

hlSei

tenzu

griffe

fur

Date

nbank-O

per

ationen

Ret

riev

e:

Seq

R=⌈ N K

⌉ +F

+D

Inse

rt:

Bei

Fre

ispei

cher

verw

altu

ng

inListe

nfo

rmje

ein

Les

e-und

Sch

reib

zugr

iff

fur

Sig

nat

ur-

und

Dat

ense

ite

Seq

I=

2+

2=

4

Del

ete:

Annah

me:

Adre

sse

des

Dat

ensa

tzes

bek

annt→

sequen

tiel

leSuch

ein

den

Sig

nat

urs

eite

n

Seq

D=⌈ N

2·K

⌉ +1

+2

=⌈ N

2·K

⌉ +3

Spei

cher

pla

tzbed

arf

(in

Sei

ten) S

eqS

=⌈ N K

⌉ +M

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

145/181

Bitsc

hei

ben

org

anisation

b∗ 1b∗ 2

b∗ 3b∗ 4

b∗ 5b∗ 6

b∗ 7b∗ 8

@R

S1

00

10

10

11

@r 1

S2

10

11

10

00

@r 2

S3

01

10

01

10

@r 3

S4

10

01

01

11

@r 4

S5

11

10

01

00

@r 5

S6

01

10

01

01

@r 6

S7

10

00

10

10

@r 7

S8

00

01

11

01

@r 8

Spei

cher

ung

jeder

Bitsc

hei

be

alle

inau

fei

ner

Sei

te,

Vek

tor

mit

Dat

ensa

tzad

ress

enge

tren

nt

Anfrag

e:S

i⊇

S<

1010

0000

>

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

146/181

b∗ r=

b∗ 1∧

b∗ 3=

0 1 0 1 1 0 1 0

1 1 1 0 1 1 0 0

=

0 1 0 0 1 0 0 0

Erg

ebnisbitlis

te:

b∗ r=

qγ(S

Q) ∧ j

=q1

b j,

q i∈q|(1≤

q≤

L)∧

bQ q=

1

Adre

sse

der

Tre

ffer

kandid

aten

:R

=i|b

i r=

1

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

147/181

disju

nkt

ive

Anfrag

enS

(Q1)∨

S(Q

2)∨

...S

(Qd):

ImPrinzi

pge

tren

nte

Pro

zess

ieru

ng,

nur

Ein

spar

ung

bei

uber

einst

imm

enden

1-Bits

inden

S(Q

i)m

oglic

h

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

148/181

Anza

hlSei

tenzu

griffe

fur

Date

nbank-O

per

ationen

Spei

cher

bed

arffu

rei

ne

Bitsc

hei

be:d

N8·s

ize

pe

•Ret

riev

e

γ(Q

):A

nfrag

egew

icht

Zugr

iffe

aufdie

ange

spro

chen

enB

itsc

hei

ben

+

Zuor

dnungs

tabel

leund

Dat

ense

iten

fur

alle

Tre

ffer

BS

R=

T·( γ

(Q)⌈

N

8·s

ize p

⌉ +Z

+F

+D

)Z

:A

nza

hlSei

tenzu

griff

eau

fdie

Zuor

dnungs

tabel

le

R:#

Sei

ten

der

Zuor

dnungs

tabel

le

R=

N ⌊ siz

ep

siz

e@

⌋ Z

=R·( 1

−( 1−

1 R

) (F+D

))

→in

effizi

ent

bei

hoh

enAnfrag

egew

ichte

nN

.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

149/181

•In

sert

:

γ(S

):Sig

nat

urg

ewic

ht

des

Dat

ensa

tzes

Bitsc

hei

ben

blo

cke

vorh

erm

it0

initia

lisie

rt→

Zu

ander

n:

γ(S

)B

itsc

hei

ben

seiten

+Zuor

dnungs

tabel

le+

Dat

ense

ite

BS

I=

2·γ

(S)+

2+

2.

•D

elet

e:

Such

edes

Ein

trag

es(m

itbek

annte

rSat

zadre

sse)

uber

die

Sig

nat

ur

Zu

ander

n:

1er-

Bitsc

hei

ben

seiten

+Zuor

dnungs

tabel

le+

Dat

ense

ite

BS

D=

γ·(⌈

N

8·s

ize p

⌉ +1) +

Z+

2

•Spei

cher

pla

tzbed

arf(in

Sei

ten)

BS

S=

L·⌈

N

8·s

ize p

⌉ +⌈ N·si

ze @

size p

⌉ +M

.

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

150/181

Zwei

stufiges

Sig

natu

rver

fahre

n

Kom

bin

atio

nvo

nBitsc

hei

ben

-und

sequen

tiel

ler

Org

anisat

ion

Zwei

Sig

nat

ure

nfu

rje

den

Dat

ensa

tz:

(mit

unab

han

gige

nSig

nat

urfunkt

ionen

ber

echnet

)

1.Sig

nat

ur

wie

bei

sequen

tiel

ler

Org

anisat

ion

als

Bitst

ring

inSei

ten

gesp

eich

ert.

Sig

nat

ur-

Sei

ten

wer

den

inSeg

men

teunte

rtei

lt

2.Sig

nat

ure

nwer

den

segm

entw

eise

uber

lage

rt,bild

enSeg

men

tsig

nat

ur.

Seg

men

tsig

nat

ure

nwer

den

inB

itsc

hei

ben

orga

nisat

ion

verw

alte

t

Anfrag

epro

zess

ieru

ng:

1.Ber

echnung

der

bei

den

Anfrag

esig

nat

ure

n

2.Bes

tim

mung

der

zudurc

hsu

chen

den

Seg

men

teuber

die

Seg

men

tsig

nat

ur

3.Seq

uen

tiel

les

Durc

hsu

chen

der

Seg

men

tem

itder

1.Sig

nat

ur

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

151/181

10.4

.4.4

S-B

aum

dyn

amisch

hoh

enbal

anci

erte

rSig

nat

urb

aum

N1

011010

11011

N2

101110

10101

N3

001101

11101

N4

200011

11110

N5

N2

310010

10010

N6

310010

01010

N7

300010

00011

N8

311010

00010

N9

N3

101110

10001

N10

201110

00101

N11

N5

200010

11110

N15

400011

00110

N16

300010

10110

N17

N4

201101

10100

N12

300101

01000

N13

201101

00101

N14

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

152/181

KK

not

enka

paz

itat

(max

.#

Ein

trag

e(S

ignat

ur,

Adre

sse)

)

km

in.#

Ein

trag

ein

einem

Knot

en

hH

ohe

des

Bau

ms

RM

enge

der

Dat

ensa

tze

ESig

nat

ur-

Ein

trag

(Sig

nat

ur,

Adre

sse)

E.S

Sig

nat

ur

E.p

Adre

sse

Ni p

Men

geder

Ein

trag

edes

Knot

ens

aufder

Stu

fei

mit

der

Adre

sse

p

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

153/181

Ein

Sig

nat

urb

aum

istei

nm

itte

lbar

erS-B

aum

vom

Typ

(K,k

,h)m

itK

,k,h∈

IN0,

wen

ner

die

folg

enden

Eig

ensc

haf

ten

bes

itzt

:

1.Je

der

Nic

ht-

Bla

ttkn

oten

der

Stu

fei

enth

alt

Sig

nat

ure

nfu

rK

not

ender

Stu

fe

i−

1ge

maß

der

Gle

ichung

Ni p

=

Ej|1≤

j≤

K∧

Ej.S

=∨

E∈

Ni−

1E

j.P

E.S

fu

r1

<i≤

h.

(3)

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

154/181

2.Je

des

Bla

tten

thal

tSat

zsig

nat

ure

nge

maß

der

Gle

ichung

N1 p

=E

j|1≤

j≤

K∧

Ej.S

=S

(rj)∧

Ej.p

=@

r j∧

r j∈

R.

(4)

3.Je

der

Knot

enhat

hoc

hst

ens

KEin

trag

e:

(∀p)(|N

p|≤

K).

4.Je

der

Pfa

dvo

nder

Wurz

elzu

einem

Bla

tthat

die

selb

eLan

geh.

5.D

ieW

urz

elen

thal

tm

indes

tens

2Ein

trag

e:|N

h w|≥

2.

6.Je

der

Nic

ht-

Wurz

elkn

oten

hat

min

des

tens

kEin

trag

e:

(∀p6=

w)(|N

p|≥

k≤bK

2c)

.

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

155/181

Hoh

eei

nes

Sig

nat

urb

aum

s:

hm

in=dl

ogK

Ne≤

h≤bl

ogkNc

=h

max

max

imal

eAnza

hlder

Knot

enim

S-B

aum

:

1+

2

⌊ h max−

1 ∑ i=1

N ki

⌋ +h

max−

1

=h

max

+2

⌊( (1 k

) h max−

11 k−

1−

1) N

⌋ .

Spei

cher

pla

tzbed

arfS

S(in

Sei

ten):

⌈( (1 K

) h min−

11 K−

1−

1) N

⌉ ≤S

S≤

hm

ax

+2

⌊( (1 k

) h max−

11 k−

1−

1) N

⌋ .

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

156/181

Oper

atio

nen

aufdem

S-B

aum

:

•Ret

riev

e:re

kurs

ives

Durc

hsu

chen

des

Bau

mes

,wob

eim

ehre

reTei

lbau

me

Tre

ffer

enth

alte

nko

nnen

proce

dure

RET

RIE

VE(S

Q:Sig

nat

ur;

p:Sei

tennum

mer

);

with

Ni p

do

for

each

non-e

mpty

Ein

Ni p

do

ifE

.S⊇

SS

Qth

endo

ifi>

1

then

RET

RIE

VE

(SQ

,E.p

)

else

DELIV

ER

(E.p

)

end;

end;

end;

end;

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

157/181

•In

sert

:

1.Such

enei

nes

geei

gnet

enK

not

ens

heu

rist

isch

esK

rite

rium

:

Min

imie

rung

des

Gew

ichts

zuwac

hse

sin

den

Vat

erkn

oten

Vor

gehen

swei

se:B

reiten

such

e

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

158/181

funct

ion

CH

OO

SE(S

:Sig

nat

ur,

P:M

enge

Sei

tennum

mer

n):

Sei

tennum

mer

;

ifi>

1th

endoε m

in:=

maxin

t;

for

each

p∈

Pdo

with

Ni p

do

for

each

non

empty

E(j

)∈

Ni p

do

e:=

ε(E

(j).

S,S

);

ife

<ε m

inth

endo

Pm

in:=

p;

ε min

:=e;

Lin

kson

(Tre

e,p,j

,E(j

).p);

end

else

do

ife

=ε m

inth

endo

Pm

in:=

Pm

in∪

p;

Lin

kson

(Tre

e,p,j

,E(j

).p);

end;en

d;en

d;en

d;

CH

OO

SE

:=CH

OO

SE(S

,Pm

in);

end

else

CH

OO

SE

:=firs

tp∈

P;en

d;

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

159/181

2.gg

fs.Split

ting

eines

Knot

ens

optim

aler

Split

istNP

-vol

lsta

ndig

esPro

ble

m→

heu

rist

isch

erA

lgor

ithm

us

nac

hdem

Gre

edy-

Prinzi

p:

1.Bes

tim

mung

von

zwei

Saa

tsig

nat

ure

nal

sIn

itia

lisie

rung

der

bei

den

neu

en

Knot

en(P

roze

dur

INIT

SPLIT

)

2.Ver

teilu

ng

der

ubr

igen

Sig

nat

ure

nau

fdie

bei

den

Knot

en

proce

dure

INIT

SPLIT

;(∗

loka

l∗)

p1

:=new

pag

e;p2

:=new

pag

e;

Ni p:=

Ni p∪

E;(∗

virt

uel

les

Ein

fugen∗)

seed

1,s

eed2

:=PIC

KSEED

S(p

);

Ni p1

:=N

i p1.E

(see

d1);

Ni p2

:=N

i p2.E

(see

d2);

Sseed1

:=N

i p.E

(see

d1).

S;S

seed2

:=N

i p.E

(see

d2).

S;

Ni p:=

Ni p\N

i p1.E

(see

d1)\

Ni p2.E

(see

d2);

end;

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

160/181

funct

ion

PIC

KSEED

Sli

n(p

:Sei

tennum

mer

):

(see

d1,s

eed2

:Ein

trag

snum

mer

);

with

Ni p

do

seed

1:=

firs

tj∈j|m

axj(γ

(E(j

).S

));

seed

2:=

firs

tj∈j|m

axj(ε

(E(s

eed1).

S,E

(j).

S));

PIC

KSEED

S:=

(see

d1,s

eed2);

end;

end;

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

161/181

Ver

teilu

ng

der

Sig

natu

ren

aufdie

bei

den

Knote

n:

Str

ateg

ie:Ausg

eglic

hen

eZuor

dnung

zur

Knot

ensign

atur

nac

hG

ewic

hts

zuwac

hs

1.ab

wec

hse

lnd

fur

jeden

Knot

enSig

nat

ur

mit

der

hoc

hst

enPrior

itat

einfu

gen

2.bet

roffen

eK

not

ensign

atur

aktu

alisie

ren

3.Prior

itat

enneu

ausw

erte

n

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

162/181

funct

ion

SPLIT

(E:Ein

trag

,p:Sei

tennum

mer

):(E

intr

ag,Ein

trag

);

INIT

SPLIT

;

with

Ni p

do

for

l:=

1to⌈ K−1 2

⌉ do

j:=

firs

tj∈j|m

axj(ε

(S(N

i p2),

E(j

).S

)−

ε(S

(Ni p1),

E(j

).S

));

Ni p1

:=N

i p1∪

E(j

);

Ni p:=

Ni p\E

(j);

if|N|>

0th

endo

j:=

firs

tj∈j|m

axj(ε

(S(N

i p1),

E(j

).S

)−

ε(S

(Ni p2),

E(j

).S

));

Ni p2

:=N

i p2∪

E(j

);

Ni p:=

Ni p\E

(j);

end;

end;

Ni p:=

Ni p2;

SPLIT

:=((

p,S

(Ni p))

,(p1,S

(Ni p1))

);

end;

end;

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

163/181

Quic

kFilt

er

Kom

bin

atio

nvo

nSig

nat

ure

nm

itH

ashin

g

•Sig

nat

ure

nsind

inSei

ten

orga

nisie

rt

•Zuor

dnung

der

Sig

nat

ure

nzu

den

Sei

ten

uber

Has

hin

g

Lin

eare

sH

ash

ing

linea

reH

ash-F

unkt

ion

gbild

etSch

luss

elau

fden

Adre

ßrau

m(0

,1,.

..,n−

1)ab

,

wob

ei2h

−1

<n≤

2hfu

rei

nh∈

IN

h:#

Anza

hlStu

fen

der

Sig

nat

urd

atei

gm

Split

-Funkt

ion

sein

,die

fur

jeden

Sch

luss

elK

die

Bed

ingu

ng

erfu

llt:

g(K

,h,n

)=

g(K

,h−

1,n)

oder

g(K

,h−

1,n)+

2h

nPrim

arse

iten

jede

Prim

arse

ite

hat

0oder

meh

rU

ber

laufs

eite

n(m

itder

Prim

arse

ite

verk

ette

t)N

.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

164/181

Ein

fugen

eines

neu

enSch

luss

els:

1.Ber

echnung

der

Sei

tennum

mer

p=

g(K

,h,n

).

2.W

enn

mog

lich,Ein

fuge

ndes

Sch

luss

els

indie

Sei

tep.

3.Son

stAbsp

eich

ern

inei

ner

Uber

laufs

eite

zup.

4.Bei

Uber

laufw

ird

der

Adre

ßrau

mvo

nn

aufn

+1

verg

roße

rt

Ver

gro

ßer

ung

des

Adre

ßra

um

s:

SP

:Zei

ger

aufdie

nac

hst

ezu

split

tende

Sei

te

1.Anle

gen

einer

neu

enPrim

arse

ite

n

2.Ver

teilu

ng

des

Inhal

tsder

Sei

teS

Pund

der

zuge

hor

igen

Uber

laufs

eite

ndurc

h

neu

eH

ashfu

nkt

ion

aufdie

Sei

ten

SP

und

n.

3.n

:=n

+1

4.h

wird

erhoh

t,wen

ndie

Sei

te0

gesp

litte

twer

den

soll.

5.S

P:=

(SP

+1)

mod

2h−

1

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

165/181

Hash

-Funktion

fur

Sig

natu

ren

NSig

nat

ure

nS

i=

<b 1

,...

,bL

>

g(S

i,h,n

)=

∑ h−1

r=

0b L

−r2r

,fa

lls∑ h−

1r=

0b L

−r2r

<n

∑ h−2

r=

0b L

−r2r

,so

nst

(5)

Zu

Beg

inn

seih

=0,

n=

1und

g(S

i,0,

1)=

0

b 1b 2

b 3b 4

b 5b 6

b 7b 8

S1

00

01

11

10

S2

11

01

00

01

S3

00

11

11

00

S4

11

00

00

11

S5

00

11

01

10

S6

11

00

10

01

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

166/181

Ste

p0.

P0:em

pty

SP

=0,h

=0,n

=1

Ste

p1.

P0:S1

SP

=0,h

=0,n

=1

Ste

p2.

P0:S1

S2

SP

=0,h

=0,n

=1

Ste

p3.

P0:S1

S3

P1:S2

SP

=0,h

=1,n

=2

Ste

p4.

P0:S1

S3

P1:S2

S4

SP

=0,h

=1,n

=2

Ste

p5.

P0:S3

P1:S2

S4

P2:S1

S5

SP

=1,h

=2,n

=3

Ste

p6.

P0:S3

P1:S2

S6

P2:S1

S5

P3:S4

SP

=0,h

=2,n

=4

P0:00111100

P1:11010001

11001001

P2:00011110

00110110

P3:11000011

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

167/181

Ret

riev

al

Bes

tim

mung

der

mog

lichen

Sig

nat

urs

eite

nau

sder

Anfrag

esig

nat

ur:

Anza

hlzu

lese

nder

Sei

ten

han

gtvo

mG

ewic

ht

der

Anfrag

esig

nat

ur

Qab

,ge

nau

er:

enth

altQ

jEin

sen

imh-B

it-S

uffi

xh(Q

),dan

nm

uss

enhoc

hst

ens2h

−j

Prim

arse

iten

und

die

zuge

hor

igen

Uber

laufs

eite

nge

lese

nwer

den

Alg

orithm

us:

1.P

:=g(Q

,h,n

)

2.if

h(Q

)∩

P=

h(Q

)th

en

Sig

nat

urs

eite

Ple

sen

3.P

:=P

+1

4.if

P<

nth

engo

to2

5.en

d

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

168/181

10.4

.4.5

Ver

gle

ich

der

Spei

cher

ungss

truktu

ren Pro

fil

Str

ukt

ur

Ret

riev

eIn

sert

Del

ete

Spei

cher

sequen

tiel

lse

lten

dom

inan

t!se

lten

dom

inan

t

Bitsc

hei

ben

dom

inan

twen

igwen

igwen

ig

zwei

stufig

dom

inan

twen

igwen

igirre

leva

nt

Quic

kFilt

er,S-B

aum

wen

igvi

elvi

elwen

ig

Tab

elle

2:A

nfrag

epro

file

der

Spei

cher

ungs

stru

kture

n

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

169/181

10.4

.4.6

Rankin

gm

itSig

natu

ren

Org

anisat

ion

?

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

170/181

Mes

smet

hode

S−

Ba

um

Erg

eb

nis

liste

SMART Ergebnisliste

10 Dokumente

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

171/181

CACM

Kol

lekt

ion

Dok

um

ente

Fra

gen

Anza

hl

3200.

64.

#Ter

me:

9669.

Med

ian

15.

9.

Mitte

lwer

t23.19

10.59

Sta

ndar

dab

wei

chnung

19.87

6.26

Var

ianz

395.

1539.21

Min

imum

2.2.

Max

imum

139.

24.

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

172/181

Not

atio

n

LLan

geder

Sig

nat

ur

inB

its.

gTer

mge

wic

ht;

Anza

hl

der

pro

Ter

mge

setz

ten,

unte

rsch

iedli-

chen

Bitpos

itio

nen

.

λA

nza

hlder

uber

lage

rten

Ter

msign

ature

n

q kFra

ge,re

pras

entier

tdurc

hFra

gete

rme

q k,i

nk

Anza

hlFra

gete

rme

der

Fra

geq k

dm

Dok

um

ent,

repr

asen

tier

tdurc

hIn

dex

ieru

ngs

term

ed

m,i

S(·)

Funkt

ion,

die

fur

einen

einze

lnen

Ter

mbzw

.ei

n/e

Dok

u-

men

t/Fra

geei

ne

Sig

nat

ur

ber

echnet

:S

(dm

)=

S(d

m,1

)∨

S(d

m,2

)∨,.

..,S

(dm

,n),

wen

nn

die

Anza

hlder

Index

ieru

ngs

-

term

edes

m-t

enD

okum

ents

ist.

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

173/181

Con

tain

s

%P

arti

al-

Bit(q

k,d

m)

:=S

(qk)⊆

S(d

m)

wob

eider⊆

-Oper

ator

uber

pruft,ob

das

erst

eSig

nat

ura

rgum

ent

imzw

eite

nen

thal

ten

ist:

⊆:s

s 2→0

,1

s 1⊆

s 2=

1fa

llss 1∧

s 2=

s 1

0so

nst

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

174/181

Bes

t-M

atch

Mit

%B

est-

Bit

wird

imfo

lgen

den

eine

Ahnlic

hke

itsf

unkt

ion

fur

Sig

nat

ure

nbe-

zeic

hnet

,die

die

Anza

hlder

gem

einsa

men

Bits

der

Sig

nat

ure

nfu

rq k

und

dm

ber

echnet

:

%B

est-

Bit(q

k,d

m)

:=|S

(qk)∧

S(d

m)|

p(L

,g,λ

)=

1−

(1−

g L)λ

.

f e(L

,g,n

k,i

)=

( n k·g i

) ·p(L

,g,λ

)i·

(1−

p(L

,g,λ

))n

k·g−

i

DB

(j)

=∑ j

≤i≤

nk·g

f e(L

,g,n

k,i

)

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

175/181

Anza

hlFal

se-D

rops

inAbhan

gigk

eit

vom

Ter

mge

wic

ht

g

12

34

56

78

9101112

Termgewicht

0

50

100

150

200

False Drops

%B

est-

Term

(qk,1

,qk,2

,...

,qk,n

qk,d

m)

:=n

qk ∑ i=1

(S(q

k,i)⊆

S(d

m))

(p(L

,g,λ

)g)q

dT(i

)=( q i) (p

(L,g

,λ)g

)i·(

1−

p(L

,g,λ

)g)q−

i .

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

176/181

Ver

teilu

ngs

funkt

ionen

fur

q=

10und

g=

1,10

,20,

30,4

0,50

12

34

56

78

910

0.2

0.4

0.6

0.81

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

177/181

Fla

chen

unte

rnden

Gra

phen

fur

g=

1,..

.,12

12

34

56

78

9101112

Termgewicht

0

0.02

0.04

0.06

0.08

0.1

0.12

0.14

False Drops

Anza

hlFal

se-D

rops

inAbhan

gigk

eit

vom

Ter

mge

wic

ht

gN

.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

178/181

12

34

56

78

9101112

Termgewicht

05

10

15

20

25

30

False Drops

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

179/181

Bes

uch

teK

not

enbei

%B

est-

Bit,g

=1

0

100

200

300

400

500

600

700

800

900

05

10

15

20

25

Anzahl besuchter Knoten (Best Match)

Anzahl Frageterme

cacm1.dat

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

180/181

Bes

uch

teK

not

enbei

%B

est-

Term

,g

=6

0

100

200

300

400

500

600

700

800

900

05

10

15

20

25

Anzahl besuchter Knoten (Best Match)

Anzahl Frageterme

contains-cacm6.dat

N.Fuhr

11.Ju

ni2004

Info

rmation

Ret

riev

al

181/181

Ein

spar

ung

anbes

uch

ten

Knot

enbei

Ver

wen

dung

von

%B

est-

Term

anst

att%

Best-

Bit

als

Ahnlic

hke

itsf

unkt

ion

0.4

0.5

0.6

0.7

0.8

0.91

02

46

810

12

Durchschnittlicher Anteil gelesener Knoten

Termgewicht

Best-Term first

Best-Term last

Best-Bit first

Best-Bit last

N.Fuhr

11.Ju

ni2004