schema.org auf hotelwebseiten

26
© Copyright 2015 STI INNSBRUCK www.sti-innsbruck.at Elias Kärle – 17. April 2015 – Tourism Fast Forward 2015, Mayrhofen, Tirol schema.org auf Hotelwebseiten @eliaska #tff_15

Upload: elias-kaerle

Post on 08-Aug-2015

130 views

Category:

Data & Analytics


0 download

TRANSCRIPT

© Copyright 2015 STI INNSBRUCK www.sti-innsbruck.at

Elias Kärle – 17. April 2015 – Tourism Fast Forward 2015, Mayrhofen, Tirol

schema.org auf Hotelwebseiten

@eliaska#tff_15

www.sti-innsbruck.at

Inhalt

1. Motivation

2. Daten

3. Analyse

www.sti-innsbruck.at

1. Motivation

3

www.sti-innsbruck.at

1. Motivation

• Dieter Fensel hat einen Wikipedia Eintrag

4

www.sti-innsbruck.at

1. Motivation

• Italienischer Schwimmer VS. @cyberandy• Wie hat er das gemacht?

5

www.sti-innsbruck.at

1. Motivation

• Schema.org annotation

• Hotellerie und Tourismus werden Annotationen verwendet?

6

www.sti-innsbruck.at

1. Motivation

1) Wie viele Hotels verwenden schema.org?

2) Wie wird schema.org verwendet?1) Welche Klassen?2) Welche Attribute?3) Wird schema.org richtig eingesetzt?

3) Wer verwendet schema.org im touristischen Bereich?

7

www.sti-innsbruck.at

2. Daten

Was ist schema.org?

• Initiative geründet 2011• Ontologie zur Strukturierung von Daten auf Webseiten• In HTML eingebunden

– Microdata– RDFa– JSON-LD

Source: http://www.schema.org8

www.sti-innsbruck.at

2. Daten

Analyse aller Webseiten:

• Gegründet 2007 • Non-Profit Organisation• Erfasst (crawlt) Internet 4 mal pro Jahr• Datensätze frei zugänglich• November 2013: 2,3 Milliarden Webseiten, 148TB• Dezember 2014: 2,1 Milliarden Webseiten, 160TB

Source: http://commoncrawl.org/the-data/get-started/9

www.sti-innsbruck.at

2. Daten

Reduktion auf Strukturierte Daten:

WebDataCommons:• 2012 Freie Universität Berlin & KIT• Derzeit Uni Mannheim• Leitung: Chris Bizer• Extrahieren aller strukturierter Daten aus Common Crawl

– Web Tabellen: 147 Mio. relationale Tab. (11 Mrd. HTML Tab.)– Hyperlink Graph: 3,5 Mrd. Webseiten, 128 Mrd. Links– Semantisch annotierte Daten:

• November 2013: 44TB, 2.2 Mrd. URLs• Dezember 2014: 160TB, 2 Mrd. URLs

Source: http://webdatacommons.org/structureddata/10

www.sti-innsbruck.at

2. Daten

• November 2013 Datensatz

• Subset: schema.org/Hotel– 35GB– 127 Mio. Triples

• OWLIM-SE Repository

• SPARQL Anfragen

• Linux Debian 3.2, STI

11

www.sti-innsbruck.at

3. Analyse

1) Wie viele Hotels sind schema.org annotiert?

4.841.353• Hotels doppelt annotiert

– Eigene Webseite– Buchungs Webseite

740.298• Alle Hotels mit gleichem Namen verloren

– Adler, Post, ... An Adresse binden!

12

www.sti-innsbruck.at

3. Analyse

Hotel4.841.353

Adresse3.035.000

Land

1.904.000Name

1.125.000Region

1.902.000

PLZ

2.011.000

Straße

2.284.000

13

www.sti-innsbruck.at

3. Analyse

Hotels pro Land

Österreich: 148Tirol: 287Innsbruck: 63

1. US 10215132. CA 523603. CN 206484. GB 115805. DE 31636. MX 19217. PR 12508. AR 10169. PH 765

10. IN 699

11. TR 68112. AE 39113. KR 37714. RO 37315. QA 34316. PA 29917. SA 29218. AU 29019. BR 25820. CH 238

21. TH 23422. SR 21723. HK 15624. EC 15025. AT 14826. CO 14327. PE 12928. BE 12729. ID 10930. BH 93

Offensichtlich nicht korrekt annotiert

14

www.sti-innsbruck.at

3. Analyse

Hotels nach Postleitzahlen in Tirol

18%

10%

8%

4%

4%

3%2%2%2%2%

45%

6020 6370 6100 6450 6580 6456 6215 6213 6365 6010 Andere

Innsbruck

Kitzbühel

Seefeld

Sölden

St. Anton

ObergurglAchenkirch

PertisauKirchberg

15

www.sti-innsbruck.at

3. Analyse

Welche Kategorien von Hotels sind annotiert?

http://schema.org/Rating

16

www.sti-innsbruck.at

3. Analyse

Hotel4.841.353

Adresse3.035.000

Land

1.904.000Name

1.125.000Region

1.902.000

PLZ

2.011.000

Straße

2.284.000

17

www.sti-innsbruck.at

3. Analyse

Hotel4.841.353

Adress3.035.00

Land

1.904.000Name

1.125.000Region

1.902.000

Rating

2.377.000

RatingValue

2.375.000

18

www.sti-innsbruck.at

3. Analyse

Welche Kategorien von Hotels sind annotiert?

866.932

651.606

426.925

176.800

135.958

35.079

66.208

15.476

941

19

www.sti-innsbruck.at

3. Analyse

2) Wie wird schema.org verwendet?

15%

14%

13%

9%8%

7%

7%

5%

5%4%

13%

schema.org Verwendung

http://schema.org/Hotel/name http://schema.org/Hotel/review

http://www.w3.org/1999/02/22-rdf-syntax-ns#type http://schema.org/Hotel/image

http://schema.org/Hotel/address http://schema.org/Hotel/aggregateRating

http://schema.org/Hotel/rating http://schema.org/Hotel/description

http://schema.org/Hotel/url http://schema.org/Hotel/geo

Other

20

www.sti-innsbruck.at

3. Analyse

3) Wer verwendet schema.org im touristischen Bereich

Hypothese:„Schema.org wird überwiegend von Booking- und

Ratingseiten verwendet, kaum auf Hotelseiten direkt.“

21

www.sti-innsbruck.at

3. Analyse

Ansatz:• Hotels auf Booking- & Ratingseiten suche nach annotation auf eigener Webseite

• Gegenprobe mit annotierten HotelswebseitenMehrfache Vorkommen im Datensatz?

Dezeit: exemplarisch (Top-Buchungsseiten)Nächster Schritt: vollständiger Datensatz

22

www.sti-innsbruck.at

3. Analyse

Resymee:

• Hauptanwender von schema.org/Hotel:Buchungs- und RatingseitenFehler:UnvollständigFalsche KlassenFalsche AttributeFalsche DatentypenVollständige Fehleranalyse: Uni Mannheim

(R. Meusel & H. Paulheim) [1]

[1] http://dws.informatik.uni-mannheim.de/fileadmin/lehrstuehle/ki/pub/MeuselPaulheim-HeuristicsForFixingCommonErrorsInDeployedSchemaOrgMicrodata-ESWC2015.pdf

23

www.sti-innsbruck.at

3. Analyse

www.sti-innsbruck.at

3. Analyse

Annotation „Hotel“ richtig aber auf JEDER Unterseite!

www.sti-innsbruck.at

3. Analyse

Schema.org verwenden, richtig annotieren:

• RFDa, Microdata, JSON-LD

• Dokumentation: http://www.schema.org

• Testen: https://developers.google.com/structured-data/testing-tool/

„Be part of the graph!“Google, Bing, Yahoo! & Yandex

26