dezvoltarea sistemelor web › ~busaco › teach › courses › ... · ga .ro / ~ co dezvoltarea...

146
Dr. Sabin Buragaprofs.info.uaic.ro/~busaco Dezvoltarea sistemelor Web (re)găsirea resurselor Web de la motoare de căutare și SEO la date structurate

Upload: others

Post on 07-Jul-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

Dezvoltarea sistemelor Web

(re)găsirea resurselor Web

🕸de la motoare de căutare și SEO la date structurate

Page 2: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

“A well-defined problem is half solved.”

Michael Osborne

Page 3: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

Ce activități realizează un motor de căutare?

Page 4: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

Scop:localizarea resurselor existente pe Web

Page 5: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

Scop:localizarea resurselor existente pe Web

conținut textual

documente Web, știri, comentarii, cod-sursă,însemnări în cadrul aplicațiilor Web sociale etc.

Page 6: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

Scop:localizarea resurselor existente pe Web

conținut multimedia

imagini (fotografii, diagrame, ilustrații), audio, video, prezentări,… (în formă fizică și/sau electronică

– gratuite ori comerciale)

Page 7: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

Scop:localizarea resurselor existente pe Web

entități

persoane, organizații, evenimente, cunoaștere (cărți, software), de interes personal/social

(bunuri reale/digitale – produse și/sau servicii),…

Page 8: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

Tipuri de căutări – maniera tradițională:

pe bază de indecși

explorare a Web-ului (crawling) +prelucrarea conținutului textual (indexing)

Lycos – 1994 (Carnegie Mellon University)AltaVista – 1995 (Digital Equipment Corporation)

Page 9: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

Tipuri de căutări – maniera tradițională:

pe baza ierarhiilor de termeni(servicii de tip catalog – topic directory, taxonomii)

Yahoo! – Yet Another Hierarchical Officious Oracle1994 (Stanford)

Jerry and David’s guide to the World Wide Web

Page 10: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

Tipuri de căutări – maniera tradițională:

hibrideindecși + taxonomiiportal Web

Excite – 1994 (inițial Architext – Stanford)

Page 11: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

Tipuri de căutări – maniera tradițională:

pe baza legăturilor hipertext(hyperlink analysis)

Google – 1996 (inițial BackRub – Stanford)

vezi și S. Buraga, „Căutarea resurselor Web” (2016)www.slideshare.net/busaco/sabin-buraga-cutarea-resurselor-web

Page 12: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

Un motor de căutare trebuie să satisfacănevoia de informații a utilizatorului

(user information-seeking)

Page 13: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

Caracteristici ale unui motor de căutare ideal

scop

căutarea oricărei resurse existente

Page 14: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

Caracteristici ale unui motor de căutare ideal

viteză

rezultatele să fie disponibile imediat

direcție de interes major: real-time Web search

Page 15: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

Caracteristici ale unui motor de căutare ideal

disponibilitate

actualizarea permanentă(orice modificare să fie indexată „instantaneu”)

Page 16: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

Caracteristici ale unui motor de căutare ideal

„reamintire” – recall

găsirea tuturor resurselor relevantepentru o cerere dată

Page 17: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

Caracteristici ale unui motor de căutare ideal

precizie

rezultatul conține doar resurse relevante

prezent: recurgerea la tehnici din inteligența artificială

Page 18: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

Caracteristici ale unui motor de căutare ideal

categorisire eficientă – ranking

cele mai relevante resurse Websunt plasate primele

Page 19: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

Care sunt principalele componenteale unui motor de căutare?

Page 20: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

coRobot Webextrage informații

Index (catalog)stochează – în mod persistent – (meta)date

despre resursele existente pe Web

Mecanism de evaluare (ranking)pe baza cererii utilizatorului,

oferă răspunsuri – de dorit, utile

Page 21: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

structura generică a unui motor de căutare (Chakrabarti, 2003)

Page 22: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

Preluarea + indexarea resurselor se pot realiza:

automat – via roboți Webmanual – recurgând la experți umani

hibrid

Page 23: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

Preluarea și indexarea resurselor

strategii:natura datelor/relațiilor (data/relation mining)

detectarea subiectului conținutului (topic distillation)

meta-date – date descriind date (e.g., doar însemnări ca replici la alte mesaje)

căutare socială (tag-uri, anturaj, aplicații Web sociale)

context (e.g., localizare geografică, timp, dispozitiv)

profil al utilizatorului – personalizare(e.g., istoric al căutărilor, preferințe lingvistice)

Page 24: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

Am putea recurge la extragerea automatăa datelor expuse pe Web?

Page 25: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

Roboți

programe ce traversează automat Web-ul,cu scopul de a extrage date

spiders, crawlers, Web bots

robot Web navigator Web

Page 26: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

Roboți

pornind de la un URL, realizează o conexiune HTTPla un server Web, pentru a întreprinde anumiteacțiuni privitoare la reprezentarea unei resurse– uzual, HTML – și, recursiv, din toate resursele

(documentele) desemnate de legăturile existenteîn cadrul reprezentării

Page 27: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

Roboți

pornind de la un URL, realizează o conexiune HTTPla un server Web, pentru a întreprinde anumiteacțiuni privitoare la reprezentarea unei resurse– uzual, HTML – și, recursiv, din toate resursele

(documentele) desemnate de legăturile existenteîn cadrul reprezentării

acțiuni: extrage de date, copiere, agregare de conținut, monitorizare, realizare a unui rezumat etc.

Page 28: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

roboți: pericole

Operarea în foc rapid (rapid-fire)

trafic de rețea

supraîncărcarea serverelor Webdenial of service

Page 29: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

roboți: pericole

Actualizarea cu întârziere a bazelor de dateale motoarelor de căutare

Page 30: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

roboți: pericole

Actualizarea cu întârziere a bazelor de dateale motoarelor de căutare

necesitatea specificării timpului de revizitare a situluide către robotul Web

<meta name="Revisit-After" content="30 Days" />

Page 31: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

roboți: pericole

Exploatarea (ne)controlată de către utilizatori

atacuri „brute”

Page 32: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

roboți: pericole

Intrarea în „găurile negre”

Page 33: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

roboți: pericole

Accesarea unor date nerelevante

Page 34: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

roboți: identificare

Fiecare robot Web trebuie să se identifice(nume, domeniu, creator,...)

uzual, va fi folosit câmpul User-Agent

din antetul unei cereri HTTP

Page 35: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

roboți: identificare

Ai motoarelor de căutare majore

Baidu – Baiduspider: www.baidu.com/search/spider.html

Bing – Bingbot, BingPreview, AdIxBotwww.bing.com/webmaster/help/which-crawlers-does-bing-use-8c184ec0

DuckDuckGo – duckduckgo.com/duckduckbot

Google – APIs-Google, AdSense, AdsBot, Googlebot, Googlebot-Image, Googlebot-News, Googlebot-Video,…

support.google.com/webmasters/answer/1061943

Yahoo! – Slurp: help.yahoo.com/help/us/ysearch/slurp

Yandex – YandexBot, YandexImages etc.:yandex.com/support/webmaster/robot-workings/check-yandex-robots.html

Page 36: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

roboți: identificare

Specializați

e.g., validarea codului HTML, scurtarea lungimiiURL-urilor, scanare de vulnerabilități, statistici,

arhivarea conținutului disponibil pe Web,…

exemplificări: ChangeDetection, citeseerxbot, Distill,Feedity, Heritrix (folosit de archive.org),

extensii Nagios, Scrapy, W3C Validator

Page 37: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

roboți: identificare

Personali

rulați de utilizatori

exemplificare: software de „oglindire” (copiere) a conținutului unui (fragment de) sit Web

aplicații notorii disponibile în regim deschis:curl – curl.haxx.se/ wget – www.gnu.org/software/wget/

Page 38: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

roboți: identificare

Roboți (potențial) malefici

pot cauza breșe de securitate, exploatând diverse vulnerabilități ale siturilor/aplicațiilor Web

exemple tipice: JS/PHP/SQL/link injection, atacuri XSS (Cross-Site Scripting)

www.botreports.com/badbots/

Page 39: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

66.249.65.173 - - [09/Nov/2019:11:26:31 +0200] "GET /~introp/ HTTP/1.1" 304 - "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"

93.158.178.188 - - [09/Nov/2019:11:25:08 +0200] "GET /~adria/...pdf HTTP/1.1" 200 198738 "-" "Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)"

66.249.65.70 - - [09/Nov/2019:11:22:06 +0200] "GET /~busaco/teach/courses/cliw/ HTTP/1.1" 200 2120 "-" "Mozilla/5.0 (iPhone; …Safari/600.1.4 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"

180.76.5.101 - - [09/Nov/2019:11:22:02 +0200] "GET /~busaco/ HTTP/1.1" 200 1907 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)"

98.137.206.250 - - [09/Nov/2019:11:21:07 +0200] "GET /~busaco/ HTTP/1.1" 200 1907 "-" "Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)"

157.55.39.73 - - [09/Nov/2019:11:20:43 +0200] "GET /~webdata/…/OCT.pdf HTTP/1.1" 403220 "-" "Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)"

208.115.111.71 - - [09/Nov/2019:11:20:42 +0200] "GET /%7Eorar/ HTTP/1.1" 200 12705 "-" "Mozilla/5.0 (DotBot/1.1; http://www.opensiteexplorer.org/dotbot, [email protected])"

63.249.66.212 - - [09/Nov/2019:11:14:55 +0200] "GET /~croitoru/ag/ HTTP/1.1" 200 2575 "-" "Mozilla/4.0 (compatible; MSIE 6.0; http://www.changedetection.com/bot.html)"

66.249.65.70 - - [09/Nov/2019:11:12:47 +0200] "GET /~busaco/paint/leaf/leaf-9.jpg HTTP/1.1" 304 - "-" "Googlebot-Image/1.0"

157.55.39.177 - - [09/Nov/2019:11:11:53 +0200] "GET /~lrc/ HTTP/1.1" 200 1914 "-" "msnbot-media/1.1 (+http://search.msn.com/msnbot.htm)"

136.243.9.23 - - [09/Nov/2019:09:40:35 +0200] "GET /~busaco/ HTTP/1.0" 200 1907 "-" "Mozilla/5.0 (… James BOT - WebCrawler http://cognitiveseo.com/bot.html"

cereri HTTP efectuate de diverși roboți Web(menționate în fișierul de jurnalizare Apache)

Page 40: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

statistici + detalii:www.botsvsbrowsers.org

Page 41: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

Cum putem „instrui” roboții Websă nu viziteze anumite zone ale sitului?

Page 42: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

Orice robot trebuie să respectestandardul de excludere

„inhibă” vizitarea anumitor zone (secțiuni) ale unui sit Web

în rădăcina unui domeniu Web se poate plasa fișierul robots.txt

www.robotstxt.org/robotstxt.html

Page 43: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

# https://developer.mozilla.org/robots.txt

User-agent: * # toți roboții

Crawl-delay: 5 # 5 sec. între cereri

Sitemap: https://developer.mozilla.org/sitemap.xml

Disallow: /admin/ # căi ce nu trebuie vizitate

Disallow: /*/dashboards/*

Disallow: /*docs/feeds

...

fișierul robots.txt poate cuprinde extensii recunoscute doar de un anumit crawler Web

cazul Google: developers.google.com/search/reference/robots_txt

Page 44: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

de studiat câteva exemple reale de fișiere robots.txt:www.amazon.com/robots.txt

www.facebook.com/robots.txt

github.com/robots.txt

www.google.com/robots.txt

User-agent: *

Disallow: /user/*

Disallow: /addtocart*

Disallow: /proces_comanda

Disallow: /cart/*

Disallow: /checkout

Disallow: /imagini/*

Disallow: /images/*

Disallow: /compare/*

Disallow: /thank-you$

Disallow: /cat-*/pid-*/ord-*/p-*

Disallow: /adauga-review

Disallow: /adauga-intrebare

Disallow: /header-cart

Disallow: /header-wl

Disallow: /product_get_recommandations/*

Disallow: /get_back_to_search_url

Disallow: /search-tools/*

Disallow: /ajax_live_products

Disallow: /box_user_history

Disallow: /gr_box_bottom_landing/*

Disallow: /site_ajax_ads

Allow: /*/*/*all-products

User-agent: 008

Disallow: /

Page 45: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

Orice robot trebuie să respectestandardul de excludere

evitarea indexării conținutului:

<meta name="robots" content="noindex, nofollow" />

Page 46: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

motoare: căutarea

Activitatea generală a unui robot (crawler) simplu:

F = mulțimea de URL-uri de start (frontiera)cât-timp F este nevidăextrage un URL u din Fpreia pagina (resursa Web) p cu adresa udacă p este relevantăstochează p în indexpentru-fiecare legătură v din p

dacă v nu este în index și v nu aparține lui Fși v ar putea fi vizitată

adaugă v la F

Page 47: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

motoare: căutarea

Robotul/motorul de căutare decide momentulrevizitării resursei care urmează a fi reindexată

sau doar verificată

Page 48: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

Cum se realizează indexarea?

Page 49: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

motoare: indexarea

Necesitatea folosirii sistemelor de baze de date depozit distribuit de stocare (eventual, în cloud)

optimizarea regăsirii

Page 50: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

motoare: indexarea

Necesitatea folosirii sistemelor de baze de date depozit distribuit de stocare (eventual, în cloud)

optimizarea regăsirii

modele non-relaționale de stocare – „mișcarea” NoSQL

printre primele abordări: BigTable (Chang et al., 2006)research.google.com/archive/bigtable.html

Page 51: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

motoare: indexarea

Necesitatea folosirii sistemelor de baze de date depozit distribuit de stocare (eventual, în cloud)

arhivarea datelor indexate

e.g., recurgerea la algoritmul de compresiebzip2 – www.bzip.org (cazul Google)

Page 52: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

motoare: indexarea

Utilizarea nu doar a datelor propriu-zise(conținutului textual), ci și a meta-datelor

e.g., limbă, cuvinte-cheie, autor, format,data ultimei actualizări, frecvența modificărilor,…

Page 53: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

motoare: indexarea

Indexare bazată pe cuvinte-cheie

relevanță, amplasare – e.g., context de apariție –, meta-date, procesarea limbajului natural,

clasificare (semi-)automată via învățare automată(machine learning) sau alte tehnici,...

Page 54: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

motoare: indexarea

Indexare semantică – recurge la concepte

clasificare socială via adnotare de resurse – tagging (folksonomy)

+ folosirea tehnologiilor Web-ului semantic

Page 55: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

motoare: interogarea

Cererile sunt formulate via o interfață Web

unele motoare de căutare acceptăfolosirea unor operatori specifici

Page 56: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

exemplificare: o parte dintre operatorii Google

"expresie" ~termen –termen

related: URL cache: URL link: URL

intitle: termen(i) allintitle: termen(i)

intext: termen(i) allintext: termen(i)

inurl: termen(i) allinurl: termen(i)

site: domeniu info: domeniu

define: termen filetype: extensie

unit1 in unit2 număr1 .. număr2

detalii la www.googleguide.com/advanced_operators_reference.html

Page 57: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

motoare: interogarea

digital camera $700 .. 1400

~book

intitle:design –intitle:web

"burse de merit"

site:uaic.ro

inurl: art nouveau

allinurl: ES6 library

16 cm in inch

related:www.w3.org

js mvc inanchor:slideshare

define:design

cache:http://devdocs.io/

map:iasi,romania

firefox filetype:svg OR filetype:png

unii operatori sunt permiși doar pentru anumite tipuri de căutări – e.g., știri, imagini, hărți

Page 58: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

motoare: interogarea

Interogările din prisma utilizatorului:

grad mare de subiectivitate

e.g., “miserable failure”

Page 59: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

motoare: interogarea

Interogările din prisma utilizatorului:

depind de contextul social/cultural

exemple:“pants” în UK versus US

“madonna and child”

Page 60: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

motoare: interogarea

Interogările din prisma utilizatorului:

dependente de scop (user intent)

informațional (listă, locație, sfat)

navigațional

vizând accesul la (tipuri de) resurse(download, amuzament, interactivitate, tranzacții,…)

Page 61: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

motoare: interogarea

semantici diferite ale unei interogărinecesitatea înțelegerii limbajului natural

www.google.com/search/howsearchworks/algorithms/

Page 62: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

motoare: interogarea

Remarci:

utilizatorii obișnuiți nu înțeleg limbajul logic – „booleana”

exemplu:“hotels located in Bucharest and Iasi”

Page 63: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

motoare: interogarea

Remarci:

interogările uzual sunt scurte,dar focalizate – e.g., 25% pe business – conform Yahoo!

apar confuzii:URI vs. text

lipsa spațiilorvocabular

etc.

Page 64: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

Remarci:

implicit, termenii de căutare trebuie să se regăseascăidentic în cadrul conținutului unui document Web

e.g., căutând “children”, nu vom obține neapărat și paginile care includ “kids”

motoare: interogarea

Page 65: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

interacțiunea cu motorul de căutare poate fi facilitată

și de un agent software conversațional

Apple Siri, Amazon Alexa, Google Assistant, Google Now, Microsoft Cortana, Mycroft.ai,

Dragon Go!, SpeakToIt Assistantthereisabotforthat.com botpress.io

Page 66: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

Detalii despre calculul relevanței?

Page 67: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

motoare: relevanță

Evaluarea relevanței:

1. Analizarea interogării (tokenizing)2. Căutarea în indecșii termenilor3. Scanarea documentelor4. Evaluarea relevanței paginilor5. Eliminarea duplicatelor + sortarea6. Afișarea primelor N documente relevante

(URI + alte informații)

Page 68: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

motoare: relevanță

Conținutul fiecărui document extraseste analizat și divizat în token-uri

Page 69: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

motoare: relevanță

Unele construcții se ignoră/constrâng

e.g., “the”, “is”/“are”/“were” → “be”, “running” → “run”

procesare de bază a conținutului textual

Page 70: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

motoare: relevanță

Fiecărui token i se reține și poziția aparițieiîn document

poziția poate fi folosităla determinarea relevanței termenului

Page 71: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

motoare: relevanță

Criterii vizând calculul relevanței:

ranking bazat pe clasificare umană

resurse clasificate de oameni

Page 72: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

motoare: relevanță

Criterii vizând calculul relevanței:

ranking bazat pe informații privitoarela utilizarea unei resurse

timpul de vizită, periodicitatea vizitei,frecvența actualizării resursei, importanța relativă etc.

Page 73: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

motoare: relevanță

Criterii vizând calculul relevanței:

ranking bazat pe conectivitate

analiza relațiilor (legăturilor hipertext) cu alte pagini

eventual, în funcție de reputațiee.g., importanța domeniului Internet

(sunt luați în calcul factori ca vechimea, localizarea,…)

Page 74: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

motoare: relevanță

Calculul relevanței:

tehnici privind IR (Information Retrieval)

căutări bazate pe similaritate – similarity search

recurgând la învățare automată

clasificarea conținutului hipermedia

social network analysis – bibliometrie, prestigiu,…

Page 75: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

motoare: relevanță

Page Rank (Google)Larry Page & Sergey Brin, 1998

evaluarea relevanței pe baza contextului de apariție

exploatarea relațiilor dintre diferite pagini Web

o legătură de la resursa A la B reprezintăun vot dat resursei B de către A

infolab.stanford.edu/~backrub/google.html

Page 76: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

motoare: relevanță

Actualmente, se iau în considerațieconcepte (cunoștințe), nu cuvinte

“things, not strings”

de vizionat prezentareaM. Lanthaler, “The Future of the Web– From Strings to Things” (2015)

vimeo.com/133137907

Page 77: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

Motoarele tind să „recompenseze” siturile:

de mari dimensiuni

cu viață lungă

specializate, de „nișă”

aparținând unor autorități de încredere

motoare: relevanță

Page 78: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

timp strategie

înainte de 2000

conținut – indexarea textului(titlu, anteturi, URL, descriere via <meta>)

2000—2010conținutautoritate (via legături desemnate de URL-uri)

2010—prezent

conținutautoritatepersonalizare (social media + profil utilizator)

2012—prezent

conținutautoritatepersonalizareconcepte (date structurate + Web of data)context (localizare geo, limbă, timp, dispozitiv,…)

adaptare după (K. Bodnar & J. Hopkins, 2011)de studiat și www.slideshare.net/randfish/presentations

Page 79: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

coInstrumente software open source pentru implementatori: Apache Lucene, Apache Nutch, Apache Solr,

mnoGoSearch, Namazu, Xapian,…

API-uri publice: www.programmableweb.com/category/search

disponibilitatea datelor indexate în regim deschis în vederea analizării ulterioare:

commoncrawl.org

Page 80: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

SERP (Search Engine Result Page)

specifică maniera de redare a rezultateloroferite de motorul de căutare

motoare: afișarea rezultatelor

Page 81: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

SERP (Search Engine Result Page)

se includ recomandări pe baza:preferințelor utilizatorului

istoricului căutărilorURL-urilor partajate via rețele sociale

meta-datelor (rich snippets)adnotărilor realizate de utilizatorilocalizării geografice (local search)

motoare: afișarea rezultatelor

Page 82: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

a se considera și DuckDuckGo Instant Answers: duck.co/ia

motorul de căutareDuckDuckGo este axat

asupra asigurării intimitățiiutilizatorului în ceea ce privește

căutările acestuia pe Web

Page 83: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

“At any one time you rank #1 or #8 or #40based on who is searching, where they search,

and what is happening.”

K. Bodnar & J. Hopkins, 2011

Page 84: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

În ce mod prezentăm conținutulaltor clienți – diferiți de cei umani?

Page 85: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

SEO – Search Engine Optimization

suită de strategii de redactare a codului HTMLîn vederea obținerii unei relevanțe ridicate

a conținutului, astfel încât pagina/situl să fieregăsite în urma unei căutări specifice efectuate

cu un instrument de căutare

Page 86: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

Structurarea codului-sursă al documentelor Web

Structurarea conținutului (textual, grafic,…)

Structurarea legăturilor cu alte resurse

Page 87: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

Se recurge la semnificația logică a marcatorilor HTMLPOSH (Plain Old Semantic HTML)

titluri plasate ierarhic via elementele <h1>, <h2>,…

conținut tabelar cu <table>

aranjament vizual (layout)via stiluri CSS și nu tabele (<table> <tr>…)

Page 88: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

Se recurge la semnificația logică a marcatorilor HTMLPOSH (Plain Old Semantic HTML)

divizarea conținutului: <section> <article> <header> <footer> <aside> etc.

marcajarea elementelor vizând navigabilitatea cu <nav>

liste specificate cu <ul> <ol> <li>

Page 89: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

h1

nav

aside

section

h2

ul

h2

articlep

header

Page 90: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

Se recurge la semnificația logică a marcatorilor HTMLPOSH (Plain Old Semantic HTML)

conținut textual alternativ pentru imagini (<img alt="..." />), legături (<a title="...">), tabele (<table summary="...">),

multimedia,…

atașarea de meta-date externe în antetul paginii Web via <head>, <meta /> și <link />

Josh Buchea, A free guide to <head> elements – gethead.info

Page 91: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

Se recurge la semnificația logică a marcatorilor HTMLPOSH (Plain Old Semantic HTML)

de evitat elementele învechite – e.g., cadre (frame-uri) –sau proprietare (<blink> ori <marquee>)

documentul trebuie să fie bine-formatatverificarea corectitudinii codului HTML cu instrumentul

oferit de Consorțiul Web – validator.w3.org

a se considera și html5boilerplate.com

Page 92: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

coConținutul primează – content is king

o importanță majoră o are titlul paginiiUntitled Document – aproape 63 de milioane de rezultate

situl trebuie actualizat periodic, frecvent

numele fișierelor (imagini, stiluri,…) conteazătehnică utilă:

„rescrierea” URL-urilor – e.g., mod_rewrite la Apache

anumite date pot fi „ascunse” de roboți via robots.txt

Page 93: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

Realizarea legăturilor între pagini (hipermedia)

obligatoriu, de inclus legături spre alte resurse(ale sitului propriu ori ale altor situri)

dorim legături spre/de la situri importanteavând conținut similar cu situl nostru

de verificat și menținut structura hipertextuluiinstrumentul LinkChecker – validator.w3.org/checklink

Page 94: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

Realizarea legăturilor între pagini (hipermedia)

de citit cap. 2 din S. Buraga, Proiectarea siturilor Web, Polirom, 2005www.slideshare.net/busaco/sabin-buraga-proiectarea-siturilor-web

tehnici clasiceașa-zis „demodate”:

interschimb de adrese(link-uri) – banner-e, blogroll-uri

marketing bazat pe contexte.g., produse/servicii înrudite

Page 95: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

Realizarea legăturilor între pagini (hipermedia)

recurgerea la aplicații Web socialeSMO – Social Media Optimization

partajare în rețeaua de „prieteni”,apreciere, comentarii, opinii,…

S. Buraga, Design Patterns for Social (Web/mobile) Interactions, prelegere la materia Human-Computer Interaction, FII, UAIC, 2019

profs.info.uaic.ro/~busaco/teach/courses/hci/hci-film.html#week7

Page 96: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

Realizarea legăturilor între pagini (hipermedia)

de evitat paginile de eroare – 404 Not Found

orice pagină de eroare poate fi „convertită”într-o resursă folositoare omului/robotului

uzual, se oferă harta sitului (site map), legături relevante, motor intern de căutare,…

alistapart.com/article/perfect404

alistapart.com/article/amoreuseful404

Page 97: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

Realizarea legăturilor între pagini (hipermedia)

a nu se folosi navigarea bazată pe JavaScript ori – mai desuet – pe tehnologii proprietare (Flash/Silverlight)

<p>participanții: <a href="javascript:sari(3);">aici</a></p>

<h5><a href="javascript:window.history.back();">la prima pagină</a></h5>

Page 98: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

Alte aspecte de interes despre SEO?

Page 99: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

Specificarea structurii unui sit Web

crearea documentului sitemap.xml

pentru a fi ulterior procesat de motorul de căutare

www.sitemaps.org/protocol.html

complementar fișierului robots.txt

furnizează structura hipertext a unui sit Web

datele pot fi furnizate și în formatele Atom, RSS și text obișnuit

Page 100: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

Specificarea structurii unui sit Web

<?xml version="1.0" encoding="UTF-8"?>

<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">

<url>

<loc>https://developer.mozilla.org/en-US/docs/Archive</loc>

<lastmod>2019-12-10</lastmod>

</url>

<!-- alte elemente url -->

</urlset>

cazuri concrete:developer.mozilla.org/sitemap.xml

techcrunch.com/sitemap.xml

instrument Web de generare: www.xml-sitemaps.com

Page 101: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

Evitarea spam-ului Web

e.g., legături încrucișate între pagini similareale aceluiași sit Web ori ale unei colecții de situri

motoarele de căutare detectează + penalizează spam-ul!searchenginewatch.com/?s=spam

Page 102: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

Paginile de „acoperire” (page cloaking)

scop: oferirea de conținut diferit,în funcție de un anumit criteriu

(aici, conținut special pentru roboții de căutare)

black-hat page cloakingtehnică penalizată: support.google.com/webmasters/answer/66355

Page 103: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

Oferirea de conținut via documenteadoptând formate de date nestandardizate

Titluri identice pentru toate paginile unui sit

Pagini de eroare oferite de servervia codul de stare HTTP 200 Ok

Redirecționări incorecte/malițioase

Abuzul de transferuri asincrone (Ajax)

de evitat

Page 104: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

Regăsirea informațiilor disponibile pe Web trebuie considerată într-un context mai larg

accesibilitatea – utilizatorii cu nevoi speciale

Web Accessibility Initiativewww.w3.org/WAI/

Web Accessibility in Mindwebaim.org

Page 105: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

Regăsirea informațiilor disponibile pe Web trebuie considerată într-un context mai larg

performanța aplicațiilor Web

aspect important: timpul de încărcare a unei pagini Web

Page 106: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

Resurse de interes:

Google Webmaster Centraldevelopers.google.com/webmasters/

Learn SEO and Search Marketingmoz.com/learn/seo

Search Engine Landsearchengineland.com

Search Engine Watchsearchenginewatch.com

Search Engine Roundtablewww.seroundtable.com

Search Engines @ VideoLecturesvideolectures.net/Top/Computer_Science/Search_Engines

Page 107: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

Invisible Web (Deep Web)

acea parte a spațiului WWW care nu este detectată de motoarele de căutare sau

de alte tipuri de aplicații de regăsire a resurselordisponibile pe Web

Page 108: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

Dark Web

acea parte a spațiului informațional reprezentat de Deep Web care în mod intenționat e ascunsă

și inaccesibilă via navigatoare Web comune

exemplu notoriu:rețele anonime (VPN – Virtual Private Network)

accesate cu TOR Browser

Page 109: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

Cum am putea descrie conținutul resurselor Webastfel încât să poată fi procesat „inteligent”?

Page 110: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

Idee:specificarea unor meta-date direct în cadrul

documentelor HTML pentru a „explica” unui program (software – e.g., motor de căutare)

conținutul unei resurse Web

Page 111: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

Soluții actuale aliniate problematicilor Web-ului semantic – Web of Data

scheme de microdate HTML5 – schema.org

RDFa (standard al Consorțiului Web) – rdfa.info

Page 112: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

Microdata HTML 5

specificație HTML Living Standard (6 decembrie 2019)

html.spec.whatwg.org/multipage/microdata.html

Page 113: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

Microdata HTML 5

posibilitatea de a specifica perechi de proprietăținume—valoare „scufundate” în HTML

Page 114: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

Microdata HTML 5

grupurile de perechi de proprietăți nume—valoare sunt denumite items

Page 115: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

Microdata HTML 5

grupurile de perechi de proprietăți nume—valoare sunt denumite items

creare via atributul itemscope

stabilește și domeniul de vizibilitate

Page 116: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

Microdata HTML 5

grupurile de perechi de proprietăți nume—valoare sunt denumite items

specificarea unei proprietăți prin atributul itemprop

Page 117: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

Microdata HTML 5

grupurile de perechi de proprietăți nume—valoare sunt denumite items

referire cu ajutorul atributului itemref

Page 118: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

Microdata HTML 5

grupurile de perechi de proprietăți nume—valoare sunt denumite items

asocierea unui tip de date se face cu atributul itemtype

Page 119: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

Microdata HTML 5

grupurile de perechi de proprietăți nume—valoare sunt denumite items

pentru identificarea unui item se folosește itemid

Page 120: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

Există o serie de modele de date(exprimate via microdate)ce pot fi indexate și folosite

de actualele motoare de căutare?

Page 121: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

schema.org

colecție de vocabulare (scheme de date)– e.g., Book, Event, LocalBusiness, Movie, Offer, Person,

Place, Recipe, Review, TVSeries,… – recunoscute șiindexate de roboții principalelor motoare de căutare

istoric și viziune:R. Wallis, “Schema.org: Structured Data – What, Why, & How”, 2018

www.slideshare.net/rjw/schemaorg-structured-data-the-what-why-how-125885618

Page 122: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

schema.org

colecție de vocabulare (scheme de date)– e.g., Book, Event, LocalBusiness, Movie, Offer, Person,

Place, Recipe, Review, TVSeries,… – recunoscute șiindexate de roboții principalelor motoare de căutare

Bing, Google, Yahoo!, Yandex

amănunte la schema.org/docs/gs.html

modeleconceptuale

Page 123: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

Page 124: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

tipurile primare de date definite de schema.org

Page 125: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

diverse proprietăți ce relaționează Integer cu alte concepte

Page 126: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

Thing – schema cea mai generală, incluzând conceptualizări(clasificări realizate riguros)

Action

BroadcastService

CreativeWork

Event

Intangible

MedicalEntity

Organization

Person

Place

Product

Class

Property

Page 127: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

Person – modelează conceptul „persoană”http://schema.org/Person

Page 128: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

MusicRecording – specifică o înregistrare muzicală (sub-clasă a conceptului CreativeWork)

Page 129: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

schema.org

relațiile dintre entități sunt precizate via proprietăți

Page 130: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

<div lang="en" itemscope="" itemtype="http://schema.org/RealEstateAgent"><span itemprop="name">Tuxy Unlimited</span><div itemprop="address" itemscope=""

itemtype="http://schema.org/PostalAddress"><span itemprop="streetAddress">Banchiza, 1</span><span itemprop="addressLocality">Iasi</span>,<span itemprop="addressRegion">Iasi</span><span itemprop="postalCode">700550</span>

</div>Phone: <span itemprop="telephone">+4032201090</span><a href=

"http://www.openstreetmap.org/way/243817200#map=18/47.17493/27.57378" itemprop="maps">Details on OpenStreetMap</a>

</div>

fapte vizând domeniul imobiliar

…pe baza modelului conceptual schema.org

Page 131: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

<p itemid="#busaco" itemscope="" itemtype="http://schema.org/Person">This discipline is taught by

<span itemprop="honorificPrefix">Dr.</span> <a href="https://profs.info.uaic.ro/~busaco/"

title="Visit the Website of Sabin-Corneliu Buraga" itemprop="url"><span itemprop="name">

<span itemprop="givenName">Sabin</span>-<span itemprop="additionalName">Corneliu</span> <span itemprop="familyName">Buraga</span>

</span></a>.

</span></p>

specificarea (adnotarea explicită a) faptului: „entitatea având numele Sabin-Corneliu Buraga este o persoană, posedă titlul Dr. și are situl Web propriu

disponibil la adresa https://profs.info.uaic.ro/~busaco/”

Page 132: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

<section id="web-nodejs"><h2>Web Supplement</h2><ul>

<li itemscope="" itemtype="http://schema.org/CreativeWork"itemid="#nodejs" class="lecture"><p>Tutorial: <a itemprop="url" title="…"

href="presentations/web-nodejs.pdf"><span itemprop="name">Web Application Development

with Node.js</span></a></p><div class="terms" itemprop="keywords"> Web, development, server,

Node.js, JavaScript, programming, npm, tools</div></li>…

</ul></section>

specificarea în HTML5 a lucrărilor creative de tip CreativeWork conform schema.org

Page 133: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

extragerea/verificarea de date structurate via Structured Data Testing Tool – search.google.com/structured-data/testing-tool

Page 134: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

extragerea informațiilor din HTML5aici, despre prelegerile asociate unei materii

Page 135: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

<article itemscope="" itemtype="http://schema.org/Event"><section id="contest">

<h2>Tema</h2><p itemprop="description">Concursul este destinat studenților<span itemprop="location" itemscope="" itemtype="http://schema.org/Place">

<a href="http://www.info.uaic.ro/" itemprop="url" title="Spre situl FII><span itemprop="name">FII</span></a> (UAIC <span itemprop="address">Iași, România</span>)</span>

și constă în optimizarea conținutului și structurii unui sit Web.</p>…<p>Perioadă de desfășurare: <span itemprop="startDate" content="2018-10-15T00:00">15 octombrie 2018</span>—<strong><span itemprop="endDate" content="2019-01-07T17:00">7 ianuarie 2019, ora 17:00</span></strong>.</p>

</section>…</articol>

pe baza schema.org, se pot modela în HTML date vizând un eveniment (Event) și locul de desfășurare (Place)

Page 136: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

date pentru „consum” uman vs. date structurate interpretate și prelucrate, ulterior, de algoritmi

Page 137: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

inspectarea datelor structurate cu OpenLink StructuredData Sniffer – extensie de browser: osds.openlinksw.com

specificarea meta-datelor privitoare la instanța de Article

aici, o instanță ImageObject

Page 138: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

<div itemscope="" itemtype="http://schema.org/Product"><img itemprop="image" src="tux-de-catifea-cu-paiete.jpg" /><span itemprop="name" lang="ro">Tux de catifea cu paiete</span>

<div itemprop="aggregateRating"itemscope="" itemtype="http://schema.org/AggregateRating"><span itemprop="ratingValue">74</span>din <span itemprop="bestRating">100</span> de punctepe baza a <span itemprop="ratingCount">33</span> de evaluări ale utilizatorilor

</div>

<div itemprop="offers" itemscope=""itemtype="http://schema.org/AggregateOffer">disponibil de la

<span itemprop="lowPrice">30</span> la <span itemprop="highPrice">130</span> de RON pe baza ofertei a <span itemprop="offerCount">10</span> comercianți

Oferta zilei:<div itemprop="offers" itemscope itemtype="http://schema.org/Offer">

<a itemprop="url" href="http://jucarii.biz/tucsi/tux-catifea-paiete">Jucării de sărbători pentru toți, acum și cu paiete!</a>

</div></div>

</div>modelarea cunoștințelor privind

produse și oferte comerciale

Page 139: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

alte exemplificări: pinterest.com/kidehen/structured-metadata-related/

TripAdvisor

construcții RDFa utilizând Open Graph Protocol (Facebook) – ogp.me

utilizarea conceptelor Country și AggregateRating

Page 140: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

acțiuni asociate vizualizării unui produs (instanță a clasei Product) – detalii la schema.org/docs/actions.html

vezi și Increase user engagement with actions in emailsdevelopers.google.com/gmail/markup/

eBay

acțiuni ce pot fi efectuate de utilizator(ViewAction e sub-concept al Action)context: dispozitive mobile, e-mail,…

Page 141: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

Diverse utilizări practice:

artefacte culturalevezi prezentările lui A. Isaac despre Europeana

www.slideshare.net/antoineisaac/presentations

biblioteci digitale (digital libraries)R. Wallis, prelegeri la Smart Data’15, BIBFRAME’18,…

www.slideshare.net/rjw/presentations

lucrări științificeformatul Scholarly HTML

w3c.github.io/scholarly-html/

medicină + sănătateschema.org/docs/meddocs.html

health-lifesci.schema.org

Page 142: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

Diverse utilizări practice:

finanțeextensia schema.org privitoare la FIBO (Financial Industry Business Ontology)

wiki.edmcouncil.org

schema.org/FinancialProduct

industria autoauto.schema.org

IoT (Internet of Things)iot.webschemas.org/docs/iot-gettingstarted.html

turismC. Bizer, Schema.org Annotations in Websites. Opportunities

& Challenges for the Tourism Industry, TFF’15www.slideshare.net/TourismFastForward/bizer-christian-schema-orgtourism

Page 143: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

Scheme de microdate HTML5în sistemele de management de conținut

(CMS – Content Management Systems)

M. Mössmer, Schema.org Plugins for CMS Systems (2014)oc.sti2.at/sites/default/files/schemaorg_cmsplugins.pdf

Page 144: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

Scheme de microdate HTML5în sistemele de management de conținut

DokuWikiwww.dokuwiki.org/plugin:semantic

Joomlaextensions.joomla.org/extension/google-structured-data-markup

MediaWikiwww.mediawiki.org/wiki/Extension:GoogleRichCards

TYPO3extensions.typo3.org/extension/schema_org/

WordPresswordpress.org/plugins/all-in-one-schemaorg-rich-snippets/

Page 145: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

statistici vizând includerea de meta-date

direct în codul HTMLtrends.builtwith.com/docinfo

Page 146: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

Microdatele HTML5 sunt indexate de motoarele de căutare

Bing Webmastertinyurl.com/b9mx2f2

Google Structured Datadevelopers.google.com/structured-data/

research.googleblog.com/search/label/schema.org

Yandex Webmasteryandex.com/support/webmaster/schema-org/