web - web search
DESCRIPTION
TRANSCRIPT
Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/
TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />
Tehnologii Web
Dr. SabinCorneliu BuragaFacultatea de Informatica
Universitatea “A.I.Cuza” – Iasi, Romania
http://www.infoiasi.ro/~busaco/
Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/
TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />
Cautarea & regasirea resurselor Web
Motoare de cautareTehnici SEO
Detalii in [PSW, 44‐67, 189‐194]
Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/
TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />
“Unde se gaseste ultimul port de unde nu vom mai ridica ancora?”
Herman Melville
Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/
TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />
Robotii WebMotoarele de cautare Web
Alte mijloace de regasire a informatiilorSEO (Search Engine Optimization)
Concluzii
cuprins
Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/
TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />
intrebare
Ce sunt robotii Web?
Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/
TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />
roboti
Programe ce traverseaza automat Web‐ul,cu scopul de a extrage informatii
Spiders, crawlers,Web botsRobot Web ≠ navigator WebRobot Web ≠ agent Web
Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/
TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />
roboti
Pornind de la un URI, realizeaza o conexiune HTTPla un server Web, pentru a intreprinde anumiteactiuni privitoare la reprezentarea unei resurse si, recursiv, din toate documentele desemnate delegaturile existente in cadrul reprezentarii
actiuni: extragere, copiere, sumarizare,agregare de continut etc.
Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/
TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />
roboti: utilizari
Analize statisticeexemplu: numararea serverelor Web
– si raportarea caracteristicilor acestora –dintr‐un areal geografic
exemplu: contorizarea documentelorcare se conformează standardelor Web
Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/
TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />
roboti: utilizari
Mentinere
Rezolvarea legaturilor “moarte”Verificarea structurii documentelor Web
Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/
TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />
roboti: utilizari
Oglindire (mirroring)
Copierea la nivel local a unui (fragment de) sit Web
Avantaje: fiabilitate, transfer mai rapid,consultare offline a continutului
Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/
TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />
roboti: utilizari
Descoperirea resurselor
Roboti folositi de motoarele de cautare: sumarizare, indexare, monitorizare a modificarilor
Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/
TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />
roboti: pericole
Operarea in foc rapid (rapidfire)Trafic de reteaSupraincarcarea serverelor Web
Actualizarea cu intirziere a bazelor de date ale motoarelor de cautare
Exploatarea (ne)controlatade catre utilizatorii finali
Intrarea in “gaurile negre”Accesarea unor date nerelevante
Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/
TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />
roboti: identificare
Fiecare robot Web trebuie sa se identifice(nume, domeniu, creator,...)
Roboti personali (software de oglindire, motoare de cautare experimentale)BackRub (pre‐Google), WebMapper, wget etc.
Roboti ai motoarelor de cautare majoreGooglebot, Scooter (AltaVista), slurp (Yahoo!),…
Detalii: www.robotstxt.orgwww.spiderhunter.com
Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/
TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />
roboti: excludere
Standardul de excludere a robotilorFisierul robots.txt# /robots.txt pentru http://www.infoiasi.roUser-agent: * # toti robotiiDisallow: /tmp/ # date temporareDisallow: /busaco/work/ # spatiu privat
Evitarea indexarii continutului<meta name="robots" content="noindex, nofollow" />
Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/
TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />
cuprins
Motoarele de cautare WebPrezentare generala
StructuraMeta‐cautatoareAlte strategii
Servicii Google suplimentare
Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/
TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />
motoare
Scop:localizarea resurselor de pe Web
Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/
TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />
motoare
Tipuri de cautari – maniera traditionala:pe baza de indecsi (crawling & indexing)Lycos (‘94), AltaVista (‘95)
pe baza ierarhiilor de termeni(servicii de tip catalog – topic directory)Yahoo! – Yet Another Hierarchical Officious Oracle!(‘94)
hibride (indecsi + taxonomii) – Excitepe baza legaturilor hipertext (hyperlink analysis) Google (‘96)
Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/
TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />
motoare
Un motor de cautare trebuie sa satisfacanevoia de informatii a utilizatorului
(user informationseeking)
Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/
TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />
motoare
Localizarea & indexarea resurselor se pot realiza:automat – via roboti WebGoogle
manual – recurgind la experti umaniOpen Directory: dmoz.org
hibridversiuni mai vechi de MSN Search
Tehnici: data/relation mining, topic distillation,metadata search, social search,…
Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/
TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />
motoare
Caracteristici ale unui motor de cautare idealScop – cautarea oricarei resurse existenteViteza – rezultatele sa fie disponibile imediatDisponibilitate – actualizarea permanentaRecall – gasirea tuturor resurselor relevantepentru o cerere data
Precizie – rezultatul contine doar documenterelevante
Ranking – cele mai relevante documentesunt plasate primele
Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/
TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />
motoare: componente
Robot Webextrage informatiiIndex (catalog)
stocheaza informatiiMecanism de evaluare (ranking)
pe baza cererii utilizatorului, ofera raspunsuri
diferentele dintre motoarele de cautare actuale sunt datede fiecare componenta in parte
Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/
TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />
Structuragenerica(Chakrabarti,
2003)
Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/
TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />
motoare: cautarea
Activitatea generala a unui robot (crawler) simplu:F = multimea de URL-uri de start (frontiera)while (F este nevida)extrage un URL u din Fpreia via HTTP pagina p cu adresa uif (p este relevanta)stocheaza p in indexpentru fiecare legatura v din p
if ((v nu este in index) and (v nu apartine lui F) and (v ar putea fi vizitata))adauga v la F
Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/
TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />
motoare: cautarea
Bazata pe invatare (e.g., reinforcement learning)Hiper‐informatia: INFORMATION = HYPERINFO + TEXTINFO
Dependenta de legaturiOrdonarea legaturilor (criterii de importanta)
Robotul/motorul de cautare decide momentul revizitariiresursei care urmeaza a fi reindexata sau doar verificata
Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/
TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />
motoare: cautarea – aspecte
Rezolutia adreselor (DNS caching, prefetching & resolution)Realizarea cererilor concurente
Extragerea legaturilorEliminarea adreselor deja vizitate
Monitorizarea accesarilor (load monitoring & managing)Utilizarea de furnizori de servicii Internet (ISP) multipli
Strategii de revizitare/reimprospatarea continutului paginilor Web
Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/
TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />
motoare: indexarea
Necesitatea folosirii sistemelor de baze de date depozit distribuit de stocare
Strategii de extragere a legaturilorNormalizarea URI‐urilor:
www.InfoIasi.Ro:80 www.info.uaic.roUtilizarea functiilor de dispersie (hash)Arhivarea datelor – e.g., bzip2 la Google
Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/
TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />
motoare: indexarea
Utilizarea nu doar a datelor propriu‐zise, ci si a meta‐datelor (limba, cuvinte‐cheie, autor)
modulul de indexare & metadate
Indexare bazata pe cuvinte‐cheierelevanta, plasament, meta‐date,...
Indexare semantica – bazata pe concepteRDF, RSS, WordNet, social tagging, microformate,...
Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/
TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />
motoare: indexarea
O importanta mare o au: maniera de structurare a informatiei si“relatia” unei pagini cu altele inrudite
Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/
TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />
motoare: indexarea
Accesarea datelor:random access
querybased accessstreaming access
Aspecte de interes:consistenta & actualizarea
Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/
TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />
motoare: interogarea
Cererile sunt formulate via o interfata WebOperatorii AND (+) si NOT (–)Cautari exacte folosind "lista de termeni"Unele motoare accepta si parantezele
Exemple:Titanic +ship –movie –film"Sabin Buraga" AND xml
Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/
TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />
motoare: interogarea
Formularea interogarilor in cazul Google:Cererile se considera caseinsensitiveSint semnificativi doar primii 10 termeniOrdinea aparitiei termenilor conteazaAtentie la slang si vocabulare specializatePot fi realizate rafinari diverse (advanced search)Facilitati privind efectuarea de calcule/conversii
Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/
TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />
motoare: interogarea
Unii din operatorii suplimentari oferiti de Google:intitle: Termen(i)intext: Termen(i)
link: URIsite: Domeniu
~TermenNumar1 .. Numar2
Termen1 * Termen2define: Termen
filetype: Extensie
Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/
TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />
motoare: interogarea – exemple
digital camera $700 .. 1400
~book
Apache logo +filetype: png
intitle: design –intitle: web
site: uaic.ro +inurl: edit
Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/
TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />
motoare: interogarea
Interogarile din prisma utilizatorului: grad mare de subiectivitate
e.g., “miserable failure”
depind de contextul social/cultural“pants” in UK vs. US, “madonna and child”
dependenta de scop:informational (lista, locatie, sfat), navigational,
vizind resursele (download, amuzament, interactivitate,…)
Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/
TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />
motoare: interogarea
Remarci:
Utilizatorii nu inteleg “booleana”
Interogarile sint scurte (media: 2.6 cuvinte),dar focalizate – e.g., 25% pe business
Apar confuzii: URI vs. text, lipsa spatiilor, vocabular etc.
Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/
TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />
motoare: interogarea
Interogari formulate in limbaj natural:eliminarea ambiguitatilor (dezambiguizarea)
filtrarea cuvintelor nerelevanteexpandarea interogarii: sinonime, forme derivate,…
exemplu: Ask Jeeves – ask.com
Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/
TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />
motoare: interogarea
Evaluarea cererii (schema generala):1. Analizarea interogarii (tokenizing)2. Cautarea in indecsii termenilor3. Scanarea documentelor4. Evaluarea relevantei paginilor5. Eliminarea duplicatelor & sortarea6. Afisarea primelor N documente relevante
(URI + alte informatii)
Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/
TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />
motoare: interogarea
Fiecare document extras e analizat si divizat in token‐uriFiecare token distinct este reprezentat via un IDUnele constructii se ignora/constring(e.g., “the”, “is”/“are”/“were” → “be”, “running” → “run”)Fiecarui token i se retine si pozitia aparitiei in documentPentru stocare/acces: BD ori structuri de date specialeIndecsii se arhiveaza
Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/
TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />
motoare: interogarea
Criterii de calcul a relevantei:Ranking bazat pe clasificare umana
resurse clasificate de oameniRanking bazat pe informatii privitoarela utilizarea unei resurse
timpul de vizita si periodicitatea viziteiRanking bazat pe conectivitate
analiza relatiilor (legaturilor hipertext)
Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/
TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />
motoare: interogarea
Calculul relevantei:tehnici privind IR (Information Retrieval)
cautari bazate pe similaritate – similarity searchcautari bazate pe invatare automata (machine learning)
clasificarea continutului hipertextsocial network analysis – bibliometrie, prestigiu,…
Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/
TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />
motoare: interogarea
Alte abordari (Google) – page rank:Evaluarea relevantei pe baza contextului de aparitieExploatarea relatiilor dintre diferite pagini WebRecurgerea la tehnici adaptive, euristiceDeterminarea corelatiei dintre relevantele motorului
si cele ale utilizatorului
Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/
TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />
motoare: interogarea
Page rank (Larry Page & Sergey Brin, ‘96,doctorat la Stanford):
se bazeaza pe structura hipertext
o legatura de la pagina A la B reprezintaun vot dat paginii B de catre A
cu cit un sit este mai important,cu atit page rank‐ul asociat lui e mai mare
Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/
TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />
motoare: interogarea
Page rank
PR (A) = (1 – d) + d (PR (T1) / C (T1) + ... + PR (Tn) / C (Tn))unde C (Ti) = numarul arcelor ce pleaca din Ti,
d = factor de damping (uzual, 0.85)
Rafinare: page rank‐ul depinde de utilizator,pe baza preferintelor si a interogarilor din trecut
(Kaltix, achizitionata de Google in 2004)
Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/
TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />
motoare: interogarea
Alternative la page rank:HITS (Hyperlink Induced Topic Search)
analiza relevantei in functie de interogarea formulataExploatarea structurii marcajelor paginilor Webmodel mai fin de analiza (content separation),
la nivel de DOMFolosirea tehnologiilor limbajului uman
lexical networks, partofspeech, question answeringUtilizareaWeb‐ului semantic
nu ia in consideratie cuvinte, ci concepte (cunostinte)
Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/
TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />
motoare: interogarea
Alternative la page rank:TrustRank (Friesen, 2007)
foloseste domenii Web de incredere selectate de oameni
cu cit un sit este mai aproape (in termeni de legaturi Web)de siturile revazute & considerate de incredere
de catre oameni, cu atit va avea o importanta mai mare
vizeaza un sit (domeniu), nu o paginaWeb
Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/
TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />
motoare: interogarea
Colectarea & utilizarea preferentiala a paginilor:distilarea subiectelor (topic distillation)
considera o comunitate de pagini axate pe un subiect
algoritmul Hilltopnumarul si calitatea surselor care refera o pagina sunt
o buna masura a calitatii acelei pagini, dar sunt considerate doar sursele “expert” pagini create cu scopul
de a directiona utilizatorii spre continuturi relevante
Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/
TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />
motoare: interogarea
Colectarea & utilizarea preferentiala a paginilor:indexarea semantica latenta (latent semantic indexing)considera o colectie de documente care au in comun
un numar mare de termeni (la nivel semantic)
descoperirea comunitatilor de interesefolosita mai ales in contextul cautarilor
privitoare la Web‐ul social
Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/
TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />
Tipuri de cautari:generale: Alexa, Ask, Gigablast, Google, Live Search,
WiseNut, Yahoo! Searchregionale: Baidu (China), Daum (Coreea),
Guruji (India), Najdi (Slovenia), Rambler (Rusia), Walla! (Israel) etc.
referitoare la persoane (people search): Ex.plod.us, InfoSpace, Spock, YellowPages,…
bazate pe oferirea de răspunsuri (answerbased): Answers, AskMeNow, Lexxe, Yahoo! Answers
motoare: interogarea
Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/
TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />
Tipuri de cautari:privind locurile de muncă (job search): CareerBuilder,
HotJobs, Indeed, Jobber.ro, Joobs.ro, Monster etc.referitoare la ştiri (news search):
Google News, Newslookup, Nexis, Yahoo! News,…vizând resursele multimedia: blinkx, FindSounds,
Google Images, Google Video, Picsearch, PodScopeprivitoare la codul‐sursa (code search):
Google Code, Koders, Krugle,…
motoare: interogarea
Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/
TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />
Tipuri de cautari:produse/servicii: Google Product Search, Kelkoo,
NexTag, Shopping, Shopzillainformatii geografice: Google Maps, MapQuest,
Windows Live Maps, Yahoo! Maps etc.resurse (publicatii) academice: BASE, CiteSeer,
Google Scholar, ScienceDirect, Scirus, Scitation, Windows Live Academic,…
motoare: interogarea
Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/
TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />
Motoarele tind sa “recompenseze” siturile:de mari dimensiunicu viata lunga
specializate, de “nisa”apartinind unor autoritati de incredere
motoare: interogarea
Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/
TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />
meta‐motoare
Scop: interogarea (in paralel) a mai multor motoare de cautare si compilarea listelor de adrese ale paginilor gasite
Pot include propriul sistem de evaluare a relevanteiNu intotdeauna elimina duplicatele
Pot fi specializate – e.g., cautari de fisiere,de continut multimedia, podcast‐uri, torrents,…
Exemple: Clusty, Dogpile, Kartoo, Mamma, SurfWax
Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/
TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />
Structura unui meta‐motor de cautare
Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/
TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />
alte strategii
Regasirea de informatiiin cadrul comunitatilor de utilizatori
forumuri: phpBB, JForum etc.portaluri: PHP Nuke, portlets, SharePoint,…
weblog‐uri: Blogger, MovableType, WordPress,…wiki‐uri: MediaWiki, XWiki, UseMod etc.
meta‐date, content tagging, folksonomies si altele
Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/
TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />
alte strategii
Adoptarea tehnicilor de cautare pe Webla nivel de utilizator (desktop search)
exemple: Beagle, Filehawk, Google Desktop Search,Instant Search (Vista), Kat (KDE), Spotlight (Mac OS X)
Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/
TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />
alte strategii
Document concepts – sugestii privitoare la cautari rafinateAltaVista Prisma
Folosirea de cautari in timp‐realGoogle Suggest, Yahoo! Instant Search
Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/
TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />
alte strategii
Monitorizarea actiunilor utilizatoruluicercetari privind interactiunea cu utilizatorul in functie de contextul cererii (e.g., gasirea de raspunsuri, documentare,
solutii de divertisment, intilnirea de continuturineasteptate) + timpul investit in realizarea unui task
propunerea de strategii de cautare automate/manuale
Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/
TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />
alte strategii
Adoptarea unor modele noi de calcul al relevantei
preferinte, colaborare, inteligenta colectiva,interactiune bogata cu utilizatorul, specializari
intentia de a creste productivitatea(descoperire, si mai putin cautare): social search
Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/
TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />
alte strategii
Social search – exemple:Cautari hiper‐contextuale, pattern recognition: SwickiCautari bazate pe comunitati, colaborare,personalizare: Clusty (bazat pe Yahoo!), Rollyo, TipTap, Wink
Procesari lingvistice: LexxeProactive search (in functie de context): IntellextAdoptarea de modele economice: GraveeCautare focalizata spre dezvoltare de software: Krugle, Koders
Cautari via instant messaging: Quece
Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/
TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />
alte strategii
Servicii suplimentare oferite de Google:Cautari locale: local.google.comSugestii: suggest.google.comTaxonomii: directory.google.comCalendare/evenimente: calendar.google.comGrupuri de stiri: groups.google.comNoutati: news.google.comMultimedia: images.google.com, video.google.comRaspuns la intrebari: answers.google.com
Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/
TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />
alte strategii
Servicii suplimentare oferite de Google:Servicii bibliografice/de studiu: scholar.google.comCautari specializate: Linux (www.google.com/linux),
Macintosh (www.google.com/mac) etc.Cataloage electronice: catalogs.google.comAplicatii Web de birou: docs.google.comIntegrarea in browser – Google ToolbarGoogle Labs: labs.google.com
(Glossary, Sets, Viewer, Voice Search, WebQuotes,…)Servicii Google in aplicatii: code.google.com
Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/
TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />
alte strategii
Servicii/aplicatii bazate pe Google – exemple:Google2RSS, Google by Email, Googlism,
googlematic (la AOL Instant Messenger), Google Mindshare, TouchGraph Google Browser
utilizarea serviciilor Google in alte situri prinmashup
vezi si http://googlesystem.blogspot.com/
Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/
TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />
SEO – Search Engine OptimizationIntroducereTehniciStrategiiPericole
cuprins
Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/
TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />
Tehnica speciala de optimizare a codului XHTMLin vederea obtinerii unei relevante ridicatea continutului, astfel incit pagina/situl sa fie
regasite in urma unei cautari specifice efectuatecu un motor de cautare
structurarea codului‐sursa al paginii, structurareacontinutului si structurarea legaturilor cu alte pagini
seo
Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/
TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />
Structurarea codului‐sursa – SEO la nivel de paginaDocumentul trebuie sa fie bineformatatObligatoriu, trebuie incluse meta‐date:
In antet, elementul <meta />Continut textual alternativ pentru imagini (<img alt="..." />),
multimedia, legaturi (<a title="...">),tabele (<table summary="...">) etc.
Atasarea de meta‐date externe (RDF, RSS, Atom, FOAF) via elementul <link />
A nu se folosi: cadre (frameuri), elemente invechitesau proprietare (e.g., <blink> ori <marquee>)
seo: tehnici
Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/
TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />
Structurarea continutului – SEO la nivel de paginaStrategia de baza: continut, continut, continut!Situl trebuie sa fie actualizat periodic, frecventAtentie la alegerea cuvintelor‐cheie in <meta>
criterii: relevanta, densitate, internationalizareO importanta majora o are titlul paginii
seo: tehnici
De ce?
Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/
TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />
Structurarea continutuluiContinutul relavant trebuie plasat intre <h1>, <h2>,...Unele motoare au probleme cu continutul inclus
in tabele (se vor folosi proprietati CSS2) saucu cod JavaScript inclus direct in XHTML
Continuturile multimedia binare trebuie sa aibaalternative textuale
Numele fisierelor (imagini, stiluri,…) conteazaAnumite date pot fi “ascunse” de roboti via robots.txt
seo: tehnici
Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/
TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />
Structurarea legaturilor – SEO la nivel de sitObligatoriu, de inclus legaturi spre alte pagini
(ale sitului ori ale altor situri)Dorim legaturi spre/de la situri importante
avind continut similar cu situl nostruTehnici: interschimb de link‐uri (banner‐e,
blogroll‐uri, marketing bazat pe context,...)De verificat si mentinut structura hipertext!A se evita spam‐ul – e.g., legaturi incrucisate
intre pagini similare(motoarele detecteaza & penalizeaza spamul)
seo: tehnici
Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/
TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />
Utilizarea elementului <meta>Descrierea paginii – descriptionCuvintele‐cheie – keywords
Nu toate motoarele le iau in consideratieControlul robotilor Web – robotsAlte informatii: tipul continutului, autorul, data,
tipul de acces (Platform for Privacy Preferences), meta‐date (DCMI),...
<meta name="DC.Subject" content="SEO" /><meta name="DC.Publisher" content="IEEE Computer Society" /><meta name="DC.Relation.IsPartOf" content="IEEE Online" />
seo: strategii
Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/
TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />
Folosirea paginilor “din spate” (doorway pages)Crearea in vederea indexarii a unor pagini avind
continut special – pagini “bridge”/“doorway”Nu sunt destinate utilizatorilor umaniTrebuie sa ofere posibilitati de a “sari” la continutul
propriu‐zis – a nu se utiliza un refresh automat prea rapid
Se pot folosi tehnici de ghidare a robotilorin functie de IP, nume sau alte criterii
seo: strategii
Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/
TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />
Paginile de “acoperire” (page cloaking)Scop: oferirea de continut diferit, in functie de un
anumit criteriu – aici, continut special pentrurobotii de cautare
Motive: securitatea (<meta> disponibil doar pentrumotoarele de cautare) & SEO
Se va oferi un continut special, optimizat in vedereaindexarii si cresterii relevantei paginii
Criterii: numele agentului‐utilizator (clientul), IP‐ul, redirectarea pe baza de IP (in conjunctie cu paginile doorway) etc. cloaking script
seo: strategii
Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/
TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />
“Estetica” URL‐urilorUnele motoare fac distinctia dintre continutul static si
cel dinamic (componenta query_string de la finalulunui URL) – detectarea lui “?” si “&” doc.php?var=sda4312&var2=643f545342
Indexarea continutului dinamic este limitataori mult mai lenta
Numarul variabilelor pasate via GET trebuie sa nu fie mai mare de 3, iar numele acestora trebuie sa aibao anumita semnificatie
seo: strategii
Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/
TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />
“Estetica” URL‐urilorDe evitat numerele de sesiune din URL(robotii ignora cookie‐urile)
La nivel de server Web, se poate activa rescriereaURL‐urilor – utilizarea mod_rewrite la Apache
La nivel de server de aplicatii, se poate inhiba transferulSID‐ului via URL (PHP: php_flag sesssion.use_trans_sid off)
Mascarea URL‐urilor oferind continut dinamicwww.penguin.info/species/tux.html (pare static)www.penguin.info/species.php?type=tux (in realitate)
seo: strategii
Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/
TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />
“Estetica” URL‐urilorDe evitat paginile de eroare (e.g., 404)Orice pagina de eroare trebuie convertitaintr‐o pagina folositoare omului/robotului – poatecuprinde harta sitului ori ofera legaturi spre celemai relevante pagini ale sitului in cauza
Se folosesc facilitatile oferite de serverul Webpentru definirea de pagini custom de eroaree.g., directiva ErrorDocument la Apache
seo: strategii
Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/
TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />
Aspecte care trebuie evitate:Liste de optiuni folosite pentru navigareNavigarea bazata pe Javascript/FlashUtilizarea caracterelor nestandard in URL‐uriSiturile stocate pe mai multe domenii InternetTitluri identice pentru numeroase pagini WebPagini de eroare ce returneaza codul HTTP 200Redirectionari incorecteAbuzul de AJAX
seo: pericole
Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/
TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />
Exploatarea caracteristicilor specialeale motoarelor de cautare
Indexare in adincime (deep crawl): Google, InktomiCuvinte de stop: AltaVista, GoogleMeta keywords (<128 caractere lungime)Indexarea comentariilor: doar InktomiLungimea continutului: Google indexeaza
doar primii 100 K dintr‐un documentIndexarea altor tipuri de continuturi: GoogleFolosirea unei structuri previzibile a directoarelor
seo: alte “trucuri”
Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/
TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />
Crearea documentului sitemap.xmlpentru a‐l expedia la Google SitemapsComplementar fisierului robots.txtFurnizeaza structura hipertext a unui sit WebFormate acceptate: text obisnuit, XML, RSS, Atom
seo: alte “trucuri”
Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/
TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />
Folosirea constructiilor semantice(meta‐date DCMI, FOAF, RDF, microformate)Exploatate de unele motoare (e.g., Swoogle, TAP,
Watson) ori situri colaborative/axate pecomunitati – exemple: DBpedia, IkeWiki, Semantic MediaWiki, Twine, WordPress,…
seo: alte “trucuri”
Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/
TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />
Strategii generale: Google Webmaster CentralStudierea accesului:
Google Analytics, WebTrends, NetTracker, Urchin,…Necesitatea specificarii/alegerii unor metrici SEO
Rafinarea cuvintelor‐cheie: KeywordDiscovery, WordTracker, Google Suggest
Optimizari: Google Optimizer
seo: instrumente – exemple
Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/
TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />
Ajustarea continutului pentru dispozitivele mobileMobile/Wireless Web ≡ situri Web proiectate pentru a fi
vizualizate via un dispozitiv mobil, dar accesate prin tehnologiile Internet actuale
XHTMLMP (XHTML –Mobile Profile) & Wireless CSSde evitat tabelele & formularele, a se folosi proprietatile de stil absolut necesare, stiluri incluse direct in document
vezi si http://dev.mobi& www.mobiledesign.org
seo: context wireless
Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/
TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />
Crearea intregului sit Web in FlashSiturile realizate exclusiv in Flash nu sunt the norm for the web
Eludarea regulii privind utilizabilitateaWeb: “don’t surprise your users”
Cea mai buna practica: zone mici Flash,incarcate dupa redarea continutului XHTML
Aceeasi problema o au continuturile oferite de applet‐urile Java sau prin <object>(e.g., controalele ActiveX)
seo vs. flash
Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/
TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />
Imposibilitatea accesarii unor date transmise“in fundal” pe parcursul interactiuniicu situl/aplicatia Web
Motoarele de cautare nu pot indexa continutul primit(asincron) de la server – e.g., prin AJAX
traficul “subteran” nu poate fi accesatrobotii Web nu “cunosc” JavaScript
Idem pentru continutul modificat dinamic la nivelde client via programe JavaScript folosind DOM
seo vs. ajax
Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/
TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />
Realitati:Invisible Web (Deep Web)
acea parte a spatiului World Wide Webcare nu este “vazuta” de motoarele de cautare saude alte tipuri de aplicatii de regasire a resurselor
disponibile pe Web
concluzii
Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/
TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />
Folosirea altor strategii de cautare – Sweeny, 2007:Cautari in contextul P2P (peertopeer)Utilizarea inteligentei colective – wiki searchCautari personalizateMicrosoft: compararea datelor oferite de motorul de cautarecu cele privind comportamentul utilizatorului
Google: crearea asa‐numitului “personalized search object” utilizat pentru filtrarea rezultatelor cautarii
Cautari predictive – e.g., folosind modelul BayesSMO (Social Media Optimization)
concluzii
Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/
TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />
concluzii
www.nytimes.com/imagepages/2005/10/10/opinion/1010opart.html
Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/
TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />
De la roboti Web si motoare de cautare Webla tehnici SEO (Search Engine Optimization)
rezumat
Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/
TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />
??