on effective methods for social media content analysis and ... · 5.1 sisteme de recomand ari 96...

38
Universitatea Babes , -Bolyai Cluj-Napoca Facultatea de S , tiint , e Economice s , i Gestiunea Afacerilor Domeniu: Cibernetic˘ as , istatistic˘a On Effective Methods for Social Media Content Analysis and Recommendation Metode Eficace pentru Analiza s , i Recomandarea Cont , inutului ˆ ın Social Media -Rezumatul tezei de doctorat- Profesor Coordinator: Candidat: Prof. Dr. Tomai Nicolae Muntean Cristina Ioana -2012-

Upload: others

Post on 02-Sep-2019

1 views

Category:

Documents


0 download

TRANSCRIPT

Universitatea Babes, -Bolyai Cluj-NapocaFacultatea de S, tiint,e Economice s, i Gestiunea Afacerilor

Domeniu: Cibernetica s, i statistica

On Effective Methods forSocial Media Content

Analysis and Recommendation

Metode Eficace pentru Analiza s, i Recomandarea Cont, inutuluiın Social Media

-Rezumatul tezei de doctorat-

Profesor Coordinator: Candidat:Prof. Dr. Tomai Nicolae Muntean Cristina Ioana

-2012-

Cuprinsul tezei

1 Introducere 101.1 Motivat, ie si strategie de cercetare 131.2 Problema de cercetare 141.3 Solut, ii propuse 151.4 Organizarea tezei 20

2 Social media s, i Twitter 212.1 Afacerile ın contextul social 212.2 Descrierea s, i oportunitat, ile Social media 232.3 Twitter ca mediu pentru Social media 27

2.3.1 Ret,eaua sociala Twitter 282.3.2 Analiza ret,elelor sociale 332.3.3 Anatomia Twitter 35

2.4 Sumar 40

3 Angajarea utilizatorilor 423.1 Angajarea utilizatorilor 42

3.1.1 Definirea angajarii utilizatorilor 433.1.2 Metrici de evaluare a angajarii utilizatorilor 443.1.3 Angajarea utilizatorilor ın Social media 50

3.2 Gamification 533.2.1 Definirea Gamification 573.2.2 Mecanici s, i tehnici de joc 583.2.3 Exemplu teoretic 613.2.4 Gamification ın Twitter 65

3.3 Sumar 69

4 Gestionarea Big Data 704.1 Colectarea de date 70

4.1.1 Crawler-e web 714.1.2 Streaming APIs 73

4.2 Tehnologii pentru procesarea Big Data 774.2.1 Introducere ın Big Data 784.2.2 Apache Hadoop s, i MapReduce 804.2.3 Cascading 844.2.4 Apache Mahout 88

4.3 Sumar 93

5 Modele de analiza s, i recomandare de text 95

5.1 Sisteme de recomandari 965.2 Analiza de text 99

5.2.1 Datele textuale 1005.2.2 Indexarea documentelor 1015.2.3 Asignarea de greutat, i vectorilor 103

5.3 Tehnici de ınvat,are automata (Machine Learning) 1055.3.1 Naıve Bayes 1055.3.2 Arbori de decizie 1095.3.3 Clusterizarea cu ajutorul K-Means 111

5.4 Information Retrieval s, i cautarea 1145.4.1 Indexul inversat 1145.4.2 Regasirea documentelor 115

5.5 Tehnici de evaluare 1165.5.1 Evaluarea rezultatelor neordonate 1175.5.2 Evaluarea rezultatelor ordonate 119

5.6 Sumar 120

6 Articole similare s, i aplicat, ii ın Twitter 1216.1 Probleme s, i aplicat, ii 1216.2 Clusterizarea ın Twitter 1266.3 Analiza s, i recomandarea de hashtag-uri 1286.4 Sumar 130

7 Analiza, clusterizarea s, i recomandarea de hashtag-uri 1327.1 Descrierea setului de date din Twitter 133

7.1.1 Statistici asupra setului de date 1387.1.2 Utilitatea hashtag-urilor 140

7.2 Clusterizarea de hashtag-uri din Twitter 1427.2.1 Setul de date 1437.2.2 Descrierea s, i configurarea experimentelor 1467.2.3 Rezultate 1497.2.4 Remarci 151

7.3 Oferirea de recomandari de hashtag-uri din Twitter 1537.3.1 Definirea problemei 1557.3.2 Architectura sistemului 1617.3.3 Experimente s, i rezultate 1647.3.4 Remarci 168

7.4 Sumar 170

8 Concluzii 1718.1 Concluzii s, i dezvoltari ulterioare 171

8.2 Diseminarea resultatelor 1768.3 Lista completa a articolelor 177

Abstract

Expansiunea ret,elelor sociale s, i cantitatea mare de date din Social Mediastimuleaza aparit, ia de aplicat, ii interesante s, i tehnologii care sa le suporte.Ne ıncepem cercetarea prin a ıncerca sa ınt,elegem Social Media s, i mecan-ismele ce determina interact, iunea utilizatorilor cu aceste platforme. Ca s, istudiu de caz am selectat Twitter, asupra caruia vom baza observat, iile ul-terioare, studiul s, i aplicat, iile. Analizam aceasta platforma din doua punctede vedere: unul apart, inand simplului utilizator s, i unul din perspectiva anal-izei ret,elelor sociale. Dorim sa abordam prelucrarea datelor colectate dinTwitter cu instrumentele adecvate, astfel inspectam semnificat, ia Big Data(colect, ii mari de date) s, i tehnologiile ce folosesc MapReduce pentru proce-sarea acestor date. Studiem modele de reprezentare a textului s, i oferirea derecomandari ın acest sens, prin explorarea mai multor discipline: Informa-tion Retrieval (IR), Machine Learning (ML, ınvat,are automata) s, i Sistemede Recomandari. Dupa consultarea articolelor similare pe tema cluterizariis, i oferirea de recomandari folosind cont, inut din Twitter, am propus propriilenoastre modele. Am descarcat un set mare de date din Twitter pe o perioadade trei saptamani, set reprezentand 10% din tweet-urile ce apar ın fluxul pub-lic de date. Am curat,at s, i procesat datele. Asupra setului de date rezultatam facut o analiza aprofundata pentru a descoperi perspective variate s, i pen-tru a ınt,elege specificitatea problemei. Observam ca adesea hashtag-urile potavea o forma criptica (abrevieri, acronime, argou sau cuvinte s, i numere con-catenate). Dorim sa exploram sensul acestora folosind clusterizarea, adicagruparea hashtag-urilor ın clustere. Observam ca termenii cei mai frecvent, idin clusterele formate reus,esc sa traduca sensul unor hashtag-uri put, in evi-dente sau mai greu de ınt,eles s, i sa le ıncadreze ın context. O alta aplicat, iepe care o propunem este un sistem de recomandare de hashtag-uri. Dupaanalizarea tiparelor de etichetare a tweet-urilor cu ajutorul hashtag-urilorreus, im sa descoperim natura lor duala, primul tipar constand ın ınlocuireacuvintelor sau frazelor cu un hashtag cont, inand acel cuvant sau acea fraza(hashtag inline), iar al doilea tipar ofera contextul sau o categorie informalacareia ıi poate fi atribuit tweet-ul ın funct, ie de semantica acestuia (hashtagde context). Propunem un model ce ımbina ambele tipuri de comportamentes, i tratam modelul de recomandare pentru hashtag-uri inline ca o problemade predict, ie, iar cel pentru hashtag-uri contextuale ca o problema de IR.Sistemul propus ofera rezultate mai bune decat alternativa propusa de liter-atura. Totodata propunem solut, ii privind ımbunatat, irea rezultatelor.

Cuvinte cheie: Social Media, Gamification, Big Data, Twitter, clusteri-zare, sisteme de recomandari.

Cuprins

1 Introducere 61.1 Motivat, ie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61.2 Obiective . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71.3 Organizarea tezei . . . . . . . . . . . . . . . . . . . . . . . . . 8

2 Social media s, i Twitter 10

3 Angajarea utilizatorilor s, i Gamification 12

4 Gestionarea Big Data 14

5 Modele de analiza s, i recomandare de text 16

6 Articole similare s, i aplicat, ii ın Twitter 18

7 Analiza, clusterizarea s, i recomandarea de hashtag-uri 20

8 Concluzii 268.1 Concluzii s, i direct, ii viitoare . . . . . . . . . . . . . . . . . . . 268.2 Diseminarea rezultatelor din teza . . . . . . . . . . . . . . . . 298.3 Lista completa de articole . . . . . . . . . . . . . . . . . . . . 30

5

Capitolul 1

Introducere

Atat utilizatorii cat s, i companiile ce activeaza online trebuie sa ınt,eleagaputerea de care dispun s, i sa profite de opotunitat, ile ce pot sa apara dinmarea masa de informat, ii ce ıi ıntampina ın acest mediu. Datorita faptu-lui ca utilizarea Internetului a crescut exponent, ial ın ultimii ani, ne puneın postura de a filtra, sorta s, i selecta informat, iile ce ne pot fi utile dintr-omare de date nestructurate s, i instabile. Acest lucru nu transpare utilizato-rilor simpli de Internet, ınsa companii precum Google, Twitter, Facebook,Amazon, Last.fm, se confrunta cu aceste probleme ın oferirea serviciilor lor.Acestea ıncearca sa optimizeze stocarea datelor, transformarea informat, iilorın cunos,tiint,e s, i oferirea de produse, servicii relevante s, i personalizate catreutilizatori, pentru a le maximiza satisfact, ia.

Scopul principal al tezei este descoperirea de metode prin care se potımbunatat, i s, i stimula interact, iunile ıntre utilizatori s, i uneltele, serviciile,plaformele disponibile pe Internet.

1.1 Motivat, ie

Faptul ca utilizatorii de Internet beneficiaza de o multitudine de facilitat, ine permite sa descoperim metode diverse de a construi altele noi sau de aımbunatat, i cele existente. Motivat, ia noastra consta ın a gasi noi moduri dea folosi sau exploata informat, ia, de dimensiuni s, i complexitate mare, pentrua us,ura utilizarea acesteia s, i pentru a crea unelte noi ce pot ajuta actoriice activeaza online. Datele pe Internet evolueaza s, i se schimba rapid, iarcercetarea trebuie sa t, ina pasul.

Cercetarea pe care o conducem are un caracter interdisciplinar. Folosimmetode de cercetare ce iau ın calcul dimensiunile variate ale problemei. Inacelas, i timp oferim solut, ii pragmatice pentru obiectivele setate, s, i anume

6

analiza textului scurt, clusterizare s, i oferirea de recomandari pentru un mediuaparte ce faciliteaza Social Media, Twitter.

1.2 Obiective

Datorita faptului ca Social Media a aparut destul de recent, ne confruntamcu dezvoltari s, i schimbari rapide ın acest domeniu. Astfel ca provocarile s, iproblemele ce deriva din Social Media s-au schimbat ın timp, ınsa ın studiulnostru ıncercam sa t, inem pasul cu acest subiect. Aplicat, iile ce le propunemiau ın considerare teme noi s, i interesante ce exploateaza particularitat, i destructura s, i cont, inut.

Principalul obiectiv ale acestei cercetari este gasirea de metode eficientepentru analiza Social Media s, i propunerea de aplicat, ii utile pentru utilizatoriiacesteia, astfel ıncat sa beneficieze de cele mai bune facilitat, i s, i informat, iidin acest mediu.

Pentru abordarea subiectului ne-am setat urmatoarele obiective specifice:

1. Dorim sa facem o analiza aprofundata a Social Media s, i a ret,elelorsociale ce ofera suportul pentru acest tip de schimb de informat, ii.

2. Dorim sa studiem s, i sa ınt,elegem de ce platformele ce faciliteaza SocialMedia reus,esc sa atraga utilizatorii, care sunt avantajele s, i dezavan-tajele de a deveni o componenta activa ın astfel de comunitat, i onlines, i cum pot fi utilizatorii stimulat, i sa interact, ioneze cu acest tip de ac-tivitat, i, anume ımpartas, irea de informat, ii ın contextul social, s, i plat-forme.

3. Dorim sa studiem particularitat, ile de cont, inut ce pot fi gasite ın acestemedii s, i sa descoperim aplicat, ii relevante ce ar putea ımbunatat, ii expe-rient,a utilizatorilor s, i analiza datelor. Vrem sa realizam cele propuseprin:

(a) Studiul literaturii ın domeniu s, i a ultimelor articole ın ceea ceprives,te aplicat, iile s, i analiza platformelor ce suporta Social Medias, i microblogging.

(b) Colectarea s, i extragerea de date disponibile din platformele deSocial Media.

(c) Folosirea de uneltele adecvate pentru analiza s, i modelarea can-titat, ilor mari de date disponibile ın astfel de medii.

Figura 1.1: Organizarea tezei

(d) Considerarea algoritmilor s, i metodologiilor potrivite pentru anal-iza textului, precum metode de ınvat,are supervizate s, i non-super-vizate pentru minarea cont, inutului.

(e) Propunerea de aplicat, ii propri s, i confruntarea acestora cu lucrarireprezentand cele mai recente cercetari ın domeniu.

1.3 Organizarea tezei

Avand ın vedere obiectivele propuse anterior, ne concentram atent, ia pe posi-bilele moduri de abordare a obiectivelor s, i oferirea de solut, ii posibile. Ovedere de ansamblu asupra tezei poate fi vazuta ın Figura 1.1.

Parte din cercetarea prezentata ın aceasta teza a fost realizata pe par-

cursul unui stagiu de 10 luni la laboratorul High Performance Computing, incadrul ISTI CNR, Pisa, sub supravegherea Dr. Fabrizio Silvestri s, i ımpreunacu echipele de cercetare ment, ionate ın [12, 7, 6, 25].

In Capitolul 2 prezentam contextul social pe Internet s, i cum acesta aevoluat ın ultimii ani. Descriem Social Media, identificam cele mai im-portante canale s, i exemplificam conceptele folosind ca exponent Twitter.Analizam platformele s, i serviciile disponibile s, i explicam cum pot fi folositela capacitatea lor maxima. In Capitolul 3 descriem elementele care ıi fac peutilizatori sa activeze pe platformele sociale s, i analizam experient,a utilizato-rilor s, i stimularea angajarii acestora ın varii activitat, i. O posibila modalitateo reprezinta Gamification. Explicam ın detaliu ceea ce ınseamna, impactul pecare ıl are, cum Twitter este analizat prin prisma Gamification s, i propunemun model prin care se aplica elemente de Gamification unei aplicat, ii socialede e-learning. In Capitolul 4 explicam cum se pot colecta date de pe Internetın general, iar din Twitter ın particular s, i analizam tehnologiile ce permitprocesarea cantitat, ilor mari de date s, i modelarea datelor ın mod distribut.Aplicam aceste instrumente s, i tehnologii la datele colectate din Twitter da-torita marimii setului de date. In Capitolul 5 studiem modurile posibile ıncare se pot modela sau recomanda date textuale s, i descriem metodologiilepe care le-am folosit s, i le-am implementat ın cercetarea noastra. Deaseme-nea discutami modalitat, i s, i metrici de evaluare. In Capitolul 6 facem unstudiu detaliat despre cum textul scurt din Twitter este abordat ın cercetares, i prezentam s, i cele mai importante aplicat, ii propuse ın literatura. De aseme-nea analizam s, i cele mai recente cercetari ın ceea ce prives,te clusterizarea s, irecomandarea de text ın Twitter. In Capitolul 7 prezentam statistici despresetul de date pe care l-am extras din Twitter s, i propunem propriul mod deabordare a clusterizarii s, i recomandarii de hashtag-uri din Twitter, motivamutilitatea acestora precum s, i prezentam rezultatele obt, inute. In Capitolul 8prezentam concluziile s, i direct, iile ulterioare de cercetare.

Capitolul 2

Social media s, i Twitter

In acest capitol ıncepem prin a introduce conceptele principale ale cercetarii.Descriem pe scurt interact, iunile dintre utilizatori, client, i s, i companii ın con-textual web-ului social s, i a cont, inutului generat de utilizatori. Interact, inileutilizatorilor ınseamna creare de valoare pentru companiile de pe Internet,de aceea este ın interesul acestora sa stimuleze angajarea utilizatorilor s, iactivitatea acestora.

Tapscott s, i Williams [43], ın cartea lor”Wikinomics: How Mass Col-

laboration Changes Everything”, elaboreaza asupra noului univers economiccreat pe Internet, unde valorile culturale precum participarea, colectivismuls, i creativitatea sunt promovate. Cateva exemple de astfel de init, iative suntYouTube, MySpace, Wikipedia, Flickr, Second Life, Linux sau Twitter. Elesunt create s, i alimentate de grupuri anonime de utilizatori ce se exprima ınpropriul mod, cu mult mai put, ine constangeri decat ın modelul Web 1.0. Ast-fel, ın locul modelului de business ierarhic de la producator la consumator,ıntalnim modelul co-creat,iei [41]. Prin creativitatea de masa, product, ia de laegal la egal (peer production) s, i co-creat, ie, distant,a ıntre product, ia colectiva(non-mercantil, public) s, i comerciala (mercantil, privat) devine mai mica,precum s, i distant,a dintre producatori s, i consumatori. Studiem mecanismelece sust, in Social Media: co-creat, ia, marketingul prin conversat, ie sau inovat, iadeschisa, s, i comportamentul utilizatorilor ın acest mediu. Potrivit lui Oster-walder [33, 34, 35], Social Media apare ca suma platformelor (blog-uri, wiki-uri, ret,ele sociale sau alte platforme unde utilizatorul genereaza cont, inutul)ce permit s, i ıncurajeaza interact, iunea sociala prin partajarea de cont, inut s, idiscut, ii.

In [22] autorii sust, in ca Social Media reprezinta o unealta eficienta, iarcompaniile ce ezita sau nu sunt ın stare sa ınt,eleaga sau sa dezvolte strate-gii Social Media, pierd oportunitat, i s, i ın acelas, i timp sunt amenint,ate de

10

competit, ia care s,tie sa foloseasca acest avantaj. Autorii identifica principalelefunctionalitat,i ale Social Media: identitate, conversat, ii, partajare, prezent, a,relat, ii, reputat, ie s, i grupuri. Li s, i Bernoff ın [24] ımpart participant,ii la So-cial Media ın: creatori, colect, ionari, utilizatori ce creaza legaturi s, i simplispectatori.

Precum am ment, ionat anterior, Social Media are numeros, i facilitatori,ınsa marea parte a activitat, ii este sust, inuta de ret,ele sociale, astfel ca direc-t, ionam discut, ia catre Twitter, studiul nostru de caz.

Twitter este o ret,ea sociala s, i o platforma de microblogging cu relat, iiıntr-un singur sens ıntre utilizatori, platforma ce permite postarea de scurtemesaje ca status, cont, inand URL-uri, ment, iuni de alt, i utilizatori s, i/sau hash-tags. Twitter este de asemenea privit ca o ret,ea de informare in timp real.Analizam Twitter dintr-o dubla perspectiva, aceea a utilizatorului s, i dinpunctul de vedere al analizei ret,elelor sociale, ment, ionand cele mai relevantestudii ce trateaza aceasta platforma ca o ret,ea sociala.

O ret,ea sociala este un model de prietenie, consiliere, comunicare sausuport ce exista ıntre membrii unui sistem social [23, 11]. Twitter se autoin-tituleaza:

”Cea mai rapida s, i simpla cale de a sta aproape de tot ceea ce te

intereseaza.” Unes,te utilizatorul cu ultimele povestiri, s,tiri, idei s, i opinii, totceea ce trebuie sa faca utilizatorul este sa gaseasca acele conturi care ıi suntde interes s, i sa le urmareasca. Oferim de asemenea o trecere ın revista a lit-eraturii despre perspectiva analizei ret,elelor sociale aplicata pe Twitter. S-adescoperit ca ın ciuda relat, iilor uni-direct, ionale dintre utilizatori, gradul deseparare dintre aces,tia este aproximativ 4, utilizatorii urmeaza o distribut, ieexponent, iala (power law1) s, i exista un grad scazut de reciprocitate ıntreaces,tia. Utilizatorii au intent, ii diverse: cautarea de informat, ii, ımpartas, ireade informat, ii sau relat, ii de prietenie. Putem concluziona ca Twitter nu esteo ret,ea sociala tipica, fapt ce face studiul acesteia interesant, motivandu-nesa analizam acest mediu s, i ın capitolele urmatoare.

1http://www.hpl.hp.com/research/idl/papers/ranking/ranking.html

Capitolul 3

Angajarea utilizatorilor s, iGamification

Precum am ment, ionat anterior, pentru companiile ce activeaza pe Internet,interact, iunile din parte utilizatorilor (navigare, recomandare, comentare s, iımpartas, irea de cont, inut) contribuie la cres,terea valorii acestora. Este im-portanta crearea unei baze de client, i s, i stimularea acestora ın a se reıntoarcela website sau sa impartas,easca cont, inutul acestuia cu ret,eaua lor sociala.In acest capitol studiem cum pot fi utilizatorii unui website stimulat, i saactiveze, care sunt caracteristicile s, i metricile pentru masurarea implicariiacestora (User Engagement).

Potrivit [3] angajarea utilizatorilor este”conexiunea ıntre emot, ional, cog-

nitiv s, i/sau comportamental, ce exista ın orice moment ın timp s, i de-alungul timpului, ıntre un utilizator s, i o resursa tehnologica”. Caracteristi-cile sunt urmatoarele: atent, ie direct, ionata, stimul/emot, ie pozitiva, estetica,andurant, a, noutate, control, reputat, ie, ıncredere s, i as,teptari, motivat, ie, stim-ulente s, i beneficii. In [38] autorii propun 8 indici pentru masurarea im-plicarii utilizatorilor: indexul de adancime a click-urilor, indexul de durata,indexul de regent, a, indexul de loialitate, indexul de brand, indexul de feed-back (raspuns) s, i indexul de interact, iune.

In contextual social nu este de ajuns sa masuram doar interact, iunea unuiutilizator cu o bucata de cont, inut, este necesar sa luam ın considerare relat, iilesociale s, i interact, iunile dintre utilizatori.

Daca anterior am argumentat important,a angajarii s, i stimularii utilizato-rilor, ne propunem sa oferim s, i o solut, ie pentru acesta, s, i anume prin Gam-ification. Gamification [17] este

”utilizarea mecanicilor de joc ın aplicat, ii

ce nu reprezinta jocuri”. Orice aplicat, ie, atribut, ie sau context poate fi teo-retic gamificat. Scopul principal este de a stimula angajamentul utilizatorilorfolosind tehnici de joc precum clasamente cu punctaje sau feedback person-

12

alizat rapid [19], astfel ıncat aces,tia capata un sens al apartenent,ei s, i unsens atunci cand interact, ioneaza cu o sarcina [36]. Principalele moduri dea cres,te implicarea utilizatorilor prin gamification sunt: cicluri de feedbackaccelerate, reguli s, i obiective bine definite, narat, iune convingatoare s, i sarcinice pot fi obt, inute. Explicam de asemenea mecanismele din spatele jocului s, ia angajarii utilizatorilor. Mecanicile de joc sunt caracterizate de urmatoarele3 atribute:

• Tipul de mecanica de joc: progresie, feedback s, i comportamental;

• Beneficii: implicare/angajare, loialitate, timp petrecut, influent, a, amuza-ment, SEO, cont, inut generat de utilizatori, viralitate;

• Tipuri de personalitate [8]: exploratori, realizatori, prieteni sau crimi-nali;

In acest capitol discutam de asemenea diferite mecanici de joc s, i tehnici deGamification s, i dam un exemplu de gamificare a unei aplicat, ii (folosind punc-taje, clasamente, statuturi, nivele, etc.). Am analizat s, i Twitter prin prismaGamification. Observam cateva statistici de angajare si cicluri de feedback cesugereaza Gamification: numarul de urmaritori, retweet-uri, mesaje directe,ment, iuni (@), taguri (#) s, i liste. Chiar daca nu exista un clasament formal s, iglobal platformei, utilizatorii sunt cons,tient, i de propriul lor status, reflectatde elementele mai sus ment, ionate. Datorita faptului ca profilele sunt pub-lice, utilizatorii sunt motivat, i s, i se implica ın ciclul de feedback al platformei.Este notabil ca Gamification se afla la baza acestui serviciu, chiar daca nueste evident.

Capitolul 4

Gestionarea Big Data

In acest capitol expunem o abordare pragmatica asupra datelor si unel-telor folosite, concentrandu-ne pe explicarea tehnologiilor folosite pentrucolectarea datelor din Social Media sau website-uri s, i pe instrumentele folositeın procesarea cantitat, ilor mari de date. Astfel am implementat doua metodede colectare a datelor, cu ajutorul crawler -elor web s, i a streaming API.Prezentam implementarile realizate s, i seturile de date colectate.

Folosim un crawler web pentru a naviga ın web sau ın interiorul unuiwebsite s, i a colectata cont, inutul paginilor. Am creat un astfel de crawlerpentru a extrage utilizatori din eBay1 ımpreuna cu feedback-ul (positive,negative, neutral) corespondent primit de la alt, i utilizatori. Un al doileacrawler l-am creat pentru a extrage postari de anunt,uri de slujbe pe site-urlBestJobs2. Ambele crawlere au fost implementate ın Python iar fiecare arepropria specificitate.

Pentru a extrage date din Twitter folosim Twitter Streaming API. La cer-erea noastra am primit de la Twitter nivelul de acces Gardenhose, destinatpentru scopuri de cercetare, ce ofera 10% din fluxul public de date (nivelulstandard de accesibilitate, Sprizer, ofera doar 1%). Rata medie de down-load a fost de aproximativ 14.700 tweet-uri pe minut. Astfel am colectatun set de date de dimeniuni mari pe parcursul a trei saptamani, constandın 443,288,820 tweet-uri ın total, aproximativ 200 G de date comprimate,dimensiunea crescand de 10 ori ın formatul necomprimat. Tweet-urile suntlivrate ın format JSON.

Pentru a putea stoca s, i procesa aceasta cantitate mare de date, exploramtehnologiile specializate pe Big Data. Potrivit lui Edd Dumbill de la O’ReillyRadar [18], Big Data reprezinta datele ce depas,esc capacitatea de procesare

1http://www.ebay.com/2http://www.bestjobs.ro/

14

a bazelor de date convent, ionale.Calculele ın memorie au un cost ridicat cand vine vorba de procesarea

cantitat, ilor mari de date. Potrivit [45] exista 2 factori determinant, i ce aucontribuit la dezvoltarea acestor tehnologii: cres,terea masiva a ret,elelor so-ciale s, i dezvoltarea MapReduce [16]. Bazele de date relat, ionale sunt depas, itede acest tip de date.

Printre aceste tehnologii prezentam Apache Hadoop, Cascading s, i ApacheMahout, toate arhitecturii ce permit calculul paralel s, i pe care le-am folosits, i ın procesarea datelor noastre, cum este explicat s, i ın Capitolul 7. Cuajutorul acestor platforme s, i librarii am procesat datele urmand paradigmaMapReduce. Apache Hadoop ofera un nivel de abstractizare asupra unuicluster format din mai multe mas, ini (calculatoare). De asemenea am stocatdatele ın mod distribuit pe HDFS3.

Cascading este o librarie open source ın Java ce permite procesarea dedate ın MapReduce construita deasupra Hadoop. Din dataset-ul extras dinTwitter am eliminat informat, iile nefolositoare s, i am rulat mai multe proceseCascading prin care am curat,at datatele de tweet-uri ın alte limbi decatın engleza, tweet-uri fara hashtag-uri, tweet-uri ce cont, in doar URL-uri s, ihashtag-uri (considerate spam), etc. Intrarile pentru fiecare operat, ie provinde la o sursa (Source), sunt prelucrate ın unul sau mai multe canale (Pipes)ce permit funct, ii sau proceduri variate (ex. Each, Every, GroupBy, CoGroup,SubAssembly) s, i ulterior sunt livrate ın fis, ierele de ies, ire Sinks.

Apache Mahout este o librarie MapReduce ce implementeaza algoritmide Machine Learning (ınvat,are automata). Este compusa din 3 module prin-cipale: algoritmi de recomandare, algoritmi de clasificare s, i algoritmi de clus-terizare. Descriem mai detaliat sect, iunea despre clusterizare, explicam imple-mentarea Mahout a K-means, algoritm folosit pentru clusterizarea hashtag-urilor din Twitter [31]. Bazele dezvoltarii acestei platforme se regasesc ın [14],unde autorii explica cum divers, i algoritmi de ınvat,are pot fi paralelizat, i.

3Hadoop Distributed File System, adica sistemul distribuit de fis, iere Hadoop.

Capitolul 5

Modele de analiza s, irecomandare de text

Dupa ce am explicat care sunt instrumentele folosite pentru manipularea amari cantitat, i de date, ın acest capitol exploram modele de analiza s, i reco-mandare de text. Deoarece obiectivul nostru a fost sa analizam cont, inutuldin Twitter, sa clusterizam hashtag-uri s, i sa oferim recomandari de hashtag-uri, dorim sa explicam modelele fundamentale folosite pentru reprezentareacolect, iei de tweet-uri s, i hashtag-uri. Descriem atat structurile de date cat s, ialgoritmii folosit, i.

Meta-problema ın aceasta parte a cercetarii este setarea bazelor pentruanaliza s, i recomandarea de text din Twitter. Abordam aceasta problema dinperspective variate, deoarece granit,ele ıntre abordari se ıntrepatrund.

Utilizatorii sunt comples, it, i de surplusul de interact,iune s, i surplusul deinformat,ie existent pe Internet s, i ın ret,elele sociale. Pentru a contracaraaceste probleme sunt propuse varii metode din domenii precum Informa-tion Retrieval, Information Filtering s, i Sisteme de recomandari. Explicamprincipiile de baza din analiza de text s, i tehnici NLP1, de la selectareaproprietat, ilor textului, independent,a pozit, ionala s, i condit, ionala, vectori s, ischeme de cantarire precum tfidf s, i BM25, la indexarea documentelor s, i in-dexul inversat. Facem o trecere ın revista a algoritmilor de Machine Learningfolosit, i ın experimentele ulterioare.

Reprezentam hashtag-urile ca s, i “bag-of-words”, deci orice hashtag estecompus din toate tweet-urile ın care el apare. Am selectat proprietat, iletextului (cuvinte semnificative) ce sunt relevante s, i am eliminat cele ce nusunt, precum cuvinte foarte frecvente, s, i am unificat forma acestora prin

1Natural Language Processing, adica procesarea limbajului natural

16

pastrarea radacinii cuvintelor. Am folosit VSM2 s, i tfidf pentru a reprezentafiecare hashtag ca s, i vector.

In ultima sect, iune a capitolului discutam metodele s, i metricile de evaluarefolosite pentru validarea rezultatelor. Consideram atat metrici de evaluarepentru rezultate a caror ordine conteaza, cat s, i metrici pentru rezultate acaror ordine nu conteaza. Astfel explicam pe scurt precizia, recall-ul, F-measure, NDCG, P@k, MAP.

2Vector Space Model

Capitolul 6

Articole similare s, i aplicat, ii ınTwitter

In Capitolul 6 prezentam cercetari similare s, i alte aplicat, ii privitoare la Twit-ter prezente ın literatura: difuziunea informat, iilor [49, 4], detectarea trend-urilor [26, 2], analiza sentimentelor [15, 21, 1], detectarea de spam [44, 46, 9]sau recomandarea de s,tiri ın timp real [40, 42].

In ultima parte a capitolului ne referim cu precadere la aplicat, iile pro-puse ın Capitolul 7. Avand ın vedere obiectivul de a clusteriza hashtag-uri, am restrans discut, ia la clusterizarea de text s, i text scurt. In ceea ceprives,te aplicat, ia de clustering de text scurt, ın [5] autorii clusterizeaza textdin feed-ul RSS/Atom prin ımbogat, irea put, inelor informat, ii disponibile ınfeed adaugand text adit, ional din Wikipedia. Articole despre tehnici de Ma-chine Learning aplicate ın Twitter abordeaza subiecte precum sumarizaresau detectare de subiecte prin LDA [32], clusterizare [48] s, i dezambiguizarea subiectelor sau clasificare [39, 37].

Majoritatea studiilor privitoare la clusterizarea ın Twitter includ algo-ritmi de modelare a subiectelor (topic modeling). In [39] autorii folosescLDA pentru a clasifica texte scurte s, i texte non-dense folosind seturi de datede marimi considerabile. Sistemele de recomandari folosesc clusterizarea caun pas premergator oferirii de sugestii. In [13] autorii sugereaza tweet-uripe baza istoricului unui utilizator s, i modelarea subiectelor. Transforma tex-tul ın vectori folosind VSM s, i tfidf . In mod similar, ın TwitterRank [47]autorii ıncearca sa gaseasca utilizatorii inluent, i din Twitter creand modeleindividuale pentru fiecare utilizator cu ajutorul LDA.

In [20] autorii analizeaza utilizarea hashtag-urilor pentru etichetarea tweet-urilor s, i compara comportamentele de etichetare dintre utilizatorii Twitter

18

s, i utilizatorii Delicious1. In [10] autorii ıncearca sa detecteze subiecte impor-tante luand ın considerare structura ret,elei.

In ultima parte prezentam un articol similar cu aplicat, ia propusa de noi,recomandarea de hashtag-uri. Dupa studiul nostru, putem spune ca [50] deZangerle et al. este singurul articol ce mai investigheaza recomandarile dehashtag-uri. In acest articol autorii exploateaza similaritatea ıntre tweet-ulcurent s, i tweet-uri mai vechi pentru a genera recomandari de hashtag-uri pebaza activitat, ii anterioare a utilizatorilor. Tweet-urile cele mai similare cucel curent sunt extrase din setul de date pe baza similaritat, ii tfidf . Hashtag-urile rezultate din acest set de tweet-uri sunt extrase s, i ordonate folosind treimetode:

Overall Popularity Rank - ordoneaza candidat, ii ın funct, ie de populari-tatea lor globala ın setul de date.

Recommendation Popularity Rank - ordoneaza candidat, ii in funct, ie denumarul de aparit, ii ın setul intermediar extras.

Similarity Rank - calculeaza similaritatea ıntre doua tweet-uri folosindtfidf , producand astfel candidat, ii pentru recomandari.

Rezultatele sunt evaluate folosind precizie s, i recall, iar metoda cea maieficienta este Similarity Rank.

1http://delicious.com/

Capitolul 7

Analiza, clusterizarea s, irecomandarea de hashtag-uri

In acest capitol ne prezentam propriul dataset s, i modelele propuse, rezul-tatele fazei de experimentare s, i evaluarea acestora. Daca ın Capitolul 4 amprezentat modul de colectare al datelor, aici descriem datasetul obt, inut s, i oparte din pas, ii de preprocesare abordat, i. Din ıntregul set de date am eliminattweet-urile ce nu sunt ın engleza, retweet-urile, tweet-urile conversat, ionale sitweet-urile ce cont, in spam. Prezentam statisticile ce descriu setul de dateobt, inut dupa preprocesare. Observam ca hashtag-urile urmeaza o distribut, iepower law, precum se poate observa ın Figura 7.1, ceea ce ınseamna ca put, inehashtag-uri sunt extrem de frecvente ın timp ce majoritatea se repeta doar deput, ine ori. Acest lucru se datoreaza faptului ca hashtag-urile sunt generatede catre utilizatori s, i nu exista restrict, ii ın privint,a crearii lor. Pot consta ınacronime, gres,eli de scriere, etc.; nu exista nici un pas pentru validarea lorın momentul ın care sunt lansate ın ret,ea. Dataset-ul este descris ın Tabelul7.1.

Setul de date Twitter – (2 Decembrie – 23 Decembrie)

Zile de activitate 21Tweet-uri pe zi 21,108,991Tweet-uri pe zi (ın engleza) 9,014,780- cu cel put, in un hashtag 1,576,905- fara retweet-uri sau ment, iuni 987,892Hashtag-uri distincte pe zi 283,915

Tabela 7.1: Proprietat, ile (ın medie) a setului de date din Twitter.

Pentru ca clusterizarea s, i recomandarea de hashtag-uri sa aiba sens, mai

20

Figura 7.1: Distribut, ia de probabilitate a hashtag-urilor ın setul deantrenament.

ıntai dorim sa dovedim utilitatea hashtag-urilor. Hashtag-urile maresc viz-ibilitatea unui tweet deasuprea nivelului de prietenie, deci prin folosireahashtag-urilor ın tweet-uri, acestea pot deveni vizibile ın ıntreaga ret,ea pen-tru cei interesat, i de subiectul ce-l sintetizeaza; hashtag-urile ajuta la gru-parea s, i structurarea a ıntregi conversat, ii. Observam ca probabilitatea ca untweet sa devina retweet1 este semnificativ mai mare cand hashtag-urile suntfolosite, rezultatele pot fi observate ın Tabelul 7.2.

Probabilitate Valoare

P (R|H) 0.25%P (R|H) 0.16%

Tabela 7.2: Probabilitatea condit, ionla a unui retweet pentru un tweet t:i) ce cont, ine hashtag-uri t ∈ H, ii) ce nu cont, ine hashtag-uri t ∈ H.

Prima aplicat, ie descrisa este clusterizarea hashtag-urilor, ce conform cuno-s,tiint,elor noastre ın literatura nu s-a mai facut. Motivat, ia ın spatele acesteiaplicat, ii este simpla, ea putand fi utilizata ın numeroase contexte. Precumam ment, ionat anterior hashtag-urile prezinta o multitudine de particularitat, i,

1Retweet-ul este un mecanism de broadcast ce consolideaza s, i confirma calitateaunui tweet. Un utilizator ce observa un tweet poate sa faca retweet la acesta, astfeltransmit, andu-l mai departe la propriul set de prieteni (urmaritori).

pot deveni chiar criptice. Ele sunt formate din acronime, cuvinte concate-nate, cuvinte s, i numere concatenate, practic este dificil sa fie interpretate ınmod automatic. Ideea noastra este de a clusteriza hashtag-uri pe baza tweet-urilor ın care apar. Pentru fiecare hashtag am creat un as,a numit documentvirtual, ce funct, ioneaza ca un dict, ionar pentru sensul acelui termen. Dorimsa capturam sensul lor semantic prin similaritatea cu alte hashtag-uri maiexplicite sau din termenii cei mai frecvent, i din documentele virtuale cluster-izate pe baza similaritat, ii. In experimente folosim seturi de date zilnice, cele transformam ın asocieri <hashtag, document vitual>, pe care le con-vertim ın vectori s, i le clusterizam folosind K-means. Experimentam cu unnumar variabil de clustere, k={20, 40, 80, 100, 200, . . . , 1000}. Rezultatelesunt ıncurajatoare. Daca pentru un numar mic de clustere, grupurile nu suntfoarte clare, pentru un numar mai mare de clustere, acestea sunt mult maibine delimitate, iar subiectul corespunzator grupului este us,or de identificat.Prezentam cele mai frecvente hashtag-uri dintr-un cluster ımpreuna cu ceimai frecvent, i termeni, iar corespondet,a este clara, cum se poate observa ınTabelul 7.3. Calculam distant,a inter s, i intra clustere ın Figura 7.2, iar rezul-tatele arata ca pentru k < 100 clusterele nu sunt bine delimitate, pe candpentru k ≥ 100 sunt mai bine definite. Folosim dimensiunea lui k pentrua seta precizia s, i granularitatea subiectelor pe care dorim sa le descoperim.Pentru un k mare subiectele sunt mai specifice, iar pentru un k mai micaceste sunt mai generale.

Termeni frecvent,i occupy, ows, wall, street, protest, ndaa, movement,afghanistan, noccupy, st.

Hashtag-uri frecvente ndaa, ows, occupy, occupywallstreet, china, peace, yyc,economy, kpop, washington.

Tabela 7.3: Exemplu de cluster pentru Dataset15 cu k = 500

Cea de-a doua aplicat, ie este recomandarea de hashtag-uri. Pentru aceastaaplicat, ie am construit un sistem numit #SHARP! , precum descris ın Figura7.3. Am analizat hashtag-urile s, i am descoperit o diviziune a acestora ınfunct, ie de scop s, i funct, ionalitate. Astfel ca hashtag-urile sunt ımpart, ite ın in-line (hashtag-uri ce ınlocuiesc cuvinte dintr-un tweet) s, i contextuale (hashtag-uri ce caraterizeaza subiectul unui tweet iar termenul/termenii acestuia nusunt incluse ın tweet). In funct, ie de cele doua tipologii, tratam problemarecomandarilor dintr-o dubla perspectiva: consideram recomandarile inlineca o problema de predict, ie, iar cele contextuale ca o problema de InformationRetrieval. Reunim ambele seturi de recomandari ıntr-o lista unica, combinamrezultatele s, i le prezentam utilizatorului final ca lista finala de recomandari.

Figura 7.2: Evaluarea K-means pentru Dataset14 variind k

Figura 7.3: Arhitectura #SHARP!

Measure Clairv. Zangerle#SHARP!

α = 0 α = 0.25 α = 0.5 α = 0.75 α = 1

@1

Precision 0.0001 0.116 0.107 0.125 0.121 0.092 0.085Recall 0.0001 0.092 0.085 0.099 0.094 0.069 0.064F1 0.0001 0.099 0.091 0.106 0.101 0.075 0.069F2 0.0001 0.094 0.087 0.101 0.096 0.071 0.065NDCG 0.0001 0.116 0.107 0.125 0.121 0.092 0.085

@3

Precision 0.002 0.078 0.063 0.073 0.075 0.069 0.057Recall 0.004 0.176 0.143 0.162 0.167 0.153 0.127F1 0.003 0.103 0.083 0.095 0.098 0.090 0.075F2 0.003 0.135 0.109 0.124 0.128 0.118 0.097NDCG 0.001 0.092 0.073 0.084 0.085 0.075 0.063

@5

Precision 0.002 0.062 0.047 0.052 0.054 0.053 0.046Recall 0.009 0.228 0.173 0.191 0.198 0.195 0.168F1 0.003 0.093 0.070 0.078 0.081 0.079 0.069F2 0.005 0.141 0.106 0.118 0.122 0.120 0.103NDCG 0.002 0.081 0.059 0.067 0.068 0.062 0.054

Tabela 7.4: Performanta sistemului #SHARP! ın comparat, ie cuClairvoyant s, i Zangerle.

Descriem ın detaliu cum recomandarile sunt modelate s, i cum sunt realizateexperimentele.

Rezultatele sunt comparate cu 2 alte sisteme, Clairvoyant, oferind ıntot-deauna cele mai frecvente top k rezultate, s, i Zangarle, un model propusın [50]. Metoda noastra este cea mai eficienta pentru precizia la o recoman-dare (P@1), precum se poate observa ın Tabelul 7.4. Zangarle totus, i oferaperformat,e lejer mai bune pentru predict, ia la 3 s, i la 5 recomandari (P@3 andP@5).

De asemenea am facut o analiza a cum am putea sa ne ımbunatat, immetodologia. Descoperim ca recomandarile inline au rezultate mai bune pen-tru valori mari ale lui k, deci cand oferim mai multe recomandari, ın timp cemotoda contextuala ofera rezultate mai bune pentru k mic, deci mai put, inerecomandari. Pentru ca Zangarle s, i metoda contextuala sunt conceptualsimilare, testam performant,a lui #SHARP! ınlocuind recomandarile contex-tuale cu Similarity Rank apart, inand Zangarle. Observam, ın Figurile 7.4 s, i7.5, ca cele doua metode ımpreuna depasec performant,ele tuturor metodelorindividuale, oferind o mai buna precizie s, i recall.

Figura 7.4: Precizia @k

Figura 7.5: Recall-ul @k

Capitolul 8

Concluzii

8.1 Concluzii s, i direct, ii viitoare

Avand ın vedere obiectivele propuse anterior, ne-am concentrat atent, ia peposibilele moduri de atingere a acestor obiective s, i pe oferirea de posibilesolut, ii. Am obt, inut urmatoarele:

• Am oferit o definit, ie extinsa a Social Media si am agregat opinii dinalte cercetari priving Social Media. Datorita faptului ca Social Mediaare ca s, i mediu printre altele s, i ret,ele sociale, ne-am concentrat atent, iape a studia ce ınseamna o ret,ea sociala s, i cum funct, ioneaza acestea.Am folosit Twitter ca studiu de caz s, i l-am analizat din doua puncte devedere: unul apart, inand utilizatorului, iar celalalt apart, inand s,tiint,eianalizei ret,elelor sociale.

• Pentru a ınt,elege mecanismele platformelor de Social Media investigamaspecte legate de experient,a utilizatorilor s, i implicarea/stimularea aces-tora. Abordarea noastra a exploatat tendint,a ludica a utilizatorilor, s, ianume cum pot fi transformate produse, aplicat, ii s, i servici ın as,a felıncat sa apeleze la simt,ul de joaca al utilizatorilor. Gamification este otehnica ce ıncearca aplicarea de mecanici de joc unor contexte non-jocpentru a stimula s, i angaja utilizatorii. Am trecut ın revista principi-ile de baza, cum acestea pot fi aplicate unei aplicat, ii exemplu s, i cumsunt aplicate ın platforme Social Media ca Twitter. Rezultatele acestuistudiu au fost diseminate ın [30].

• Avansand ın analiza ret,elei Twitter studiem cele mai importante aplicat, ii.Twitter este un mediu interesant deoarece prezinta numeroase partic-ularitat, i. Este considerat ın acelasi timp o ret,ea sociala cat s, i o plat-forma de micro-blogging. Lucrari ın domeniul analizei ret,elelor sociale

26

trateaza Twitter ca o ret,ea sociala, iar lucrari in domeniul analizei deitext scurt abordeaza Twitter ca o platforma de micro-blogging. Am ex-plorat studiile importante privind Twitter, caracteristicile s, i aplicat, iileacestuia.

• Pentru a analiza cont, inutul din Twitter trebuie mai ıntai sa-l fi colectat.Am explorat posibilele opt, iuni: cea clasica, un crawler web ce extragecont, inutul HTML al paginilor, metode diseminate ın [29, 27, 28], saufolosing opt, iunea de streaming pusa la dispozit, ie de Twitter. Am profi-tat de avantajul de a acea acces la fluxul de date destinat pentru scopuride cercetare, de 10 ori mai mare decat cel normal, cont, inut livrat ınformat JSON. Am ales sa creem o conxiune privata la acest flux de dates, i sa descarcam datele direct de la sursa, pe o perioada de 3 saptamani.

• Dupa studierea datele obt, inute, am explorat metode privind cum saprocesam acesta cantitate mare de date. Am luat ın calcul posibiletehnologii s, i am decis sa procesam datele ın mod distribuit, folosindintrumente corespunzatoare. Am decis asupra Cascading, o librarie ceabstractizeaza MapReduce, construita peste Hadoop. Am implementatprocese pentru curat, irea datelor s, i filtrarea acestora. Asupra setului dedate rezultant am calculat o serie de statistici pentru a ıntelege maibine natura datelor. Parte din aceste unelte, procese s, i statistici suntdescrise ın [31].

• Considerand datele la dispozit, ie am explorat modalitat, i de modelare adatelor pentru a reus, i sa ne atingem obiectivele. Am studiat metodologii,structuri s, i algoritmi relevant, i din Information Retrieval, Recomandaris, i Machine Learning pentru a reus, i sa implementam aplicat, iile. Deci-dem sa folosim: 1) algoritmi de ınvat,are supervizata s, i nesupervizata -abordarea ML, 2) crearea unui index inversat pentru interogarea datelordorite - abordarea IR s, i 3) crearea unui predictor - abordarea proba-bilistica. Folosind toate acestea reus, im sa modelam datele ın moduridiferite, ınsa avand mereu ın vizor meta-problema.

• In cercetarea noastra ne-am propus sa gasim un model valid de reprezentarea hashtag-urilor. Folosind aceasta reprezentare am clusterizat hashtag-uri, folosind un numar variabil de clustere s, i am analizat cum acestease comporta ın funct, ie de marimea clusterului. Motivat, ia noastra afost sa gasim moduri automate de grupare a hashtag-urilor ın funct, iede contextul ın care apar pentru a reus, i sa capturam sensul semantical acestora din corelat, ia cu alte hashtag-uri sau cu termenii cei mai

frecvent, i din documentele clusterizate. Rezultatele sunt prezentate ın[31].

• De asemenea ne-am propus o aplicat, ie de recomandare de hashtag-uriper tweet pentru utilizatorii Twitter. In primul rand am demostratutilitatea acestora s, i cum funct, ioneaza ın cres,terea vizibilitat, ii unuitweet. Am observat s, i natura duala a acestora: inline s, i de context.Am modelat fiecare tip de hashtag ın parte. Hashtag-urile contextualese refera la sensul semantic al unui tweet, deci reus,esc sa ıl ıncadrezeıntr-o anumita categorie sau subiect. Am creat un index inversat pen-tru documentele de context ale hashtag-urilor s, i l-am folosit ca motorde cautare. L-am folosit interogandu-l cu tweet-uri s, i, ın funct, ie desimilaritatea acelui tweet cu documentele virtuale indexate, am primitca recomandari hashtag-uri ordonate descrescator ın funct, ie de scorulde similaritate. Hashtag-urile inline au fost modelate printr-o abordareprobabilistica. Am construit toate combinat, iile de cuvinte dintr-untweet de text s, i am cautat cele mai probabile hashtag-uri ın funct, ie detweet, ordonate dupa scorul de probabilitate. Am evaluat rezultateles, i le-am confruntat cu altele similare din literatura. Articolul este ıncaın lucru, iar echipa de cercetare este prezenta ın [12].

Direct, ii viitoare de cercetareO aplicat, ie interesanta ın cazul clusterizarii hashtag-urilor ce ıncercam sa

o tratam ın dezvoltari ulterioare este clustering-ul ierarhic cu scopul constru-irii unei taxonomii de hashtag-uri, pornind de la general la specific. O altaaplict, ie interesanta este crearea unui instrument ce genereaza ın mod auto-matic o explicat, ie pentru ınt,elesul hashtag-ului respectiv, probabil folosindtehnici de sumarizare s, i modelare a temei (topic modeling).

Credem ca rezultatele recomandarii de hashtag-uri pot fi ımbunatat, ite.Dorim sa experimentam s, i cu alte modalitat, i de reprezentare a hashtag-urilor.Dorim sa aplicam metode de ınvat,are pentru determinarea optimumului degreutat, i pentru combinat, ia liniara dintre recomandari inline s, i contextuale,adica valoare optima pentru α. Am creat de asemenea mai multe proprietat, ice pot fi folosite pentru a ıntari sau a scadea important,a unor hashtag-uri(entropia, probabilitatea unui hashtag contextual considerand un hashtaginline). Intent, ionam sa folosim aceste proprietat, i s, i sa aplicam L2R1. Dorimsa ıncercam oferirea de recomandari prin clasificare, folosind s, i comparandperformant,ele a Naive Bayes, Complementary Naive Bayes s, i Support VectorMachines (tehnologia de varf ın clasificarea de text).

1Learning to rank, se refera ınvat,area ordonarii optime.

Concluzionam cercetarea prin a ment, iona ca ne-am atins obiectivele pro-puse s, i am reus, it sa propunem solut, ii pertinente la acestea. Consideram cane-am extins mult cunos,tiint,ele ın domeniul Social Media, clusterizarii detext scurt s, i oferirea de recomandari, totodata contribuind cu solut, ii ino-vatoare. Cu toate acestea, ın acest domeniu de cercetare exista multe dedescoperit.

8.2 Diseminarea rezultatelor din teza

Rezultatele prezentate ın aceasta teza au fost diseminate ın urmatoarele ar-ticole:

Articole publicate/acceptate ın volume de conferint,e internat, ionale dinstrainatate:

• C. I. Muntean, G. A. Morar, and D. Moldovan, Exploring the meaningbehind Twitter hashtags through clustering, 15th International Confer-ence on Business Information Systems, Vilnius, Lithuania, In BusinessInformation Systems Workshops, LNBIP, vol. 127, pages 231 - 242.Springer-Verlag Berlin, 2012. (accepted for publishing)

• C. I. Muntean. Raising engagement in e-learning through gamification.In Proceedings of the 6th ICVL Conference, pages 323-329. EdituraUniversitatii Bucuresti, 2011.

• C. I. Muntean, D. Moldovan, and O. Veres. A data mining method foraccurate employment search on the web. In Proceedings of the 2010 in-ternational conference on COMATIA, pages 123-128, World Scientificand Engineering Academy and Society, 2010.

Articole publicate/acceptate ın reviste nat, ionale:

• G.A. Morar, C.I. Muntean, and G.C. Silaghi. Implementing and run-ning a workflow application on cloud resources. Informatica Econom-ica, 15(3):15-27, 2011.

Articole publicate/acceptate ın reviste internat, ionale:

• C. I. Muntean, D. Moldovan, and O. Veres. A personalized classifica-tion of employment offers using data mining methods. In InternationalJournal of Mathematical Models and Methods in Applied Sciences,5(4):525-532, 2011.

8.3 Lista completa de articole

Lista completa a articolelor dezvoltate pe parcursul studiilor doctorale:

Articole publicate/acceptate ın volume de conferint,e internat, ionale dinstrainatate:

• C. I. Muntean, G. A. Morar, and D. Moldovan, Exploring the meaningbehind Twitter hashtags through clustering, 15th International Confer-ence on Business Information Systems, Vilnius, Lithuania, In BusinessInformation Systems Workshops, LNBIP, vol. 127, pages 231 - 242.Springer-Verlag Berlin, 2012. (accepted for publishing)

• C. I. Muntean. Raising engagement in e-learning through gamification.In Proceedings of the 6th ICVL Conference, pages 323-329. EdituraUniversitatii Bucuresti, 2011.

• R. Baraglia, C. Frattari, C. I. Muntean, F. M. Nardini, and F. Sil-vestri. RecTour: A recommender system for tourists. In Proceedingsof the 2012 Web Intelligence Workshops, WIIAT’12, Macau, China,2012. IEEE Computer Society. (accepted for publishing)

• R. Baraglia, C. Frattari, C. I. Muntean, F. M. Nardini, and F. Silvestri.A trajectory-based recommender system for tourism. In Proceedings of2012 International Conference on Active Media Technology, AMT’12LNCS, Macau, China, 2012. Springer. (accepted for publishing)

• C. I. Muntean, D. Moldovan, and O. Veres. A data mining method foraccurate employment search on the web. In Proceedings of the 2010 in-ternational conference on COMATIA, pages 123-128, World Scientificand Engineering Academy and Society, 2010.

Articole publicate/acceptate ın reviste nat, ionale:

• G.A. Morar, C.I. Muntean, and G.C. Silaghi. Implementing and run-ning a workflow application on cloud resources. Informatica Econom-ica, 15(3):15-27, 2011.

• G. Morar, C. I. Muntean, N. Tomai, An Adaptative M-learning Archi-tecture for Building and Delivering Content based on Learning Objects,The Second Romanian Workshop on Mobile Business, 10-11 Septem-brie 2010. In Informatica Economica, Vol.10, No 1/2010, pp. 63-73.

Articole publicate/acceptate ın reviste internat, ionale:

• C. I. Muntean, D. Moldovan, and O. Veres. A personalized classifica-tion of employment offers using data mining methods. In InternationalJournal of Mathematical Models and Methods in Applied Sciences,5(4):525-532, 2011.

Articole ınaintate pentru revizionare:

• Claudio Lucchese, Cristina Ioana Muntean, Raffaele Perego, FabrizioSilvestri, Hossein Vahabi, Rossano Venturini, Recommendation Systemsin UCG, book chapter in Mining of User Generated Content and ItsApplications to be published by Tailor & Francis (CRC Press).

Articole ın lucru:

• Diego Ceccarelli, Cristina Ioana Muntean, Franco Maria Nardini, Raf-faele Perego, Fabrizio Silvestri, #SHARP! : a System for HAshtagRecommendation.

Bibliografie

[1] Apoorv Agarwal, Boyi Xie, Ilia Vovsha, Owen Rambow, and RebeccaPassonneau. Sentiment analysis of twitter data. In Proceedings ofthe Workshop on Languages in Social Media, LSM ’11, pages 30–38,Stroudsburg, PA, USA, 2011. Association for Computational Linguis-tics.

[2] Albert Angel, Nick Koudas, Nikos Sarkas, and Divesh Srivastava.What’s on the grapevine? In Ugur Cetintemel, Stanley B. Zdonik,Donald Kossmann, and Nesime Tatbul, editors, SIGMOD Conference,pages 1047–1050. ACM, 2009.

[3] S. Attfield, G. Kazai, M. Lalmas, and B. Piwowarski. Towards a scienceof user engagement (position paper). In WSDM Workshop on UserModeling for Web Applications, February 2011.

[4] Eytan Bakshy, Jake M. Hofman, Winter A. Mason, and Duncan J.Watts. Everyone’s an influencer: quantifying influence on twitter. InProceedings of the fourth ACM international conference on Web searchand data mining, WSDM ’11, pages 65–74, New York, NY, USA, 2011.ACM.

[5] Somnath Banerjee, Krishnan Ramanathan, and Ajay Gupta. Cluster-ing short texts using wikipedia. In SIGIR ’07: Proceedings of the 30thannual international ACM SIGIR conference on Research and devel-opment in information retrieval, pages 787–788, New York, NY, USA,2007. ACM.

[6] Ranieri Baraglia, Claudio Frattari, Cristina Muntean, Franco MariaNardini, and Fabrizio Silvestri. Rectour: A recommender system fortourists. In Proceedings of the 2012 Web Intelligence Workshops, WI-IAT’12, Macau, China, 2012. IEEE Computer Society. Accepted forpublishing.

32

[7] Ranieri Baraglia, Claudio Frattari, Cristina Muntean, Franco MariaNardini, and Fabrizio Silvestri. A trajectory-based recommender systemfor tourism. In Proceedings of 2012 International Conference on ActiveMedia Technology, AMT’12 LNCS, Macau, China, 2012. Springer. Ac-cepted for publishing.

[8] Richard Bartle. Designing Virtual Worlds. New Riders Games, 2003.

[9] F. Benevenuto, G. Magno, T. Rodrigues, and V. Almeida. Detectingspammers on Twitter. In Proceedings of the Seventh Annual Collabora-tion, Electronic messaging, Anti-Abuse and Spam Conference (CEAS),July 2010.

[10] Ceren Budak, Divyakant Agrawal, and Amr El Abbadi. Structural trendanalysis for online social networks. Proc. VLDB Endow., 4:646–656, July2011.

[11] P.J. Carrington, J. Scott, and S. Wasserman. Models and methods insocial network analysis. Cambridge Univ Pr, 2005.

[12] D. Ceccarelli, Muntean C.I., Nardini F.M., Perego R., and Silvestri F.#sharp! : a system for hashtag recommendation. 2012. working paper.

[13] Jilin Chen, Rowan Nairn, Les Nelson, Michael Bernstein, and Ed Chi.Short and tweet: experiments on recommending content from informa-tion streams. In Proceedings of the 28th international conference onHuman factors in computing systems, CHI ’10, pages 1185–1194, NewYork, NY, USA, 2010. ACM.

[14] Cheng-Tao Chu, Sang Kyun Kim, Yi-An Lin, YuanYuan Yu, Gary Brad-ski, Andrew Y. Ng, and Kunle Olukotun. Map-reduce for machine learn-ing on multicore. In B. Scholkopf, J. Platt, and T. Hoffman, editors,Advances in Neural Information Processing Systems 19, pages 281–288.MIT Press, Cambridge, MA, 2007.

[15] Dmitry Davidov, Oren Tsur, and Ari Rappoport. Enhanced sentimentlearning using twitter hashtags and smileys. In Proceedings of the 23rdInternational Conference on Computational Linguistics: Posters, COL-ING ’10, pages 241–249, Stroudsburg, PA, USA, 2010. Association forComputational Linguistics.

[16] Jeffrey Dean and Sanjay Ghemawat. Mapreduce: simplified data pro-cessing on large clusters. Commun. ACM, 51(1):107–113, January 2008.

[17] Sebastian Deterding, Miguel Sicart, Lennart Nacke, Kenton O’Hara, andDan Dixon. Gamification. using game-design elements in non-gamingcontexts. In Proceedings of the 2011 annual conference extended ab-stracts on Human factors in computing systems, CHI EA ’11, pages2425–2428, New York, NY, USA, 2011. ACM.

[18] Edd Dumbill. What is big data? http://radar.oreilly.com/2012/

01/what-is-big-data.html, 2012.

[19] David R. Flatla, Carl Gutwin, Lennart E. Nacke, Scott Bateman, andRegan L. Mandryk. Calibration games: making calibration tasks enjoy-able by adding motivating game elements. In Proceedings of the 24th an-nual ACM symposium on User interface software and technology, UIST’11, pages 403–412, New York, NY, USA, 2011. ACM.

[20] Jeff Huang, Katherine M. Thornton, and Efthimis N. Efthimiadis. Con-versational tagging in twitter. In Proceedings of the 21st ACM conferenceon Hypertext and hypermedia, HT ’10, pages 173–178, New York, NY,USA, 2010. ACM.

[21] Bernard J. Jansen, Mimi Zhang, Kate Sobel, and Abdur Chowdury.Twitter power: Tweets as electronic word of mouth. J. Am. Soc. Inf.Sci. Technol., 60:2169–2188, November 2009.

[22] J.H. Kietzmann, K. Hermkens, I.P. McCarthy, and B.S. Silvestre. Socialmedia? get serious! understanding the functional building blocks ofsocial media. Business Horizons, 2011.

[23] D. Knoke and J.H. Kuklinski. Network analysis, volume 28. Sage Pub-lications, Inc, 1982.

[24] C. Li and J. Bernoff. Groundswell: Winning in a world transformed bysocial technologies. Harvard Business School Press, 2011.

[25] C. Lucchese, Muntean C.I., Perego R., Silvestri F., Vahabi H., and Ven-turini R. Recommendation systems in ucg. Mining of User GeneratedContent and Its Applications, 2012. book chapter submitted for review.

[26] Michael Mathioudakis and Nick Koudas. Twittermonitor: trend detec-tion over the twitter stream. In Proceedings of the 2010 ACM SIGMODInternational Conference on Management of data, SIGMOD ’10, pages1155–1158, New York, NY, USA, 2010. ACM.

[27] G.A. Morar, C.I. Muntean, and G.C. Silaghi. Implementing and run-ning a workflow application on cloud resources. Informatica Economica,15(3):15–27, 2011.

[28] C.I. Muntean, D. Moldovan, and O. Veres. A data mining method foraccurate employment search on the web. In Proceedings of the 2010international conference on Communication and management in tech-nological innovation and academic globalization, pages 123–128. WorldScientific and Engineering Academy and Society (WSEAS), 2010.

[29] C.I. Muntean, D. Moldovan, and O. Veres. A personalized classificationof employment offers using data mining methods. Internationa Journalof Mathematical Models and Methods in Applied Sciences, 5(4):525–532,2011.

[30] Cristina Ioana Muntean. Raising engagement in e-learning through gam-ification. Number 6 in 6th ICVL 2011, pages 323 – 329. Editura Uni-versitatii Bucuresti, 2011.

[31] Cristina Ioana Muntean, Gabriela Andreea Morar, and Darie Moldovan.Exploring the meaning behind twitter hashtags through clustering.Number 127 in Lecture Notes in Business Information Systems, pages231 – 242. Springer-Verlag Berlin, 2012.

[32] Brendan O’Connor, Michel Krieger, and David Ahn. TweetMotif: Ex-ploratory Search and Topic Summarization for Twitter. In William W.Cohen, Samuel Gosling, William W. Cohen, and Samuel Gosling, edi-tors, ICWSM. The AAAI Press, 2010.

[33] A. Osterwalder. The business model ontology: A proposition in a designscience approach. Academic Dissertation, Universite de Lausanne, Ecoledes Hautes Etudes Commerciales, 2, 2004.

[34] A. Osterwalder, Y. Pigneur, et al. An e-business model ontology formodeling e-business. In 15th Bled Electronic Commerce Conference,pages 17–19. Bled, Slovenia, 2002.

[35] A. Osterwalder, Y. Pigneur, and C.L. Tucci. Clarifying business models:Origins, present, and future of the concept. Communications of theassociation for Information Systems, 16(1):1–25, 2005.

[36] John Pavlus. The game of life. Scientific American, 303:43–44, 2011.

[37] Marco Pennacchiotti and Ana-Maria Popescu. A machine learning ap-proach to twitter user classification. 2011.

[38] E.T. Peterson and J. Carrabis. Measuring the immeasurable: Visitorengagement. Research and Analysis from Web Analytics Demystified,the Web Analytics Thought Leaders, 2008.

[39] Xuan-Hieu Phan, Le-Minh Nguyen, and Susumu Horiguchi. Learning toclassify short and sparse text & web with hidden topics from large-scaledata collections. In WWW ’08: Proceeding of the 17th internationalconference on World Wide Web, pages 91–100, New York, NY, USA,2008. ACM.

[40] Owen Phelan, Kevin McCarthy, and Barry Smyth. Using twitter torecommend real-time topical news. In Proceedings of the third ACMconference on Recommender systems, RecSys ’09, pages 385–388, NewYork, NY, USA, 2009. ACM.

[41] C.K. Prahalad and V. Ramaswamy. The Future of Competition: Co-Creating Unique Value With Customers. Harvard Business School Pub.,2004.

[42] Jagan Sankaranarayanan, Hanan Samet, Benjamin E. Teitler,Michael D. Lieberman, and Jon Sperling. Twitterstand: news in tweets.In Proceedings of the 17th ACM SIGSPATIAL International Conferenceon Advances in Geographic Information Systems, GIS ’09, pages 42–51,New York, NY, USA, 2009. ACM.

[43] Don Tapscott and Anthony D Williams. Wikinomics: How Mass Col-laboration Changes Everything, volume 58. Portfolio, 2006.

[44] Kurt Thomas, Chris Grier, Dawn Song, and Vern Paxson. Suspendedaccounts in retrospect: an analysis of twitter spam. In Proceedings of the2011 ACM SIGCOMM conference on Internet measurement conference,IMC ’11, pages 243–258, New York, NY, USA, 2011. ACM.

[45] M. Tsvetovat and A. Kouznetsov. Social Network Analysis for Startups:Finding Connections on the Social Web. Real Time Bks. O’Reilly Media,2011.

[46] Alex H. Wang. Dont’t Follow me: Spam Detection in Twitter. In Pro-ceedings of the International Conference on Security and Cryptography(SECRYPT), July 2010.

[47] Jianshu Weng, Ee-Peng Lim, Jing Jiang, and Qi He. Twitterrank: find-ing topic-sensitive influential twitterers. In Proceedings of the third ACMinternational conference on Web search and data mining, WSDM ’10,pages 261–270, New York, NY, USA, 2010. ACM.

[48] Tan Xu and Douglas W. Oard. Wikipedia-based topic clustering formicroblogs. Proceedings of the American Society for Information Scienceand Technology, 48(1):1–10, 2011.

[49] Jiang Yang and Scott Counts. Predicting the speed, scale, and rangeof information diffusion in twitter. In William W. Cohen and SamuelGosling, editors, ICWSM. The AAAI Press, 2010.

[50] E. Zangerle, W. Gassler, and Specht G. Recommending #-Tags in Twit-ter. In Proceedings of the Workshop on Semantic Adaptive Social Web2011, pages 62–73. CEUR-WS, 2011.