curs1 introducere in data mining

Introducere ın Data MiningCurs 1: Prezentare generala

Lucian Sasu, Ph.D.

Universitatea Transilvania din Brasov, Facultatea de Matematica si Informatica

March 1, 2012

[email protected] (UNITBV) Curs 1 March 1, 2012 1 / 42

Outline

1 Bibliografia recomandataBibliografie pentru cursBibliografie pentru laborator

2 Data Mining - introducereDefinitii, exemple si motivatieData Mining si Knowledge DiscoveryPuncte de dificultateOriginile DMTipuri de aplicatii DM


Bibliografie pentru curs

1 Pang-Ning Tan, Michael Steinbach, Vipin Kumar: Introduction toData Mining, Addison-Wesley, 2006




2 David J. Hand, Heikki Mannila and Padhraic Smyth: Principles ofData Mining, MIT Press, 2001





3 Jiawei Han, Micheline Kamber, Jian Pei: Data Mining: Concepts andTechniques, 3rd ed., Morgan Kaufmann Publishers, 2011





3 Jiawei Han, Micheline Kamber, Jian Pei: Data Mining: Concepts andTechniques, 3rd ed., Morgan Kaufmann Publishers, 2011

4 Trevor Hastie, Robert Tibshirani, Jerome Friedman: The Elements ofStatistical Learning: Data Mining, Inference, and Prediction, 2ndedition, Springer 2009, libera la download


http://www-stat.stanford.edu/~tibs/ElemStatLearn/download.html

Bibliografie pentru laborator



1 http://rapidminerresources.com

2 http://rapid-i.com/content/view/36/209/lang,en/


http://rapidminerresources.com

http://rapid-i.com/content/view/36/209/lang,en/


1 http://rapidminerresources.com

2 http://rapid-i.com/content/view/36/209/lang,en/

3 Ian H. Witten, Eibe Frank: Data Mining: Practical Machine LearningTools and Techniques, 2nd edition, Morgan Kaufmann, 2005


http://rapidminerresources.com


Unelte folosite la laborator (1)

Weka: Data Mining Software in Java, Download de aiciWeka is a collection of machine learning algorithms for data mining tasks. The algorithms

can either be applied directly to a dataset or called from your own Java code. Weka

contains tools for data pre-processing, classification, regression, clustering, association

rules, and visualization. It is also well-suited for developing new machine learning

schemes.


http://www.cs.waikato.ac.nz/ml/weka/



Weka: Data Mining Software in Java, Download de aiciWeka is a collection of machine learning algorithms for data mining tasks. The algorithms

can either be applied directly to a dataset or called from your own Java code. Weka

contains tools for data pre-processing, classification, regression, clustering, association

rules, and visualization. It is also well-suited for developing new machine learning

schemes.

Software multiplatforma dezvoltat ın Java; poate fi folosit din GUI sau prin API-ul expus;

posibil sa se apeleze din .NET via ikvm.net.




http://www.ikvm.net/


RapidMiner Community EditionThe main product of Rapid-I, the data analysis solution RapidMiner, is the world-leading

open-source system for data and text mining.

Mecanisme: Data Integration, Analytical ETL, Data Analysis, andReporting; graphical user interface for the design of analysisprocesses; Repositories for process, data and meta data handling;Hundreds of data loading, data transformation, data modeling, anddata visualization methods [. . . ]

Alte softuri larg folosite, dar neabordate la laborator:http://www.kdnuggets.com/software/index.html,

http://www.kdnuggets.com/polls/2010/data-mining-analytics-tools.html

http://www-users.cs.umn.edu/˜kumar/dmbook/resources.htm


http://rapid-i.com/index.php?lang=en


http://www.kdnuggets.com/software/index.html

http://www.kdnuggets.com/polls/2010/data-mining-analytics-tools.html

http://www-users.cs.umn.edu/~kumar/dmbook/resources.htm

Outline

1 Bibliografia recomandataBibliografie pentru cursBibliografie pentru laborator

2 Data Mining - introducereDefinitii, exemple si motivatieData Mining si Knowledge DiscoveryPuncte de dificultateOriginile DMTipuri de aplicatii DM


Definitii

Definitie

Data Mining este procesul descoperirii (semi)automate a informatiilor utileın depozite mari de date (Tan et al).

Definitie

Data Mining este analiza seturilor de date – deseori de dimensiuni mari –rezultate prin observatii pentru a gasi relatii noi si pentru sumarizareadatelor ın moduri care sunt atat usor de ınteles cat si utile celui ce detinedatele (Hand et al).

Definitie

Data mining este procesul netrivial de extragere a informatiei implicite,anterior necunoscute, interesante si potential utile din date, de regula subforma de modele si sabloane de cunoastere (Schapiro et al).


Termeni alternativi:

mineritul cunostintelor din date

extragere de cunostinte (eng: Knowledge Discovery) – sinonimdiscutabil

analiza date/sabloane

Ce NU e Data Mining:

gasirea datelor complete privind o persoana folosind interogare ıntr–obaza de date;

gasirea paginilor web care contin anumiti termeni;

Acestea sunt activitati de regasire a informatiei.


Ce poate fi Data Mining:

sa descoperi ca anumite nume sunt mai frecvente ın unele zone:O’Brien, O’Rurke, O’Reilly ın zona Boston;

gruparea clientilor pe baza unui profil de consum comun;

gruparea paginilor dintr-un motor de cautare pe baza similaritatilor:motorul search.yippi.com;

predictia evolutiei preturilor la bilete de avion: farecast.com.


http://search.yippy.com

http://www.bing.com/travel/

Clustering de pagini web in Yippi


Farecast: sa cumpar sau nu acum un bilet de avion?


De ce Data Mining: din punctul de vedere al afacerilor (1)

O multime de date sunt colectate si depozitate prin sisteme de datawarehouse

date din Web, comert electroniccumparaturi ın magazine/lanturi de desfaceretranzactii financiare, carduri de debit/credit

Calculatoarele au devenit tot mai ieftine si mai puternice; procesareadistribuita este ceva comun.


De ce Data Mining: din punctul de vedere al afacerilor (2)

Presiunea impusa de competitie este motivanta: aducerea unui nouclient ıntr–o retea de telefonie este de pana la 4 ori mai scumpa decatpastrarea lui: Customer attrition

Cerinte specifice mediului de afaceri: customer profiling, targettedmarketing, fraud detection

Probleme stringente: “Care sunt cei mai profitabili clienti?”, “Careproduse cumparate atrag achizitia altor produse?”, “Care va fievolutia companiei/pietei pe segmentul . . . ?”, “Care sunt nisele depiata?”


http://en.wikipedia.org/wiki/Customer_attrition

De ce Data Mining: din punct de vedere stiintific

In domenii precum medicina, inginerie si stiinta se acumuleaza rapiddate ce trebuie exploatate pentru a duce la noi descoperiri;

Exemplu: dezvoltarea de sisteme de sateliti pentru observatiiclimatice;

Date genetice generate prin “microarrays”; se doreste decodificareacompleta a genomului uman, determinarea genelor care cauzeazadiferite afectiuni, ıntelegerea structurii si functionalitatii genelor;

DM e unealta de baza pentru bioinformatica = “aplicarea statisticii sia informaticii ın domeniul biologiei moleculare”.


http://en.wikipedia.org/wiki/Bioinformatics

Competitii

Neflix prize: 100.480.507 rating-uri date de 480.189 utilizatori pentru17.770 filme

KDDCup:

2012: User Modeling based on Microblog Data and Search Click Data2011: Recomandare de muzica2010: Evaluarea performantelor studentilor2009: Predictia relatiei cu clientii2008: Cancer de san2007: Netflix prize2006: embolism pulmonar din date tomografice2005: clasificarea interogarilor de Internet2004: fizica particulelor si biochimie2003: mineritul retelelor si analiza log-urilorcompetitia merge pana ın 1997

Alte competitii — www.kdnuggets.com


http://en.wikipedia.org/wiki/Netflix_prize

http://www.sigkdd.org/kddcup/

http://www.kdd.org/kdd2012/kddcup.shtml

http://www.kdd.org/kdd2011/kddcup.shtml

http://www.kdd.org/kddcup/index.php?section=2010&method=info/

http://www.kdd.org/kddcup/index.php?section=2009&method=info

http://www.kddcup2008.com/

http://www.cs.uic.edu/~liub/Netflix-KDD-Cup-2007.html

http://www.sigkdd.org/kddcup/index.php?section=2006&method=info




http://www.kdnuggets.com/datasets/competitions.html

Pasii unui proces de extragere de cunostinte (1)

Data Mining este parte integranta a domeniului Knowledge discoveryin databases (KDD), care e un ıntreg proces de conversie a datelorprimare ın cunostinte (informatie).

Procesul consta ıntr–o succesiune de pasi:

Datele de intrare se pot gasi ıntr-o larga varietate de formate: fisieretext, baze de date relationale, date semistructurate (e.g. XML,HTML), imagini, filme etc.


Pasii unui proces de extragere de cunostinte (2)

Datele se selecteaza din multitudinea de surse;

Preprocesarea si transformarea pot include: selectarea dimensiunilor,reducerea dimensionalitatii, tratarea datelor incomplete, normalizarea;

Preprocesarea si transformarea pot lua chiar si 60% din durata totalaa unui proces de extragere a cunostintelor;

Partea de Data Mining se face printr–o varietate de tehnici; deseori setesteaza mai multe metode;

La final, cunostintele rezultate sunt post–procesate (e.g. se eliminarezultatele invalide sau neinteresante) si trebuie prezentate ıntr–oforma inteligibila factorilor de decizie (e.g. vizualizare sau reguli deforma “if–then”), sau integrate ın alte sisteme (e.g. sistemele utilizatepentru detectare de fraude);


Atentie la ce se obtine

Tehnici folosite la preprocesare: testarea ipotezelor prin metodestatistice – se elimina rezultatele nerealiste;

Eliminarea cunostintelor “neinteresante” — element subiectiv,dependent de cunostintele anterioare;

Limitarea complexitatii modelelor folosite ın procesul de DM: “If youtorture the data long enough, it will confess” (Ronald Harry Coase,economist);

Principiul lui Bonferroni: if you look harder than the quantity of datasupports, you will find a pattern that “fits”.


Principiul lui Bonferroni: paradoxul Rhine (1)

Joseph Rhine: parapsiholog ın anii ’50 care a ıncercat sa dovedeascafaptul ca unii oameni au perceptie extra-senzoriala;

“experimentul” lui Rhine: a cerut unor oameni sa ghiceasca culorile a10 cartonase ascunse – se stiau cele doua posibilitati: rosu si albastru;

a “descoperit” ca aproximativ 1/1000 din oameni au ghicit toate cele10 cartoane

a spus oamenilor respectivi ca au abilitati extrasenzoriale si i-a chematpentru alte experimente

la un nou experiment, oamenii de la pasul anterior nu au mai ghicitaproape deloc culoarea cartoanelor.

“Concluzia”:


Principiul lui Bonferroni: paradoxul Rhine (2)

Nu ar fi trebuit sa le spuna oamenilor ca au capacitatiextra-senzoriale: asta ıi face sa si le piarda!!

Un calcul probabilistic simplu arata ca raportul de aproximativ 1/1000poate fi explicat prin evenimente aleatoare si legea numerelor mari;

Cunoasterea principiului lui Bonferroni poate sa salveze de astfel de“descoperiri”.


Scalabilitatea si dimensiunea datelor

seturile de date ajung usor la dimensiuni de giga/tera/peta–bytes;

France Telecom are o baza de date folosita pentru luarea deciziilor de30 TB

Wal-Mart are 20 de milioane de tranzactii pe zi;

16 telescoape europene produc 1 Gb pe secunda;

proiectul genomului uman: 3.4 miliarde de perechi si ıntre 20000 si25000 gene;

problema de descoperire de medicamente: 100000 de atribute;stabilirea reputatiei URL-urilor: 3231961 de atribute

Experimentul “Compact Muon Solenoid” la CERN’s Large HadronCollider genereaza 40 de terabytes de date pe secunda.


http://archive.ics.uci.edu/ml/datasets/Dorothea

http://archive.ics.uci.edu/ml/datasets/URL+Reputation

Scalabilitatea si dimensiunea datelor (2)

variante: structuri de date specifice, care sa usureze interogareadatelor

scalarea pe orizontala sau pe verticala a resurselor hardware;

scalarea pe verticala: rareori suficienta, datele nu ıncap ın RAM

scalarea pe orizontala – cazuri remarcabile: Apache Hadoop, ApacheMahout — proiecte open–source.


Date eterogene si complexe

atribute eterogene: numerice, categoriale;

ce faci cu datele lipsa? eliminarea ınregistrarilor cu goluri de date nu eıntotdeauna o optiune;

colectii de documente (e.g. pagini Web); date ADN cu structuraspatiala si secventiala; serii de timp

tehnicile de DM trebuie sa ia ın considerare relatiile dintre date(corelatie spatiala si temporala; conectivitate de grafuri; relatieparinte–copil).


Gestiunea si distribuirea datelor

datele pot fi prezente ın locatii multiple, nu doar ıntr–o organizatie;

necesitate: DM distribuit sau suport de tip Data Warehouse

ın caz de distribuire: comunicarea necesara poate sa domine timpulde calcul

ın caz de data warehouse: integrarea datelor necesita timp ındelungat

“data privacy”: problema delicata, diferite aspecte legislative potinterveni


Analiza nestandard

Statistica: enuntarea de ipoteze si apoi testarea lor;

Problema evidenta: procesul este laborios

DM are ca scop tocmai determinarea pe cat posibil automata a astfelde ipoteze;

In timp ce statistica este ın mare masura tributara modelelorparametrice, datele reale pot avea cu totul alte distributii decat celepresupuse;

Dar statistica ofera unelte utile – de exemplu metode de testare,determinarea intervalelor de confidenta, inferenta statistica etc.


Originile DM

Statistica – esantionare, estimare, testarea ipotezelor, modeleparametrice;

Inteligenta artificiala — tehnici de rationament probabilist simanagement al incertitudinii

Invatare automata (machine learning) — pornind de la date secreeaza modele adecvate

Recunoastere de sabloane (pattern recognition)

Sisteme de baze de date – suport pentru stocarea (eventualdistribuita a ) datelor; probleme pot aparea din cauza ca nu toatedatele se pot reprezenta usor sub model relational;

Calcul paralel—distribuit — pentru a rezolva problema scalabilitatiiaplicatiilor de DM;


Sunt doua categorii majore de aplicatii:

Predictia — scopul e de a prezice valoarea concreta a unui atribut pebaza altor atribute. Atributul ce urmeaza a fi prezis senumeste variabila dependenta sau tinta; cele care se folosescpentru predictie sunt variabile independente sau explicative;

Descrierea — determinarea de sabloane, e.g. corelatii, tendinte, grupari,traiectorii, anomalii


Clasificare — predictie

Grupare (Clustering) — descriere

Determinarea relatiilor de asociere — descriere

Descoperirea sabloanelor secventiale — descriere

Regresie — predictie

Detectarea deviatiilor — predictie


Clasificarea: definitie

Se pleaca de la o colectie de ınregistrari = setul de antrenare

Fiecare ınregistrare e formata din atribute, dintre care unul este“clasa”: bun/rau, risc mare/risc moderat/risc mic;

Scopul este gasirea unui model (a unui mecanism, a unei functii) caresa determine clasa pe baza atributelor;

Modelul trebuie sa faca o clasificare cat mai fidela pentru ınregistraricare nu fac parte din setul de test = date din setul de testare;


Clasificarea: exemplu


Clasificarea: aplicatia 1

Marketing direct:

scopul: reducerea costurilor de trimitere a reclamelor prin posta prinalegerea unui set de consumatori pentru care sansele de achizitie aunui produs sunt mari

modalitate de lucru:

se pleaca de la produse similarepentru aceste produse stim daca au fost sau nu cumparate de catreconsumatorii ın cauza; asta da clasa unei ınregistrari, ca valoareposibila din multimea {a cumparat, nu a cumparat}se colecteaza date demografice despre clienti, istoricul tranzactiilor etc.se folosesc aceste date pentru a construi un clasificator.



Prevenirea migrarii clientului:

Scop: sa se determine daca un client al serviciilor oferite este pe calede a pleca la un competitor


se folosesc ınregistrari detaliate despre tranzactiile facute de client (e.g.telefonie: apelurile efectuate, retelele catre care s–au efectuat, durata,frecventa);se folosesc date demografice: situatia financiara, starea civila etc.se eticheteaza clientul ca fiind loial sau nuplecand de la acest set de antrenare se creeaza un clasificator care safie utilizat pentru alti clienti



Clasificarea obiectelor ceresti

Scop: sa se prezica clasa unor obiecte ceresti pe baza imaginilor luatede telescoape


se pleaca de la o colectie de imagini; caz concret: 3000 imagini cu23040 x 23040 pixeli pe imaginese segmenteaza imaginease masoara anumite trasaturise construieste un clasificator plecand de la aceste segmente de imaginicu clase atasate - pentru fiecare segment se stie exact ce reprezintapoveste de succes: s–au gasit 16 noi quasari, elemente greu dedescoperit si catalogat prin mijloace traditionale.



Clasificarea galaxiilor ın: galaxii tinere, de varsta medie, vechi.

Scop: clasificarea galaxiilor relativ la stadiul de formare: galaxii tinere,de nivel intermediar, stadiu final;

set de date: 20 de milioane de galaxii, 72 de milioane de stele

baza de date de 150 GB

atribute: trasaturi extrase din imagini, caracteristicile lungimilor deunda primite etc.

sursa: http://aps.umn.edu


http://aps.umn.edu

Clustering: definitie

Dandu–se un set de puncte, fiecare avand un set de atribute si omasura de similaritate, sa se gaseasca grupari (cluster–e) cuproprietatea:

punctele care apartin unui aceluiasi cluster sunt similare ıntre elepunctele din clustere separate sunt mai putin similare

masura de similaritate: distanta Euclidiana sau alte masuri specifice

deosebire fata de clasificare: printre atributele considerate nu existaun atribut de clasa


Clustering: exemplu

Gruparea automata de documente

scop: gasirea grupurilor de documente care sunt similare pe bazatermenilor pe care ıi contin

modalitate de lucru

se contorizeaza cuvintelese formeaza o masura de similaritate ıntre documente pe bazafrecventelorpe baza similaritatii se formeaza grupurileutilitate: pentru un nou document se descopera rapid care esteclusterul caruia ıi apartine ın mod natural;

utilitate: detectare de plagiate, cautare de documente similare etc.


Analiza asocierilor: definitie

Dandu–se un set de colectii de ınregistrari, sa se produca regulile dedependenta care prezic aparitia unui item pe baza aparitiei altor itemi


Analiza asocierilor: exemple

gasirea grupurilor de gene care au functii ınrudite

identificarea paginilor Web dintr–un site care sunt accesate ımpreuna

Market Basket Analysis: care sunt produsele care se vand bineımpreuna; ın functie de aceste grupari se poate specula partea decross-selling (ieftinesti un produs dar ıl scumpesti pe un altul) saudispunerea pe raft a lor (cele care se vand ımpreuna sa fie dispuseapropiat);

echiparea masinilor care participa la reparatii cu anumite unelte,pentru a reduce numarul de deplasari la client


Descoperirea sabloanelor secventiale: definitie

Dandu–se un set de obiecte, fiecare cu timpul la care apare, sa segaseasca regulile care pot prezice dependintele secventiale dintreevenimente;

Spre deosebire de analiza asocierilor: aparitia evenimentelor estereglata de restrictii de timp.


Regresie: definitie, exemple

Prezicerea unui atribut continuu pe baza unor atribute independente;

Similar cu clasificarea, dar la regresie valorile variabilei dependentesunt numerice

Intens studiata ın statistica si retele neurale artificiale

Exemple:

prezicerea volumului de vanzariprezicerea vitezei vantului pe baza umiditatii, presiunii, temperaturiietc.prezicerea consumului de curent ıntr–o anumita perioada, pe o zonaspecificata


Detectarea anomaliilor

detectarea deviatiilor semnificative de la comportamentul normal

aplicatii:

detectarea fraudelor cu card bancardetectarea intruziunilor ın retele de calculatoare


curs1 introducere in data mining

Documents

principles of data mining

data mining software

data mining tasks

data preprocessing

data modeling

data transformation

data integration

motivatie s data mining