curs1 introducere in data mining

48
Introducere ˆ ın Data Mining Curs 1: Prezentare general˘ a Lucian Sasu, Ph.D. Universitatea Transilvania din Bra¸ sov, Facultatea de Matematic˘ si Informatic˘ a March 1, 2012 [email protected] (UNITBV) Curs 1 March 1, 2012 1 / 42

Upload: georgina-patrascu

Post on 30-Jul-2015

143 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: curs1 Introducere in Data Mining

Introducere ın Data MiningCurs 1: Prezentare generala

Lucian Sasu, Ph.D.

Universitatea Transilvania din Brasov, Facultatea de Matematica si Informatica

March 1, 2012

[email protected] (UNITBV) Curs 1 March 1, 2012 1 / 42

Page 2: curs1 Introducere in Data Mining

Outline

1 Bibliografia recomandataBibliografie pentru cursBibliografie pentru laborator

2 Data Mining - introducereDefinitii, exemple si motivatieData Mining si Knowledge DiscoveryPuncte de dificultateOriginile DMTipuri de aplicatii DM

[email protected] (UNITBV) Curs 1 March 1, 2012 2 / 42

Page 3: curs1 Introducere in Data Mining

Bibliografie pentru curs

1 Pang-Ning Tan, Michael Steinbach, Vipin Kumar: Introduction toData Mining, Addison-Wesley, 2006

[email protected] (UNITBV) Curs 1 March 1, 2012 3 / 42

Page 4: curs1 Introducere in Data Mining

Bibliografie pentru curs

1 Pang-Ning Tan, Michael Steinbach, Vipin Kumar: Introduction toData Mining, Addison-Wesley, 2006

2 David J. Hand, Heikki Mannila and Padhraic Smyth: Principles ofData Mining, MIT Press, 2001

[email protected] (UNITBV) Curs 1 March 1, 2012 3 / 42

Page 5: curs1 Introducere in Data Mining

Bibliografie pentru curs

1 Pang-Ning Tan, Michael Steinbach, Vipin Kumar: Introduction toData Mining, Addison-Wesley, 2006

2 David J. Hand, Heikki Mannila and Padhraic Smyth: Principles ofData Mining, MIT Press, 2001

3 Jiawei Han, Micheline Kamber, Jian Pei: Data Mining: Concepts andTechniques, 3rd ed., Morgan Kaufmann Publishers, 2011

[email protected] (UNITBV) Curs 1 March 1, 2012 3 / 42

Page 6: curs1 Introducere in Data Mining

Bibliografie pentru curs

1 Pang-Ning Tan, Michael Steinbach, Vipin Kumar: Introduction toData Mining, Addison-Wesley, 2006

2 David J. Hand, Heikki Mannila and Padhraic Smyth: Principles ofData Mining, MIT Press, 2001

3 Jiawei Han, Micheline Kamber, Jian Pei: Data Mining: Concepts andTechniques, 3rd ed., Morgan Kaufmann Publishers, 2011

4 Trevor Hastie, Robert Tibshirani, Jerome Friedman: The Elements ofStatistical Learning: Data Mining, Inference, and Prediction, 2ndedition, Springer 2009, libera la download

[email protected] (UNITBV) Curs 1 March 1, 2012 3 / 42

Page 7: curs1 Introducere in Data Mining

Bibliografie pentru laborator

[email protected] (UNITBV) Curs 1 March 1, 2012 4 / 42

Page 8: curs1 Introducere in Data Mining

Bibliografie pentru laborator

1 http://rapidminerresources.com

2 http://rapid-i.com/content/view/36/209/lang,en/

[email protected] (UNITBV) Curs 1 March 1, 2012 4 / 42

Page 9: curs1 Introducere in Data Mining

Bibliografie pentru laborator

1 http://rapidminerresources.com

2 http://rapid-i.com/content/view/36/209/lang,en/

3 Ian H. Witten, Eibe Frank: Data Mining: Practical Machine LearningTools and Techniques, 2nd edition, Morgan Kaufmann, 2005

[email protected] (UNITBV) Curs 1 March 1, 2012 4 / 42

Page 10: curs1 Introducere in Data Mining

Unelte folosite la laborator (1)

Weka: Data Mining Software in Java, Download de aiciWeka is a collection of machine learning algorithms for data mining tasks. The algorithms

can either be applied directly to a dataset or called from your own Java code. Weka

contains tools for data pre-processing, classification, regression, clustering, association

rules, and visualization. It is also well-suited for developing new machine learning

schemes.

[email protected] (UNITBV) Curs 1 March 1, 2012 5 / 42

Page 11: curs1 Introducere in Data Mining

Unelte folosite la laborator (1)

Weka: Data Mining Software in Java, Download de aiciWeka is a collection of machine learning algorithms for data mining tasks. The algorithms

can either be applied directly to a dataset or called from your own Java code. Weka

contains tools for data pre-processing, classification, regression, clustering, association

rules, and visualization. It is also well-suited for developing new machine learning

schemes.

Software multiplatforma dezvoltat ın Java; poate fi folosit din GUI sau prin API-ul expus;

posibil sa se apeleze din .NET via ikvm.net.

[email protected] (UNITBV) Curs 1 March 1, 2012 5 / 42

Page 12: curs1 Introducere in Data Mining

Unelte folosite la laborator (2)

RapidMiner Community EditionThe main product of Rapid-I, the data analysis solution RapidMiner, is the world-leading

open-source system for data and text mining.

Mecanisme: Data Integration, Analytical ETL, Data Analysis, andReporting; graphical user interface for the design of analysisprocesses; Repositories for process, data and meta data handling;Hundreds of data loading, data transformation, data modeling, anddata visualization methods [. . . ]

Alte softuri larg folosite, dar neabordate la laborator:http://www.kdnuggets.com/software/index.html,

http://www.kdnuggets.com/polls/2010/data-mining-analytics-tools.html

http://www-users.cs.umn.edu/˜kumar/dmbook/resources.htm

[email protected] (UNITBV) Curs 1 March 1, 2012 6 / 42

Page 13: curs1 Introducere in Data Mining

Outline

1 Bibliografia recomandataBibliografie pentru cursBibliografie pentru laborator

2 Data Mining - introducereDefinitii, exemple si motivatieData Mining si Knowledge DiscoveryPuncte de dificultateOriginile DMTipuri de aplicatii DM

[email protected] (UNITBV) Curs 1 March 1, 2012 7 / 42

Page 14: curs1 Introducere in Data Mining

Definitii

Definitie

Data Mining este procesul descoperirii (semi)automate a informatiilor utileın depozite mari de date (Tan et al).

Definitie

Data Mining este analiza seturilor de date – deseori de dimensiuni mari –rezultate prin observatii pentru a gasi relatii noi si pentru sumarizareadatelor ın moduri care sunt atat usor de ınteles cat si utile celui ce detinedatele (Hand et al).

Definitie

Data mining este procesul netrivial de extragere a informatiei implicite,anterior necunoscute, interesante si potential utile din date, de regula subforma de modele si sabloane de cunoastere (Schapiro et al).

[email protected] (UNITBV) Curs 1 March 1, 2012 8 / 42

Page 15: curs1 Introducere in Data Mining

Termeni alternativi:

mineritul cunostintelor din date

extragere de cunostinte (eng: Knowledge Discovery) – sinonimdiscutabil

analiza date/sabloane

Ce NU e Data Mining:

gasirea datelor complete privind o persoana folosind interogare ıntr–obaza de date;

gasirea paginilor web care contin anumiti termeni;

Acestea sunt activitati de regasire a informatiei.

[email protected] (UNITBV) Curs 1 March 1, 2012 9 / 42

Page 16: curs1 Introducere in Data Mining

Ce poate fi Data Mining:

sa descoperi ca anumite nume sunt mai frecvente ın unele zone:O’Brien, O’Rurke, O’Reilly ın zona Boston;

gruparea clientilor pe baza unui profil de consum comun;

gruparea paginilor dintr-un motor de cautare pe baza similaritatilor:motorul search.yippi.com;

predictia evolutiei preturilor la bilete de avion: farecast.com.

[email protected] (UNITBV) Curs 1 March 1, 2012 10 / 42

Page 17: curs1 Introducere in Data Mining

Clustering de pagini web in Yippi

[email protected] (UNITBV) Curs 1 March 1, 2012 11 / 42

Page 18: curs1 Introducere in Data Mining

Farecast: sa cumpar sau nu acum un bilet de avion?

[email protected] (UNITBV) Curs 1 March 1, 2012 12 / 42

Page 19: curs1 Introducere in Data Mining

De ce Data Mining: din punctul de vedere al afacerilor (1)

O multime de date sunt colectate si depozitate prin sisteme de datawarehouse

date din Web, comert electroniccumparaturi ın magazine/lanturi de desfaceretranzactii financiare, carduri de debit/credit

Calculatoarele au devenit tot mai ieftine si mai puternice; procesareadistribuita este ceva comun.

[email protected] (UNITBV) Curs 1 March 1, 2012 13 / 42

Page 20: curs1 Introducere in Data Mining

De ce Data Mining: din punctul de vedere al afacerilor (2)

Presiunea impusa de competitie este motivanta: aducerea unui nouclient ıntr–o retea de telefonie este de pana la 4 ori mai scumpa decatpastrarea lui: Customer attrition

Cerinte specifice mediului de afaceri: customer profiling, targettedmarketing, fraud detection

Probleme stringente: “Care sunt cei mai profitabili clienti?”, “Careproduse cumparate atrag achizitia altor produse?”, “Care va fievolutia companiei/pietei pe segmentul . . . ?”, “Care sunt nisele depiata?”

[email protected] (UNITBV) Curs 1 March 1, 2012 14 / 42

Page 21: curs1 Introducere in Data Mining

De ce Data Mining: din punct de vedere stiintific

In domenii precum medicina, inginerie si stiinta se acumuleaza rapiddate ce trebuie exploatate pentru a duce la noi descoperiri;

Exemplu: dezvoltarea de sisteme de sateliti pentru observatiiclimatice;

Date genetice generate prin “microarrays”; se doreste decodificareacompleta a genomului uman, determinarea genelor care cauzeazadiferite afectiuni, ıntelegerea structurii si functionalitatii genelor;

DM e unealta de baza pentru bioinformatica = “aplicarea statisticii sia informaticii ın domeniul biologiei moleculare”.

[email protected] (UNITBV) Curs 1 March 1, 2012 15 / 42

Page 22: curs1 Introducere in Data Mining

Competitii

Neflix prize: 100.480.507 rating-uri date de 480.189 utilizatori pentru17.770 filme

KDDCup:

2012: User Modeling based on Microblog Data and Search Click Data2011: Recomandare de muzica2010: Evaluarea performantelor studentilor2009: Predictia relatiei cu clientii2008: Cancer de san2007: Netflix prize2006: embolism pulmonar din date tomografice2005: clasificarea interogarilor de Internet2004: fizica particulelor si biochimie2003: mineritul retelelor si analiza log-urilorcompetitia merge pana ın 1997

Alte competitii — www.kdnuggets.com

[email protected] (UNITBV) Curs 1 March 1, 2012 16 / 42

Page 23: curs1 Introducere in Data Mining

Pasii unui proces de extragere de cunostinte (1)

Data Mining este parte integranta a domeniului Knowledge discoveryin databases (KDD), care e un ıntreg proces de conversie a datelorprimare ın cunostinte (informatie).

Procesul consta ıntr–o succesiune de pasi:

Datele de intrare se pot gasi ıntr-o larga varietate de formate: fisieretext, baze de date relationale, date semistructurate (e.g. XML,HTML), imagini, filme etc.

[email protected] (UNITBV) Curs 1 March 1, 2012 17 / 42

Page 24: curs1 Introducere in Data Mining

Pasii unui proces de extragere de cunostinte (2)

Datele se selecteaza din multitudinea de surse;

Preprocesarea si transformarea pot include: selectarea dimensiunilor,reducerea dimensionalitatii, tratarea datelor incomplete, normalizarea;

Preprocesarea si transformarea pot lua chiar si 60% din durata totalaa unui proces de extragere a cunostintelor;

Partea de Data Mining se face printr–o varietate de tehnici; deseori setesteaza mai multe metode;

La final, cunostintele rezultate sunt post–procesate (e.g. se eliminarezultatele invalide sau neinteresante) si trebuie prezentate ıntr–oforma inteligibila factorilor de decizie (e.g. vizualizare sau reguli deforma “if–then”), sau integrate ın alte sisteme (e.g. sistemele utilizatepentru detectare de fraude);

[email protected] (UNITBV) Curs 1 March 1, 2012 18 / 42

Page 25: curs1 Introducere in Data Mining

Atentie la ce se obtine

Tehnici folosite la preprocesare: testarea ipotezelor prin metodestatistice – se elimina rezultatele nerealiste;

Eliminarea cunostintelor “neinteresante” — element subiectiv,dependent de cunostintele anterioare;

Limitarea complexitatii modelelor folosite ın procesul de DM: “If youtorture the data long enough, it will confess” (Ronald Harry Coase,economist);

Principiul lui Bonferroni: if you look harder than the quantity of datasupports, you will find a pattern that “fits”.

[email protected] (UNITBV) Curs 1 March 1, 2012 19 / 42

Page 26: curs1 Introducere in Data Mining

Principiul lui Bonferroni: paradoxul Rhine (1)

Joseph Rhine: parapsiholog ın anii ’50 care a ıncercat sa dovedeascafaptul ca unii oameni au perceptie extra-senzoriala;

“experimentul” lui Rhine: a cerut unor oameni sa ghiceasca culorile a10 cartonase ascunse – se stiau cele doua posibilitati: rosu si albastru;

a “descoperit” ca aproximativ 1/1000 din oameni au ghicit toate cele10 cartoane

a spus oamenilor respectivi ca au abilitati extrasenzoriale si i-a chematpentru alte experimente

la un nou experiment, oamenii de la pasul anterior nu au mai ghicitaproape deloc culoarea cartoanelor.

“Concluzia”:

[email protected] (UNITBV) Curs 1 March 1, 2012 20 / 42

Page 27: curs1 Introducere in Data Mining

Principiul lui Bonferroni: paradoxul Rhine (2)

Nu ar fi trebuit sa le spuna oamenilor ca au capacitatiextra-senzoriale: asta ıi face sa si le piarda!!

Un calcul probabilistic simplu arata ca raportul de aproximativ 1/1000poate fi explicat prin evenimente aleatoare si legea numerelor mari;

Cunoasterea principiului lui Bonferroni poate sa salveze de astfel de“descoperiri”.

[email protected] (UNITBV) Curs 1 March 1, 2012 21 / 42

Page 28: curs1 Introducere in Data Mining

Scalabilitatea si dimensiunea datelor

seturile de date ajung usor la dimensiuni de giga/tera/peta–bytes;

France Telecom are o baza de date folosita pentru luarea deciziilor de30 TB

Wal-Mart are 20 de milioane de tranzactii pe zi;

16 telescoape europene produc 1 Gb pe secunda;

proiectul genomului uman: 3.4 miliarde de perechi si ıntre 20000 si25000 gene;

problema de descoperire de medicamente: 100000 de atribute;stabilirea reputatiei URL-urilor: 3231961 de atribute

Experimentul “Compact Muon Solenoid” la CERN’s Large HadronCollider genereaza 40 de terabytes de date pe secunda.

[email protected] (UNITBV) Curs 1 March 1, 2012 22 / 42

Page 29: curs1 Introducere in Data Mining

Scalabilitatea si dimensiunea datelor (2)

variante: structuri de date specifice, care sa usureze interogareadatelor

scalarea pe orizontala sau pe verticala a resurselor hardware;

scalarea pe verticala: rareori suficienta, datele nu ıncap ın RAM

scalarea pe orizontala – cazuri remarcabile: Apache Hadoop, ApacheMahout — proiecte open–source.

[email protected] (UNITBV) Curs 1 March 1, 2012 23 / 42

Page 30: curs1 Introducere in Data Mining

Date eterogene si complexe

atribute eterogene: numerice, categoriale;

ce faci cu datele lipsa? eliminarea ınregistrarilor cu goluri de date nu eıntotdeauna o optiune;

colectii de documente (e.g. pagini Web); date ADN cu structuraspatiala si secventiala; serii de timp

tehnicile de DM trebuie sa ia ın considerare relatiile dintre date(corelatie spatiala si temporala; conectivitate de grafuri; relatieparinte–copil).

[email protected] (UNITBV) Curs 1 March 1, 2012 24 / 42

Page 31: curs1 Introducere in Data Mining

Gestiunea si distribuirea datelor

datele pot fi prezente ın locatii multiple, nu doar ıntr–o organizatie;

necesitate: DM distribuit sau suport de tip Data Warehouse

ın caz de distribuire: comunicarea necesara poate sa domine timpulde calcul

ın caz de data warehouse: integrarea datelor necesita timp ındelungat

“data privacy”: problema delicata, diferite aspecte legislative potinterveni

[email protected] (UNITBV) Curs 1 March 1, 2012 25 / 42

Page 32: curs1 Introducere in Data Mining

Analiza nestandard

Statistica: enuntarea de ipoteze si apoi testarea lor;

Problema evidenta: procesul este laborios

DM are ca scop tocmai determinarea pe cat posibil automata a astfelde ipoteze;

In timp ce statistica este ın mare masura tributara modelelorparametrice, datele reale pot avea cu totul alte distributii decat celepresupuse;

Dar statistica ofera unelte utile – de exemplu metode de testare,determinarea intervalelor de confidenta, inferenta statistica etc.

[email protected] (UNITBV) Curs 1 March 1, 2012 26 / 42

Page 33: curs1 Introducere in Data Mining

Originile DM

Statistica – esantionare, estimare, testarea ipotezelor, modeleparametrice;

Inteligenta artificiala — tehnici de rationament probabilist simanagement al incertitudinii

Invatare automata (machine learning) — pornind de la date secreeaza modele adecvate

Recunoastere de sabloane (pattern recognition)

Sisteme de baze de date – suport pentru stocarea (eventualdistribuita a ) datelor; probleme pot aparea din cauza ca nu toatedatele se pot reprezenta usor sub model relational;

Calcul paralel—distribuit — pentru a rezolva problema scalabilitatiiaplicatiilor de DM;

[email protected] (UNITBV) Curs 1 March 1, 2012 27 / 42

Page 34: curs1 Introducere in Data Mining

Sunt doua categorii majore de aplicatii:

Predictia — scopul e de a prezice valoarea concreta a unui atribut pebaza altor atribute. Atributul ce urmeaza a fi prezis senumeste variabila dependenta sau tinta; cele care se folosescpentru predictie sunt variabile independente sau explicative;

Descrierea — determinarea de sabloane, e.g. corelatii, tendinte, grupari,traiectorii, anomalii

[email protected] (UNITBV) Curs 1 March 1, 2012 28 / 42

Page 35: curs1 Introducere in Data Mining

Clasificare — predictie

Grupare (Clustering) — descriere

Determinarea relatiilor de asociere — descriere

Descoperirea sabloanelor secventiale — descriere

Regresie — predictie

Detectarea deviatiilor — predictie

[email protected] (UNITBV) Curs 1 March 1, 2012 29 / 42

Page 36: curs1 Introducere in Data Mining

Clasificarea: definitie

Se pleaca de la o colectie de ınregistrari = setul de antrenare

Fiecare ınregistrare e formata din atribute, dintre care unul este“clasa”: bun/rau, risc mare/risc moderat/risc mic;

Scopul este gasirea unui model (a unui mecanism, a unei functii) caresa determine clasa pe baza atributelor;

Modelul trebuie sa faca o clasificare cat mai fidela pentru ınregistraricare nu fac parte din setul de test = date din setul de testare;

[email protected] (UNITBV) Curs 1 March 1, 2012 30 / 42

Page 37: curs1 Introducere in Data Mining

Clasificarea: exemplu

[email protected] (UNITBV) Curs 1 March 1, 2012 31 / 42

Page 38: curs1 Introducere in Data Mining

Clasificarea: aplicatia 1

Marketing direct:

scopul: reducerea costurilor de trimitere a reclamelor prin posta prinalegerea unui set de consumatori pentru care sansele de achizitie aunui produs sunt mari

modalitate de lucru:

se pleaca de la produse similarepentru aceste produse stim daca au fost sau nu cumparate de catreconsumatorii ın cauza; asta da clasa unei ınregistrari, ca valoareposibila din multimea {a cumparat, nu a cumparat}se colecteaza date demografice despre clienti, istoricul tranzactiilor etc.se folosesc aceste date pentru a construi un clasificator.

[email protected] (UNITBV) Curs 1 March 1, 2012 32 / 42

Page 39: curs1 Introducere in Data Mining

Clasificarea: aplicatia 2

Prevenirea migrarii clientului:

Scop: sa se determine daca un client al serviciilor oferite este pe calede a pleca la un competitor

modalitate de lucru:

se folosesc ınregistrari detaliate despre tranzactiile facute de client (e.g.telefonie: apelurile efectuate, retelele catre care s–au efectuat, durata,frecventa);se folosesc date demografice: situatia financiara, starea civila etc.se eticheteaza clientul ca fiind loial sau nuplecand de la acest set de antrenare se creeaza un clasificator care safie utilizat pentru alti clienti

[email protected] (UNITBV) Curs 1 March 1, 2012 33 / 42

Page 40: curs1 Introducere in Data Mining

Clasificarea: aplicatia 3

Clasificarea obiectelor ceresti

Scop: sa se prezica clasa unor obiecte ceresti pe baza imaginilor luatede telescoape

modalitate de lucru:

se pleaca de la o colectie de imagini; caz concret: 3000 imagini cu23040 x 23040 pixeli pe imaginese segmenteaza imaginease masoara anumite trasaturise construieste un clasificator plecand de la aceste segmente de imaginicu clase atasate - pentru fiecare segment se stie exact ce reprezintapoveste de succes: s–au gasit 16 noi quasari, elemente greu dedescoperit si catalogat prin mijloace traditionale.

[email protected] (UNITBV) Curs 1 March 1, 2012 34 / 42

Page 41: curs1 Introducere in Data Mining

Clasificarea: aplicatia 4

Clasificarea galaxiilor ın: galaxii tinere, de varsta medie, vechi.

Scop: clasificarea galaxiilor relativ la stadiul de formare: galaxii tinere,de nivel intermediar, stadiu final;

set de date: 20 de milioane de galaxii, 72 de milioane de stele

baza de date de 150 GB

atribute: trasaturi extrase din imagini, caracteristicile lungimilor deunda primite etc.

sursa: http://aps.umn.edu

[email protected] (UNITBV) Curs 1 March 1, 2012 35 / 42

Page 42: curs1 Introducere in Data Mining

Clustering: definitie

Dandu–se un set de puncte, fiecare avand un set de atribute si omasura de similaritate, sa se gaseasca grupari (cluster–e) cuproprietatea:

punctele care apartin unui aceluiasi cluster sunt similare ıntre elepunctele din clustere separate sunt mai putin similare

masura de similaritate: distanta Euclidiana sau alte masuri specifice

deosebire fata de clasificare: printre atributele considerate nu existaun atribut de clasa

[email protected] (UNITBV) Curs 1 March 1, 2012 36 / 42

Page 43: curs1 Introducere in Data Mining

Clustering: exemplu

Gruparea automata de documente

scop: gasirea grupurilor de documente care sunt similare pe bazatermenilor pe care ıi contin

modalitate de lucru

se contorizeaza cuvintelese formeaza o masura de similaritate ıntre documente pe bazafrecventelorpe baza similaritatii se formeaza grupurileutilitate: pentru un nou document se descopera rapid care esteclusterul caruia ıi apartine ın mod natural;

utilitate: detectare de plagiate, cautare de documente similare etc.

[email protected] (UNITBV) Curs 1 March 1, 2012 37 / 42

Page 44: curs1 Introducere in Data Mining

Analiza asocierilor: definitie

Dandu–se un set de colectii de ınregistrari, sa se produca regulile dedependenta care prezic aparitia unui item pe baza aparitiei altor itemi

[email protected] (UNITBV) Curs 1 March 1, 2012 38 / 42

Page 45: curs1 Introducere in Data Mining

Analiza asocierilor: exemple

gasirea grupurilor de gene care au functii ınrudite

identificarea paginilor Web dintr–un site care sunt accesate ımpreuna

Market Basket Analysis: care sunt produsele care se vand bineımpreuna; ın functie de aceste grupari se poate specula partea decross-selling (ieftinesti un produs dar ıl scumpesti pe un altul) saudispunerea pe raft a lor (cele care se vand ımpreuna sa fie dispuseapropiat);

echiparea masinilor care participa la reparatii cu anumite unelte,pentru a reduce numarul de deplasari la client

[email protected] (UNITBV) Curs 1 March 1, 2012 39 / 42

Page 46: curs1 Introducere in Data Mining

Descoperirea sabloanelor secventiale: definitie

Dandu–se un set de obiecte, fiecare cu timpul la care apare, sa segaseasca regulile care pot prezice dependintele secventiale dintreevenimente;

Spre deosebire de analiza asocierilor: aparitia evenimentelor estereglata de restrictii de timp.

[email protected] (UNITBV) Curs 1 March 1, 2012 40 / 42

Page 47: curs1 Introducere in Data Mining

Regresie: definitie, exemple

Prezicerea unui atribut continuu pe baza unor atribute independente;

Similar cu clasificarea, dar la regresie valorile variabilei dependentesunt numerice

Intens studiata ın statistica si retele neurale artificiale

Exemple:

prezicerea volumului de vanzariprezicerea vitezei vantului pe baza umiditatii, presiunii, temperaturiietc.prezicerea consumului de curent ıntr–o anumita perioada, pe o zonaspecificata

[email protected] (UNITBV) Curs 1 March 1, 2012 41 / 42

Page 48: curs1 Introducere in Data Mining

Detectarea anomaliilor

detectarea deviatiilor semnificative de la comportamentul normal

aplicatii:

detectarea fraudelor cu card bancardetectarea intruziunilor ın retele de calculatoare

[email protected] (UNITBV) Curs 1 March 1, 2012 42 / 42