introduction au data mining

Upload: med-mohamed

Post on 12-Oct-2015

13 views

Category:

Documents


0 download

TRANSCRIPT

  • 7/13/2019 Introduction Au Data Mining

    1/47

    Ricco RakotomalalaTutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 1

    Ricco RakotomalalaUniversit Lumire Lyon 2

  • 7/13/2019 Introduction Au Data Mining

    2/47

    Ricco Rakotomalala

    [email protected]

    Ricco RakotomalalaTutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 2

    http://chiroule.univ-lyon2.fr/!ricco/cours/"ulications# ressources# liens# lo$iciels# %

  • 7/13/2019 Introduction Au Data Mining

    3/47

    "lan

    &. 'u(est ce )ue le *ata +inin$ ,

    2. pcificits u *ata +inin$

    Ricco RakotomalalaTutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 3

    . 'uel)ues e0emples1. ypolo$ie es mthoes e *ata +inin$

    3. Ressources 4 ites 5e et ilio$raphie

  • 7/13/2019 Introduction Au Data Mining

    4/47

    Ricco RakotomalalaTutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 4

    Une marche plus )u(une thorie 6

  • 7/13/2019 Introduction Au Data Mining

    5/47

    Exemple introductif : demande de crdit bancaire

    Ricco RakotomalalaTutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 5

    ivorc

    3 enfants 7 char$e ch8meur en fin e roit compte 7 couvert

  • 7/13/2019 Introduction Au Data Mining

    6/47

    coteuse en stockage

    Exprience de lentreprise : ses clients et leur comportement

    Ricco RakotomalalaTutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 6

    Comment et quelles fins utiliser cette exprienceaccumule

    inexploite

  • 7/13/2019 Introduction Au Data Mining

    7/47

    Echantillonnage Prparation des donnes

    Visualisation des donnes

    Graphes d'Induction Rseaux de neurones Analyse discriminante Rgression logistique

    Tests statistiques Re-chantillonnage

    table modles Connaissances

    Le processus ECD (Extraction de connaissances partir de donnes)KDD Knowledge discovery in Databases

    Ricco RakotomalalaTutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 7

    Fouille des

    donnes (Data mining)Bases dedonnes

    Mise en forme desConnaissances

    DploiementExploitation

    Dfinition : Processus non-trivial d identification de structures inconnues, valides et

    potentiellement exploitables dans les bases de donnes (Fayyad, 199!

  • 7/13/2019 Introduction Au Data Mining

    8/47

    Source: CRISP-DM 1.0, Step-by-step Data Mining Guide, SPSS Publication

    9ous ne pouve pas travailler seul.ravailler en syner$ie avec l(e0pertu omaine est primorial 6

    Ricco RakotomalalaTutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 8

  • 7/13/2019 Introduction Au Data Mining

    9/47

    mergence de lECD : domaines dapplications

    Domaine des assurances analyse des risques (caractrisation des clients hauts risques, etc.)

    automatisation du traitement des demandes (diagnostic des dgtset dtermination automatique du montant des indemnits)

    Services financiers

    Ricco RakotomalalaTutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 9

    consentements de prts automatiss, support la dcision de crdit dtection des fraudes

    Grande distribution profils de consommateurs et modles dachats constitution des rayonnages marketing cibl

  • 7/13/2019 Introduction Au Data Mining

    10/47

    *finition :

    "rocessus non-trivial (ientification e structures inconnues# valieset potentiellement e0ploitales ans les ases e onnes ;?

    Est-ce vraiment nouveau ?

    *ata +inin$ : Une nouvelle faon e faire e la statisti)ue ,http://ceric.cnam.fr/!saporta/*+.pfL(analyse es onnes est un outil pour $a$er e la $an$ue es onnes le

    Ricco RakotomalalaTutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 10

    pur amant e a v r )ue nature.A . . en cr

    he asic steps for evelopin$ an effective process moel ,http://555.itl.nist.$ov/ivE=E/hanook/pm/section1/pm1&.htm

    &. +oel selection2. +oel fittin$. +oel valiation

  • 7/13/2019 Introduction Au Data Mining

    11/47

    Ricco RakotomalalaTutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 11

    ;&? ources e onnes;2? echni)ues utilises;? +ultiplicit es supports

  • 7/13/2019 Introduction Au Data Mining

    12/47

    ources e onnes valoriser les fichiers e l(entreprise construire es entrep8ts moifier le schma or$anisationnel

    echni)ues utilises (

    Spcificits du Data Mining

    Ricco RakotomalalaTutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 12

    Glar$issement es supports e0t minin$ Fma$e minin$

    % +ultimia minin$

  • 7/13/2019 Introduction Au Data Mining

    13/47

    Les sources de donnes

    Ricco RakotomalalaTutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 13

    "toc#a$e orientation analyse historises

    non-volatilesProduction orientation service;ventes# comptailit#marketin$%? volatiles

  • 7/13/2019 Introduction Au Data Mining

    14/47

    Lorganisation du flux dinformations et les acteurs

    Ricco RakotomalalaTutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 14

  • 7/13/2019 Introduction Au Data Mining

    15/47

    Systmes de gestion

    (oprationnel)

    Systmes dcisionnels

    (analyse)

    Objectifddi au mtier et la productionex: facturation, stock, personnel

    ddi au management de l'entreprise(pilotage et prise de dcision)

    donnes volatiles

    '

    donnes historises

    Systmes de gestion et systmes dcisionnels

    Ricco RakotomalalaTutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 15

    (perennit)

    temps

    prix, introduction d'une information dat

    Optimisation

    pour les oprations associes

    ex: passage en caisse (lecture de

    code barre)

    pour l'analyse et la rcapitulation

    ex: quels les produits achets

    ensembles

    Granularit

    des donnes

    totale, on accde directement aux

    informations atomiques

    agrgats, niveau de synthse selon les

    besoins de l'analyse

  • 7/13/2019 Introduction Au Data Mining

    16/47

    Data Mining vs. Informatique Dcisionnelle (Business Intelligence)

    L(informati%ue dcisionnelle ;% CF pour Cusiness Fntelli$ence? si$ne les moyens# lesoutils et les mthoes )ui permettent e collecter# consolier# moliser et restituerles onnes Hune entreprise en vue Hoffrir une aie 7 la cision et e permettreau0 responsales e la strat$ie Hune entreprise (avoir une vue (ensemle el(activit traite.;http://fr.5ikipeia.or$/5iki/Fnformati)ueIcisionnelle?

    lectionner les onnes ;par rapport 7 un suJet et/ouune prioe?

    Ricco RakotomalalaTutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 16

    #

    critres Glaorer es calculs rcapitulatifs K simples A ;totau0#moyennes conitionnelles# etc.? "rsenter les rsultats e manire synthti)ue;$raphi)ue et/ou taleau0 e or? R"MRFNO

    http://www.commentcamarche.net/entreprise/business-intelligence.php3

    Le *ata +inin$ est proche e ce care# mais elleintrouit une imension supplmentaire )ui est lamolisation K e0ploratoire A ;tection es liens ecause 7 effet# valiation e leur reprouctiilit?

  • 7/13/2019 Introduction Au Data Mining

    17/47

    Spcificits du Data Mining

    echni)ues (e0ploration e onnes *es techni)ues (ori$ines iverses# issues e cultures iffrentes %mais )ui traitent es prolmes similaires

    Ricco RakotomalalaTutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 17

    et )ui partent touJours (un taleau e onnes

  • 7/13/2019 Introduction Au Data Mining

    18/47

    Techniques utilises selon leur origine

    tatisti)ueshorie e l(estimation# testsGconomtrie+a0imum e vraisemlance et moinres carrsR$ression lo$isti)ue# %

    Pnalyse e onnes;tatisti)ue e0ploratoire?*escription factorielle*iscriminationQlusterin$

    +thoes $omtri)ues# proailitsPQ"# PQ+# Pnalyse iscriminante# QP# %

    Ricco RakotomalalaTutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 18

    Fnformati)ue;Fntelli$ence artificielle?Ppprentissa$e symoli)ueReconnaissance e formes

    Une tape e l(intelli$ence artificielleRseau0 e neurones# al$orithmes $nti)ues%

    Fnformati)ue;Case e onnes?0ploration es ases e onnes

    9olumtrieR$les (association# motifs fr)uents# %

    rs souvent# ces mthoes reviennent 7 optimiser les mSmes critres#mais avec es approches / formulations iffrentes

  • 7/13/2019 Introduction Au Data Mining

    19/47

    Techniques issues de lIntelligence Artificielle

    Les rseaux de neurones artificiels

    Ricco RakotomalalaTutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 19

    capacit d apprentissage(universel) structuration / classement

  • 7/13/2019 Introduction Au Data Mining

    20/47

    Techniques en provenance des BD

    If MARITAL_STMARITAL_STMARITAL_STMARITAL_ST is DivorcedDivorcedDivorcedDivorcedThen

    SPOUSE_TITSPOUSE_TITSPOUSE_TITSPOUSE_TIT is NoneNoneNoneNone

    Rule's probability: 0.9520.9520.9520.952The rule exists in 40404040 records.

    If MARITAL_STMARITAL_STMARITAL_STMARITAL_ST is DivorcedDivorcedDivorcedDivorcedand LOAN_LENGTLOAN_LENGTLOAN_LENGTLOAN_LENGT = 4.004.004.004.00Then

    Les rgles dassociation

    Ricco RakotomalalaTutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 20

    GUARANTEEGUARANTEEGUARANTEEGUARANTEE is NoNoNoNoRule's probability: 0.9660.9660.9660.966The rule exists in 28282828 records.

    AAAA = B + 2.00B + 2.00B + 2.00B + 2.00where: AAAA = FAMILY_COUFAMILY_COUFAMILY_COUFAMILY_COU

    BBBB = CHILDRENCHILDRENCHILDRENCHILDREN

    Accuracy level : 0.960.960.960.96The rule exists in 397397397397 records.

    traitement omnibus connaissance interprtable

  • 7/13/2019 Introduction Au Data Mining

    21/47

    Spcificits du Data Mining

    Glar$issement es supports e0t minin$ Fma e minin

    Ricco RakotomalalaTutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 21

    %autres%L(apprhension es sources multiples

  • 7/13/2019 Introduction Au Data Mining

    22/47

    largir les supports

    "rictiontructuration

    R8le fonamental e laprparation es onnes

    Ricco RakotomalalaTutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 22

    escr p on

    Pssociation

    Les applications

  • 7/13/2019 Introduction Au Data Mining

    23/47

    Data Mining vs. Big data (1/3) - http://fr.wikipedia.org/wiki/Big_data

    Les i$ ata# littralement les $rosses onnes# est une e0pressionan$lophone utilise pour si$ner es ensemles e onnes )uieviennent tellement volumineu0 )uHils en eviennent ifficiles 7travailler avec es outils classi)ues e $estion e ase e onnes oue $estion e lHinformation.

    Le Ci$ *ata sHaccompa$ne u veloppement Happlications 7 viseanalyti)ue# )ui traitent les onnes pour en tirer u sens. Qes

    DEFINITIO

    N

    DEFINITIO

    N

    DEFINITIO

    N

    DEFINITIO

    N

    Ricco RakotomalalaTutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 23

    ana yses son appe es $ na y cs ou roya$e e onn es . es

    portent sur es onnes )uantitatives comple0es avec es mthoese calcul istriu.

    n 2VV un rapport e recherche u +P Oroup ;evenu Oartner?finit les enJeu0 inhrents 7 la croissance es onnes comme tanttri-imensionnels : les analyses comple0es rponent en effet 7 lar$le ite es K 9 A# volume# vlocit et varit. Qe mole estencore lar$ement utilis auJourHhui pour crire ce phnomne.

    ENJEUX

    ENJEUX

    ENJEUX

    ENJEUX

  • 7/13/2019 Introduction Au Data Mining

    24/47

    Data Mining vs. Big Data (2/3) Les 3 V

    VOLUME

    VOLUME

    VOLUME

    VOLUME Mutils e recueil e onnes e plus en plus prsents# ans lesinstallations scientifi)ues# mais aussi et surtout ans notre vie e tous

    les Jours ;e0. cookies# O"# rseau0 sociau0 Wex. lien like - profils X#cartes e filit# etc.?.Fl faut pouvoir les ;onnes? traiter 6

    TETETETE

    ources# formes et es formats trs iffrents# structures ou non-structures : on parle $alement e onnes comple0es ;e0. te0te en

    Ricco RakotomalalaTutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 24

    VAR

    I

    VAR

    I

    VAR

    I

    VAR

    I provenance u 5e# ima$es# liste (achats# onnes e $olocalisation#etc.?.Fl faut les traiter simultanment 6

    VELOCIT

    E

    VELOCITE

    VELOCITE

    VELOCIT

    E

    +ises 7 Jour fr)uentes# onnes arrivant en flu0# osolescence rapiee certaines onnes% ncessit (analyses en )uasi temps rel ;e0.tection / prvention es faillances# $estion e file (attente?Fl faut les traiter rapiement 6

    D t Mi i Bi D t (3/3)

  • 7/13/2019 Introduction Au Data Mining

    25/47

    Data Mining vs. Big Data (3/3)

    BigBigBigBigd

    atavs.BI?

    d

    atavs.BI?

    d

    atavs.BI?

    d

    atavs.BI?

    ;Yikipia? ...la maturation u suJet fait apparaitre un autre critre plusfonamental e iffrence (avec le Cusiness Fntelli$ence et concernantles onnes et leur utilisation : Cusiness Fntelli$ence : utilisation e statisti)ue escriptive Wreportin$#taleau0 e or#%X# sur es onnes 7 forte ensit en information afine mesurer es phnomnes# tecter es tenances% Z

    Ci$ *ata : utilisation e statisti)ue infrentielle# sur es onnes 7faile ensit en information ont le $ran volume permet (infrer eslois ;r$ressions%.? onnant s lors ;avec les limites e l(infrence? aui$ ata es capacits prictives Wmolisation# analyse prictive#%X.

    Ricco RakotomalalaTutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 25

    Mais alorsMais alorsMais alorsMais alors BIG DATA = DATA MINING ++++++++

    Avec de nouveauxAvec de nouveauxAvec de nouveauxAvec de nouveaux dfisdfisdfisdfistechnologiquestechnologiquestechnologiquestechnologiques ////mthodologiques lis auxmthodologiques lis auxmthodologiques lis auxmthodologiques lis aux3 3 3 3 VVVV

    Cloud computing (ex. APACHE

    HADOOP / MAHOUT) Fouille de donnes complexes Data stream mining

    Etc.

  • 7/13/2019 Introduction Au Data Mining

    26/47

    Ricco RakotomalalaTutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 26

    ;&? Qila$e e clientle : le scorin$;2? Gti)ueta$e automati)ue e K nouvelles A

  • 7/13/2019 Introduction Au Data Mining

    27/47

    Ciblage de clientle par publipostage (1/2)

    Can)ue franaise

    MJectif : Pu$menter l(ahsion 7 un service en li$ne ;tau0 (aonnement actuel 1[?

    Case marketin$ : plusieurs centaines e milliers e clients#!2VV variales ;=3[ sont )uantitatives?

    Ricco RakotomalalaTutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 27

    +thoe : isoler es $roupes (inivius se ressemlant ans le)uel

    le tau0 (aonnement est lev

    les non-aonns ans ces $roupes seront ;certainement ,? sensiles 7 une offre cile;hypothse : s(ils ne sont pas aonns# c(est )u(ils n(ont pas reu l(information?

    techni)ue : arre e cision avec chantillonna$e )uilir sur cha)ue noeu

  • 7/13/2019 Introduction Au Data Mining

    28/47

    valuation : dpasser le taux (cot) derreur, mesurer la qualit du ciblage meilleur ciblage : toutes les personnes contactes ont souscrit un contrat

    0.4

    0.6

    0.8

    1

    ulative%o

    f"rare

    "

    Optimal

    BLS-10000

    BLS-500

    BLS-300

    BgS-10000

    Ciblage de clientle par publipostage (2/2)

    Ricco RakotomalalaTutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 28

    0

    0.2

    0 0.2 0.4 0.6 0.8 1

    Cumulative % of the population

    Cu

    BgS-2000

    Random

    Individu

    Probabilitde

    souscrire

    Pourc. Ind.

    cumul

    Pourc. Cibls

    Cumul Pourc. Cibl

    4 0.95 10% 19% 0.19

    9 0.9 20% 37% 0.18

    10 0.8 30% 53% 0.16

    6 0.65 40% 66% 0.13

    3 0.6 50% 78% 0.127 0.5 60% 88% 0.1

    2 0.35 70% 95% 0.07

    5 0.25 80% 100% 0.05

    8 0 90% 100% 0

    1 0 100% 100% 0

    5.00

    T t Mi i C t i ti d ll (1/3)

  • 7/13/2019 Introduction Au Data Mining

    29/47

    Text Mining Catgorisation de nouvelles (1/3)

    Ricco RakotomalalaTutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 29

    T t Mi i C t i ti d ll (2/3)

  • 7/13/2019 Introduction Au Data Mining

    30/47

    Text Mining Catgorisation de nouvelles (2/3)

    Codage de texte en tableau de donnes

    Les chercheurs qui cherchent, on en trouve

    Mais les chercheurs qui trouvent, on en cherche

    Mots cls lemmatisation sto words

    Phrase Les Chercheurs Qui Cherchent On En Trouve Mais Trouvent Cherche

    1 1 1 1 1 1 1 1 0 0 0

    2 1 1 1 0 1 1 0 1 1 1

    Ricco RakotomalalaTutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 30

    3-grams corresp. avec les mots

    problme du sens

    Phrase Les es s c ch che her rch eur

    1 1 1 1 2 4 2 2 1

    2 1 1 1 1 4 2 2 1

    T t Mi i C t i ti d ll (3/3)

  • 7/13/2019 Introduction Au Data Mining

    31/47

    Text Mining Catgorisation de nouvelles (3/3)

    Ricco RakotomalalaTutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 31

    Exemple : appartenance au sujet crude (ptrole brut)

  • 7/13/2019 Introduction Au Data Mining

    32/47

    Ricco RakotomalalaTutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 32

    'uelle mthoe utiliser par rapport : au0 oJectifs e l(tue ,

    au0 onnes isponiles ,

    Tableau de donnes

  • 7/13/2019 Introduction Au Data Mining

    33/47

    Tableau de donnes

    Success Wages Job Refunding

    Y 0 Unemployed Slow

    N 2000 Skilled Worker Slow

    N 1400 Worker Slow

    Variables, caractres, attributs,Descripteurs, champs, etc.

    Ricco RakotomalalaTutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 33

    Y 2776 Skilled Worker Slow

    N 2439 Retired FastN 862 Office employee Slow

    Y 1400 Salesman Slow

    N 1700 Skilled Worker Slow

    Y 785 Employee Fast

    Y 1274 Worker Slow

    N 960 Employee Fast

    N 1656 Worker FastN 0 Unemployed Slow

    Individus, observations, objets, enregistrements, etc.

    Types de variables

  • 7/13/2019 Introduction Au Data Mining

    34/47

    donnes nominales ;e0. success# Jo%? nomre e cas nomrales cos pour istin$uer les moalits aucune relation (orre entre les coes oprateurs arithmti)ues/mathmati)ues inapplicales

    donnes ordinales ;e0. Refunin$%? nomre e cas nomrales cos pour istin$uer les moalits il e iste une relation (orre entre les moalits

    Types de variables

    Ricco RakotomalalaTutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 34

    les carts ne sont pas )uantifiales cos sous forme e ran$s# on peut appli)uer es calculs donnes numri%ues ou continues ;e0. Ya$es%?

    nomre e cas thori)uementinfini il e0iste une relation (orre entre les valeurs les carts sont )uantifiales istinction entre chelle proportionnelle et non-proportionnelle;e0. 2V\Q/&V\Q ] 2 et >E\ : non proportionnelle Z k$ et livres : proportionnelle ? calculs autoriss# al$ri)ues

    Distinguer les types de variables

  • 7/13/2019 Introduction Au Data Mining

    35/47

    Distinguer les types de variables

    Mn peut istin$uer les iffrents types e onnes 7 partir ela finition e l (oprateur iffrence :

    Nominale :

    ==

    ba

    ba

    AB

    xxsi

    xxsid

    ,1

    ,0

    Ricco RakotomalalaTutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 35

    Ordinale :

    +

    =

    ba

    ba

    ba

    AB

    xxsi

    xxsi

    xxsi

    d

    ,1

    ,0

    ,1

    Continue : baAB xxd =

    Qualitatives vers continues

  • 7/13/2019 Introduction Au Data Mining

    36/47

    Qoa$e isJonctif complet

    *onnes continues*onnes )ualitatives ;nominales# orinales?

    Refunding

    Qualitatives vers continues

    Ricco RakotomalalaTutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 36

    Fast

    SlowFast

    Normal

    Slow

    _ _ _

    0 0 1

    1 0 0

    0 0 1

    0 1 0

    1 0 0

    on per l (information (orre sur les onnes orinales

    Continues vers ordinales

  • 7/13/2019 Introduction Au Data Mining

    37/47

    Continues vers ordinales

    Donnes ordinalesDonnes continues

    Discrtisation par expert automatique non-contextuelle automatique contextuelle

    Ricco RakotomalalaTutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 37

    age

    1000

    age

    vieuxadultejeune

    on perd l information sur les carts on peut traiter des relations non-linaires

    Continues vers continues

  • 7/13/2019 Introduction Au Data Mining

    38/47

    Donnes continuesDonnes continues

    Standardisation centrage ex : taille = 2m20, taille = 0m50 au dessus de la moyenne rduction ex : taille = 0m50 ou taille = 50cm au dessus de la moyenne

    Continues vers continues

    Ricco RakotomalalaTutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 38

    Transformation distributionnelle

    Var Orig.

    0

    6

    12

    1824

    30

    36

    42

    48

    54

    60

    66

    72

    78

    14

    Var Transf.

    0

    2

    4

    6

    8

    10

    12

    14

    16

    18

    20

    22

    24

    3

    )ln(12

    xx =

    Tpologie !es mtho!es selon les ob"ectifs

  • 7/13/2019 Introduction Au Data Mining

    39/47

    p g "

    Description :trouver un rsum es

    onnes )ui soit plus intelli$ile statisti)ue escriptive analyse factorielle

    L0 : moyenne (^$e es personnesprsentant un cancer u sein

    "tructuration :

  • 7/13/2019 Introduction Au Data Mining

    40/47

    #ous tpologie selon le tpe !e !onnes : la pr!iction / explication

    0plication

    no$ne continue

    no$ne continue0o$nes iscrtes

    Ricco RakotomalalaTutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 40

    )$ression

    no$ne iscrte0o$nes )uelcon)ues

    'pprentissa$e supervis

    'nalyse de variance

  • 7/13/2019 Introduction Au Data Mining

    41/47

    Ricco RakotomalalaTutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 41

    ;&? Lo$iciels;2? Muvra$es et ressources en li$ne

    Logiciels de DATA MINING Fonctionnalits

  • 7/13/2019 Introduction Au Data Mining

    42/47

    g

    Pccs et prparation es onnesPccer 7 un fichier / une C*Rassemler es sources iffrentes

    +thoes e

  • 7/13/2019 Introduction Au Data Mining

    43/47

    g g

    Commerciaux

    SPAD

    SAS Enterprise miner

    SPSS Clementine

    STATISTICA Data Miner

    IBM Intelligent Miner

    RAPIDMINER (*)

    implicit u pilota$e ;filire - ia$ramme? echni)ues varies

    *ploiement Mutils e K reportin$ A

    Ricco RakotomalalaTutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 43

    KNIME (*)

    Universitaires

    R (*)

    TANAGRASIPINA v2.5 & Recherche

    WEKA (*)

    ORANGE

    pcifi)ue 7 certaines techni)ues echni)ues rfrences - pulies Mutils e valiation

    Conclusion

  • 7/13/2019 Introduction Au Data Mining

    44/47

    La marche *PP +FNFNO

    formalisation es oJectifs ac)uisition es onnes

    prparation es onnes apprentissa$e 4 application es mthoes interprtation 4 e0plication

    Ricco RakotomalalaTutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 44

    ploiement

    "as e miracle si :

    Les oJectifs sont mal finisLes onnes isponiles ne conviennent pasLes onnes sont mal K prpares AMn n(utilise pas les techni)ues appropries

    Bibliographie : pratique du Data Mining

  • 7/13/2019 Introduction Au Data Mining

    45/47

    K Le *ata minin$ A# R. Lefeure et O. 9enturi# e. yrolles# 2VV&.

    "eu techni)ue# point e vue $nral# trs on recul# complet

    K *ata +inin$ et statisti)ue cisionnelle A# . uffry# e. techni)ue# 2VV>.

    Ricco RakotomalalaTutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 45

    # #

    K Pnalyse iscriminante 4 Ppplication au ris)ue et au scorin$ financier A# +.Caros# e. *uno# 2VV&.2echni)ue prati)ue# avec e ons repres thori)ues# tourn vers les applications

    Bibliographique : comprhension des mthodes

  • 7/13/2019 Introduction Au Data Mining

    46/47

    K *ata +inin$ : "ractical machine learnin$ tools an techni)ues 5ith Bava

    implementations A# F. Yitten an .

  • 7/13/2019 Introduction Au Data Mining

    47/47

    ites 5e et portails : http://chiroule.univ-lyon2.fr/!ricco/ata-minin$

    Un portail pour la ocumentation : liens# supports e cours en li$ne# lo$iciels# onnes *ata +inin$ i0it Yikipia : http://fr.5ikipeia.or$/5iki/0plorationIeIonnes

    ite es tutoriels :

    Ricco RakotomalalaTutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 47

    - - . .

    http://555.knu$$ets.comK Le A portail u *PP +FNFNO# avec toute l(actualit u omaine

    Ci$ ata i0it P : http://555.sas.com/i$-ata/