présentation memo

32
1 République du Sénégal Un Peuple Un But Une Foi UNIVERSITE CHEIKH ANTA DIOP DE DAKAR FACULTE DES SCIENCES ET TECHNIQUES DEPARTEMENT MATHS /INFO SECTION INFORMATIQUE OPTION : S.I.R MEMOIRE DE MASTER II INFORMATIQUE Présenté et soutenu par: Cheikh Tidiane THIANDOUM Encadreur: M. Alphonse Diombo THIAKANE Consultant en systèmes d’information Expert en Business Intelligence [Année académique 2009-2010] OUTIL DE DATA MINING : Les Arbres de décision et l’Analyse des Correspondances sur une plateforme web applicable a un entrepôt de données.

Upload: cheikh-tidiane-thiandoum

Post on 11-Jul-2015

476 views

Category:

Business


0 download

TRANSCRIPT

Page 1: Présentation memo

1

République du Sénégal

Un Peuple – Un But – Une Foi

UNIVERSITE CHEIKH ANTA DIOP DE DAKAR

FACULTE DES SCIENCES ET TECHNIQUESDEPARTEMENT MATHS /INFO

SECTION INFORMATIQUEOPTION : S.I.R

MEMOIRE DE MASTER II INFORMATIQUE

Présenté et soutenu par:Cheikh Tidiane THIANDOUM

Encadreur: M. Alphonse Diombo THIAKANE

Consultant en systèmes d’informationExpert en Business Intelligence [Année académique 2009-2010]

OUTIL DE DATA MINING :Les Arbres de décision et l’Analyse des

Correspondances sur une plateforme web

applicable a un entrepôt de données.

Page 2: Présentation memo

PLAN2

PRESENTATION DU SUJET

• INTRODUCTION• PRESENTATION ET PROBLEMATIQUE DU SUJET

PREMIERE PARTIE

• ETAT DE L’ART DU DATA MINING

DEUXIEME PARTIE

• LES ARBRES DE DECISION• L’ANALYSE DES CORRESPONDANCES

TROISIEME PARTIE

• CONCEPTION ET MISE EN ŒUVRE DE L’OUTIL• CONCLUSION

Page 3: Présentation memo

INTRODUCTION3

Production des entreprises en un temps record d’une masse importante de données.

Nécessité de développer de nouveaux outils

Objet de ce mémoire: les arbres de décision et l’analyse des correspondances (simples).

•Le DM comme discipline salvatrice des entreprises: techniques dérivées de différents domaines.

Page 4: Présentation memo

TRAVAIL A FAIRE

4

PRESENTATION ET PROBLEMATIQUE DU SUJET

PLATEFORME WEB

ARBRES DE DÉCISION

ANALYSE DES CORRESPONDANCES

Page 5: Présentation memo

Facteurs:

5

La croissance exponentielle de la collecte des données,

Augmentation des capacités de stockage des données (disques durs de giga octets);

Prolifération en parallèle des capacités de traitements des données;

L’émergence des entrepôts de données;

La disponibilité des données grâce aux réseaux (intranet et internet);

ETAT DE L’ART DU DATA MINING

Le Data mining comme domaine pluridisciplinaire

Deux types de DM: supervisé et non supervisé.

GENÈSE ET DÉFINITION DU DM

A P P L I C A T I O N SMETIERS DU DM

PROCESSUS STANDARD D’UNE ETUDE DE DM

LE DM DANS LE PROCESSUS KDD

TECHNIQUES ET LOGICIELS DU DM

Définition:

Page 6: Présentation memo

Marketing/stratégie: prévisions de ventes, ciblage de clientèle, des besoins, des relations entres les différents produits

6

Secteur bancaire : scoring; cibler les

propositions de prêts et éviter les surendettements

Relations clientes: évaluer les risques, anticiper les

attentes futures

Secteur de la téléphonie : prédiction de l’attrition

Scientifique : identification et classification

d'objets célestes.

Sécurité informatique: recherche de

transactions frauduleuses par la police

ETAT DE L’ART DU DATA MINING

Grande distribution: analyse du panier de la

ménagère

Médical: analyse de résultat d’une expérimentation

GENÈSE ET DÉFINITION DU DM

A P P L I C A T I O N SMETIERS DU DM

PROCESSUS STANDARD D’UNE ETUDE DE DM

LE DM DANS LE PROCESSUS KDD

TECHNIQUES ET LOGICIELS DU DM

Page 7: Présentation memo

7ETAT DE L’ART DU DATA MINING

PROCESSUS du DATA MINING

Acteurs Étapes Phases

Maître

d’œuvre

Objectifs 1 : Compréhension du métier

Données

2 : Compréhension des données

3 : Préparation des données

Traitements

4 : Modélisation

5 : Évaluation de la modélisation

Maître d’ouvrage Déploiement 6 : Déploiement des résultats de

l’étude

PRESENTATION DU CRISP-DM GENÈSE ET DÉFINITION DU DM

A P P L I C A T I O N SMETIERS DU DM

PROCESSUS STANDARD D’UNE ETUDE DE DM

LE DM DANS LE PROCESSUS KDD

TECHNIQUES ET LOGICIELS DU DM

Page 8: Présentation memo

8ETAT DE L’ART DU DATA MINING

Préparation des données (Collecte, Sélection, Nettoyage ,codage)

Consultation des données

Application des techniques DM

GENÈSE ET DÉFINITION DU DM

A P P L I C A T I O N SMETIERS DU DM

PROCESSUS STANDARD D’UNE ETUDE DE DM

LE DM DANS LE PROCESSUS KDD

TECHNIQUES ET LOGICIELS DU DM

Page 9: Présentation memo

9ETAT DE L’ART DU DATA MINING

Puissance

Lisibilité

Raisonnement à base de cas

Association

Arbre de decision

Réseaux de neurone

Algo génétique

Réseau Bayésien

Domaine

Statistique

IA

Limite IA/STAT

Fig : Rapport entre le pouvoir de prédiction et la lisibilité

Score,Regression,clusters

GENÈSE ET DÉFINITION DU DM

A P P L I C A T I O N SMETIERS DU DM

PROCESSUS STANDARD D’UNE ETUDE DE DM

LE DM DANS LE PROCESSUS KDD

TECHNIQUES ET LOGICIELS DU DM

Page 10: Présentation memo

10

APM,

techniques:

Arbres de décision

Réseaux bayésiens;

ETAT DE L’ART DU DATA MINING

Réseaux de neurone,

Raisonnement à base de cas

Statistiques

logiciels:

Clémentine de SPSS, Entreprise Miner de SAS, ORACLE , XL Miner , Statistica Data Miner de StatSoft .

TANAGRA, ORANGE, WEKA.

GENÈSE ET DÉFINITION DU DM

A P P L I C A T I O N SMETIERS DU DM

PROCESSUS STANDARD D’UNE ETUDE DE DM

LE DM DANS LE PROCESSUS KDD

TECHNIQUES ET LOGICIELS DU DM

Page 11: Présentation memo

HISTORIQUE

DEFINITION

HYPOTHESES ET OBJECTIFS

METHODOLOGIE DES ARBRES DE DECISION

TABLEAU COMPARATIVE DES ALGORITHMES

L’ALGORITHME ID3;

AVANTAGES ET INCONVENIENTS

Paternité à Morgan et Sonquist (1963) avec les arbres de régression dans un processus de prédiction et d’explication AID

11

Apogée avec la méthode CART de Breiman et al

la méthode ID3 de Quinlan 1979

C4.5 dans les années 90

LES ARBRES DE DECISION

Page 12: Présentation memo

famille d’algorithmes d’apprentissage non paramétriques structurés avec des arbres

12

Chacun des nœuds de l’arbre est soit une branche spécifiant un test sur une valeur d’un attribut ou une feuille dénotant une décision.

LES ARBRES DE DECISION

Exemple:Logement

Salaire Salaire co emp

Locataire FamillePropriétaire

OUI

NONOUINON OUI

Moyen Elevé Faible Elevé

HISTORIQUE

DEFINITION

HYPOTHESES ET OBJECTIFS

METHODOLOGIE DES ARBRES DE DECISION

TABLEAU COMPARATIVE DES ALGORITHMES

L’ALGORITHME ID3;

AVANTAGES ET INCONVENIENTS

Page 13: Présentation memo

DONNEES• N individus• P variables décrivant ces individus

13

VARIABLE CIBLE (ou à prédire) Variable classe/groupe (Qualitative)

VARIABLES EXPLICATIVES

Autres variables (Qualitatives et Quantitatives):

LES ARBRES DE DECISIONHISTORIQUE

DEFINITION

HYPOTHESES ET OBJECTIFS

METHODOLOGIE DES ARBRES DE DECISION

TABLEAU COMPARATIVE DES ALGORITHMES

L’ALGORITHME ID3;

AVANTAGES ET INCONVENIENTS

Hypothèses

Objectifs:

Obtenir un critère de séparation

Prendre une décision sur un nouvel exemple

Produire des groupes d’individus les plus homogènes possibles du point de vue de la variable à prédire.

Page 14: Présentation memo

Choisir la variable de segmentation sur un sommet.

14

surajustement du modèle

Pré-élagage

LES ARBRES DE DECISION

Post-élagage.

HISTORIQUE

DEFINITION

HYPOTHESES ET OBJECTIFS

METHODOLOGIE DES ARBRES DE DECISION

TABLEAU COMPARATIVE DES ALGORITHMES

L’ALGORITHME ID3;

AVANTAGES ET INCONVENIENTS

Taille de l’arbre

Le traitement des variables continues

Page 15: Présentation memo

15LES ARBRES DE DECISION

HISTORIQUE

DEFINITION

HYPOTHESES ET OBJECTIFS

METHODOLOGIE DES ARBRES DE DECISION

TABLEAU COMPARATIVE DES ALGORITHMES

L’ALGORITHME ID3;

AVANTAGES ET INCONVENIENTS

Algorith

me

Surajuste

ment

Critère de

segmentation

Type

d’arbre

généré

Type de

variables

CART Post-

élagage

Indice de GINI arbres

binaires

continues et

nominatives

ID3 Pré-élagage Entropie de

Shannon

Arbre n-

aire

nominatives

C4.5 Post-

élagage

Entropie de

Shannon et

gain ratio

Arbre n-

aire

continues et

nominatives

C5 Post-

élagage

Entropie de

Shannon

Arbre n-

aire

continues et

nominatives

CHAID Pré-élagage Test du chi-2 Arbre n-

aire

continues et

nominatives

SLIQ Post-

élagage

indice de Gini Arbre n-

aire

continues et

nominatives

Page 16: Présentation memo

16

fonction ID3(exemples, attributCible, attributsNonCibles)si exemples est vide alors /* Nœud terminal */

retourner un nœud Erreursinon si attributsNonCibles est vide alors /* Nœud terminal */

retourner un nœud ayant la valeur la plus représentée pour attributCible

sinon si tous les exemples ont la même valeur pour attributCiblealors /* Nœud terminal */

retourner un nœud ayant cette valeursinon /* Nœud intermédiaire */

attributSélectionné = attribut maximisant le gain d'information parmi attributsNonCibles

attributsNonCiblesRestants = suppressionListe (attributsNonCibles, attributSélectionné)

nouveauNœud = nœud étiqueté avec attributSélectionné

pour chaque valeur de attributSélectionné faireexemplesFiltrés =filtreExemplesAyantValeurPourAttribut

(exemples, attributSélectionné, valeur)nouveauNœud->fils (valeur) = ID3 (exemplesFiltrés,

attributCible, attributsNonCiblesRestants)finpour

retourner nouveauNœud

LES ARBRES DE DECISIONHISTORIQUE

DEFINITION

HYPOTHESES ET OBJECTIFS

METHODOLOGIE DES ARBRES DE DECISION

TABLEAU COMPARATIVE DES ALGORITHMES

L’ALGORITHME ID3;

AVANTAGES ET INCONVENIENTS

Page 17: Présentation memo

• Notion d’entropie (Shannon): permet de mesurer le degré de mélange des exemples entre les différentes classes ;

17

Soit un ensemble X d'exemples/p+ est

positifs et p- est négatifs/(p+)+(p- )= 1.

LES ARBRES DE DECISION

H(X) = -(p+) log2 (p+)Ŕ(p-) log2 (p-)

Entropie

0 1 2 3 4 5 6 7 8 9 10

10 9 8 7 6 5 4 3210

P=p/(p+n)=n/(n+p)=0.5

équiprobable

H(X) = -∑k={1..c} P(k/X) × log(P(k/X))

HISTORIQUE

DEFINITION

HYPOTHESES ET OBJECTIFS

METHODOLOGIE DES ARBRES DE DECISION

TABLEAU COMPARATIVE DES ALGORITHMES

L’ALGORITHME ID3;

AVANTAGES ET INCONVENIENTS

Page 18: Présentation memo

Gain d'information :

18

une population d'exemples X. Le gain d'information de X par rapport à un attribut aj donné est la réduction d'entropie causée par la partition de X selon aj :

LES ARBRES DE DECISION

|Xaj=v|Gain(X,aj)=H(X)- ∑ --------H(Xaj=v)

(v€Valeur(aj) ) |X|

HISTORIQUE

DEFINITION

HYPOTHESES ET OBJECTIFS

METHODOLOGIE DES ARBRES DE DECISION

TABLEAU COMPARATIVE DES ALGORITHMES

L’ALGORITHME ID3;

AVANTAGES ET INCONVENIENTS

Page 19: Présentation memo

Avantages

19

lisibilité.

Robuste au bruit et aux valeurs manquantes

Sensibles au nombre de classes: performances se dégradent

LES ARBRES DE DECISION

capacité à sélectionner automatiquement les variables.

Inconvénients

Nécessité d’un grand nombre d’individus

Evolutivité dans le temps: si les données évoluent

dans le temps, il est nécessaire de relance la phase d’apprentissage

Classification rapide(parcours d’un chemin dans un arbre)

HISTORIQUE

DEFINITION

HYPOTHESES ET OBJECTIFS

METHODOLOGIE DES ARBRES DE DECISION

TABLEAU COMPARATIVE DES ALGORITHMES

L’ALGORITHME ID3;

AVANTAGES ET INCONVENIENTS

Page 20: Présentation memo

HISTORIQUE ET GENERALITES SUR LA METHODE

HYPOTHESES ET OBJECTIFS

METHODOLOGIE

développée par le franco-libanais Benzecri à la fin des années 60 pour des applications linguistiques

20

décrire de manière synthétique un tableau de contingence

L’ANALYSE DES CORRESPONDANCES

Y1 j p

1 k11 k1j k1p

X i ki1 kij kip ki.

n kn1 knj knp

k.j k

Profil-ligne i : fJi = {kij/ki.}

Profil-colonne j : fIj = {kij/k.j}

Page 21: Présentation memo

Tableau de contingence d’abord

21

Pas de cases vides

Que des valeurs positives

Objectifs:

L’ANALYSE DES CORRESPONDANCES

Déterminer et à hiérarchiser les dépendances entre lignes et entre colonnes;

révéler les interrelations entre caractères

HISTORIQUE ET GENERALITES SUR LA METHODE

HYPOTHESES ET OBJECTIFS

METHODOLOGIE

Mettre en évidence "ressemblances" / "dissemblances"

Hypothéses

Page 22: Présentation memo

le test du khi-deux

22

l'hypothèse H0 => indépendance

H1 => dépendance

Calcul du khi-2

avec

L’ANALYSE DES CORRESPONDANCES

HISTORIQUE ET GENERALITES SUR LA METHODE

HYPOTHESES ET OBJECTIFS

METHODOLOGIE

k

kkE

ji

ij

..

ddl/alpha 1% 2% 5% 10%

1 6,6350 5,4120 3,8410 2,7060

2 9,2100 7 ,8240 5,9910 4,6050

3 11,3450 9,8370 7,8150 6,2510

4 13 ,2770 11,6680 9,4880 7,7090

5 15,0860 13,3880 11,0700 9,2360

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

n

Khi-2 théoriqueddl= (Nb lignes -1) x (Nb colonnes -1).

Page 23: Présentation memo

L'Analyse Factorielle des Correspondances

23

L'AFC du tableau de contingence: K, est l'ACP du tableau: X, des profils en ligne

Règles d’interprétation des profils :

profils proches => deux modalités de X ayant des distributions (répartitions) suivant les modalités de Y assez semblables.

L’ANALYSE DES CORRESPONDANCES

HISTORIQUE ET GENERALITES SUR LA METHODE

HYPOTHESES ET OBJECTIFS

METHODOLOGIE

)(/)'()',(tan 2

1

jkjxixijiicedisp

j

profils éloignés => deux modalités de X dont les distributions suivant les modalités de Y sont très différentes

Page 24: Présentation memo

24

• DIAGRAMMES DE CAS

D’UTILISATION

• DIAGRAMME DE SEQUENCES

• MODELE DE LA BASE DE

DONNEES

• PRESENTATION DE UMLCONCEPTION ET MISE EN ŒUVRE DE L’OUTIL

CONCEPTION

OUTILS DE DEVELOPPEMENT

PRESENTATION DE L’OUTIL

Page 25: Présentation memo

MODELE DE LA BASE DE DONNEES25

0..*

0..*

0..*

0..*

0..1

0..*

0..*

1..1

0..1

0..*

0..1

0..*

Methode_score

+

+

+

+

+

code_MS

nom

table

TypeMS

Residu

: String

: String

: String

: String

: String

MS_fait

+

+

+

coefficient

MS_X

MS_Y

: double

: float

: float

variablemere

+

+

+

+

+

codeVMere

libelle

sommeil

ordre

typevar

: String

: String

: int

: int

: String

MS_dimension

+

+

MS_X

MS_Y

: float

: float

Distance

+ Dist_valeur : float

modalite

+

+

+

+

code_mod

libelle_mode

MS_X

MS_Y

: String

: String

: float

: float

Utilisateurs

+

+

+

+

+

+

id_user

login

pass

nom

prenom

privilége

: int

: String

: String

: String

: String

: String

Page 26: Présentation memo

DIAGRAMME DES CAS D’UTILISATION

26

<<extend>>

<<extend>>

<<extend>>

<<extend>>

<<include>>

<<include>>

<<include>>

<<extend>>

<<extend>>

Administrateur

Utilisateur

Gestion des utilisateur

Analyse avec les arbres de decision

Analyse des correspondances

Connexion

Supprimer utilisateur

Créer utilisateur

Faire un apprentissage

Faire une simulation

Page 27: Présentation memo

DIAGRAMME DE SEQUENCES SIMULATION ARBRE DE DECISION

27

envoi de la cible

interface des variables de l'apprentissage

création des intervalles des variables explicativesvalidation

création apprentissage

selection résultats

vérification apprentissage

si exite variables explicatives numériques

fin si

création des intervalles de la ciblesi cible numérique

fin si

proposition de création de l'apprentissage avec les variable de la simulationsi apprentissage existe pas

fin si

selection axes d'analyses compatibles

selection faits compatibles

selection fait

envoi cible

Fin Sienvoi fait associé à la cible

interface de selection des variables explicatives

selection et rensegnement variables explicatives

selection cible

Renvoie des résultats simulation

si cible qualitative

Demande de simulation

interface de selection de cible selection dimensions et faits

interface de selection fait associé a la cible

Administrateur/Utilisateur

outil

envoi de la cible

interface des variables de l'apprentissage

création des intervalles des variables explicativesvalidation

création apprentissage

selection résultats

vérification apprentissage

création des intervalles de la cible

proposition de création de l'apprentissage avec les variable de la simulation

selection axes d'analyses compatibles

selection faits compatibles

selection fait

envoi cible

envoi fait associé à la cible

interface de selection des variables explicatives

selection et rensegnement variables explicatives

selection cible

Renvoie des résultats simulation

Demande de simulation

interface de selection de cible selection dimensions et faits

interface de selection fait associé a la cible

Page 28: Présentation memo

DIAGRAMME DE SEQUENCES ANALYSE DES CORRESPONDANCES

28

Demande d'analyse

Selection dimensions

resultat selection

selection des deux variables à analyser

Selection faits en rapport avec ces deux variables

resultat selection

selection du fait pour l'analyse

selection données puis application de la methode si possible

Resultat analyse

Administrateur / Utilisateur

outil

Demande d'analyse

Selection dimensions

resultat selection

selection des deux variables à analyser

Selection faits en rapport avec ces deux variables

resultat selection

selection du fait pour l'analyse

selection données puis application de la methode si possible

Resultat analyse

Page 29: Présentation memo

29

WAMP SERVER

PHP

HTML

JAVASCRIPT

CSS

NOTEPAD++

AUTRES OUTILSCONCEPTION ET MISE EN ŒUVRE DE L’OUTIL

CONCEPTION

OUTILS DE DEVELOPPEMENT

PRESENTATION DE L’OUTIL

Page 30: Présentation memo

30

DEMONSTRATION

PARTIELLE DE L’OUTIL

CONCEPTION ET MISE EN ŒUVRE DE L’OUTIL

CONCEPTION

OUTILS DE DEVELOPPEMENT

PRESENTATION DE L’OUTIL

Page 31: Présentation memo

CE QUE NOUS AVONS RÉUSSIT:

31

CONCLUSION

ANALYSER DES DONNÉES D’UN ENTREPÔT AVEC LA TECHNIQUE DES ARBRES DE DÉCISION (APPRENTISSAGE ET SIMULATION)

P E R S P E C T I V E S : fichiers, visualiser l’arbre , ACM, visualiser les profils

ANALYSER DES DONNÉES D’UN ENTREPÔT AVEC LA TECHNIQUE DE L’ANALYSE DES CORRESPONDANCES DE DEUX VARIABLES

GESTION DES UTILISATEURS

Page 32: Présentation memo

32

MERCI DE VOTRE ATTENTION