fast and furious decision tree induction

Fast and Furious Decision Tree Induction

INSA Rennes

1

Andra BLAJEmeline ESCOLIVETSimon MANDEMENTGareth THIVEUXNicolas DESFEUXRenaud PHILIPPE

Fast and Furious Decision Tree Induction

1. Contexte2. Technologies utilisées lors du projet

1. Apprentissage automatique2. Arbres de décision3. Map-Reduce4. Hadoop

3. Spécifications fonctionnelles1. Données présentes en entrée2. Données en sortie3. Arbres de décision dans l’application4. Parallélisation

4. Planification initiale5. Conclusion

2

1. Contexte

3

Contexte (1)

Origines du projet :• Projet lié aux activités de recherche de l’IRISA.• Equipe Texmex: exploitation de documents

multimédia.• Equipe Myriads: développement et

administration de systèmes distribués à large échelle.

4

Contexte (2)

Objectifs :• Créer des arbres aidant à la décision.• Utiliser des fichiers de données volumineux

pour trouver des règles de décision.• Généraliser le fonctionnement pour l’adapter

à tous les domaines.

5

Spécifications fonctionnelles (1)

Données en entrée

6

• 3 types de descripteurs:– discrete : données faisant partie d’une liste prédéfinie (ex: « oui », « non », « peut être »);– continuous : valeurs numériques ordonnées (ex : IMC);– text : phrases ou expressions;

6


77

Fichiers en entrée

• 2 fichiers en entrée:– .names :

• la liste des annotations possibles • une description du contenu du fichier de données• une description du type des descripteurs ou des

attributs

– .data : •les données et les annotations associées

52, Oui, 25, Grippe.45, Oui, 28, Rhume.28, Non, 20, Rhume.

Grippe, Rhume.age : continuous : ignore.boutons : discrete : cutoff = 15.imc : continuous.

2. Technologies utilisées lors du projet

8

Technologies utilisées (1)

• Discipline où un outil technologique est capable d’apprendre par lui-même.

• Sorte d’intelligence artificielle.• Plusieurs degrés de supervision.• Base de données d’exemples.• Décisions d’étiquetage précises.

Apprentissage AutomatiqueDéfinition - Fonctionnement

9


• Exemple déjà étiqueté : adapté à l’apprentissage automatique supervisé.

• Efficace avec un grand volume de données : – Processus d’apprentissage complet,– Étiquetage précis.

• Capable d’étiqueter de nouveaux exemples automatiquement.

Applications dans notre projet

10


• Outils d’aide à la décision et à l’exploration de données.

• Représentation à l’aide de nœuds et de feuilles.

• Populaire et simple d’utilisation.

Arbres de décisionsDéfinition - Fonctionnement

11


• Facile à comprendre et à utiliser.• Taille dépendante du nombre de questions, et

non de la taille des données.• Lisibilité du rendu. • Construction simple de rendu visuel (avec des

fichier XML et CSS par exemple).

Avantage pour notre projet

12

3. Spécifications fonctionnelles

13


Les arbres de décision dans l’application• Nœuds - chaque nœud correspond à une

question sur un attribut et à un ensemble d’exemples;

• Branches - chaque branche part d’un nœud et correspond à une réponse possible à la question posée en ce nœud;

• Feuilles - nœuds d’où ne part aucune branche (correspond à une classe).

14


• Etapes de la construction d’un arbre:– Apprendre une suite de questions/réponses

la plus "efficace" possible.– Isoler les classes.– Organiser les questions/réponses sous la

forme d’un arbre.

15


16

• type discrete : 1 question par valeur de l’attribut.• type continuous : pour une valeur donnée de

l’attribut, la question cherche à déterminer combien d’exemples ont une valeur supérieur ou inférieure à celle-ci.

• type text : 3 paramètres pris en compte– expert_length : nombre de mots à rechercher– expert_type : F-gram, S-gram, N-gram– expert_level : 3 niveaux de recherche

Génération des questions

17

Données en sortie

<? xml v e r s i on =" 1 . 0 " e n c o d i n g ="UTF-8" ?><Tree> <Node id =" 1 "> <Result . . . > < !-- compte-rendu des etiquettes . --> <Result number=“1" name=“grippe" percentage=“50" / > < !– Exemple de resultat --> <Question . . >+ < !-- question qui amenera a la creation de ces noeud --> <Question column=" Fumeur " value=“oui" entropy =" 1 " nbOcuurence=" 12 "> < !-- Exemple de question -->

<TrueNode id="2" / > <!– noeud où la réponse à la question est “oui” --> <Result...> <Question...> <FalseNode id="3" / > 

</Node></Tree>

• Format xml

•Visualisation graphique


• Opération exécutée en parallèle -> chaque nœud travaille indépendamment des autres, sur une partie du fichier d'entrée.

• Association à un couple ( clé , valeur ).• Opération spécifique sur chaque élément (ligne).• Traitement différent selon le type: Discrète,

Continue ou Texte.

MapReducePartie Map

18


• Nœuds esclaves font remonter l'information. • Calcul par les nœuds parents.• Groupement des couples ayant la même clé.• Le nœud origine peut, à la fin de l'opération

Reduce, donner une réponse.

MapReducePartie Reduce

19


Parallélisation

Fichier d’entrée:

1. savoir être et2. savoir faire3. sans faire savoir

Exemple de fonctionnement de MapReduce, pour compter les occurrences de mots dans un texte.

20


• Projet libre qui permet une implémentation de MapReduce.

• Un nœud maitre et des nœuds esclaves.• Fractionnement du traitement sur différentes

machines.

Hadoop

21


• Système de fichier distribué propre à Hadoop.• Répartition des données entre les Datanodes.• Assignation des tâches aux nœuds esclaves.• Retour du résultat au nœud maître.

Hadoop

22


• Spécification importante du projet → réduire le temps de construction des questions et du parcours de l’arbre.

• Solution envisagée → utilisation d’un cluster de machines via Hadoop (de manière plug-and-play).

• Parallélisation – répartition de plusieurs "job" sur plusieurs machines connectées.

23


24

4. Planification initiale

25

Planification initiale (1)

26

Calendrier : - 7h par semaine - entre 25 et 28h en semaine de projet

- ajout de semaines de congés (semaine de partiels, vacances de Noël …)

Ressources : 6 personnes, ayant chacune la même charge

Détermination des tâches : 5 phases, chacune divisées entre 3 et 5 tâches, elles-mêmes découpées en sous-tâches et sous-sous-tâches

Estimation des durées : - 1re estimation basée sur le temps déjà passé sur les tâches - 2ème estimation grâce à du Planning Poker

Planification initiale (2)

27

5. Conclusion

28

Conclusion

29

Fast and Furious Decision Tree Induction :• Projet à l’origine d’équipes de l’IRISA.• Création des arbres aidant à la décision.• Généralisation le fonctionnement pour l’adapter à

tous les domaines.• Traitement des fichiers de données volumineux grâce

à une parallélisation des calculs gérée par les technologies Hadoop/MapReduce.

• Réussite et respect des délais => une bonne planification et un suivi régulier.

fast and furious decision tree induction

Documents

fichier de donnes

base de donnes

donnes issues

fichiers de donnes volumineux

facultativesle fichier

description du contenu

type des descripteurs

description des colonnes