cube based summaries of large association rule sets
DESCRIPTION
Ce travail est la contribution de Marie Ndiaye, Cheikh T. Diop du Laboratoire d'Analyse Numérique et d'Informatique de l'Université Gaston Berger de Saint Louis et de Arnaud Giacometti, Patrick Marcel et Arnaud Soulet du Laboratoire d'Informatique de l'Université François Rabelais de Tours aux problèmes de l'extraction et de la représentation du trop grand nombre de règles d'association issues des algorithmes d'extraction de données. Dans le cadre d'un cours d'extraction de connaissances, j'ai juste eu à faire une présentation des différents concepts et méthodes qui y sont exposés.TRANSCRIPT
![Page 1: Cube based summaries of large association rule sets](https://reader033.vdocuments.us/reader033/viewer/2022042815/556c2bfbd8b42a8d648b5a22/html5/thumbnails/1.jpg)
1
Cube Based Summaries Of Large Association Rule Sets
Marie Ndiaye - Cheikh T. DiopArnaud Giacometti - Patrick Marcel - Arnaud Soulet
Présenté par: Sous la direction de:Mouhamadou Khoulé - Papa Cheikh Cisse Dr. Cheikh Talibouya DiopMaster 2 Recherche InformatiqueUGB St-Louis / 2010 – 2011
![Page 2: Cube based summaries of large association rule sets](https://reader033.vdocuments.us/reader033/viewer/2022042815/556c2bfbd8b42a8d648b5a22/html5/thumbnails/2.jpg)
2
SommaireIntroductionLe ContexteA Summary: DéfinitionCBS: Cube Based SummariesLa génération de CBS
Mesure de la qualité: homogénéité L’heuristique proposée
Conclusion
![Page 3: Cube based summaries of large association rule sets](https://reader033.vdocuments.us/reader033/viewer/2022042815/556c2bfbd8b42a8d648b5a22/html5/thumbnails/3.jpg)
3
Les Algorithmes d’extraction de données produisent un trop grand nombre de règles d’association.
Explorer ces règles devient dès lors difficile.
Introduction
![Page 4: Cube based summaries of large association rule sets](https://reader033.vdocuments.us/reader033/viewer/2022042815/556c2bfbd8b42a8d648b5a22/html5/thumbnails/4.jpg)
4
Solution 1:Méthode de génération de règles plus génériques. Réduire les règles extraits
ConséquenceCette quantité de règles est tout de même
importante et donc risque de perte.
Introduction
![Page 5: Cube based summaries of large association rule sets](https://reader033.vdocuments.us/reader033/viewer/2022042815/556c2bfbd8b42a8d648b5a22/html5/thumbnails/5.jpg)
5
Pour éviter cela:Solution2:• Résumer les règles extraites, mais:
o Difficulté d’exploration des résuméso Résumés pas bien organisés
• Explorer les règles extraites:o Méthodes proposées incomplètes
Introduction
![Page 6: Cube based summaries of large association rule sets](https://reader033.vdocuments.us/reader033/viewer/2022042815/556c2bfbd8b42a8d648b5a22/html5/thumbnails/6.jpg)
6
Contributions et solutions à ces manquements énoncés précédemment:
• Les CBS (Cube Based Summaries): représentation des règles sous forme de cubeso ¹ niveaux de détail et ¹ axes d’analysesomotivés par existence de techniques de manipulation
de cube sous OLAP
Introduction
![Page 7: Cube based summaries of large association rule sets](https://reader033.vdocuments.us/reader033/viewer/2022042815/556c2bfbd8b42a8d648b5a22/html5/thumbnails/7.jpg)
7
Contributions et solutions à ces manquements énoncés précédemment:
• Une heuristique (greedy_CBS) pour générer les CBS en fonction d’une taille donnéeo Basée sur une mesure: l’homogénéitéo Détermination du degré d’importance d’un CBSo Résultats proches de la solution optimale
Introduction
![Page 8: Cube based summaries of large association rule sets](https://reader033.vdocuments.us/reader033/viewer/2022042815/556c2bfbd8b42a8d648b5a22/html5/thumbnails/8.jpg)
8
• Représentation de larges règles facilités par les "summaries"
• Fait ressortir les relations entre règles
Le contexte
![Page 9: Cube based summaries of large association rule sets](https://reader033.vdocuments.us/reader033/viewer/2022042815/556c2bfbd8b42a8d648b5a22/html5/thumbnails/9.jpg)
9
• r1: {auto} Þ {stab}• r2: {auto} Þ {stab, yes}• r3: {auto} Þ {yes}
Le contexte
• r4: {stab} Þ {yes}• r5: {stab} Þ {auto}• r6: {stab} Þ {auto,yes}
• r7: {yes} Þ {stab}• r8: {yes} Þ {auto, stab}• r9: {yes} Þ {auto}
Soit R, l’ensemble des règles d’associations suivantes defini sur A:
Soit A = {CONTROL, STABILITY, VISIBILITY}
dom (CONTROL)= {auto, noauto}dom (STABILITY) = {stab, xstab}dom (VISIBILITY) = {yes, no}
![Page 10: Cube based summaries of large association rule sets](https://reader033.vdocuments.us/reader033/viewer/2022042815/556c2bfbd8b42a8d648b5a22/html5/thumbnails/10.jpg)
10
A Summary: Définition
Couverture:
Soient (P, £p) et (S, £s), deux langages de motifs partiellement ordonnés. Une relation de couverture sur P ´ S, notée Ñ est une relation binaire sur P ´ S tel que, pour tout p ÎP et s ÎS :
(i) " p’ Î P, si p £p p’ et s Ñp , alors s Ñp’ (ii) " s’ Î S, si s’ £s s et s Ñp , alors s’ Ñp
![Page 11: Cube based summaries of large association rule sets](https://reader033.vdocuments.us/reader033/viewer/2022042815/556c2bfbd8b42a8d648b5a22/html5/thumbnails/11.jpg)
11
A Summary: Définition
Soient r1: X1 Þ Y1 et r2: X2 Þ Y2, r2 est plus spécifique que r1, (r1 £r r2) si X1 Í X2
et Y1 Í Y2
Exemple:r2: {auto} Þ {stab, yes} est plus spécifique que
r1: {auto} Þ {stab} et r1 couvre r2
![Page 12: Cube based summaries of large association rule sets](https://reader033.vdocuments.us/reader033/viewer/2022042815/556c2bfbd8b42a8d648b5a22/html5/thumbnails/12.jpg)
12
Summary• Soient deux langages de motifs P et S• Une relation de couverture D entre P et S• Un "Summary" de P Í P est un ensemble de motifs S Í S tel
que:
(i) Chaque motif de P est couvert par au moins un motif de S (ii) Chaque motif de S couvre au moins un motif de P(iii) |S| £ |P|
A Summary: Définition
![Page 13: Cube based summaries of large association rule sets](https://reader033.vdocuments.us/reader033/viewer/2022042815/556c2bfbd8b42a8d648b5a22/html5/thumbnails/13.jpg)
13
Summary
A Summary: Définition
![Page 14: Cube based summaries of large association rule sets](https://reader033.vdocuments.us/reader033/viewer/2022042815/556c2bfbd8b42a8d648b5a22/html5/thumbnails/14.jpg)
14
A Summary: Définition
• Exemple:
S=(r1: {auto }→ {stab}, r10:{ } → {auto}, r11: { } →{stab}, r12: { } →{yes} ) est un Summary .
• r1: {auto} Þ {stab}• r2: {auto} Þ {stab, yes}• r3: {auto} Þ {yes}
• r4: {stab} Þ {yes}• r5: {stab} Þ {auto}• r6: {stab} Þ {auto,yes}
• r7: {yes} Þ {stab}• r8: {yes} Þ {auto, stab}• r9: {yes} Þ {auto}
(i) Chaque motif de P est couvert par au moins un motif de S (ii) Chaque motif de S couvre au moins un motif de P(iii) |S| £ |P|
cover(r1,R)={r1,r2}, cover(r10,R)={r5,r6,r8,r9}, cover(r11,R)={r1,r2,r7,r8}Et cover(r12,R)={r2,r3,r4,r6}.
![Page 15: Cube based summaries of large association rule sets](https://reader033.vdocuments.us/reader033/viewer/2022042815/556c2bfbd8b42a8d648b5a22/html5/thumbnails/15.jpg)
15
A Summary: Définition
• « Summary minimal » ?
{r1,r3,r4,r7,r9} est un Summary minimal.
1.Comment définit t-on un langage de motifs et une relation de coverture qui permettrait de construire et d’explorer efficacement des summaries minimales de larges ensembles de règles d’association?
2.Quel est le summary minimal le plus intéressant?
![Page 16: Cube based summaries of large association rule sets](https://reader033.vdocuments.us/reader033/viewer/2022042815/556c2bfbd8b42a8d648b5a22/html5/thumbnails/16.jpg)
16
CBS: Cube Based Summaries
Soit A, un ensemble fini d’attributs.
X = {a1, ..., ak} tel que ai Î A, i Î {1,...,k} et X Í A est un schéma.
![Page 17: Cube based summaries of large association rule sets](https://reader033.vdocuments.us/reader033/viewer/2022042815/556c2bfbd8b42a8d648b5a22/html5/thumbnails/17.jpg)
17
Exemple:
Soit A = {CONTROL, STABILITY, VISIBILITY}dom(CONTROL) = {auto, noauto}dom(STABILITY) = {stab, xstab}dom(VISIBILITY) = {yes, no}
<Body.CONTROL, Body.VISIBILITY,
Head.CONTROL> est un schéma.
CBS: Cube Based Summaries
![Page 18: Cube based summaries of large association rule sets](https://reader033.vdocuments.us/reader033/viewer/2022042815/556c2bfbd8b42a8d648b5a22/html5/thumbnails/18.jpg)
18
• Soit X = {x1, …, xj} un schéma, R un ensemble de règles d’associations.
• On appelle référence sur X, un tuple s = <a1,...,
ai> tel que :
• ai Í (dom(xj) È null)
• s couvre au moins une règle de R.
CBS: Cube Based Summaries
![Page 19: Cube based summaries of large association rule sets](https://reader033.vdocuments.us/reader033/viewer/2022042815/556c2bfbd8b42a8d648b5a22/html5/thumbnails/19.jpg)
19
Exemple:
Soit le schéma A=<Body.CONTROL, Body.VISIBILITY, Head.CONTROL>
dom (CONTROL)= {auto, noauto}dom (STABILITY) = {stab, xstab}dom (VISIBILITY) = {yes, no}
{nullC , yes, auto} est une référence du schéma A.
CBS: Cube Based Summaries
![Page 20: Cube based summaries of large association rule sets](https://reader033.vdocuments.us/reader033/viewer/2022042815/556c2bfbd8b42a8d648b5a22/html5/thumbnails/20.jpg)
20
Soit un ensemble de règles R, le CBS d’un schéma C de R noté SC,R est l’ensemble des références définies sur C qui couvrent au moins une règle de R
CBS: Cube Based Summaries
![Page 21: Cube based summaries of large association rule sets](https://reader033.vdocuments.us/reader033/viewer/2022042815/556c2bfbd8b42a8d648b5a22/html5/thumbnails/21.jpg)
21
Soit un schéma <Body.VISIBILITY, Head.CONTROL>
CBS = {S1, S3, S7, S9}• Différents niveaux de détail
CBS: Cube Based Summaries
![Page 22: Cube based summaries of large association rule sets](https://reader033.vdocuments.us/reader033/viewer/2022042815/556c2bfbd8b42a8d648b5a22/html5/thumbnails/22.jpg)
22
CBS: Cube Based Summaries
![Page 23: Cube based summaries of large association rule sets](https://reader033.vdocuments.us/reader033/viewer/2022042815/556c2bfbd8b42a8d648b5a22/html5/thumbnails/23.jpg)
23
Mesure de la qualité:homogénéité
• Impossibilité d’identifier le plus intéressant parmi plusieurs CBS.
• Besoin de mesurer la qualité d’un CBS.• La qualité d’un CBS est une fonction qui à tout
couple (R, Sc,R) associe une valeur dans R.
![Page 24: Cube based summaries of large association rule sets](https://reader033.vdocuments.us/reader033/viewer/2022042815/556c2bfbd8b42a8d648b5a22/html5/thumbnails/24.jpg)
24
Pour évaluer la qualité d’un CBS.
Mesure de la qualité:homogénéité
![Page 25: Cube based summaries of large association rule sets](https://reader033.vdocuments.us/reader033/viewer/2022042815/556c2bfbd8b42a8d648b5a22/html5/thumbnails/25.jpg)
25
L’heuristique proposée
1. On commence par le CBS Ci le plus général possible
2. AddToHead(Ci) et/ou AddToBody(Ci) pour passer à un CBS Cj.
3. Tant que H(Cj) > H(Ci) refaire l’étape 2 avec Cj à la place de Ci.
4. Dès que H(C2) = H(C1), arrêt.
![Page 26: Cube based summaries of large association rule sets](https://reader033.vdocuments.us/reader033/viewer/2022042815/556c2bfbd8b42a8d648b5a22/html5/thumbnails/26.jpg)
26
Conclusion
• Une nouvelle technique de résumé du trop grand nombre de règles d’association.
• Une mesure de la qualité des CBS: l’homogénéité.
• Une heuristique de génération de CBS.
![Page 27: Cube based summaries of large association rule sets](https://reader033.vdocuments.us/reader033/viewer/2022042815/556c2bfbd8b42a8d648b5a22/html5/thumbnails/27.jpg)
27
• Ndiaye M., Diop C. T., Giacommetti A., Marcel P., Soulet A., "Cube Based Summaries Of Large Associations Rule Sets".
• Zaki M. J., Hsiao C.-J., "CHARM: An Efficient Algorithm for Closed Itemset Mining".
• Chandola V., Kumar V., "Summarization - Compressing Data into an Informative Representation".
Références
![Page 28: Cube based summaries of large association rule sets](https://reader033.vdocuments.us/reader033/viewer/2022042815/556c2bfbd8b42a8d648b5a22/html5/thumbnails/28.jpg)
28
Vos questions sont les bienvenues ...
Merci de votre attention