from context to distance-learning dissimilarity for categorical data clustering

Intelligent Database Systems Presenter : JIAN-REN CHEN Authors : DINO IENCO, RUGGERO G. PENSA, and ROSA MEO 2012 , ACMKDD From Context to Distance- Learning Dissimilarity for Categorical Data Clustering

Upload: alamea

Post on 29-Jan-2016

43 views

Category:

Documents

0 download

Report

Download

Tags:

Embed Size (px):

DESCRIPTION

From Context to Distance-Learning Dissimilarity for Categorical Data Clustering. Presenter : Jian-Ren Chen Authors : DINO IENCO, RUGGERO G. PENSA, and ROSA MEO 2012 , ACMKDD. Outlines. Motivation Objectives Methodology Experiments Conclusions Comments. Motivation. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: From Context to Distance-Learning Dissimilarity for Categorical Data Clustering

Intelligent Database Systems Lab

Presenter : JIAN-REN CHEN

Authors : DINO IENCO, RUGGERO G. PENSA, and ROSA MEO

2012 , ACMKDD

From Context to Distance-Learning Dissimilarity for Categorical Data Clustering

Intelligent Database Systems Lab

Outlines

MotivationObjectivesMethodologyExperimentsConclusionsComments

Page 3: From Context to Distance-Learning Dissimilarity for Categorical Data Clustering

Intelligent Database Systems Lab

Motivation• Clustering data described by categorical

attributes

is a challenging task in data mining

applications.

• It is difficult to define a distance between pairs

of values of a categorical attribute, since the

values

are not ordered.

Page 4: From Context to Distance-Learning Dissimilarity for Categorical Data Clustering

Intelligent Database Systems Lab

Objectives• We present a new methodology to compute a

context-based distance between values of a categorical

variable.

　 - apply this technique to hierarchical clustering of categorical

data.

Intelligent Database Systems Lab

Methodology-Framework

DILCA (DIstance Learning for Categorical Attributes)

1. selection of a suitable context:(i) a parametric method(ii) a fully automatic one

2. compute the distance between any pair of values of a specific categorical attribute

Page 6: From Context to Distance-Learning Dissimilarity for Categorical Data Clustering

Intelligent Database Systems Lab

Methodology - Context Selection

Page 7: From Context to Distance-Learning Dissimilarity for Categorical Data Clustering

Intelligent Database Systems Lab

Methodology - Context Selection

Page 8: From Context to Distance-Learning Dissimilarity for Categorical Data Clustering

Intelligent Database Systems Lab

Methodology - Context Selection

Page 9: From Context to Distance-Learning Dissimilarity for Categorical Data Clustering

Intelligent Database Systems Lab

Methodology - Distance Computation

Page 10: From Context to Distance-Learning Dissimilarity for Categorical Data Clustering

Intelligent Database Systems Lab

Experiments - Datasets

Page 11: From Context to Distance-Learning Dissimilarity for Categorical Data Clustering

Intelligent Database Systems Lab

Experiments - Purity、 NMI、 ARI

Page 12: From Context to Distance-Learning Dissimilarity for Categorical Data Clustering

Intelligent Database Systems Lab

Experiments - Purity、 NMI、 ARI

Page 13: From Context to Distance-Learning Dissimilarity for Categorical Data Clustering

Intelligent Database Systems Lab

Experiments - Purity、 NMI、 ARI

Page 14: From Context to Distance-Learning Dissimilarity for Categorical Data Clustering

Intelligent Database Systems Lab

Experiments - Impact of σ on DILCAM

Page 15: From Context to Distance-Learning Dissimilarity for Categorical Data Clustering

Intelligent Database Systems Lab

Experiments - Impact of σ on DILCAM

Page 16: From Context to Distance-Learning Dissimilarity for Categorical Data Clustering

Intelligent Database Systems Lab

Experiments - Scalability

Page 17: From Context to Distance-Learning Dissimilarity for Categorical Data Clustering

Intelligent Database Systems Lab

Conclusions

• DILCA is competitive with respect to the state of the

art of categorical data clustering approaches.

• DILCA is scalable and has a low impact on the overall

computational time of a clustering task.

Page 18: From Context to Distance-Learning Dissimilarity for Categorical Data Clustering

Intelligent Database Systems Lab

Comments• Advantages– scalable, computational time

• Applications– a context-based distance between values of a

categorical variable– hierarchical clustering of categorical data

A Hierarchical Clustering Algorithm for Categorical Sequence Data

Stella X. Yu - ICSI | ICSIstellayu/publication/doc/YuThesisTalk.pdf · Computational framework: spectral clustering 2. Expand the repertoire of grouping cues: dissimilarity ... Grouping

Data Mining K-Clustering Problem - CORE · Elham Karoussi Data Mining, K-Clustering Problem 11 core's of data mining and the measure of similarity and dissimilarity of data. It provides

Categorical Data Clustering Using Statistical Methods and Neural …petra/slides/syrcodis.pdf · 2009. 4. 12. · Introduction Clustering Statistical methods Neural Networks Experiments

A Link-Based Cluster Ensemble Approach for Categorical Data Clustering

Clustering - Home - Dept. of Statistics, Texas A&M Universityjlong/astrostat/fall2015/clustering.pdf · I eg. k{means 6/33. Generic Dissimilarity ... Hierarchical Agglomerative Clustering

MGR: An information theory based hierarchical divisive clustering algorithm for categorical data

Similarity/ Dissimilarity

Clustering Categorical Data: An Approach Based on ...Clustering Categorical Data: An Approach Based on Dynamical Systems David Gibson Jon Kleinberg Dept. of Computer Science Dept

Subspace Clustering of Categorical and Numerical Data With ...ymc/papers/journal/TNNLS-29-8-20… · subspace clustering of data with purely categorical attributes. Typical work includes

On Clustering Massive Text and Categorical Data Streamscharuaggarwal.net/KAISsampl.pdf · 2012-10-01 · On Clustering Massive Text and Categorical Data Streams 3 variety of similarity

New link based approach for categorical data clustering

ROCK a Robust Clustering Algorithm for Categorical Attributes (2000)Guha00rock

Structural dissimilarity of large-scale structures in ...discovery.ucl.ac.uk/1365891/1/Structural dissimilarity of large... · PHYSICS OF FLUIDS24, 055112 (2012) Structural dissimilarity

Extensions to the K-means Algorithm for Clustering Large Data Sets with Categorical Values

k-mw-modes: an algorithm for clustering categorical matrix ......Page 1 of 34 Accepted Manuscript k-mw-modes: an algorithm for clustering categorical matrix-object data FuyuanCaoa,LiqinYua,JoshuaZhexueHuangb,JiyeLianga,∗

Improved Crisp and Fuzzy Clustering Techniques for Categorical … · Improved Crisp and Fuzzy Clustering Techniques ... Abstract—Clustering is a widely used technique in data mining

Clustering of categorical data: a comparison of a …ucakche/papers/Anderlucci_Hennig_rev.pdfClustering of categorical data: a comparison of a model-based ... a sample of n individuals

Model-based clustering for categorical and mixed data sets

Clustering in Hilbert simplex geometry - arXiv.org e-Print … · 2017-05-02 · Clustering in Hilbert simplex geometry Frank Nielsen Ke Suny Abstract Clustering categorical distributions

Mixed Numeric and Categorical Attribute Clustering Algorithm

Similarity and Dissimilarity

On Clustering Massive Text and Categorical Data - Charu Aggarwal

1 Clustering Categorical Data The Case of Quran Verses Presented By Muhammad Al-Watban IS 598

Analogical Dissimilarity

Multidimensional Scaling and Data Clustering · Multidimensional Scaling and Data Clustering 461 This algorithm was used to determine the embedding of protein dissimilarity data as

EnsCat: Clustering of categorical data via ensembling

Applied Soft Computing - INAOEariel/K-Harmonic means type... · Clustering Categorical cal attributes Numeric to attributes Mixed data K-Harmonic means clustering ... means value

Clustering Categorical Data

ROCK: A Robust Clustering Algorithm for Categorical Attributes · ROCK: A Robust Clustering Algorithm for Categorical Attributes S. Guha, R. Rastogi and K. Shim S. Guha, R. Rastogi

Clustering - ic.unicamp.br file2 Outline •Introduction • Unsupervised learning • What is cluster analysis? • Applications of clustering •Dissimilarity (similarity) of samples

Topographic graph clustering with kernel and dissimilarity methods

Clustering Algorithms k-means Hierarchic Agglomerative Clustering (HAC) …. BIRCH Association Rule Hypergraph Partitioning (ARHP) Categorical clustering