1967 - some methods for classification and analysis ofmultivariate observation

Upload: franck-dernoncourt

Post on 10-Apr-2018

223 views

Category:

Documents


0 download

TRANSCRIPT

  • 8/8/2019 1967 - Some Methods for Classification and Analysis OfMultivariate Observation

    1/17

    SOME METHODS FORCLASSIFICATION AND ANALYSISOF MULTIVARIATE OBSERVATIONS

    J . MACQUEENU N I V E R S I T Y OF C A L I F O R N I A , L o s A N G E L E S

    1 . I n t r o d u c t i o nT h e m a i n p u r p o s e o f t h i s p a p e r i s t o d e s c r i b e a p r o c e s s f o r p a r t i t i o n i n g a nN - d i m e n s i o n a l p o p u l a t i o n i n t o k s e t s o n t h e b a s i s o f a s a m p l e . T h e p r o c e s s ,w h i c h i s c a l l e d ' k - m e a n s , ' a p p e a r s t o g i v e p a r t i t i o n s w h i c h a r e r e a s o n a b l ye f f i c i e n t i n t h e s e n s e o f w i t h i n - c l a s s v a r i a n c e . T h a t i s , i f p i s t h e p r o b a b i l i t y m a s sf u n c t i o n f o r t h e p o p u l a t i o n , S = { S 1 , S 2 , - * * , S k } i s a p a r t i t i o n o f E N , a n d u i ,i = 1 , 2 , * - , k , i s t h e c o n d i t i o n a l m e a n o f p o v e r t he s e t S i , t h e n W 2 ( S ) =f f = I S i z - u 4 2 d p ( z ) t e n d s t o b e l o w f o r t h e p a r t i t i o n s S g e n e r a t e d b y t h em e t h o d . We s a y ' t e n d s t o b e l o w , ' p r i m a r i l y b e c a u s e o f i n t u i t i v e c o n s i d e r a t i o n s ,c o r r o b o r a t e d t o s o m e e x t e n t b y m a t h e m a t i c a l a n a l y s i s a n d p r a c t i c a l c o m p u t a -t i o n a l e x p e r i e n c e . A l s o , t h e k - m e a n s p r o c e d u r e i s e a s i l y p r o g r a m m e d a n d i s

    c o m p u t a t i o n a l l y e c o n o m i c a l , s o t h a t i t i s f e a s i b l e t o p r o c e s s v e r y l a r g e s a m p l e so n a d i g i t a l c o m p u t e r . P o s s i b l e a p p l i c a t i o n s i n c l u d e m e t h o d s f o r s i m i l a r i t yg r o u p i n g , n o n l i n e a r p r e d i c t i o n , a p p r o x i m a t i n g m u l t i v a r i a t e d i s t r i b u t i o n s , a n dn o n p a r a m e t r i c t e s t s f o r i n d e p e n d e n c e a m o n g s e v e r a l v a r i a b l e s .

    I n a d d i t i o n t o s u g g e s t i n g p r a c t i c a l c l a s s i f i c a t i o n m e t h o d s , t h e s t u d y o f k - m e a n sh a s p r o v e d t o b e t h e o r e t i c a l l y i n t e r e s t i n g . T h e k - m e a n s c o n c e p t r e p r e s e n t s ag e n e r a l i z a t i o n o f t h e o r d i n a r y s a m p l e m e a n , a n d o n e i s n a t u r a l l y l e d t o s t u d y t h ep e r t i n e n t a s y m p t o t i c b e h a v i o r , t h e o b j e c t b e i n g t o e s t a b l i s h s o m e s o r t o f l a w o fl a r g e n u m b e r s f o r t h e k - m e a n s . T h i s p r o b l e m i s s u f f i c i e n t l y i n t e r e s t i n g , i n f a c t ,f o r u s t o d e v o t e a g o o d p o r t i o n o f t h i s p a p e r t o i t . T h e k - m e a n s a r e d e f i n e d i ns e c t i o n 2 . 1 , a n d t h e m a i n r e s u l t s w h i c h h a v e b e e n o b t a i n e d o n t h e a s y m p t o t i cb e h a v i o r a r e g i v e n t h e r e . T h e r e s t o f s e c t i o n 2 i s d e v o t e d t o t h e p r o o f s o f t h e s er e s u l t s . S e c t i o n 3 d e s c r i b e s s e v e r a l s p e c i f i c p o s s i b l e a p p l i c a t i o n s , a n d r e p o r t ss o m e p r e l i m i n a r y r e s u l t s f r o m c o m p u t e r e x p e r i m e n t s c o n d u c t e d t o e x p l o r e t h ep o s s i b i l i t i e s i n h e r e n t i n t h e k - m e a n s i d e a . T h e e x t e n s i o n t o g e n e r a l m e t r i c s p a c e si s i n d i c a t e d b r i e f l y i n s e c t i o n 4 .T h e o r i g i n a l p o i n t o f d e p a r t u r e f o r t h e w o r k d e s c r i b e d h e r e w a s a s e r i e s o fp r o b l e m s i n o p t i m a l c l a s s i f i c a t i o n ( M a c Q u e e n [ 9 ] ) w h i c h r e p r e s e n t e d s p e c i a l

    T h i s w o r k w a s s u p p o r t e d b y t h e W e s t e r n Management S c i e n c e I n s t i t u t e u n d e r a g r a n t f r o mt h e F o r d F o u n d a t i o n , a n d b y t h e O f f i c e o f N a v a l R e s e a r c h u n d e r C o n t r ac t N o . 2 3 3 ( 7 5 ) , T a s kN o . 0 4 7 - 0 4 1 .2 8 1

  • 8/8/2019 1967 - Some Methods for Classification and Analysis OfMultivariate Observation

    2/17

    282 FIFTH BERKELEY SYMPOSIUM: MAC QIEENc a s e s o f t h e p r o b l e m o f o p t i m a l i n f o r m a t i o n s t r u c t u r e s a s f o r m u l a t e d b yM a r s c h a k [ 1 1 ] , [ 1 2 ] . ( F o r a n i n t e r e s t i n g t r e a t m e n t o f a c l o s e l y r e l a t e d p r o b l e m ,s e e B l a c k w e l l [ 1 ] . ) I n o n e i n s t a n c e t h e p r o b l e m o f f i n d i n g o p t i m a l i n f o r m a t i o ns t r u c t u r e s r e d u c e s t o f i n d i n g a p a r t i t i o n S = { S l , S 2 , * * * , S k } o f EN w h i c h w i l lm i n i m i z e W 2 ( S ) a s d e f i n e d a b o v e . I n t h i s s p e c i a l m o d e l , i n d i v i d u a l A o b s e r v e s ar a n d o m p o i n t z E E N , w h i c h h a s a k n o w n d i s t r i b u t i o n p , a n d c o m m u n i c a t e s t oi n d i v i d u a l B w h a t h e h a s s e e n b y t r a n s m i t t i n g o n e o f k m e s s a g e s . I n d i v i d u a l Bi n t e r p r e t s t h e m e s s a g e b y a c t i n g a s i f t h e o b s e r v e d p o i n t z i s e q u a l t o a c e r t a i np o i n t t o b e c ho se n a c c o r d i n g t o t h e m e s s a g e r e c e i v e d . T h e r e i s a l o s s p r o p o r -t i o n a l t o t h e s q u a r e d e r r o r I z - g 1 2 r e s u l t i n g f r o m t h i s c h o i c e . T h e o b j e c t i s t om i n i m i z e e x p e c t e d l o s s . T h e e x p e c t e d l o s s b e c o m e s W 2 ( S ) , w h e r e t h e i - t h m e s s a g ei s t r a n s m i t t e d i f z E S i , s i n c e t h e b e s t w a y f o r B t o i n t e r p r e t t h e i n f o r m a t i o n i st o c h o o s e t h e c o n d i t i o n a l m e a n o f p o n t h e s e t a s s o c i a t e d w i t h t h e m e s s a g er e c e i v e d . T h e m e a n , o f c o u r s e , m i n i m i z e s t h e s q u a r e d e r r o r . T h u s t h e p r o b l e mi s t o l o c a t e a p a r t i t i o n m i n i m i z i n g w 2 ( S ) . T h i s p r o b l e m w a s a l s o s t u d i e d b yF i s h e r [ 5 ] , w h o g i v e s r e f e r e n c e s t o e a r l i e r r e l a t e d w o r k s .T h e k - m e a n s p r o c e s s w a s o r i g i n a l l y d e v i s e d i n a n a t t e m p t t o f i n d a f e a s i b l em e t h o d o f c o m p u t i n g s u c h a n o p t i m a l p a r t i t i o n . I n g e n e r a l , t h e k - m e a n s p r o -c e d u r e w i l l n o t c o n v e r g e t o a n o p t i m a l p a r t i t i o n , a l t h o u g h t h e r e a r e s p e c i a l c a s e sw h e r e i t w i l l . E x a m p l e s o f b o t h s i t u a t i o n s a r e g i v e n i n s e c t i o n 2 . 3 . S o f a r a s t h ea u t h o r k n o w s , t h e r e i s n o f e a s i b l e , g e n e r a l m e t h o d w h i c h a l w a y s y i e l d s a n o p t i m a lp a r t i t i o n . C o x [ 2 ] h a s s o l v e d t h e p r o b l e m e x p l i c i t l y f o r t h e n o r m a l d i s t r i b u t i o ni n o n e d i m e n s i o n , w i t h k = 2 , 3 , - - * , 6 , a n d a c o m p u t a t i o n a l m e t h o d f o r f i n i t es a m p l e s i n o n e d i m e n s i o n h a s b e e n p r o p o s e d b y F i s h e r [ 5 ] . A c l o s e l y r e l a t e dm e t h o d f o r o b t a i n i n g r e a s o n a b l y e f f i c i e n t ' s i m i l a r i t y g r o u p s ' h a s b e e n d e s c r i b e db y Ward [ 1 5 ] . A l s o , a s i m p l e a n d e l e g a n t m e t h o d w h i c h w o u l d a p p e a r t o y i e l dp a r t i t i o n s w i t h l o w w i t h i n - c l a s s v a r i a n c e , w a s n o t i c e d b y E d w a r d F o r g y [ 7 ] a n dR o b e r t J e n n r i c h , i n d e p e n d e n t l y o f o n e a n o t h e r , a n d c o m m u n i c a t e d t o t h e w r i t e rs o m e t i m e i n 1 9 6 3 . T h i s p r o c e d u r e d o e s n o t a p p e a r t o b e known t o w o r k e r s i nt a x o n o m y a n d g r o u p i n g , a n d i s t h e r e f o r e d e s c r i b e d i n s e c t i o n 3 . F o r a t h o r o u g hc o n s i d e r a t i o n o f t h e b i o l o g i c a l t a x o n o m y p r o b l e m a n d a d i s c u s s i o n o f a v a r i e t yo f r e l a t e d c l a s s i f i c a t i o n m e t h o d s , t h e r e a d e r i s r e f e r r e d t o t h e i n t e r e s t i n g b o o kb y S o k a l a n d S n e a t h [ 1 4 ] . ( S e e N o t e a d d ed i n p r o o f o f t h i s p a p e r . )S e b e s t y e n [ 1 3 ] h a s d e s c r i b e d a p r o c e d u r e c a l l e d " a d a p t i v e s a m p l e s e t c o n -s t r u c t i o n , " w h i c h i n v o l v e s t h e u s e o f w h a t a m o u n t s t o t h e k - m e a n s p r o c e s s .T h i s i s t h e e a r l i e s t e x p l i c i t u s e o f t h e p r o c e s s w i t h w h i c h t h e a u t h o r i s f a m i l i a r .A l t h o u g h a r r i v e d a t i n i g n o r a n c e o f S e b e s t y e n ' s w o r k , t h e s u g g e s t i o n s we m a k ei n s e c t i o n s 3 . 1 , 3 . 2 , a n d 3 . 3 , a r e a n t i c i p a t e d i n S e b e s t y e n ' s m o n o g r a p h .2 . K - m e a n s ; a s y m p t o t i c b e h a v i o r

    2 . 1 . P r e l i m i n a r i e s . L e t z i , Z 2 , - - - b e a r a n d o m s e q u e n c e o f p o i n t s ( v e c t o r s ) i nE N , e a c h p o i n t b e i n g s e l e c t e d i n d e p e n d e n t l y o f t h e p r e c e d i n g o n e s u s i n g a f i x e dp r o b a b i l i t y m e a s u r e p . T h u s P [ z i e A ] = p ( A ) a n d P [ z n + l e A I z i , Z 2 , * - , Z n ] =

  • 8/8/2019 1967 - Some Methods for Classification and Analysis OfMultivariate Observation

    3/17

    MULTIVARIATE OBSERVATIONS 283p ( A ) , n = 1 , 2 , * - - , f o r A a n y m e a s u r a b l e s e t i n E N . R e l a t i v e t o a g i v e nk - t u p l e X = ( X 1 , X 2 , * , X k ) , x i E E N , i = 1 , 2 , * * * , k , w e d e f i n e a m i n i m u md i s t a n c e p a r t i t i o n S ( x ) = { S I ( X ) , S 2 ( X ) , * , S k ( X ) } o f E N , b y( 2 . 1 ) S I ( x ) = T I ( x ) , S 2 ( x ) = T 2 ( x ) S 1 ( x ) , *-,S k ( X ) = T k ( X ) S ( X ) S 2 ( X ) * . * . * S k - l ( X ) ,w h e r e( 2 . 2 ) T i ( x ) = { E:E N , I | - x i l < 1 - x j l , j = 1 , 2 , , k } .T h e s e t S i ( x ) c o n t a i n s t h e p o i n t s i n EN n e a r e s t t o x i , w i t h t i e d p o i n t s b e i n g a s -s i g n e d a r b i t r a r i l y t o t h e s e t o f l o w e r i n d e x . N o t e t h a t w i t h t h i s c o n v e n t i o n c o n -c e r n i n g t i e d p o i n t s , i f x i = x j a n d i < j t h e n S j ( x ) = 0. S a m p l e k - m e a n s= 2 k* x x ) , e E N , i = 1 , * , k , w i t h a s s o c i a t e d i n t e g e r w e i g h t sl " 2 k* W 8 ) a r e now d e f i n e d a s f o l l o w s : x 1 = Z i , = 1 , i = 1 , 2 , , k , a n dfo r n = 1 , 2 , * , i f Zk+n e Stxi = ( W t 4 t + Z n + k ) / ( W l +1 ) , W t + l - Wt + ,a n d x j " + ' = x 4 n , w i + 1 = w i n f o r j $ i , w h e r e S n = { S n , S n , * *S k} i s t h e m i n i -m um d i s t a n c e p a r t i t i o n r e l a t i v e t o x " .S t a t e d i n f o r m a l l y , t h e k - m e a n s p r o c e d u r e c o n s i s t s o f s i m p l y s t a r t i n g w i t h kg r o u p s e a c h o f w h i c h c o n s i s t s o f a s i n g l e r a n d o m p o i n t , a n d t h e r e a f t e r a d d i n ge a c h n e w p o i n t t o t h e g r o u p w h o s e m e a n t h e n e w p o i n t i s n e a r e s t . A f t e r a p o i n ti s a d d e d t o a g r o u p , t h e m e a n o f t h a t g r o u p i s a d j u s t e d i n o r d e r t o t a k e a c c o u n t o ft h e n e w p o i n t . T h u s a t e a c h s t a g e t h e k - m e a n s a r e , i n f a c t , t h e m e a n s o f t h e g r o u p st h e y r e p r e s e n t ( h e n c e t h e t e r m k - m e a n s ) .

    I n s t u d y i n g t h e a s y m p t o t i c b e h a v i o r o f t h e k - m e a n s , w e m a k e t h e c o n v e n i e n ta s s u m p t i o n s , ( i ) p i s a b s o l u t e l y c o n t i n u o u s w i t h r e s p e c t t o L e b e s g u e m e a s u r eo n E N , a n d ( i i ) p ( R ) = 1 f o r a c l o s e d a n d b o u n d e d c o n v e x s e t R C E N , a n dp ( A ) > 0 f o r e v e r y o p e n s e t A C R . F o r a g i v e n k - t u p l e x = ( x l , x 2 , ,k)-s u c h a n e n t i t y b e i n g r e f e r r e d t o h e r e a f t e r a s a k - p o i n t - l e t

    kW ( X ) = i i j s I Z - X i 2 d p ( z ) ,( 2 . 3 ) k V ( X ) = i . I z| - u i ( x ) 1 2 d p ( z ) ,w h e r e S = { S 1 , S 2 , * , S k } i s t h e minimum d i s t a n c e p a r t i t i o n r e l a t i v e t o x , a n du i ( x ) = s i z d p ( z ) / p ( S i ) o r u i ( x ) = x i , a c c o r d i n g t o w h e t h e r p ( S i ) > 0 o rp ( S i ) = 0 . I f x i = u i ( x ) , i = 1 , 2 , * , k we s a y t h e k - p o i n t x i s u n b i a s e d .T h e p r i n c i p a l r e s u l t i s a s f o l l o w s .THEOREM 1 . T h e s e q u e n c e o f r a n d o m v a r i a b l e s W ( x l ) , W ( x 2 ) , * - - c o n v e r g e sa . s . a n d W . = l i m " , . W ( x n ) i s a . s . e q u a l t o V ( x ) f o r s o m e x i n t h e c l a s s o f k - p o i n t sX = ( X l X 2 2, * , X k ) w h i c h a r e u n b i a s e d , a n d h a v e t h e p r o p e r t y t h a t x i # x j i f i $ j .I n l i e u o f a s a t i s f a c t o r y s t r o n g l a w o f l a r g e n u m b e r s f o r k - m e a n s , w e o b t a i n t h ef o l l o w i n g t h e o r e m .THEOREM 2 . L e t U n ' = U , ( X n ) a n d p n = p ( S , ( x n ) ) ; t h e n( 2 . 4 ) E ( Et i x t - u ) / m -O a s m -> o o .n=l i=l I I a . s .

  • 8/8/2019 1967 - Some Methods for Classification and Analysis OfMultivariate Observation

    4/17

    284 FIFTH BERKELEY SYMPOSIUM: MAC QUEEN2 . 2 . P r o o f s . T h e s y s t e m o f k - p o i n t s f o r m s a c o m p l e t e m e t r i c s p a c e i f t h e d i s -

    t a n c e p ( x , y ) b e t w e e n t h e k - p o i n t s x = ( x l , x 2 , * * * , X k ) a n d y = ( Y I , Y 2 , * * * , y k ) 'i s d e f i n e d b y p ( x , y ) = S k - 1 x i - y i l . We d e s i g n a t e t h i s s p a c e b y M a n d i n t e r -p r e t c o n t i n u i t y , l i m i t s , c o n v e r g e n c e , n e i g h b o r h o o d s , a n d s o o n , i n t h e u s u a l w a yw i t h r e s p e c t t o t h e m e t r i c t o p o l o g y o f M . O f c o u r s e , e v e r y b o u n d e d s e q u e n c e o fk - p o i n t s c o n t a i n s a c o n v e r g e n t s u b s e q u e n c e .C e r t a i n d i f f i c u l t i e s e n c o u n t e r e d i n t h e p r o o f o f t h e o r e m 1 a r e c a u s e d b y t h ep o s s i b i l i t y o f t h e l i m i t o f a c o n v e r g e n t s e q u e n c e o f k - p o i n t s h a v i n g s o m e o f i t sc o n s t i t u e n t p o i n t s e q u a l t o e a c h o t h e r . W i t h t h e e n d i n v i e w o f c i r c u m v e n t i n gt h e s e d i f f i c u l t i e s , s u p p o s e t h a t f o r a g i v e n k - p o i n t x = ( X 1 , X 2 , * - * , X k ) , x i e R ,i = 1 , 2 , * * , k , we h a v e x i = x j f o r a c e r t a i n p a i r i , j , i < j , a n d x i = x i 5 = x mf o r m 5 $ i , j . T h e p o i n t s x i a n d x j b e i n g d i s t i n c t i n t h i s w a y , a n d c o n s i d e r i n ga s s u m p t i o n ( i i ) , w e n e c e s s a r i l y h a v e p ( S i ( x ) ) > 0 , f o r S i ( x ) c e r t a i n l y c o n t a i n sa n o p e n s u b s e t o f R . T h e c o n v e n t i o n c o n c e r n i n g t i e d p o i n t s m e a n s p ( S j ( x ) ) = 0 .N o w i f { y n } = { ( y l , y 2 , * , y k ) } i s a s e q u e n c e o f k - p o i n t s s a t i s f y i n g y ' e R ,a n d y i $ Y J i f i $ j , n = 1 , 2 , * , a n d t h e s e q u e n c e y n a p p r o a c h e d x , t h e n y ?a n d y j a p p r o a c h x i = x ; , a n d h e n c e e a c h o t h e r ; t h e y a l s o a p p r o a c h t h e b o u n d a r i e so f S , ( y n ) a n d S j ( y n ) i n t h e v i c i n i t y o f x i . T h e c o n d i t i o n a l m e a n s u 1 ( y n ) a n d u j ( y n ) ,h o w e v e r , m u s t r e m a i n i n t h e i n t e r i o r o f t h e s e t s S , ( y n ) a n d S j ( y n ) r e s p e c t i v e l y ,a n d t h u s t e n d t o b e c o m e s e p a r a t e d f r o m t h e c o r r e s p o n d i n g p o i n t s y ' a n d y J . I nf a c t , f o r e a c h s u f f i c i e n t l y l a r g e n , t h e d i s t a n c e o f U , ( y n ) f r o m t h e b o u n d a r y o fS i ( y n ) o r t h e d i s t a n c e o f u , ( y n ) f r o m t h e b o u n d a r y o f S j ( y n ) , w i l l e x c e e d a c e r t a i np o s i t i v e n u m b e r . F o r a s n t e n d s t o i n f i n i t y , p ( S i ( y n ) ) + p ( S j ( y n ) ) w i l l a p p r o a c hp ( S i ( x ) ) > 0 -a s i m p l e c o n t i n u i t y a r g u m e n t b a s e d o n t h e a b s o l u t e c o n t i n u i t yo f p w i l l e s t a b l i s h t h i s - a n d f o r e a c h s u f f i c i e n t l y l a r g e n , a t l e a s t o n e o f t h e p r o b a -b i l i t i e s p ( S 1 ( y n ) ) o r p ( S j ( y n ) ) w i l l b e p o s i t i v e b y a d e f i n i t e a m o u n t , s a y 6 . B u t i nv i e w o f t h e b o u n d e d n e s s o f R , a c o n v e x s e t o f p m e a s u r e a t l e a s t a > 0 c a n n o th a v e i t s c o n d i t i o n a l m e a n a r b i t r a r i l y n e a r i t s b o u n d a r y . T h i s l i n e o f r e a s o n i n g ,w h i c h e x t e n d s i m m e d i a t e l y t o t h e c a s e w h e r e s o m e t h r e e o r m o r e m e m b e r s o f( x I , x 2 , * * * , X k ) a r e e q u a l , g i v e s u s t h e f o l l o w i n g l e m m a .LEMMA 1 . L e t x = ( X 1 , X 2 , * , X k ) b e t h e l i m i t o f a c o n v e r g e n t s e q u e n c e o fk - p o i n t s { y l } = { ( y i , Y 2 , * . * , y k ) } s a t i s f y i n g y ? E R , y ' F 6 y j i f i $ j , n = 1 , 2 ,I f x i = x j f o r s o m e i $ j , t h e n l i m i n f n 1 t p ( S i ( y n ) ) | y t - U j ( y n ) > 0 .H e n c e , i f l i m n ~ , p ( S i ( y " ) ) I y k - u , ( y 8 ) = 0 , e a c h m e m b e r o f t h e k - t u p l e( X 1 , X 2 , - - * X k ) i s d i s t i n c t f r o m t h e o t h e r s .We r e m a r k t h a t i f e a c h m e m b e r o f t h e k - t u p l e x = ( x I , x 2 , * , X k ) i s d i s t i n c tf r o m t h e o t h e r s , t h e n 7 r ( y ) = ( p ( S I ( y ) ) , p ( S 2 ( y ) ) , * - , p ( S k ( y ) ) ) , r e g a r d e d a s am a p p i n g o f M o n t o E k , i s c o n t i n u o u s a t x - t h i s f o l l o w s d i r e c t l y f r o m t h e a b s o l u t ec o n t i n u i t y o f p . S i m i l a r l y , u ( y ) = ( u 1 ( y ) , u 2 ( y ) , * * * , u k ( y ) ) r e g a r d e d a s a m a p -p i n g f r o m M o n t o M i s c o n t i n u o u s a t x - b e c a u s e o f t h e a b so l u t e c o n t i n u i t y o f pa n d t h e b o u n d n e s s o f R ( f i n i t e n e s s o f f z d p ( z ) w o u l d d o ) . P u t t i n g t h i s r e m a r kt o g e t h e r w i t h l e m m a 1 , w e g e t l e m m a 2 .LEMMA 2 . L e t x = ( X 1 , X 2 , . . .*, X k ) b e t h e l i m i t o f a c o n v e r g e n t s e q u e n c e o fk - p o i n t s { y n } = { ( y l , y 2 , - * , y k ) } s a t i s f y i n g y t c R , y ? $ y 7 i f i $ j , n = 1 , 2 ,

  • 8/8/2019 1967 - Some Methods for Classification and Analysis OfMultivariate Observation

    5/17

    MULTIVARIATE OBSERVATIONS 2 8 5*--.If imn t=l p ( S ( y ) ) y - U i ( y n ) I = 0 , t h e n ,t=l p ( S i ( x ) ) x i - t u l ( x n ) [= 0 a n d e a c h p o i n t x i i n t h e k - t u p l e ( X 1 , X 2 , * , X k ) i s d i s t i n c t f r o m t h e o t h e r s .Lemmas 1 a n d 2 a b o v e a r e p r i m a r i l y t e c h n i c a l i n n a t u r e . T h e h e a r t o f t h ep r o o f s o f t h e o r e m s 1 a n d 2 i s t h e f o l l o w i n g a p p l i c a t i o n o f m a r t i n g a l e t h e o r y .LEMMA 3 . L e t t 1 , t 2 , * , a n d t i , t 2 y . . . , b e g i v e n s e q u e n c e s o f r a n d o m v a r i a b l e s ,a n d f o r e a c h n = 1 , 2 , , l e t t , n a n d t n b e m e a s u r a b l e w i t h r e s p e c t t o j . w h e r e# 1 C / 2 C . . . i s a m o n o t o n e i n c r e a s i n g s e q u e n c e o f a - f i e l d s ( b e l o n g i n g t o t h e u n d e r -l y i n g p r o b a b i l i t y s p a c e ) . S u p p o s e e a c h o f t h e f o l l o w i n g c o n d i t i o n s h o l d s a . s . :

    ( i ) I t n i < K < o o , ( i i ) n> 0 , n < - , ( i i i ) E ( t n + 1 1 1 3 n ) < t n + t . . T h e n t h e s e -q u e n c e s o f r a n d o m v a r i a b l e s t 1 , t 2 , a n d s o , s 1 , 2 , - - , w h e r e s o = 0 a n dS n = Et = 1 ( t i - E ( t + i ! 1 0 ) , n = 1 , 2 , , b o t h c o n v e r g e a . s .P R O O F . L e t y n = t n + s n _ - s o t h a t t h e y n f o r m a m a r t i n g a l e s e q u e n c e . L e t cb e a p o s i t i v e n u m b e r a n d c o n s i d e r t h e s e q u e n c e { f 9 } o b t a i n e d b y s t o p p i n g y n( s e e D o o b [ 3 ] , p . 3 0 0 ) a t t h e f i r s t n f o r w h i c h y n < - c . From ( i i i ) wes e e t h a t y n > - = i - K , a n d s i n c e y n - Y n - 1 > 2 K , we h a v e y n >max ( - F t ' = l - K , -( c + 2 K ) ) . T h e s e q u e n c e { y } i s a m a r t i n g a l e , s o t h a tE y n = E 9 1 , n = 1 , 2 , * , a n d b e i n g b o u n d e d f r o m b e l o w w i t h E l g i l . K , c e r -t a i n l y s u p n E I 9 n I < o o . T h e m a r t i n g a l e t h e o r e m ( [ 3 ] , p . 3 1 9 ) s h o w s 9 n c o n v e r g e sa . s . B u t Y n = y n o n t h e s e t A c w h e r e i> -c-K, i = 1 , 2 ,* * * , a n d( i i ) i m p l i e s P [ A , ] - + 1 a s c -oo. T h u s { y n } c o n v e r g e a . s . T h i s mea n s S n = y n + 1- t n + i i s a . s . b o u n d e d . U s i n g ( i i i ) w e c a n w r i t e - S n = E t = l { Aw h e r e A i 2 0 . B u t s i n c e S n a n d E l { i a r e a . s . b o u n d e d , E , A i c o n v e r g e s a . s . , S nc o n v e r g e s a . s . , a n d f i n a l l y , s o d o e s t n . T h i s c o m p l e t e s t h e p r o o f .T u r n i n g now t o t h e p r o o f o f t h e o r e m 1 , l e t ( O n s t a n d f o r t h e s e q u e n c e z 1 , Z 2 , * * *Z n - l + k , a n d l e t A l b e t h e e v e n t [ Z n + k e S n ] . S i n c e S n + 1 i s t h e minimum d i s t a n c ep a r t i t i o n r e l a t i v e t o x n + , we h a v e( 2 . 5 ) E [ W ( X n + l ) I l w n ] = E [ f , XZ|- x + , I 2 d p ( Z ) I c o n ]

    S < E [ i k f z - x n + y2 d p ( z ) l W 1 n ]k -k 1= E - X n + 1 1 2 d p ( z ) I A n X Pj = 1 E Ji Z=Wj

    I f Z n + k E 8 7 , x' = x i f o r i F d j . T h u s we o b t a i n( 2 . 6 ) E [ W ( X n + l ) , . n ] < ( x n ) - E ( f X Z -n 4 2 d p ( z ) ) p 2

    + E E [ f | s I z - 4 + 1 1 2 d p ( z ) # A 7 , i W n ] p j .S e v e r a l a p p l i c a t i o n s o f t h e r e l a t i o n f A I z - X 1 2 d p ( z ) = f A I z - U 1 2 d p ( z ) +p ( A ) l x - u 1 2 , w h e r e J A ( u - z ) d p ( z ) = 0 , e n a b l e s u s t o w r i t e t h e l a s t t e r m i n( 2 . 6 ) a s

  • 8/8/2019 1967 - Some Methods for Classification and Analysis OfMultivariate Observation

    6/17

    2 8 6 FIFTH BERKELEY SYMPOSIUM: MAC QUEENk( 2 . 7 ) W [ f ~ , ,~ I z - x 1 j 2 d p ( z ) p i - ( p i ) 2 x J - U [ 26=1 S i+ ( p 7 ) 2 | X J -u 7 1 2 ( W j / ( W n + 1 ) ) 2 + f s I Z -U j 1 2 d p ( z ) p j / ( w j + 1 ) 2 1 .

    C o m b i n i n g t h i s w i t h ( 2 . 6 ) , w e g e tk( 2 . 8 ) E ( W ( x n + l ) I W n ] < W ( x n ) - E 4 X -u Y l 2 ( p 7 ) 2 ( 2 w j + l ) / ( w j + 1 ) 2j = 1k+ 7 2 * , j ( p j n ) 2 / ( W n + 1 ) 2 ,6 = 1w h e r e a n j = f S , I Z - U 7 1 2 d p ( z ) / p j 7 .S i n c e w e a r e a s s u m i n g p ( R ) = 1 , c e r t a i n l y W ( x n ) i s a . s . b o u n d e d , a s i s n , j .We no w s h o w t h a t

    ( 2 . 9 ) E ( p f n ) 2 / ( w 7 " + 1 ) 2nc o n v e r g e s a . s . f o r e a c h j = 1 , 2 , * * * , k , t h e r e b y s h o w i n g t h a t( 2 . 1 0 ) E [ o j ( p 7 ) 2 / ( w n + 1 ) 2 ] )n j=1c o n v e r g e s a . s . T h e n l e m m a 3 c a n b e a p p l i e d w i t h t n = W ( x n ) a n d , n =E k 1 2 f , j ( p 7 ) 2 / ( W 7 + 1 ) 2 .I t s u f f i c e s t o c o n s i d e r t h e c o n v e r g e n c e o f( 2 . 1 1 ) E ( p j ) 2 / [ Q 3 + 1 + W n ) ( 3 + 1 + W+ 1 ) ]n > 2w i t h A > 0 , s i n c e t h i s i m p l i e s c o n v e r g e n c e o f ( 2 . 9 ) . A l s o , t h i s i s c o n v e n i e n t , f o rE ( I , l W n ) = p j w h e r e I 7 i s t h e c h a r a c t e r i s t i c f u n c t i o n o f t h e e v e n t [ z n + k E 8 7 ] ,a n d o n n o t i n g t h a t w j -+ 1 + , t = 1 j , an a p p l i c a t i o n o f t h e o r e m 1 i n [ 4 ] ,p . 2 7 4 , s a y s t h a t f o r a n y p o s i t i v e n u m b e r s a a n d j 3 ,( 2 . 1 2 ) P d + 1 + w j + 1 > 1 + , p j - a a,j f f o r a l l n = 1 , 2 , * * I_L=li=l-

    > 1-(1 + a / 3 ) ' ,w h e r e v t = p J -( p 5 ) 2 i s t h e c o n d i t i o n a l v a r i a n c e o f I t g i v e n c i . We t a k e a = 1 ,a n d t h u s w i t h p r o b a b i l i t y a t l e a s t 1 - ( 1 + f ) - I t h e s e r i e s ( 2 . 1 1 ) i s d o m i n a t e d b y( 2 . 1 3 ) E(p")2/[(1 + ( p j ) 2 ) 2 + E ( p f )2]2.13) n > 2 IL\+

    = E 4[J&+ E ( p f ) )12 1 + n ( P ) 2 ) ] 'n>2L/-w h i c h c l e a r l y c o n v e r g e s .T h e c h o i c e o f 3 b e i n g a r b i t r a r y , we h a v e s h o w n t h a t ( 2 . 9 ) c o n v e r g e s a . s .A p p l i c a t i o n o f lemma 3 a s i n d i c a t e d a b o v e p r o v e s W ( x n ) c o n v e r g e s a . s .To i d e n t i f y t h e l i m i t W . O , n o t e t h a t w i t h t n a n d , n t a k e n a s a b o v e , l e m m a 3

  • 8/8/2019 1967 - Some Methods for Classification and Analysis OfMultivariate Observation

    7/17

    MULTIVARIATE OBSERVATIONS 287e n t a i l s a . s . c o n v e r g e n c e o f E n [ W ( x n ) - E [ W ( x n + ' ) i c o . ] ] , a n d h e n c e ( 2 . 8 ) i m p l i e sa . s . c o n v e r g e n c e o f( 2 . 1 4 ) E ( E X n - . j 2 ( p n ) 2 ( 2 W 7 + l ) / ( w 7 + 1 ) 2 )S i n c e ( 2 . 1 4 ) d o m i n a t e s ,n Pl7 X n - u j ) / k n , t h e l a t t e r c o n v e r g e s a . s . ,a n d a l i t t l e c o n s i d e r a t i o n m a k e s i t c l e a r t h a t

    k k( 2 . 1 5 ) E p n l X n - u j l l = E p ( S j ( x n ) ) I X J - u j ( x n ) lj = 1 j =1c o n v e r g e s t o z e r o o n a s u b s e q u e n c e { x n } a n d t h a t t h i s s u b s e q u e n c e h a s i t s e l f ac o n v e r g e n t s u b s e q u e n c e , s a y { x n ' } . L e t x = ( x , , x 2 , . . . ,) X k ) = l i m t , . x n v . S i n c eW ( X ) = V ( X ) + E k = , p ( S j ( X ) ) I X j - U ( X ) 2 a n d i n p a r t i c u l a r ,( 2 . 1 6 ) W ( x , ) = V ( x n ) + E p ( S j ( x n ) ) J x j n - u ( x j 7 ) 1 2 ,j=1we h a v e o n l y t o s h o w

    ( a ) l i m t , . W ( x n ' ) = W O , = W ( x ) , a n d( b ) l i m n + 0 Y , = , I p ( S j ( x n t ) ) l X 7 ' - u ( x , ) 1 2 = 0 = F l = I p ( S j ( x ) ) x j - u j ( x ) I 2 .T h e n W ( x ) = V ( x ) a n d x i s a . s . u n b i a s e d . ( O b v i o u s l y , _ t = 1 p i l a i l = 0 i f a n do n l y i f Y _ i t = , p i 4 a i j 2 = 0 , w h e r e p i > 0 . )We s h o w t h a t ( a ) i s t r u e b y e s t a b l i s h i n g t h e c o n t i n u i t y o f W ( x ) . We h a v e

    k( 2 . 1 7 ) W ( x ) < E ] Z( - X j I 2 d p ( z )k k- E S i ( z-yJ2 E [ p ( S j ( y ) ) I X j y j - 2j = 1 ~ ~ ~ j = 1

    + 2 l x j - y j l L s ( y ) ! z - x j l d p ( z ) ] ,w i t h t h e l a s t i n e q u a l i t y f o l l o w i n g e a s i l y f r o m t h e t r i a n g l e i n e q u a l i t y . T h u sW ( x ) < W ( y ) + o ( p ( x , y ) ) , a n d s i m i l a r l y , W ( y ) < W ( x ) + o ( p ( x , y ) ) .To e s t a b l i s h ( b ) , l e m m a 2 c a n b e a p p l i e d w i t h { y n } a n d { x - } i d e n t i f i e d , f o ra . s . x i ' $4X j ' f o r i 5 - j , n = 1 , 2 , * - - . I t r e m a i n s t o r e m a r k t h a t l e m m a 2 a l s oi m p l i e s a . s . x i # d x j f o r i $ - j . T h e p r o o f o f t h e o r e m 1 i s c o m p l e t e .T h e o r e m 2 f o l l o w s f r o m t h e a . s . c o n v e r g e n c e o f 5 7 n ( F t = 1 p X t n- u i ) / n ku p o n a p p l y i n g a n e l e m e n t a r y r e s u l t ( c . f . H a l m o s [ 8 ] , t h e o r e m C , p . 2 0 3 ) , w h i c hs a y s t h a t i f E a n / n c o n v e r g e s , _ i . 1 a i / n - - 0 .2 . 3 . R e m a r k s . I n a n u m b e r o f c a s e s c o v e r e d b y t h e o r e m 1 , a l l t h e u n b i a s e dk - p o i n t s h a v e t h e s a m e v a l u e o f W. I n t h i s s i t u a t i o n , t h e o r e m 1 i m p l i e sE k = 1 p 1 i U t c o n v e r g e s a . s . t o z e r o . A n e x a m p l e i s p r o v i d e d b y t h e u n i f o r md i s t r i b u t i o n o v e r a d i s k i n E 2 . I f k = 2 , t h e u n b i a s e d k - p o i n t ( x l , x 2 ) w i t h x i $ d x 2c o n s i s t o f t h e f a m i l y o f p o i n t s x i a n d x 2 o p p o s i t e o n e a n o t h e r o n a d i a m e t e r , a n da t a c e r t a i n f i x e d d i s t a n c e f r o m t h e c e n t e r o f t h e d i s k . ( T h e r e i s o n e u n b i a s e dk - p o i n t w i t h x i = x 2 , b o t h x l a n d x 2 b e i n g a t t h e c e n t e r o f t h e d i s k i n t h i s c a s e . )

  • 8/8/2019 1967 - Some Methods for Classification and Analysis OfMultivariate Observation

    8/17

    288 FIFTH BERKELEY SYMPOSIUM: MAC QUEENT h e k - m e a n s t h u s c o n v e r g e t o s o m e s u c h r e l a t i v e p o s i t i o n , b u t t h e o r e m 1 d o e sn o t q u i t e p e r m i t u s t o e l i m i n a t e t h e i n t e r e s t i n g p o s s i b i l i t y t h a t t h e t w o m e a n so s c i l l a t e s l o w l y b u t i n d e f i n i t e l y a r o u n d t h e c e n t e r .T h e o r e m 1 p r o v i d e s f o r a . s . c o n v e r g e n c e o f E F = 1 p i l x i - u i l t o z e r o i n as l i g h t l y b r o a d e r c l a s s o f s i t u a t i o n s . T h i s i s w h e r e t h e u n b i a s e d k - p o i n t s x =( x I , X 2 , * * * , X k ) w i t h x i $ x i f o r i # = j , a r e a l l s t a b l e i n t h e s e n s e t h a t f o r e a c hs u c h x , W ( y ) 2 W ( x ) ( a n d h e n c e V ( y ) > V ( x ) ) f o r a l l y i n a n e i g h b o r h o o d o f x .I n t h i s c a s e , e a c h s u c h x f a l l s i n o n e o f f i n i t e l y many e q u i v a l e n c e c l a s s e s s u c ht h a t W i s c o n s t a n t o n e a c h c l a s s . T h i s i s i l l u s t r a t e d b y t h e a b o v e e x a m p l e , w h e r et h e r e i s o n l y a s i n g l e e q u i v a l e n c e c l a s s . I f e a c h o f t h e e q u i v a l e n c e c l a s s e s c o n t a i n so n l y a s i n g l e p o i n t , t h e o r e m 1 i m p l i e s a . s . c o n v e r g e n c e o f x n t o o n e o f t h o s e p o i n t s .T h e r e a r e u n b i a s e d k - p o i n t s w h i c h a r e n o t s t a b l e . T a k e a d i s t r i b u t i o n o n E 2w h i c h h a s s h a r p p e a k s o f p r o b a b i l i t y a t e a c h c o r n e r o f a s q u a r e , a n d i s s y m m e t r i ca b o u t b o t h d i a g o n a l s . W i t h k = 2 , t h e t w o c o n s t i t u e n t p o i n t s c a n b y s y m -m e t r i c a l l y l o c a t e d o n a d i a g o n a l s o t h a t t h e b o u n d a r y o f t h e a s s o c i a t e d m i n i m u md i s t a n c e p a r t i t i o n c o i n c i d e s w i t h t h e o t h e r d i a g o n a l . W i t h s o m e a d j u s t m e n t , s u c ha k - p o i n t c a n b e m a d e t o b e u n b i a s e d , a n d i f t h e p r o b a b i l i t y i s s u f f i c i e n t l y c o n -c e n t r a t e d a t t h e c o r n e r s o f t h e s q u a r e , a n y s m a l l m o v e m e n t o f t h e t w o p o i n t s o f ft h e d i a g o n a l i n o p p o s i t e d i r e c t i o n s , r e s u l t s i n a d e c r e a s e i n W ( x ) . I t s e e m s l i k e l yt h a t t h e k - m e a n s c a n n o t c o n v e r g e t o s u c h a c o n f i g u r a t i o n .

    F o r a n e x a m p l e w h e r e t h e k - m e a n s c o n v e r g e w i t h p o s i t i v e p r o b a b i l i t y t o ap o i n t x f o r w h i c h V ( x ) i s n o t a m i n i m u m , t a k e e q u a l p r o b a b i l i t i e s a t t h e c o r n e rp o i n t s o f a r e c t a n g l e w h i c h i s j u s t s l i g h t l y l o n g e r o n o n e s i d e t h a n t h e o t h e r .N u m b e r w i t h 1 t h e c o r n e r p o i n t s , a n d 2 a t t h e e n d p o i n t s o f o n e o f t h e s h o r te d g e s , a n d 3 a n d 4 , a t t h e e n d p o i n t s o f t h e o t h e r s h o r t e d g e , w i t h 1 o p p o s i t e 3o n t h e l o n g e d g e . T a k e k = 2 . I f t h e f i r s t f o u r p o i n t s f a l l a t t h e c o r n e r p o i n t s1 , 2 , 3 , 4 i n t h a t o r d e r , t h e t w o m e a n s a t t h i s s t a g e a r e d i r e c t l y o p p o s i t e o n ea n o t h e r a t t h e m i d d l e o f t h e l o n g e d g e s . N ew p o i n t s f a l l i n g a t 1 a n d 3 w i l l a l w a y sb e n e a r e r t h e f i r s t m e a n , a n d p o i n t s f a l l i n g a t 2 a n d 4 w i l l a l w a y s b e n e a r e r t h es e c o n d m e a n , u n l e s s o n e o f t h e m e a n s h a s a n e x c u r s i o n t o o n e a r o n e o f t h e c o r n e rp o i n t s . By t h e s t r o n g l a w o f l a r g e n u m b e r s t h e r e i s p o s i t i v e p r o b a b i l i t y t h i s w i l ln o t h a p p e n , a n d h e n c e w i t h p o s i t i v e p r o b a b i l i t y t h e t w o m e a n s w i l l c o n v e r g e t ot h e m i d p o i n t s o f t h e l o n g e d g e s . T h e c o r r e s p o n d i n g p a r t i t i o n c l e a r l y d o e s n o th a v e m i n i m u m w i t h i n - c l a s s v a r i a n c e .3 . A p p l i c a t i o n s

    3 . 1 . S i m i l a r i t y g r o u p i n g : c o a r s e n i n g a n d r e f i n i n g . P e r h a p s t h e m o s t o b v i o u sa p p l i c a t i o n o f t h e k - m e a n s p r o c e s s i s t o t h e p r o b l e m o f " s i m i l a r i t y g r o u p i n g " o r" c l u s t e r i n g . " T h e p o i n t o f v i e w t a k e n i n t h i s a p p l i c a t i o n i s n o t t o f i n d s o m eu n i q u e , d e f i n i t i v e g r o u p i n g , b u t r a t h e r t o s i m p l y a i d t h e i n v e s t i g a t o r i n o b t a i n i n gq u a l i t a t i v e a n d q u a n t i t a t i v e u n d e r s t a n d i n g o f l a r g e a m o u n t s o f N - d i m e n s i o n a ld a t a b y p r o v i d i n g h i m w i t h r e a s o n a b l y g o o d s i m i l a r i t y g r o u p s . T h e m e t h o ds h o u l d b e u s e d i n c l o s e i n t e r a c t i o n w i t h t h e o r y a n d i n t u i t i o n . C o n s e q u e n t l y , t h e

  • 8/8/2019 1967 - Some Methods for Classification and Analysis OfMultivariate Observation

    9/17

    MU LT IV AR I AT E OBSERVATIONS 289c o m p u t e r p r o g r a m a c t u a l l y p r e p a r e d f o r t h i s p u r p o s e i n v o l v e d s e v e r a l m o d i f i -c a t i o n s o f t h e k - m e a n s p r o c e s s , m o d i f i c a t i o n s w h i c h a p p e a r t o b e h e l p f u l i n t h i ss e n s e .F i r s t , t h e p r o g r a m i n v o l v e s t w o p a r a m e t e r s : C f o r ' c o a r s e n i n g , ' a n d R f o r' r e f i n e m e n t . ' T h e p r o g r a m s t a r t s w i t h a u s e r s p e c i f i e d v a l u e o f k , a n d t a k es t h ef i r s t k p o i n t s i n t h e s a m p l e a s i n i t i a l m e a n s . T h e k - m e a n s p r o c e s s i s s t a r t e d , e a c hs u b s e q u e n t s a m p l e p o i n t b e i n g a s s i g n e d t o t h e n e a r e s t m e a n , t h e n e w meanc o m p u t e d , a n d s o o n , e x c e p t t h a t a f t e r e a c h n e w p o i n t i s a d d e d , a n d f o r t h ei n i t i a l m e a n s a s w e l l , t h e p r o g r a m d e t e r m i ne s t h e p a i r o f m e a n s w h i c h a r en e a r e s t t o e a c h o t h e r a m o n g a l l p a i r s . I f t h e d i s t a n c e b e t w e e n t h e m e m b e r s o ft h i s p a i r i s l e s s t h a n C , t h e y a r e a v e r a g e d t o g e t h e r , u s i n g t h e i r r e s p e c t i v e w e i g h t s ,t o f o r m a s i n g l e m e a n . T h e n e a r e s t p a i r i s a g a i n d e t e r mi ne d , t h e i r s e p a r a t i o nc o m p a r e d w i t h C , a n d s o o n , u n t i l a l l t h e m e a n s a r e s e p a r a t e d b y a n a m o u n t o fC o r m o r e . T h u s k i s r e d u c e d a n d t h e p a r t i t i o n d e f i n e d b y t h e m e a n s i s c o a r s e n e d .I n a d d i t i o n , a s e a c h new p o i n t i s p r o c e s s e d a n d i t s d i s t a n c e f r o m t h e n e a r e s t o ft h e c u r r e n t m e a n s d e t e r m i n e d , t h i s d i s t a n c e i s c o m p a r e d w i t h R . I f t h e newp o i n t i s f o u n d t o b e f u r t h e r t h a n R f f r o m t h e n e a r e s t m e a n , i t i s l e f t b yi t s e l f a s t h e s e e d p o i n t f o r a n e w m e a n . T h u s k i s i n c r e a s e d a n d t h e p a r t i t i o n i sr e f i n e d . O r d i n a r i l y w e t a k e C < R . A f t e r t h e e n t i r e s a m p l e i s p r o c e s s e d i n t h i sw a y , t h e p r o g r a m g o e s b a c k a n d r e c l a s s i f i e s a l l t h e p o i n t s o n t h e b a s i s o f n e a r n e s st o t h e f i n a l m e a n s . T h e p o i n t s t h u s a s s o c i a t e d w i t h e a c h mean c o n s t i t u t e s t h ef i n a l g r o u p i n g . T h e p r o g r a m p r i n t s o u t t h e p o i n t s i n e a c h g r o u p a l o n g w i t h a sm a n y a s 1 8 c h a r a c t e r s o f i d e n t i f y i n g i n f o r m a t i o n w h i c h m a y b e s u p p l i e d w i t he a c h p o i n t . T h e d i s t a n c e o f e a c h p o i n t f r o m i t s n e a r e s t m e a n , t h e d i s t a n c e sb e t w e e n t h e m e a n s , t h e a v e r a g e f o r e a c h g r o u p , o f t h e s q u a r e d d i s t a n c e o f t h ep o i n t s i n e a c h g r o u p f r o m t h e i r r e s p e c t i v e d e f i n i n g m e a n s , a n d t h e g r a n d a v e r a g eo f t h e s e q u a n t i t i e s o v e r g r o u p s , a r e a l l p r i n t e d o u t . T h e l a t t e r q u a n t i t y , w h i c h i sn o t q u i t e t h e w i t h i n - g r o u p v a r i a n c e , i s c a l l e d t h e w i t h i n - c l a s s v a r i a t i o n f o r p u r -p o s e s o f t h e d i s c u s s i o n b e l o w . I f r e q u e s t e d , t h e p r o g r a m d e t e r m i n e s f r e q u e n c i e so f o c c u r r e n c e w i t h i n e a c h g r o u p o f t h e v a l u e s o f d i s c r e t e v a r i a b l e s a s s o c i a t e dw i t h e a c h p o i n t . Up t o t w e l v e v a r i a b l e s , w i t h t e n v a l u e s f o r e a c h v a r i a b l e , c a nb e s u p p l i e d . T h i s m a k e s i t c o n v e n i e n t t o d e t e r m i n e w h e t h e r o r n o t t h e g r o u p sf i n a l l y o b t a i n e d a r e r e l a t e d t o o t h e r a t t r i b u t e s o f i n t e r e s t . ( C o p i e s o f t h i se x p e r i m e n t a l p r o g r a m a r e a v a i l a b l e f r o m t h e a u t h o r o n r e q u e s t . )T h e p r o g r a m h a s b e e n a p p l i e d w i t h s o m e s u c c e s s t o s e v e r a l s a m p l e s o f r e a ld a t a , i n c l u d i n g a s a m p l e o f f i v e d i m e n s i o n a l o b s e r v a t i o n s o n t h e s t u d e n t s 'e n v i r o n m e n t i n 7 0 U . S . c o l l e g e s , a s a m p l e o f t w e n t y s e m a n t i c d i f f e r e n t i a lm e a s u r e m e n t s o n e a c h o f 3 6 0 c o m m o n w o r d s , a s a m p l e o f f i f t e e n d i m e n s i o n a lo b s e r v a t i o n s o n 7 6 0 d o c u m e n t s , a n d a s a m p l e o f f i f t e e n p h y s i o l o g i c a l o b s e r v a t i o n so n e a c h o f 5 6 0 h u m a n s u b j e c t s . W h i l e a n a l y s i s o f t h i s d a t a i s s t i l l c o n t i n u i n g ,a n d w i l l b e r e p o r t e d i n d e t a i l e l s e w h e r e , t h e m e a n i n g f u l n e s s o f t h e g r o u p s o b -t a i n e d i s s u g g e s t e d b y t h e i r o b v i o u s p e r t i n e n c e t o o t h e r i d e n t i f i a b l e p r o p e r t i e so f t h e o b j e c t s c l a s s i f i e d . T h i s w a s a p p a r e n t o n i n s p e c t i o n . F o r e x a m p l e , o n eg r o u p o f c o l l e g e s c o n t a i n e d R e e d , S w a r t h m o r e , A n t i o c h , O b e r l i n , a n d B r y n

  • 8/8/2019 1967 - Some Methods for Classification and Analysis OfMultivariate Observation

    10/17

    290 FIFTH BERKELEY SYMPOSIUM: MAC QUEENM a w r . A n o t h e r g r o u p c o n t a i n e d t h e U n i v e r s i t i e s o f M i c h i g a n , M i n n e s o t a ,A r k a n s a s , a n d I l l i n o i s , C o r n e l l , G e o r g i a T e c h , a n d P u r d u e . S e l e c t i n g a t r a n d o ma h a l f - d o z e n w o r d s f r o m s e v e r a l g r o u p s o b t a i n e d f r o m t h e s e m a n t i c d i f f e r e n t i a ld a t a , w e f i n d i n o n e g r o u p t h e w o r d s c a l m , d u s k y , l a k e , p e a c e , s l e e p , a n d w h i t e ;i n a n o t h e r g r o u p t h e w o r d s b e g g a r , d e f o r m e d , f r i g i d , l a g g i n g , l o w ; a n d i n a n o t h e rg r o u p t h e w o r d s s t a t u e , s u n l i g h t , t i m e , t r e e s , t r u t h f u l , w i s e .When t h e s a m p l e p o i n t s a r e r e a r r a n g e d i n a n e w r a n d o m o r d e r , t h e r e i s s o m ev a r i a t i o n i n t h e g r o u p i n g w h i c h i s o b t a i n e d . H o w e v e r , t h i s h a s n o t a p p e a r e d t ob e a s e r i o u s c o n c e r n . I n f a c t , w h e n t h e r e a r e w e l l s e p a r a t e d c l u s t e r s , a s d e -t e r m i n e d b y i n s p e c t i o n o f t h e b e t w e e n - m e a n d i s t a n c e s i n r e l a t i o n t o t h e w i t h i n -c l a s s v a r i a t i o n , r e p e a t e d r u n s g i v e v i r t u a l l y i d e n t i c a l g r o u p i n g s . M i n o r s h i f t s a r ed u e t o t h e u n a v o i d a b l e d i f f i c u l t y t h a t s o m e p o i n t s a r e l o c a t e d b e t w e e n c l u s t e r s .A d e g r e e o f s t a b i l i t y w i t h r e s p e c t t o t h e r a n d o m o r d e r i n w h i c h t h e p o i n t s a r ep r o c e s s e d i s a l s o i n d i c a t e d b y a t e n d e n c y f o r t h e w i t h i n - c l a s s v a r i a t i o n t o b es i m i l a r i n r e p e a t e d r u n s . T h u s w h e n a s a m p l e o f 2 5 0 p o i n t s i n f i v e d i m e n s i o n sw i t h k = 1 8 , w a s r u n t h r e e t i m e s , e a c h t i m e w i t h t h e p o i n t s i n a d i f f e r e n t r a n d o mo r d e r , t h e w i t h i n - c l a s s v a r i a t i o n ( s e e a b o v e ) c h a n g e d o v e r t h e t h r e e r u n s b y a tm o s t 7 % . A c e r t a i n a m o u n t o f s t a b i l i t y i s t o b e e x p e c t e d s i m p l y b e c a u s e t h ew i t h i n - c l a s s v a r i a t i o n i s t h e mean o f k d e p e n d e n t r a n d o m v a r i a b l e s h a v i n g t h ep r o p e r t y t h a t w h e n o n e g o e s u p t h e o t h e r s g e n e r a l l y g o d o w n . We c a n r e a s o n a b l ye x p e c t t h e w i t h i n - c l a s s s t a b i l i t y t o g e n e r a l l y i n c r e a s e w i t h k a n d t h e s a m p l e s i z e .A c t u a l l y , i t w i l l u s u a l l y b e d e s i r a b l e t o m a k e s e v e r a l r u n s , w i t h d i f f e r e n t v a l u e so f C a n d R , a n d p o s s i b l y a d d i n g , d e l e t i n g , o r r e s c a l i n g v a r i a b l e s , a n d s o o n , i na n e f f o r t t o u n d e r s t a n d t h e b a s i c s t r u c t u r e o f t h e d a t a . T h u s a n y i n s t a b i l i t i e s d u et o r a n d o m o r d e r i n g o f t h e s a m p l e w i l l b e q u i c k l y n o t e d . B e i n g a b l e t o m a k en u m e r o u s c l a s s i f i c a t i o n s c h e a p l y a n d t h e r e b y l o o k a t t h e d a t a f r o m a v a r i e t y o fd i f f e r e n t p e r s p e c t i v e s i s a n i m p o r t a n t a d v a n t a g e .A n o t h e r g e n e r a l f e a t u r e o f t h e k - m e a n s p r o c e d u r e w h i c h i s t o b e e x p e c t e d o ni n t u i t i v e g r o u n d s , a n d h a s b e en n o t e d i n p r a c t i c e , i s a t e n d e n c y f o r t h e m e a n s a n dt h e a s s o c i a t e d p a r t i t i o n t o a v o i d h a v i n g t h e e x t r e m e o f o n l y o n e o r t w o p o i n t s i na s e t . I n f a c t , t h e r e i s a n a p p r e c i a b l e t e n d e n c y f o r t h e f r e q u e n c y t o b e e v e n l ys p l i t o v e r g r o u p s . I f t h e r e a r e a f e w r e l a t i v e l y l a r g e g r o u p s , t h e s e t e n d t o h a v er e l a t i v e l y l o w w i t h i n - c l a s s v a r i a t i o n , a s w o u l d b e e x p e c t e d f r o m a t e n d e n c y f o rt h e p r o c e d u r e t o a p p r o x i m a t e m i n i m u m v a r i a n c e p a r t i t i o n s .

    R u n n i n g t i m e s o f t h e a b o v e p r o g r a m o n t h e I BM 7 0 9 4 v a r y w i t h C , R , t h en u m b e r o f d i m e n s i o n s , a n d t h e n u m b e r o f p o i n t s . A c o n s e r v a t i v e e s t i m a t e f o r2 0 - d i m e n s i o n a l d a t a , w i t h C a n d R s e t s o t h a t k s t a y s i n t h e v i c i n i t y o f 2 0 , i s o n em i n u t e f o r t w o h u n d r e d s a m p l e p o i n t s . M o s t o f t h i s c o m p u t a t i o n t i m e r e s u l t sf r o m t h e c o a r s e n i n g a n d r e f i n i n g p r o c e d u r e a n d t h e a u x i l i a r y f e a t u r e s . A l i m i t e da m o u n t o f e x p e r i e n c e i n d i c a t e s t h e u n d e c o r a t e d k - m e a n s p r o c e d u r e w i t h k = 2 0w i l l p r o c e s s f i v e h u n d r e d p o i n t s i n 2 0 d i m e n s i o n s i n s o m e t h i n g l i k e 1 0 s e c o n d s .3 . 2 . R e l e v a n t c l a s s i f i c a t i o n s . S u p p o s e i t i s d e s i r e d t o d e v e l o p a c l a s s i f i c a t i o ns c h e m e o n t h e b a s i s o f a s a m p l e , s o t h a t k n o w i n g t h e c l a s s i f i c a t i o n o f a n ew p o i n t ,i t w i l l b e p o s s i b l e t o p r e d i c t a g i v e n d e p e n d e n t v a r i a b l e . T h e v a l u e s o f t h e d e -

  • 8/8/2019 1967 - Some Methods for Classification and Analysis OfMultivariate Observation

    11/17

    MU LT IV AR I AT E OBSERVATIONS 291p e n d e n t v a r i a b l e a r e k n o w n f o r t h e s a m p l e . O n e w a y t o d o t h i s , c l o s e l y r e l a t e dt o a p r o c e d u r e p r o p o s e d b y F i x a n d H o d g e s [ 6 ] , i s i l l u s t r a t e d b y t h e f o l l o w i n gc o m p u t e r e x p e r i m e n t . A s a m p l e o f 2 5 0 f o u r - d i m e n s i o n a l r a n d o m v e c t o r s w a sp r e p a r e d , w i t h t h e v a l u e s o n e a c h d i m e n s i o n b e i n g i n d e p e n d e n t l y a n d u n i f o r m l yd i s t r i b u t e d o n t h e i n t e g e r s 1 t h r o u g h 1 0 . Tw o o f t h e d i m e n s i o n s w e r e t h e n a r b i -t r a r i l y s e l e c t e d , a n d i f w i t h r e s p e c t t o t h e s e t w o d i m e n s i o n s a p o i n t w a s e i t h e r' h i g h ' ( a b o v e 5 ) o n b o t h o r ' l o w ' ( 5 o r l e s s ) o n b o t h , i t w a s c a l l e d a n A ; o t h e r w i s e ,i t w a s c a l l e d a B . T hi s g a v e 1 2 1 A ' s a n d 1 2 9 B ' s w h i c h w e r e r e l a t e d t o t h e s e l e c t e dd i m e n s i o n s i n a s t r o n g l y i n t e r a c t i v e f a s h i o n . T h e k - m e a n s w i t h k = 8 w e r e t h e no b t a i n e d f o r t h e A ' s a n d B ' s s e p a r a t e l y . F i n a l l y , u s i n g t h e r e s u l t i n g 1 6 ( f o u r -d i m e n s i o n a l ) m e a n s , a p r e d i c t i o n , A o r B , w a s m a d e f o r e a c h o f a n e w s a m p l e o f2 5 0 p o i n t s o n t h e b a s i s o f w h e t h e r o r n o t e a c h p o i n t w a s n e a r e s t t o a n A m e a no r a B m e a n . T he s e p r e d i c t i o n s t u r n e d o u t t o b e 87% c o r r e c t .A s t h i s e x a m p l e s h o w s , t h e m e t h o d i s p o t e n t i a l l y c a p a b l e o f t a k i n g a d v a n t a g eo f a h i g h l y n o n l i n e a r r e l a t i o n s h i p . A l s o , t h e m e t h o d h a s s o m e t h i n g t o r e c o m m e n di t f r o m t h e p o i n t o f v i e w o f s i m p l i c i t y , a n d c a n e a s i l y b e a p p l i e d i n many d i -m e n s i o n s a n d t o m o r e t h an t w o - v a l u ed d e p e n d e n t v a r i a b l e s .3 . 3 . A p p r o x i m a t i n g a g e n e r a l d i s t r i b u t i o n . S u p p o s e i t i s d e s i r e d t o a p p r o x i -m a t e a d i s t r i b u t i o n o n t h e b a s i s o f a s a m p l e o f p o i n t s . F i r s t t h e s a m p l e p o i n t s a r ep r o c e s s e d u s i n g t h e k - m e a n s c o n c e p t o r s o m e o t h e r m e t h o d w h i c h g i v e s am i n i m u m d i s t a n c e p a r t i t i o n o f t h e s a m p l e p o i n t s . T h e a p p r o x i m a t i o n , i n v o l v i n ga f a m i l i a r t e c h n i q u e , c o n s i s t s o f s i m p l y f i t t i n g a j o i n t n o r m a l d i s t r i b u t i o n t o t h ep o i n t s i n e a c h g r o u p , a n d t a k i n g a s t h e a p p r o x i m a t i o n t h e p r o b a b i l i t y c o m b i -n a t i o n o f t h e s e d i s t r i b u t i o n s , w i t h t h e p r o b a b i l i t i e s p r o p o r t i o n a l t o t h e n u m b e ro f p o i n t s i n e a c h g r o u p .

    H a v i n g f i t t e d a m i x t u r e o f n o r m a l s i n t h i s w a y , i t i s c o m p u t a t i o n a l l y e a s y ( o n ac o m p u t e r ) t o d o t w o t y p e s o f a n a l y s i s . O n e i s p r e d i c t i n g u n k n o w n c o o r d i n a t e s o fa n e w p o i n t g i v e n t h e r e m a i n i n g c o o r d i n a t e s . T h i s may b e d o n e b y u s i n g t h er e g r e s s i o n f u n c t i o n d e t e r m in ed o n t h e a s s u m p t i o n t h a t t h e f i t t e d m i x t u r e i s t h et r u e d i s t r i b u t i o n . A n o t h e r p o s s i b l e a p p l i c a t i o n i s a k i n d o f n o n l i n e a r d i s c r i m i n a n ta n a l y s i s . A m i x t u r e o f k n o r m a l s i s f i t t e d i n t h e a b o v e f a s h i o n t o t w o s a m p l e sr e p r e s e n t i n g t w o g i v e n d i f f e r e n t p o p u l a t i o n s ; o n e c a n t h e n e a s i l y c o m p u t e t h ea p p r o p r i a t e l i k e l i h o o d r a t i o s f o r d e c i d i n g t o w h i c h p o p u l a t i o n a n e w p o i n tb e l o n g s . T h i s m e t h o d a v o i d s c e r t a i n d i f f i c u l t i e s e n c o u n t e r e d i n o r d i n a r y d i s c r i m i -n a n t a n a l y s i s , s u c h a s w h e n t h e t w o p o p u l a t i o n s a r e e a c h c o m p o s e d o f s e v e r a ld i s t i n c t s u b g r o u p s , b u t w i t h s o m e o f t h e s u b g r o u p s f r o m o n e p o p u l a t i o n a c t u a l l yb e t w e e n t h e s u b g r o u p s o f t h e o t h e r . T y p i c a l l y i n t h i s s i t u a t i o n , o n e o r s e v e r a lo f t h e k - m e a n s w i l l b e c e n t e r e d i n e a c h o f t h e s u b g r o u p s - p r o v i d e d k i s l a r g ee n o u g h - a n d t h e f i t t e d n o r m a l s t h e n p r o v i d e a r e a s o n a b l e a p p r o x i m a t i o n t o t h em i x t u r e .To i l l u s t r a t e t h e a p p l i c a t i o n o f t h e r e g r e s s i o n t e c h n i q u e , c o n s i d e r t h e a r t i f i c i a ls a m p l e o f f o u r - d i m e n s i o n a l A ' s a n d B ' s d e s c r i b e d i n t h e p r e c e d i n g s e c t i o n . Ona f i f t h d i m e n s i o n , t h e A ' s w e r e a r b i t r a r i l y g i v e n a v a l u e o f 1 0 , a n d t h e B ' s a v a l u eo f 0 . T h e k - m e a n s p r o c e d u r e w i t h k = 1 6 w a s u s e d t o p a r t i t i o n t h e c o m b i n e d

  • 8/8/2019 1967 - Some Methods for Classification and Analysis OfMultivariate Observation

    12/17

    292 FIFTH BERKELEY SYMPOSIUM: MAC QUEENs a m p l e o f 2 5 0 f i v e - d i m e n s i o n a l p o i n t s . T h e n t h e m i x t u r e o f 1 6 n o r m a l d i s t r i -b u t i o n s w a s d e t e r m i n e d a s d e s c r i b e d a b o v e f o r t h i s s a m p l e . T h e s e c o n d s a m p l eo f 2 5 0 p o i n t s w a s p r e p a r e d s i m i l a r l y , a n d p r e d i c t i o n s w e r e m a d e f o r t h e f i f t hd i m e n s i o n o n t h e b a s i s o f t h e o r i g i n a l f o u r . T h e s t a n d a r d e r r o r o f e s t i m a t e o nt h e n e w s a m p l e w a s 2 . 8 . I f , i n t e r m s o f t h e o r i g i n a l A-B c l a s s i f i c a t i o n , w e h a dc a l l e d a p o i n t o n A i f t h e p r e d i c t e d v a l u e e x c e e d e d 5 , a n d a B o t h e r w i s e , 96 %o f t h e d e s i g n a t i o n s w o u l d h a v e b e e n c o r r e c t o n t h e n e w s a m p l e . T h e m e a n o f t h ep r e d i c t i o n s f o r t h e A ' s w a s 1 0 . 3 , a n d f o r B ' s , 1 . 3 .C o n s i d e r i n g t h e r a t h e r c o m p l e x a n d h i g h l y n o n l i n e a r r e l a t i o n s h i p i n v o l v e di n t h e a b o v e s a m p l e , i t i s d o u b t f u l t h a t a n y c o n v e n t i o n a l t e c h n i q u e w o u l d d oa s w e l l . I n t h e f e w i n s t a n c e s w h i c h w e r e t e s t e d , t h e m e t h o d p e r f o r m e d n e a r l ya s w e l l a s l i n e a r r e g r e s s i o n o n n o r m a l l y d i s t r i b u t e d s a m p l e s , p r o v i d e d k w a s n o tt o o l a r g e . T h i s i s n o t s u r p r i s i n g i n a s m u c h a s w i t h k = 1 t h e m e t h o d i s l i n e a rr e g r e s s i o n . I n d e t e r m i n i n g t h e c h o i c e o f k , o n e p r o c e d u r e i s t o i n c r e a s e k a s l o n ga s t h e e r r o r o f e s t i m a t e d r o p s . S i n c e t h i s w i l l p r o b a b l y r e s u l t i n " o v e r f i t t i n g "t h e s a m p l e , a c r o s s v a l i d a t i o n g r o u p i s e s s e n t i a l .3 . 4 . A s c r a m b l e d d i m e n s i o n t e s t f o r i n d e p e n d e n c e a m o n g s e v e r a l v a r i a b l e s . A s ag e n e r a l t e s t f o r r e l a t i o n s h i p a m o n g v a r i a b l e s i n a s a m p l e o f N - d i m e n s i o n a l o b -s e r v a t i o n s , w e p r o p o s e p r o c e e d i n g a s f o l l o w s . F i r s t , t h e s a m p l e p o i n t s a r e g r o u p e di n t o a m i n i m u m d i s t a n c e p a r t i t i o n u s i n g k - m e a n s , a n d t h e w i t h i n - c l a s s v a r i a n c ei s d e t e r m i n e d . T h e n t h e r e l a t i o n a m o n g t h e v a r i a b l e s i s d e s t r o y e d b y r a n d o m l ya s s o c i a t i n g t h e v a l u e s i n e a c h d i me ns i o n; t h a t i s , a s a m p l e i s p r e p a r e d i n w h i c ht h e v a r i a b l e s a r e u n r e l a t e d , b u t w h i c h h a s e x a c t l y t h e s a m e m a r g i n a l d i s t r i -b u t i o n s a s t h e o r i g i n a l s a m p l e . A m i n i m u m d i s t a n c e p a r t i t i o n a n d t h e a s s o c i a t e dw i t h i n - c l a s s v a r i a n c e i s n o w d e t e r m i n e d f o r t h i s s a m p l e . I n t u i t i o n a n d i n s p e c t i o no f a f e w o b v i o u s e x a m p l e s s u g g e s t t h a t o n t h e a v e r a g e t h i s " s c r a m b l i n g " w i l lt e n d t o i n c r e a s e t h e w i t h i n - c l a s s v a r i a n c e , m o r e o r l e s s r e g a r d l e s s o f w h a t e v e rt y p e o f r e l a t i o n m i g h t h a v e e x i s t e d a m o n g t h e v a r i a b l e s , a n d t h u s c o m p a r i s o no f t h e t w o v a r i a n c e s w o u l d r e v e a l w h e t h e r o r n o t a n y s u c h r e l a t i o n e x i s t e d .To i l l u s t r a t e t h i s m e t h o d , a s a m p l e o f 1 5 0 p o i n t s w a s p r e p a r e d i n w h i c h p o i n t sw e r e d i s t r i b u t e d u n i f o r m l y o u t s i d e a s q u a r e 6 0 u n i t s o n a s i d e , b u t i n s i d e as u r r o u n d i n g s q u a r e 1 0 0 u n i t s o n a s i d e . T h i s g a v e a s a m p l e w h i c h i n v o l v e se s s e n t i a l l y a z e r o c o r r e l a t i o n c o e f f i c i e n t , a n d y e t a s u b s t a n t i a l d e g r e e o f r e l a t i o n -s h i p w h i c h c o u l d n o t b e d e t e c t e d b y a n y c o n v e n t i o n a l q u a n t i t a t i v e t e c h n i q u ek n o w n t o t h e a u t h o r ( a l t h o u g h i t c o u l d b e d e t e c t e d i m m e d i a t e l y b y v i s u a li n s p e c t i o n ) . T h e a b o v e p r o c e d u r e w a s c a r r i e d o u t u s i n g k - m e a n s w i t h k = 1 2 .A s w a s e x p e c t e d , t h e v a r i a n c e a f t e r s c r a m b l i n g w a s i n c r e a s e d b y a f a c t o r o f 1 . 6 .T h e w i t h i n - c l a s s v a r i a n c e s w e r e n o t o n l y l a r g e r i n t h e s c r a m b l e d d a t a , b u t w e r ea p p a r e n t l y m o r e v a r i a b l e . T h i s p r o c e d u r e w a s a l s o a p p l i e d t o t h e f i v e -d i m e n s i o n a l s a m p l e d e s c r i b e d i n t h e p r e c e d i n g s e c t i o n . U s i n g k = 6 , 1 2 , a n d 1 8 ,t h e w i t h i n - c l a s s v a r i a n c e i n c r e a s e d a f t e r s c r a m b l i n g b y t h e f a c t o r s 1 . 4 0 , 1 . 5 5 ,a n d 1 . 3 9 , r e s p e c t i v e l y .A s t a t i s t i c a l t e s t f o r n o n i n d e p e n d e n c e c a n b e c o n s t r u c t e d b y s i m p l y r e p e a t i n gt h e s c r a m b l i n g a n d p a r t i t i o n i n g a n u m b e r o f t i m e s , t h u s o b t a i n i n g e m p i r i c a l l y a

  • 8/8/2019 1967 - Some Methods for Classification and Analysis OfMultivariate Observation

    13/17

    MU LT IV AR I AT E OBSERVATIONS 293s a m p l e f r o m t h e c o n d i t i o n a l d i s t r i b u t i o n o f t h e w i t h i n - c l a s s v a r i a n c e u n l d e r t h eh y p o t h e s i s t h a t t h e v a r i a b l e s a r e u n r e l a t e d a n d g i v e n t h e m a r g i n a l v a l u e s o f t h es a m p l e . U n d e r t h e h y p o t h e s i s o f i n d e p e n d e n c e , t h e u n s c r a m b l e d v a r i a n c e s h o u l dh a v e t h e s a m e ( c o n d i t i o n a l ) d i s t r i b u t i o n a s t h e s c r a m b l e d v a r i a n c e . I n f a c t , t h er a n k o f t h e u n s c r a m b l e d v a r i a n c e i n t h i s e m p i r i c a l d i s t r i b u t i o n s h o u l d b ee q u a l l y l i k e l y t o t a k e o n a n y o f t h e p o s s i b l e v a l u e s 1 , 2 , * * * , n + 1 , w h e r e n i st h e n u m b e r o f s c r a m b l e d s a m p l e s t a k e n , r e g a r d l e s s o f t h e m a r g i n a l d i s t r i b u t i o n si n t h e u n d e r l y i n g p o p u l a t i o n . T h u s t h e r a n k c a n b e u s e d i n a n o n p a r a m e t r i ct e s t o f t h e h y p o t h e s i s o f i n d e p e n d e n c e . F o r e x a m p l e , i f t h e u n s c r a m b l e d v a r i a n c ei s t h e l o w e s t i n 1 9 v a l u e s o f t h e s c r a m b l e d v a r i a n c e , w e c a n r e j e c t t h e h y p o t h e s i so f i n d e p e n d e n c e w i t h a T y p e I e r r o r o f . 0 5 .A c o m p u t e r p r o g r a m w a s n o t a v a i l a b l e t o d o t h e s c r a m b l i n g , a n d i t s b e i n gi n c o n v e n i e n t t o s e t u p l a r g e n u m b e r s o f s c r a m b l e d s a m p l e s u s i n g p u n c h e d c a r d s ,f u r t h e r t e s t i n g o f t h i s m e t h o d w a s n o t u n d e r t a k e n . I t i s e s t i m a t e d , h o w e v e r , t h a ta n e f f i c i e n t c o m p u t e r p r o g r a m w o u l d e a s i l y p e r m i t t h i s t e s t t o b e a p p l i e d a t , s a y ,t h e . 0 1 l e v e l , o n l a r g e s a m p l e s i n many d i m e n s i o n s .T h e p o w e r o f t h i s p r o c e d u r e r e m a i n s t o b e s e e n . On t h e e n c o u r a g i n g s i d e i st h e r e l a t e d c o n j e c t u r e , t h a t f o r f i x e d m a r g i n a l d i s t r i b u t i o n s , t h e w i t h i n - c l a s sv a r i a n c e f o r t h e o p t i m a l p a r t i t i o n a s d e f i n e d i n s e c t i o n 1 i s m a x i m a l w h e n t h ej o i n t d i s t r i b u t i o n i s a c t u a l l y t h e p r o d u c t o f t h e m a r g i n a l s . I f t h i s i s t r u e ( a n di t s e e m s l i k e l y t h a t i t i s , a t l e a s t f o r a l a r g e c l a s s o f r e a s o n a b l e d i s t r i b u t i o n s ) ,t h e n w e r e a s o n t h a t s i n c e t h e k - m e a n s p r o c e s s t e n d s t o g i v e a g o o d p a r t i t i o n , t h i sd i f f e r e n c e w i l l b e p r e s e r v e d i n t h e s c r a m b l e d a n d u n s c r a m b l e d v a r i a n c e s , p a r -t i c u l a r l y f o r l a r g e s a m p l e s . V a r i a t i o n i n t h e w i t h i n - c l a s s v a r i a n c e d u e t o t h er a n d o m o r d e r i n w h i c h t h e p o i n t s a r e p r o c e s s e d , c a n b e r e d u c e d b y t a k i n gs e v e r a l r a n d o m o r d e r s , a n d a v e r a g i n g t h e i r r e s u l t . I f t h i s i s d o n e f o r t h es c r a m b l e d r u n s a s w e l l , t h e T y p e I e r r o r i s p r e s e r v e d , w h i l e t h e p o w e r i s i n c r e a s e ds o m e w h a t .3 . 5 . D i s t a n c e - b a s e d c l a s s i f i c a t i o n t r e e s . T h e k - m e a n s c o n c e p t p r o v i d e s a n u m b e ro f s i m p l e p r o c e d u r e s f o r d e v e l o p i n g l e x i g r a p h i c c l a s s i f i c a t i o n s y s t e m s ( f i l i n gs y s t e m s , i n d e x s y s t e m s , a n d s o o n ) f o r a l a r g e s a m p l e o f p o i n t s . To i l l u s t r a t e , wed e s c r i b e b r i e f l y a p r o c e d u r e w h i c h r e s u l t s i n t h e w i t h i n - g r o u p v a r i a n c e o f e a c h o ft h e g r o u p s a t t h e m o s t r e f i n e d l e v e l o f c l a s s i f i c a t i o n b e i n g n o m o r e t h a n a s p e c i f i e dn u m b e r , s a y R . T h e s a m p l e k - m e a n s a r e f i r s t d e t e r m i n e d w i t h a s e l e c t e d v a l u e o fk , f o r e x a m p l e , k = 2 . I f t h e v a r i a n c e o f a n y o f t h e g r o u p s o f p o i n t s n e a r e s t t ot h e s e m e a n s i s l e s s t h a n R , t h e s e g r o u p s a r e n o t s u b c l a s s i f i e d f u r t h e r . T h e r e m a i n -i n g g r o u p s a r e e a c h p r o c e s s e d i n t h e s a m e w a y , t h a t i s , k - m e a n s a r e d e t e r m i n e df o r e a c h o f t h e m , a n d t h e n f o r t h e p o i n t s n e a r e s t e a c h o f t h e s e , a n d s o o n . T h i si s c o n t i n u e d u n t i l o n l y g r o u p s w i t h w i t h i n - g r o u p v a r i a n c e l e s s t h a n R r e m a i n .T h u s f o r e a c h mean a t t h e f i r s t l e v e l , t h e r e i s a s s o c i a t e d s e v e r a l m e a n s a t t h es e c o n d l e v e l , a n d s o o n . O n c e t h e m e a n s a t e a c h l e v e l a r e d e t e r m i n e d f r o m t h es a m p l e i n t h i s f a s h i o n , t h e c l a s s i f i c a t i o n o f a new p o i n t i s d e f i n e d b y t h e r u l e :f i r s t , s e e w h i c h o n e o f t h e f i r s t l e v e l k - m e a n s t h e p o i n t i s n e a r e s t ; t h e n s e e w h i c ho n e o f t h e s e c o n d - l e v e l k - m e a n s a s s o c i a t e d w i t h t h a t mean t h e p o i n t i s n e a r e s t ,

  • 8/8/2019 1967 - Some Methods for Classification and Analysis OfMultivariate Observation

    14/17

    294 FIFTH BERKELEY SYMPOSIUM: MAC QUEENa n d s o o n ; f i n a l l y t h e p o i n t i s a s s i g n e d t o a g r o u p w h i c h i n t h e d e t e r m i n i n g s a m p l eh a s v a r i a n c e n o m o r e t h a n R .

    T h i s p r o c e d u r e h a s s o m e p r o m i s i n g f e a t u r e s . F i r s t , t h e a m o u n t o f c o m p u t a t i o nr e q u i r e d t o d e t e r m i n e t h e i n d e x i s a p p r o x i m a t e l y l i n e a r i n t h e s a m p l e s i z e a n dt h e n u m b e r o f l e v e l s . T h e p r o c e d u r e c a n b e i m p l e m e n t e d e a s i l y o n t h e c o m p u t e r .A t e a c h s t a g e d u r i n g t h e c o n s t r u c t i o n o f t h e c l a s s i f i c a t i o n t r e e , w e a r e e m p l o y i n ga p o w e r f u l h e u r i s t i c , w h i c h c o n s i s t s s i m p l y o f p u t t i n g p o i n t s w h i c h a r e n e a r t oe a c h o t h e r i n t h e s a m e g r o u p . E a c h o f t h e m e a n s a t e a c h l e v e l i s a f a i r r e p r e -s e n t a t i o n o f i t s g r o u p , a n d c a n b e u s e d f o r c e r t a i n o t h e r p u r p o s e s , f o r i n s t a n c e ,t o c o m p a r e o t h e r p r o p e r t i e s o f t h e p o i n t s a s a f u n c t i o n o f t h e i r c l a s s i f i c a t i o n .3 . 6 . A t w o - s t e p i m p r o v e m e n t p r o c e d u r e . T h e m e t h o d o f o b t a i n i n g p a r t i t i o n sw i t h l o w w i t h i n - c l a s s v a r i a n c e w h i c h w a s s u g g e s t e d b y F o r g y a n d J e n n r i c h ( s e es e c t i o n 1 . 1 ) w o r k s a s f o l l o w s . S t a r t i n g w i t h a n a r b i t r a r y p a r t i t i o n i n t o k s e t s , t h em e a n s o f t h e p o i n t s i n e a c h s e t a r e f i r s t c o m p u t e d . T h e n a n e w p a r t i t i o n o f t h ep o i n t s i s f o r m e d b y t h e r u l e o f p u t t i n g t h e p o i n t s i n t o g r o u p s o f t h e b a s i s o fn e a r n e s s t o t h e f i r s t s e t o f m e a n s . T h e a v e r a g e s q u a r e d d i s t a n c e o f t h e p o i n t s i nt h e new p a r t i t i o n f r o m t h e f i r s t s e t o f m e a n s ( t h a t i s , f r o m t h e i r n e a r e s t m e a n s )i s o b v i o u s l y l e s s t h a n t h e w i t h i n - c l a s s v a r i a n c e o f t h e f i r s t p a r t i t i o n . B u t t h ea v e r a g e w i t h i n - c l a s s v a r i a n c e o f t h e new p a r t i t i o n i s e v e n l o w e r , f o r t h e v a r i a n c eo f t h e s q u a r e d d i s t a n c e o f t h e p o i n t s i n e a c h g r o u p f r o m t h e i r r e s p e c t i v e m e a n s ,a n d t h e m e a n , o f c o u r s e , i s t h a t p o i n t w h i c h m i n i m i z e s t h e a v e r a g e s q u a r e dd i s t a n c e f r o m i t s e l f . T h u s t h e new p a r t i t i o n h a s l o w e r v a r i a n c e . C o m p u t a t i o n a l l y ,t h e t w o s t e p s o f t h e m e t h o d a r e ( 1 ) c o m p u t e t h e m e a n s o f t h e p o i n t s i n e a c hs e t i n t h e i n i t i a l p a r t i t i o n a n d ( 2 ) r e c l a s s i f y t h e p o i n t s o n t h e b a s i s o f n e a r n e s st o t h e s e m e a n s , t h u s f o r m i n g a new p a r t i t i o n . T h i s c a n b e i t e r a t e d a n d t h e s e r i e so f t h e p a r t i t i o n s t h u s p r o d u c e d h a v e d e c r e a s i n g w i t h i n - c l a s s v a r i a n c e s a n d w i l lc o n v e r g e i n a f i n i t e n u m b e r o f s t e p s .F o r a g i v e n s a m p l e , o n e c y c l e o f t h i s m e t h o d r e q u i r e s a b o u t a s much c o m p u -t a t i o n a s t h e k - m e a n s . T h e f i n a l p a r t i t i o n o b t a i n e d w i l l d e p e n d o n t h e i n i t i a lp a r t i t i o n , much a s t h e p a r t i t i o n p r o d u c e d b y k - m e a n s w i l l d e p e n d o n r a n d o mv a r i a t i o n i n t h e o r d e r i n w h i c h t h e p o i n t s a r e p r o c e s s e d . N e v e r t h e l e s s , t h ep r o c e d u r e h a s much t o r e c o m m e n d i t . By m a k i n g r e p e a t e d r u n s w i t h d i f f e r e n ti n i t i a l s t a r t i n g p o i n t s , i t w o u l d s e e m l i k e l y t h a t o n e w o u l d a c t u a l l y o b t a i n t h es a m p l e p a r t i t i o n w i t h m i n i m u m w i t h i n - c l a s s v a r i a n c e .4 . G e n e r a l m e t r i c s p a c e s

    I t m a y b e s o m e t h i n g more t h a n a m e r e m a t h e m a t i c a l e x e r c i s e t o a t t e m p t t oe x t e n d t h e i d e a o f k - m e a n s t o g e n e r a l m e t r i c s p a c e s . M e t r i c s p a c e s o t h e r t h a nE u c l i d i a n o n e s d o o c c u r i n p r a c t i c e . O n e p r o m i n e n t e x a m p l e i s t h e s p a c e o fb i n a r y s e q u e n c e s o f f i x e d l e n g t h u n d e r H a m m i n g d i s t a n c e .A n i m m e d i a t e d i f f i c u l t y i n m a k i n g s u c h a n e x t e n s i o n i s t h e n o t i o n o f mea ni t s e l f . The a r i t h m e t i c o p e r a t i o n s d e f i n i n g t h e mean i n E u c l i d i a n s p a c e m a y n o tb e a v a i l a b l e . H o w e v e r , w i t h t h e c o m m u n i c a t i o n p r o b l e m o f s e c t i o n 1 i n m i n d ,

  • 8/8/2019 1967 - Some Methods for Classification and Analysis OfMultivariate Observation

    15/17

    MULTIVARIATE OBSERVATIONS 2 95o n e t h i n k s o f t h e p r o b l e m o f r e p r e s e n t i n g a p o p u l a t i o n b y a p o i n t , t h e g o a l b e i n gt o h a v e l o w a v e r a g e e r r o r i n s o m e s e n s e . T h u s w e a r e l e d t o p r o c e e d r a t h e rn a t u r a l l y a s f o l l o w s .

    L e t M b e a c o m p a c t m e t r i c s p a c e w i t h d i s t a n c e p , l e t 5 Y b e t h e o - - a l g e b r a o fs u b s e t s o f M, a n d l e t p b e a p r o b a b i l i t y m e a s u r e o n 5 . F o r t h e m e a s u r e p ,a c e n t r o i d o f o r d e r r > 0 i s a n y p o i n t i n t h e s e t e r o f p o i n t s x * s u c h t h a tf p r ( x * , z ) d p ( z ) = i n f . f p r ( x , z ) d p ( z ) . T h e q u a n t i t y f p r ( x * , z ) d p ( z ) i s t h e r - t hm o m e n t o f p . T h e c o m p a c t n e s s a n d t h e c o n t i n u i t y o f p g u a r a n t e e t h a t C e i sn o ne m p t y . F o r f i n i t e s a m p l e s , s a m p l e c e n t r o i d s a r e d e f i n e d a n a l o g o u s l y , e a c hp o i n t i n t h e s a m p l e b e i n g t r e a t e d a s h a v i n g m e a s u r e 1 / n w h e r e n i s t h e s a m p l es i z e ; n a m e l y , f o r a s a m p l e o f s i z e n , t h e s a m p l e c e n t r o i d i s d e f i n e d u p t o a n e q u i v a -l e n c e c l a s s e w h i c h c o n s i s t s o f a l l t h o s e p o i n t s A n s u c h t h a t F _ - = I P r ( n Z i ) =i n f . X ? . . 1 p r ( x , z i ) , w h e r e z l , Z 2 , . . . , Z n i s t h e s a m p l e .N o t e t h a t w i t h M t h e r e a l l i n e , a n d p o r d i n a r y d i s t a n c e , r = 2 y i e l d s t h eo r d i n a r y m e a n , a n d r = 1 y i e l d s t h e f a m i l y o f m e d i a n s . A s r t e n d s t o c o , t h ee l e m e n t s o f C , . w i l l t e n d t o h a v e ( i n a m a n n e r w h i c h c a n e a s i l y b e m a d e p r e c i s e )t h e p r o p e r t y t h a t t h e y a r e c e n t e r s f o r a s p h e r i c a l c o v e r i n g o f t h e s p a c e w i t hm i n i m a l r a d i u s . I n p a r t i c u l a r , o n t h e l i n e , t h e c e n t r o i d w i l l t e n d t o t h e m i d - r a n g e .A s r t e n d s t o z e r o , o n e o b t a i n s w h a t m a y w i t h s o m e j u s t i f i c a t i o n b e c a l l e d a m o d e ,f o r o n a c o m p a c t s e t , p r ( x , y ) i s a p p r o x i m a t e l y 1 f o r s m a l l r , e x c e p t w h e r e x a n d ya r e v e r y n e a r , s o t h a t m i n i m i z i n g f p r ( x , y ) d p ( y ) w i t h r e s p e c t t o x , i n v o l v e sa t t e m p t i n g t o l o c a t e x s o t h a t t h e r e i s a l a r g e a m o u n t o f p r o b a b i l i t y i n i t si m m e d i a t e v i c i n i t y . ( T h i s r e l a t i o n s h i p c a n a l s o b e m a d e p r e c i s e . )We n o t e t h a t t h e o p t i m u m c o m m u n i c a t i o n p r o b l e m m en t i o n e d i n s e c t i o n 1 . 1n o w t a k e s t h e f o l l o w i n g g e n e r a l f o r m . F i n d a p a r t i t i o n S = { S i , S 2 , * * S k }w h i c h m i n i m i z e s w = _ f - f s i p l ( x i , y ) d p ( y ) , w h e r e x 4 i s t h e c e n t r o i d o f o r d e rr w i t h r e s p e c t t o t h e ( c o n d i t i o n a l ) d i s t r i b u t i o n o n S i . I f t h e r e i s a n y m a s s i na s e t S i n e a r e r t o x j t h a n t o x i , j s ! i , t h e n w c a n b e r e d u c e d b y m o d i f y i n gS i a n d S i s o a s t o r e a s s i g n t h i s m a s s t o S j . I t f o l l o w s t h a t i n m i n i m i z i n g w wec a n r e s t r i c t a t t e n t i o n t o p a r t i t i o n s w h i c h a r e m i n i m u m d i s t a n c e p a r t i t i o n s ,a n a l o g o u s t o t h o s e d e f i n e d i n s e c t i o n 2 , t h a t i s , p a r t i t i o n s o f t h e f o r m S ( x ) ={ S . ( x ) , S 2 ( x ) , * * * , S k ( x ) } w h e r e x = ( x I , x 2 , * * * , X k ) i s a k - t u p l e o f p o i n t s i n M,a n d S i ( x ) i s a s e t o f p o i n t s a t l e a s t a s n e a r x i ( i n t e r m s o f p ) a s t o x j i f j # i .I n k e e p i n g w i t h t h e t e r m i n o l o g y o f s e c t i o n 2 , w e m a y s a y t h a t a k - t u p l e , o r" k - p o i n t , " x = ( x l , x 2 , * * * , X k ) i s u n b i a s e d i f x i , i = 1 , 2 , * , k , b e l o n g s t o t h ec l a s s o f p o i n t s w h i c h a r e c e n t r o i d s w i t h i n S i ( x ) .I t i s now c l e a r h o w t o e x t e n d t h e c o n c e p t o f k - m e a n s t o m e t r i c s p a c e s ; t h en o t i o n o f c e n t r o i d r e p l a c e s t h e m o r e s p e c i a l c o n c e p t o f m e a n . T h e f i r s t' k - c e n t r o i d ' ( x l , x l , * * * , x k ) c o n s i s t s o f t h e f i r s t k p o i n t s i n t h e s a m p l e , a n dt h e r e a f t e r a s e a c h new p o i n t i s c o n s i d e r e d , t h e n e a r e s t o f t h e c e n t r o i d s i s d e -t e r m i n e d . T h e n e w p o i n t i s a s s i g n e d t o t h e c o r r e s p o n d i n g g r o u p a n d t h e c e n t r o i do f t h a t g r o u p m o d i f i e d a c c o r d i n g l y , a n d s o o n .I t w o u l d s e e m r e a s o n a b l e t o s u p p o s e t ha t t he o b v i o u s e x t e n s i o n o f t h e o r e m 1w o u l d h o l d . T h a t i s , u n d e r i n d e p e n d e n t s a m p l i n g , E k 1 f s . ( X t ) p t ( z ) d p ( z ) w i l l

  • 8/8/2019 1967 - Some Methods for Classification and Analysis OfMultivariate Observation

    16/17

    296 FIFTH BERKELEY SYMPOSIUM: MAC QUEENc o n v e r g e a . s . , a n d t h e c o n v e r g e n t s u b s e q u e n c e s o f t h e s e q u e n c e o f s a m p l ek - c e n t r o i d s w i l l h a v e t h e i r l i m i t s i n t h e c l a s s o f u n b i a s e d k - p o i n t s . T h i s i s t r u e ,a t a n y r a t e , f o r k = 1 a n d r = 1 , f o r i f z l , Z 2 , . - - , z n a r e i n d e p e n d e n t ,E s = i p ( Z z , y ) / n i s t h e m e a n o f i n d e p e n d e n t , i d e n t i c a l l y d i s t r i b u t e d r a n d o mv a r i a b l e s , w h i c h b e c a u s e M i s c o m p a c t , a r e u n i f o r m l y b o u n d e d i n y . I t f o l -l o w s ( c f . P a r z e n [ 1 3 ] ) t h a t E t , p ( Z i , y ) / n c o n v e r g e s a . s . t o f p ( z , y ) d p ( z )u n i f o r m l y i n y . By d e f i n i t i o n o f t h e s a m p l e c e n t r o i d , w e h a v e E _ t 1 p ( Z i , x * ) / n >E J - 1 p ( Z i , I n ) / n ; h e n c e , f p ( z , x * ) d p ( z ) 2 l i m s u p E t ' I p ( Z i , 1 n ) / n w i t h p r o b a b i l i t y1 . On t h e o t h e r h a n d , f r o m t h e t r i a n g l e i n e q u a l i t y , F , . i p ( z i , y ) / n

  • 8/8/2019 1967 - Some Methods for Classification and Analysis OfMultivariate Observation

    17/17

    MULT I V AR I ATE OBSERVATIONS 2 9 7[ 2 ] D . R . C o x , " N o t e o n g r o u p i n g , " J . A m e r . S t a t i s t . A s s o c . , V o l . 5 2 ( 1 9 5 7 ) , p p . 5 4 3 - 5 4 7 .[ 3 ] J . L . D O O B , S t o c h a s t i c P r o c e s s e s , N ew Y o r k , W i l e y , 1 9 5 3 .[ 4 ] L . E . D U B I N S a n d L . J . S A V A G E , "A T c h e b y c h e f f - l i k e i n e q u a l i t y f o r s t o c h a s t i c p r o c e s s e s , "P r o c . N a t . A c a d . S c i . U . S . A . , V o l . 5 3 ( 1 9 6 5 ) , p p . 2 7 4 - 2 7 5 .[ 5 ] W . D . F I S H E R , " O n g r o u p i n g f o r maximum h o m o g e n e i t y , " J . A m e r . S t a t i s t . A s s o c . , V o l .5 3 ( 1 9 5 8 ) , p p . 7 8 9 - 7 9 8 .[ 6 ] EVELYN F i x a n d J . L . H O D G E S , J R . , " D i s c r i m i n a t o r y A n a l y s i s , " USAF P r o j e c t R e p o r t ,

    S c h o o l o f A v i a t i o n M e d i c i n e , P r o j e c t Number 2 1 - 4 9 - 0 0 4 , N o . 4 ( 1 9 5 1 ) .[ 7 ] EDWARD F O R G Y , " C l u s t e r a n a l y s i s o f m u l t i v a r i a t e d a t a : e f f i c i e n c y v s . i n t e r p r e t a b i l i t y o fc l a s s i f i c a t i o n s , " a b s t r a c t , B i o m e t r i c s , V o l . 2 1 ( 1 9 6 5 ) , p . 7 6 8 .[ 8 ] P A U L R . H A L M O S , M e a s u r e T h e o r y , N ew Y o r k , V a n N o s t r a n d , 1 9 5 0 .[ 9 ] J . M A C Q U E E N , " T h e c l a s s i f i c a t i o n p r o b l e m , " W e s t e r n M a n a g e m e n t S c i e n c e I n s t i t u t eW o r k i n g P a p e r N o . 5 , 1 9 6 2 .[ 1 0 ] , " O n c o n v e r g e n c e o f k - m e a n s a n d p a r t i t i o n s w i t h m i n i m u m a v e r a g e v a r i a n c e , "a b s t r a c t , A n n . M a t h . S t a t i s t . , V o l . 3 6 ( 1 9 6 5 ) , p . 1 0 8 4 .[ 1 1 ] J A C O B M A R S C H A K , " T o w a r d s a n e c o n o m i c t h e o r y o f o r g a n i z a t i o n a n d i n f o r m a t i o n , "D e c i s i o n P r o c e s s e s , e d i t e d b y R . M . T h r a l l , C . H . C o o m b s , a n d R . C . D a v i s , N ew Y o r k ,W i l e y , 1 9 5 4 .[ 1 2 ] , " R e m a r k s o n t h e e c o n o m i c s o f i n f o r m a t i o n , " P r o c e e d i n g s o f t h e s c i e n t i f i c p r o g r a mf o l l o w i n g t h e d e d i c a t i o n o f t h e W es t er n D a t a P r o c e s s i n g C e n t e r , U n i v e r s i t y o f C a l i f o r n i a ,L o s A n g e l e s , J a n u a r y 2 9 - 3 0 , 1 9 5 9 .[ 1 3 ] EMANUEL P A R Z E N , " O n u n i f o r m c o n v e r g e n c e o f f a m i l i e s o f s e q u e n c e s o f r a n d o m v a r i -a b l e s , " U n i v . C a l i f o r n i a P u b l . S t a t i s t . , V o l . 2 , N o . 2 ( 1 9 5 4 ) , p p . 2 3 - 5 4 .[ 1 4 ] G E O R G E S . S E B E S T Y E N , D e c i s i o n M a k i n g P r o c e s s i n P a t t e r n R e c o g n i t i o n , N ew Y o r k ,M a c m i l l a n , 1 9 6 2 .[ 1 5 ] R O B E R T R . S O K A L a n d P E T E R H . S N E A T H , P r i n c i p l e s o f N u m e r i c a l T a x o n o m y , S a nF r a n c i s c o , F r e e m a n , 1 9 6 3 .[ 1 6 ] J O E W A R D , " H i e r a r c h i c a l g r o u p i n g t o o p t i m i z e a n o b j e c t i v e f u n c t i o n , " J . A m e r . S t a t i s t .A s s o c . , V o l . 5 8 ( 1 9 6 3 ) , p p . 2 3 6 - 2 4 4 .