P93-1024

download P93-1024

of 8

Transcript of P93-1024

  • 7/30/2019 P93-1024

    1/8

    D I S T R I B U T I O N A L C L U S T E R I N G O F E N G L I S H W O R D S

    F e r n a n d o P e r e i r aAT&T Bell Laboratories600 Mountain Ave.Murray Hill, NJ 07974, USAp e r e i r a @ r e s e a r c h , a t t. c o m

    Naftali TishbyDept. of Computer ScienceHebrew UniversityJerusalem 91904, Israelt i s h b y @ c s , h u ] i . a c. il

    L i l l i a n L e eD e p t . o f C o m p u t e r S c i e n c e

    C o r n e l l U n i v e r s i t yI t h a c a , N Y 1 4 8 5 0 , U S Al l e e ~ c s , c o r n e l l , e d u

    A b s t r a c tW e d e s c r ib e a n d e v a l u a t e e x p e r i m e n t a l l y am e t h o d f o r c l u s t e r in g w o r d s a c c o r d i n g t o t h e i r d i s -t r i b u t i o n i n p a r t i c u l a r s y n t a c t i c c o n t e x t s . W o r d sare r e p r e s e n t e d b y t h e r e l a t iv e f r e q u e n c y d i s t r i b u -t i o n s o f c o n t e x t s i n w h i c h t h e y a p p e a r , a n d r e l a -t i v e e n t r o p y b e t w e e n t h o s e d i s t r i b u t i o n s i s u se d a st h e s i m i l a r i t y m e a s u r e f o r c l u s t e r i n g . C l u s t e r s a r er e p r e s e n t ed b y a v e r a g e c o n t e x t d i s t r i b u t i o n s d e -r i v e d f ro m t h e g i v e n w o r d s a c c o r d i n g t o t h e i r p r o b -a b i li ti e s o f c l u s t er m e m b e r s h i p . I n m a n y c a s e s,t h e c l u s te r s c a n b e t h o u g h t o f a s e n c o d i n g c o a r s es e n s e d i s t i n c t i o n s . D e t e r m i n i s t i c a n n e a l i n g i s u s e dt o f i n d lo w e s t d i s t o r t i o n s e t s o f c l u s t e r s: a s t h e a n -n e a l i n g p a r a m e t e r i n c r e a s e s , e x i s t i n g c l u s t e r s b e -c o m e u n s t a b l e a n d s u b d i v i d e , y i e l d i n g a h ie r a r c h i -c a l " s o f t" c l u s t e r i n g o f t h e d a t a . C l u s t e r s a r e u s e da s t h e b a s i s fo r c la s s m o d e l s o f w o r d c o o c u r r e n c e ,a n d t h e m o d e l s e v a l u a t e d w i t h r e s p e c t t o h e l d - o u tt e s t d a t a .

    I N T R O D U C T I O NM e t h o d s f o r a u t o m a t i c a l l y c l a s s if y i n g w o r d s a c -c o r d i n g t o t h e i r c o n t e x t s o f u s e h a v e b o t h s c ie n -t i fi c a n d p r a c t i c a l i n t e r e s t . T h e s c i e n t if i c q u e s -t i o n s a r i s e i n c o n n e c t i o n t o d i s t r i b u t i o n a l v i e w so f li n g u i st i c ( p a r t i c u l a r l y l e x ic a l ) s t r u c t u r e a n da l s o i n r e l a t i o n t o t h e q u e s t i o n o f l e x i c a l a c q u i -s i ti o n b o t h f r o m p s y c h o l o g i c a l a n d c o m p u t a t i o n a ll e a r n in g p e rs p e c t i v e s . F r o m t h e p r a c t i c a l p o i n to f v i e w , w o r d c l a s s i f i c a t io n a d d r e s s e s q u e s t i o n s o fd a t a s p a r se n e s s a n d g e n e r a l i z a t i o n i n s ta t i s t i c a ll a n g u a g e m o d e l s , p a r t i c u l a r l y m o d e l s f o r d e c i d i n ga m o n g a l t e r n a t i v e a n a l y s e s p r o p o s e d b y a g r a m -m a r .I t i s w e ll k n o w n t h a t a s i m p l e t a b u l a t i o n o f f r e-q u e n c ie s o f c e r t a i n w o r d s p a r t i c i p a t i n g i n c e r t a i nc o n f i g u r a ti o n s , f o r e x a m p l e o f f r eq u e n c i e s o f p a i rso f a t r a n s it i v e m a i n v e r b a n d t h e h e a d n o u n o f i t sd i r e c t o b j e c t , c a n n o t b e r e l i a b l y u s e d f o r c o m p a r -i n g t h e l i k e l i h o o d s o f d i f f e r e n t a l t e r n a t i v e c o n f i g u -r a t io n s . T h e p r o b l e m i s t h a t f o r l a r g e e n o u g h c o r -p o r a t h e n u m b e r o f p o s s ib l e j o i n t e v e n t s i s m u c hl a r g e r t h a n t h e n u m b e r o f e v e n t o c c u r r e n c e s i nt h e c o r p u s , s o m a n y e v e n t s a r e s e e n r a r e l y o rn e v e r , m a k i n g t h e i r f r e q u e n c y c o u n t s u n r e l i a b l ee s t i m a t e s o f t h e i r p r o b a b i l i t ie s .H i n d l e ( 1 9 9 0 ) p r o p o s e d d e a l i n g w i t h t h e

    s p a r s e n es s p r o b l e m b y e s t i m a t i n g t h e l i k e l i h o o d o fu n s e e n e v e n t s f r o m t h a t o f " s i m i la r " e v e n t s t h a th a v e b e e n s e en . F o r i n s t a n c e , o n e m a y e s t i m a t et h e l i k e l ih o o d o f a p a r t i c u l a r d i r e c t o b j e c t f o r av e r b f r o m t h e l i k e li h o o d s o f t h a t d i r e c t o b j e c t f o rs i m i l a r v e r b s . T h i s r e q u i r e s a r e a s o n a b l e d e f in i -t i o n o f v e r b s i m i l a r i t y a n d a s i m i l a r i t y e s t i m a t i o nm e t h o d . I n H i n d l e ' s p r o p o s a l , w o r d s a r e s i m i l a r i fw e h a v e s t r o n g s t a t i s t i c a l e v i d e n c e t h a t t h e y t e n dt o p a r t i c i p a t e i n t h e s a m e e v e n t s . H i s n o t i o n o fs i m i l a r i ty s e e m s t o a g r e e w i t h o u r i n t u i t io n s i nm a n y c a s e s , b u t i t i s n o t c l e a r h o w i t c a n b e u s e dd i r e c t l y t o c o n s t r u c t w o r d c l a ss e s a n d c o r r e s p o n d -i n g m o d e l s o f a s s o c i a t io n .O u r r e s e a r ch a d d r e s s e s s o m e o f t h e s a m e q u e s -t i o n s a n d u s e s s i m i l a r ra w d a t a , b u t w e in v e s t i g a t eh o w t o f a c t o r w o r d a s s o c i a t i o n t e n d e n c i e s i n t o a s -s o c i a t io n s o f w o r d s t o c e r t a i n h i d d e n s e n s e s c l a s s e sa n d a s s o c i a t i o n s b e t w e e n t h e c l a s s e s t h e m s e l v e s .W h i l e i t m a y b e w o r t h b a s i n g s u c h a m o d e l o n p re -e x i s t i n g s e n s e c l a s s e s ( R e s n i k , 1 9 9 2 ) , i n t h e w o r kd e s c r i b e d h e r e w e l o o k a t h o w t o d e r i v e t h e c l a s s esd i r e c t ly f r o m d i s t r i b u t i o n a l d a t a . M o r e sp e c if i-c a l l y , w e m o d e l s e n s e s a s p r o b a b i l i s t i c c o n c e p t so r c l u s t e r s c w i t h c o r r e s p o n d i n g c l u s t e r m e m b e r -s h i p p r o b a b i l i t i e s p ( c l w ) f o r e a c h w o r d w . M o s to t h e r c l a s s -b a s e d m o d e l i n g t e c h n i q u e s f o r n a t u r a ll a n g u a g e r e l y i n s t e a d o n " h a r d " B o o l e a n c l a s se s( B r o w n e t a l ., 1 9 9 0 ) . C l a s s c o n s t r u c t i o n is t h e nc o m b i n a t o r i a l ly v e ry d e m a n d i n g a n d d e p e n d s o nf r e q u e n c y c o u n t s f o r j o i n t e v e n t s i n v o l v i n g p a r t i c -u l a r w o r d s , a p o t e n t i a l l y u n r e l i a b l e s o u r c e o f i n -f o r m a t i o n a s n o t e d a b o v e . O u r a p p r o a c h a v o i d sb o t h p r o b l e m s .P r o b l e m S e t t i n gI n w h a t f o l l o w s , w e w i l l c o n s i d e r t w o m a j o r w o r dc l a ss e s , 12 a n d A f , f o r t h e v e r b s a n d n o u n s i n o u re x p e r i m e n t s , a n d a s i n g le r e l a ti o n b e t w e e n t h e m ,i n o u r e x p e r i m e n t s t h e r e l a t i o n b e t w e e n a t r a n -s i ti v e m a i n v e r b a n d t h e h e a d n o u n o f i ts d i r e c to b j e c t . O u r r a w k n o w l e d g e a b o u t t h e r e la t i o n c o n -s i s ts o f t h e f r e q u e n c i e s f ~ n o f o c c u r r e n c e o f p a r -t i c u l a r p a i r s ( v , n ) i n t h e r e q u i r e d c o n f i g u r a t i o ni n a t ra i n i n g c o r p u s . S o m e f o r m o f t e x t a n a l y -s is i s r e q u i r e d t o c o l l e c t s u c h a c o l l e c t i o n o f p a i r s .T h e c o r p u s u s e d i n o u r f i r s t e x p e r i m e n t w a s d e -r iv e d f r o m n e w s w ir e t e x t a u t o m a t i c a l l y p a r se d b y

    1 8 3

  • 7/30/2019 P93-1024

    2/8

    H i n d l e ' s p a r s e r F i d d i t c h ( H i n d l e , 1 9 9 3 ) . M o r e r e -c e n t ly , w e h a v e c o n s t r u c t e d s i m i l a r t a b l e s w i t h t h eh e l p o f a s t a t i s ti c a l p a r t - o f - s p e e c h t a g g e r ( C h u r c h ,1 9 8 8) a n d o f to o l s f o r r e g u l a r e x p r e s s io n p a t t e r nm a t c h i n g o n t a g g e d c o r p o r a ( Y a r o w s k y , 1 9 9 2) . W eh a v e n o t y e t c o m p a r e d t h e a c c u r a c y a n d c o v e r -a g e o f t h e t w o m e t h o d s , o r w h a t s y s t e m a t i c b i a se st h e y m i g h t i n t r o d u c e , a l t h o u g h w e t o o k c a r e t o fi l-t e r o u t c e r t a i n s y s t e m a t i c e r r o r s , f o r i n s t a n c e t h em i s p a r s i n g o f t h e s u b j e c t o f a c o m p l e m e n t c l a u sea s t h e d i r e c t o b j e c t o f a m a i n v e r b f o r re p o r t v e r b sl ike " s a y" .W e w i l l c o n s i d e r h e r e o n l y t h e p r o b l e m o f cl as -s i fy i n g n o u n s a c c o r d i n g t o t h e i r d i s t r i b u t i o n a s d i -r e c t o b j e c t s o f ve r b s ; t h e c o n v e r s e p r o b l e m i s f o r-m a l l y s i m i la r . M o r e g e n e r a l l y , t h e t h e o r e t i c a l b a -s is fo r o u r m e t h o d s u p p o r t s t h e u s e o f c lu s t e r in gt o b u i l d m o d e l s f o r a n y n - a r y r e l a t i o n i n t e r m s o fa s s o c i a t i o n s b e t w e e n e l e m e n t s i n e a c h c o o r d i n a t ea n d a p p r o p r i a t e h i d d e n u n i t s ( c l u s t e r c e n tr o i d s )a n d a s s o c ia t io n s b e tw e e n t h o s e h i d d e n u n i ts .F o r t h e n o u n c l a s s i f i c a t i o n p r o b l e m , t h e e m -p i r ic a l d i s t r i b u t i o n o f a n o u n n i s t h e n g i v e n b yt h e c o n d i t i o n a l d i s t r i b u t i o n p , ~ ( v ) = f ~ . / ~ v f " ~ "T h e p r o b l e m w e s t u d y i s h o w t o u s e t h e Pn t o c l a s-s i fy t h e n E A f . O u r c l a s s i f ic a t io n m e t h o d w i ll c o n -s t r u c t a se t C o f c l u s te r s a n d c l u s t e r m e m b e r s h i pp r o b a b i l i t i e s p ( c ] n ) . E a c h c l u s t e r c is a s s o c i a t e d t oa c l u s t e r c e n t r o i d P c , w h i c h i s a d i s t r i b u t i o n o v e rl ; o b t a i n e d b y a v e r a g i n g a p p r o p r i a t e l y t h e p n .D i s t r i b u t i o n a l S i m i l a r i t yT o c l u s te r n o u n s n a c c o r d i n g t o t h e i r c o n d i t i o n a lv e r b d i s t r i b u t i o n s P n , w e n e e d a m e a s u r e o f s i m i -l a r i t y b e t w e e n d i s t r i b u t i o n s . W e u s e f o r t h i s p u r -p o s e t h e r e l a t i ve e n t r op y o r K u l l b a c k - L e i b l e r ( K L )d i s t a n c e b e t w e e n t w o d i s t r i b u t i o n s

    O ( p I[ q) = Z P ( x ) lo g p ( x ): q ( x )

    T h i s i s a n a t u r a l c h o i c e f o r a v a r i e t y o f re a s o n s ,w h i c h w e w i ll j u s t s k e t c h h e r e )F i r s t o f a l l, D ( p I[ q ) i s z e r o j u s t w h e n p = q ,a n d i t i n c r e a s e s a s t h e p r o b a b i l i t y d e c r e a s e s t h a tp i s t h e r e l a t i v e f r e q u e n c y d i s t r i b u t i o n o f a r a n -d o m s a m p l e d r a w n a c c o r d i n g to q . M o r e fo r m a l l y ,t h e p r o b a b i l i t y m a s s g i v e n b y q t o t h e s e t o f a l ls a m p l e s o f le n g t h n w i t h r e l a t i v e f r e q u e n c y d i s t r i-b u t i o n p is b o u n d e d b y e x p - n n ( p I] q ) ( C o v e ra n d T h o m a s , 1 9 9 1 ). T h e r e f o r e , i f w e a r e t r y -i n g t o d i s ti n g u i s h a m o n g h y p o t h e s e s qi w h e n p i st h e r e l a t i v e f r e q u e n c y d i s t r i b u t i o n o f o b s e r v a t i o n s ,D(p I I q l ) g i v es t h e r e l a t iv e w e i g h t o f e v i d e n c e i nf a v o r o f q i. F u r t h e r m o r e , a s i m i l a r r e l a t i o n h o l d sb e t w e e n D ( p I I P ' ) f o r t w o e m p i r i c a l d i s t r i b u t i o n s pa n d p ' a n d t h e p r o b a b i l i t y t h a t p a n d p ~ a r e d r a w nf r o m t h e s a m e d i s t r i b u t i o n q . W e c a n t h u s u s e th er e l a t iv e e n t r o p y b e t w e e n t h e c o n t e x t d i s t r i b u t i o n sf o r tw o w o r d s t o m e a s u r e h o w l i k e ly t h e y a r e t ob e i n s t a n c e s o f th e s a m e c l u s t e r c e n t r o i d .

    aA more forma l di scussion wi ll app ear in our pap erDistribut ional Clustering, i n p r epa r a t i on .

    F r o m a n i n f o r m a t i o n t h e o r e t i c p e r s p e c t i v eD ( p ]1 q ) m e a s u r e s h o w i n e f f i c i e n t o n a v e r a g e i tw o u l d b e t o u s e a c o d e b a s e d o n q t o e n c o d e av a r i a b l e d i s t r i b u t e d a c c o r d i n g t o p . W i t h r e s p e c tt o o u r p r o b l e m , D ( p n H P c ) t h u s g i v e s u s t h e i n f o r -m a t i o n l o s s i n u s i n g c l u s t e r c e n t r o i d P c i n s t e a d o ft h e a c t u a l d i s t r i b u t i o n p n fo r w o r d n w h e n m o d -e l in g t h e d i s t r i b u t i o n a l p r o p e r t i e s o f n .F i n a l ly , r e l a ti v e e n t r o p y i s a n a t u r a l m e a s u r eo f s im i l a r i t y b e t w e e n d i s t r i b u t i o n s f o r c l u s t e ri n gb e c a u s e i t s m i n i m i z a t i o n l e a d s t o c l u s t e r c e n t r o i d st h a t a r e a si m p l e w e i g h t e d a v e r a g e o f m e m b e r d i s-t r i b u t i o n s .O n e t e c h n i c a l d i f f i c u l ty i s t h a t D ( p [1 p') isn o t d e f i n e d w h e n p ' ( x ) = 0 b u t p ( x ) > 0 . W ec o u l d s i d e s t e p t h i s p r o b l e m ( a s w e d i d i n i t i a l l y ) b ys m o o t h i n g z e ro f r e q u e n c ie s a p p r o p r i a t e l y ( C h u r c ha n d G a l e , 1 9 9 1 ) . H o w e v e r , t h i s i s n o t v e r y s a t -i s f a c t o r y b e c a u s e o n e o f t h e g o a l s o f o u r w o r k i sp r e c i se l y t o a v o i d t h e p r o b l e m s o f d a t a s p a r s e n e s sb y g r o u p i n g w o r d s i n t o cl as s es . I t t u r n s o u t t h a tt h e p r o b l e m i s a v o i d e d b y o u r c l u s t e r i n g t e c h n i q u e ,s i n c e i t d o e s n o t n e e d t o c o m p u t e t h e K L d i s t a n c eb e t w e e n i n d i v i d u a l w o r d d i s tr i b u t i o n s , b u t o n l yb e t w e e n a w o r d d i s t r ib u t i o n a n d a v e r a g e d i s t ri -b u t i o n s , t h e c u r r e n t c l u s t e r c e n t r o i d s , w h i c h a r eg u a r a n t e e d t o b e n o n z e r o w h e n e v e r t h e w o r d d i s -t r i b u t i o n s a r e . T h i s i s a u s e fu l a d v a n t a g e o f o u rm e t h o d c o m p a r e d w i t h a g g l o m e r a t i v e c lu s t er i ngt e c h n iq u e s t h a t n e e d t o c o m p a r e i n d i v i d u a l o b -j e c t s b e i n g c o n s i d e r e d f o r g r o u p i n g .

    T H E O R E T I C A L B A S I SI n g e n e r a l , w e a r e i n t e r e s t e d i n h o w t o o r g a n i z ea s e t o f l i n g u i s t i c o b j e c t s s u c h a s w o r d s a c c o r d i n gt o t h e c o n t e x t s i n w h i c h t h e y o c c u r , f o r i n s t a n c eg r a m m a t i c a l c o n s t r u c t i o n s o r n - g r a m s . W e w i lls h o w e l s e w h e r e t h a t t h e t h e o r e t i c a l a n a l y s i s o u t -l i n e d h e r e a p p l ie s t o t h a t m o r e g e n e r a l p r o b l e m ,b u t f o r n o w w e w il l o n l y a d d r e s s t h e m o r e s p e c if icp r o b l e m i n w h i c h t h e o b j e c t s a r e n o u n s a n d t h ec o n t e x t s a r e v e r b s t h a t t a k e t h e n o u n s a s d i r e c to b j e c t s .O u r p r o b l e m c a n b e s e e n a s t h a t o f l e a r n i n g aj o i n t d i s t r i b u t i o n o f p a i r s f r o m a l a r g e s a m p l e o fp a i r s. T h e p a i r c o o r d i n a t e s c o m e f r o m t w o l a r g es e t s . /k f a n d 12, w i t h n o p r e e x i s t i n g i n t e r n a l s t r u c -t u r e , a n d t h e t r a i n i n g d a t a i s a s e q u e n c e S o f Ni n d e p e n d e n t l y d r a w n p a i rs

    S i = ( n i , v i ) 1 < i < N .F r o m a l e a r n i n g p e r s p e c t i v e , t h i s p r o b l e m f a l l ss o m e w h e r e i n b e t w e e n u n s u p e r v i s e d a n d s u p e r -v i s ed l e a rn i n g . A s in u n s u p e r v i s e d l e a r n i n g , t h eg o a l is t o l e a r n t h e u n d e r l y i n g d i s t r i b u t i o n o f t h ed a t a . B u t i n c o n t r a s t t o m o s t u n s u p e r v i s e d l e a r n -i n g s e tt i n g s , t h e o b j e c t s i n v o l v e d h a v e n o i n t e r n a ls t r u c t u r e o r a t t r i b u t e s a l l o w in g t h e m t o b e c o m -p a r e d w i t h e a c h o t h e r . I n s t e a d , t h e o n l y i n f o r m a -t i o n a b o u t t h e o b j e c t s i s t h e s t a t i s t i c s o f t h e i r j o i n ta p p e a r a n c e . T h e s e s t a t is t i c s c a n th u s b e s e e n a s aw e a k f o r m o f o b j e c t l a b e l l i n g a n a l o g o u s t o s u p e r -v i s i o n .

    1 8 4

  • 7/30/2019 P93-1024

    3/8

    D i s t r i b u t i o n a l C l u s t e r i n gW h i l e c l u s t e r s b a s e d o n d i s t r i b u t i o n a l s i m i l a r i t ya r e i n t e r e s ti n g o n t h e i r o w n , t h e y c a n a l s o b e p r o f -i t a b l y s e e n a s a m e a n s o f s u m m a r i z i n g a j o i n t d is -t r i b u t i o n . I n p a r t i c u l a r , w e w o u l d li k e t o f i n d as e t o f c l u s t e r s C s u c h t h a t e a c h c o n d i t i o n a l d is -t r i b u t i o n p n ( v ) c a n b e a p p r o x i m a t e l y d ec o m p o s e da s

    p , ( v ) = ~ p ( c l n ) p c ( v ) ,cEC

    w h e r e p ( c [ n ) i s t h e m e m b e r s h i p p r o b a b i l i t y o f n i nc a n d p c ( v ) = p ( v l c ) i s v 's c o n d i t i o n a l p r o b a b i l i t yg i v e n b y t h e c e n t r o i d d i s t r i b u t i o n f o r c lu s t e r c .T h e a b o v e d e c o m p o s i t io n c a n b e w r i t t e n i n am o r e s y m m e t r i c f o r m a s~ ( n , v ) = ~ _ , p ( c , n ) p ( v l c )

    cEC= ~ - ~ p ( c ) P ( n l c ) P ( V l c ) (1 )

    cECa s s u m i n g t h a t p ( n ) a n d / 5 (n ) c o i n c i d e . W e w i l lt a k e ( 1 ) a s o u r b a s i c c l u s t e r i n g m o d e l .T o d e t e r m i n e t h i s d e c o m p o s i t i o n w e n e e d t os o lv e t h e t w o c o n n e c t e d p r o b l e m s o f fi n d i n g s u it -a b l e f o r m s f o r th e c l u s te r m e m b e r s h i p p ( c [ n ) a n dt h e c e n t r o i d d i s t r i b u t i o n s p ( v l c ) , a n d o f m a x i m i z -i n g t h e g o o d n e s s o f fi t b e t w e e n t h e m o d e l d i s t ri -b u t i o n 1 5 (n , v ) a n d t h e o b s e r v e d d a t a .G o o d n e s s o f f i t i s d e t e r m i n e d b y t h e m o d e l ' sl i k e li h o o d o f t h e o b s e r v a t i o n s . T h e m a x i m u m l ik e -l i h o o d ( M L ) e s t i m a t i o n p r i n c i p l e i s t h u s t h e n a t -u r a l t o o l t o d e t e r m i n e t h e c e n t r o i d d i s t r i b u t i o n sp c ( v ) .A s fo r th e m e m b e r s h i p p r o b a b i l it i e s, t h e ym u s t b e d e t e r m i n e d s o l e ly b y t h e r e l e v a n t m e a -s u r e o f o b j e c t - t o - c l u s t e r s i m i l a r i t y , w h i c h in t h ep r e s e n t w o r k i s t h e r e l a t i v e e n t r o p y b e t w e e n o b -j e c t a n d c l u s te r c e n t r o i d d i s tr i b u t i o n s . S i n c e n oo t h e r i n f o r m a t i o n is a v a il a b l e, t h e m e m b e r s h i p i sd e t e r m i n e d b y m a x i m i z i n g t h e c o n f i g u r a t i o n e n -t r o p y f o r a fi x e d a v e r a g e d i s to r t i o n . W i t h t h e m a x -i m u m e n t r o p y ( M E ) m e m b e r s h i p d i s tr i b u ti o n , M Le s t i m a t i o n i s eq u i v a l e n t t o t h e m i n i m i z a t i o n o f t h ea v e r a g e d i s t o r t i o n o f t h e d a t a . T h e c o m b i n e d e n -t r o p y m a x i m i z a t i o n e n t r o p y a n d d i s to r t io n m i n -i m i z a t i o n i s c a r r i e d o u t b y a t w o - s t a g e i t e r a t i v ep r o c e s s s i m i l a r t o t h e E M m e t h o d ( D e m p s t e r e ta l ., 1 9 7 7 ) . T h e f i rs t s t a g e o f a n i t e r a t i o n i s a m a x -i m u m l i k e l i h o o d , o r m i n i m u m d i s t o r t i o n , e s t i m a -t i o n o f th e c l u s t e r c e n t r o i d s g i v e n fi x e d m e m b e r -s h i p p r o b a b i l i t i e s . I n t h e s e c o n d s t a g e o f e a c h i t e r -a t io n , t h e e n t r o p y o f th e m e m b e r s h i p d i s tr i b u t io ni s m a x i m i z e d f o r a f ix e d a v e r a g e d i s t o r ti o n . T h i sj o i n t o p t i m i z a t i o n s e a r c h e s f o r a s a d d l e p o i n t int h e d i s t o r t i o n - e n t r o p y p a r a m e t e r s , w h i c h is e q u i v -a l e n t t o m i n i m i z i n g a l i n e a r c o m b i n a t i o n o f th et w o k n o w n a s f r e e e n e r g y i n s t a t i s t i c a l m e c h a n i c s .T h i s a n a l o g y w i t h s t a t i s t i c a l m e c h a n i c s i s n o t c o -i n c i d e n t a l, a n d p r o v i d e s a b e t t e r u n d e r s t a n d i n g o ft h e c l u s t e r i n g p r o c e d u r e .

    M a x i m u m L i k e l i h o o d C l u s t e rC e n t r o i d sF o r th e m a x i m u m l ik e l ih o o d a r g u m e n t , w e s t a r t b ye s t i m a t i n g t h e l i k e l i h o o d o f t h e s e q u e n c e S o f Ni n d e p e n d e n t o b s e r v a t i o n s o f p a i r s ( n i , v i ) . U s i n g( 1 ) , t h e s e q u e n c e ' s m o d e l l o g l i k e l i h o o d i s

    Nl ( S ) = l o g p ( c ) p ( n , l e ) p ( v i l c ) .

    i = l cECF i x i n g t h e n u m b e r o f c l u s t e rs ( m o d e l s iz e ) I c l , w ew a n t t o m a x i m i z e l ( S ) w i t h r e s p e c t t o t h e d i s t r i -b u t i o n s P ( n l c ) a n d p ( v l c ) . T h e v a r i at i o n o f l ( S )w i t h r e s p e c t t o t h e s e d i s t r i b u t i o n s i s

    N / v ( v , Ic)@(n~ fl( S) = ~ 1 ~ . . ~ p ( c ) | + / ( 2 )i= 1 P ( n i , v i ) c ~ c \ P ( n i l c ) 6 p ( v i I c ) ]w i t h p ( n l c ) a n d p ( v l c ) k e p t n o r m a l i z e d . U s i n gB a y e s ' s f o r m u l a , w e h a v e

    1 v( lni,~ ( n i , v i ) - - p ( c ) p ( n i [ c ) p ( v i [ c ) (3 )f o r a n y c . 2 S u b s t i t u t i n g ( 3 ) i n t o (2 ) , w e o b t a i n

    N ( , l o g p ( n , l c ) )~ l ( S ) = Z Z p ( c l n i , v i ) + (4 )l o g p ( v i Ic )i=1 cECs i nce ~ f l ogp - - @ / p . T h i s e x p r e s s i o n i s p a r t i c u -l a r l y u s e f u l w h e n t h e c l u s t e r d i s t r i b u t i o n s p ( n [ c )a n d p ( v l c ) h a v e a n e x p o n e n t i a l f o r m , p r e c i s e l yw h a t w i ll b e p r o v i d e d b y t h e M E s t e p d e s c r i b e db e l o w .A t t h i s p o i n t w e n e e d t o s p e c i f y t h e c l u s t e r -i n g m o d e l i n m o r e d e t a i l. I n t h e d e r i v a t i o n s o f a rw e h a v e t r e a t e d , p ( n c ) a n d p ( v c ) s y m m e t r i c a l l y ,c o r r e s p o n d i n g t o c l u s t e r s n o t o f v e r b s o r n o u n sb u t o f v e r b - n o u n a s s o c i a t io n s . I n p ri n c i p l e s u c ha s y m m e t r i c m o d e l m a y b e m o r e a c c u r a t e, b u t i nt h i s p a p e r w e w il l c o n c e n t r a t e o n a s y m m e t r i c m o d -e l s i n w h i c h c l u s t e r m e m b e r s h i p s a r e a s s o c i a t e d t oj u s t o n e o f t h e c o m p o n e n t s o f t h e jo i n t d i s t ri b u t io na n d t h e c l u s t e r c e n t r o i d s a r e s p e c if ie d o n l y b y t h eo t h e r c o m p o n e n t . I n p a r ti c u l a r , t h e m o d e l w e u s ei n o u r e x p e r i m e n t s h a s n o u n c l u s t e r s w i t h c l u s t e rm e m b e r s h i p s d e t e r m i n e d b y p ( n l c ) a n d c e n t r o i dd i s t ri b u t io n s d e t e r m i n e d b y p ( v l c ) .T h e a s y m m e t r i c m o d e l s im p l i fi e s t h e e s t im a -t i o n s i g n i f ic a n t l y b y d e a l i n g w i t h a s in g l e c o m p o -n e n t , b u t i t h a s t h e d i s a d v a n t a g e t h a t t h e j o i n td i s t r i b u t i o n , p ( n , v ) h a s t w o d i f f e r e n t a n d n o t n e c -e s s a r il y c o n s i s t e n t e x p r e s s i o n s i n t e r m s o f a s y m -m e t r i c m o d e l s f o r t h e t w o c o o r d i n a t e s .2As usua l i n c l us t e r i ng mode l s ( Duda and Har t ,1973) , we a s sume t ha t t he m ode l d i s tr i bu t i on and t heempir ical di s t r ibut ion are interchangeable a t the solu-t i on o f t he pa r a met e r e s t i ma t i on equa t i ons , s ince t hemode l is a s sumed t o be ab l e t o r epr esen t co r r ec t l y t heda t a a t t ha t so l u t i on po i n t . I n p r ac t i ce , t he da t a maynot com e exac t l y f r om t he chosen mode l c la s s, b u t t hemode l ob t a i ned by so lv ing t he e s t i ma t i on eq ua t i onsmay s t i l l be t he c l oses t one t o t he da t a .

    1 8 5

  • 7/30/2019 P93-1024

    4/8

    M a x i m u m E n t r o p y C l u s t e r M e m b e r s h i pW h i l e v a r i a t i o n s o f p ( n l c ) a n d p(v lc ) i r i equa t ion( 4 ) a r e n o t i n d e p e n d e n t , w e c a n t r e a t t h e m s e p -a r a t e l y . F i r s t , f o r f i x e d a v e r a g e d i s t o r t i o n b e -t w e e n t h e c l u s t e r c e n t r o i d d i s t r i b u t i o n s p(v lc ) a n dt h e d a t a p ( v l n ) , w e f i n d t h e c l u s t e r m e m b e r s h i pp r o b a b i l i t i e s, w h i c h a r e t h e B a y e s i n v e rs e s o f t h ep ( n l c ) , t h a t m a x i m i z e t h e e n t r o p y o f th e c l u st e rd i s t r i b u t i o n s . W i t h t h e m e m b e r s h i p d i s t r i b u t i o n st h u s o b t a i n e d , w e t h e n l o o k f o r t h e p(v lc ) t h a tm a x i m i z e t h e l o g l i k e l i h o o d l ( S ) . I t t u r n s o u tt h a t t h i s w i ll a ls o b e t h e v a l u e s o f p ( v l c ) t h a t m i n i -m i z e th e a v e r a g e d i s to r t i o n b e t w e e n t h e a s y m m e t -r ic c l u st e r m o d e l a n d t h e d a t a .G i v e n a n y s i m i l a r i t y m e a s u r e d in , c ) b e t w e e nn o u n s a n d c l u s t e r c e n t r o i d s , t h e a v e r a g e c l u s t e rd i s t o r t i o n i s

    ( 0 ) = ~ _ , ~ , p ( c l n ) d ( n , c ) (5 )n E A r t E d

    I f w e m a x i m i z e t h e c l u s t e r m e m b e r s h i p e n t r o p yH = - ~ Z p ( c l n ) l o g p ( n l c ) (6 )

    n E X c Eds u b j e c t t o n o r m a l i z a t i o n o f p ( n l c ) and f ixed (5 ) , weo b t a i n t h e f o ll o w i n g s t a n d a r d e x p o n e n t i a l f o r m s( J a y n e s , 1 9 8 3 ) f o r t h e c l a s s a n d m e m b e r s h i p d i s -t r i b u t i o n s

    1p ( n l c ) = Z- ex p - r i d ( n , c ) (7 )1p(cJn) = ~ ex p - r i d ( n , c ) (8)

    w h e r e t h e n o r m a l i z a t i o n s u m s ( p a r t i t i o n f u n c -t ions ) a re Z~ = ~ , ~ e x p - f l d ( n , c ) a n d Z n =~ e x p - r i d ( n , c ) . N o tic e t h a t d ( n , c ) d o e s n o tn e e d t o b e s y m m e t r i c f o r t h i s d e r i v a t i o n , a s th et w o d i s t r i b u t i o n s a r e s i m p l y r e l a t e d b y B a y e s ' sr u l e .R e t u r n i n g t o t h e l o g - l i k e l i h o o d v a r i a t i o n ( 4 ) ,w e c a n n o w u s e ( 7 ) f o r p ( n [ c ) a n d t h e a s s u m p t i o nf o r t h e a s y m m e t r i c m o d e l t h a t t h e c l u s t e r m e m -b e r s h i p s t a y s f i x e d a s w e a d j u s t t h e c e n t r o i d s , t oo b t a i n

    N61(S ) = - ~ ~ p(e ln i )6 r id (n , , c ) + ~ log Z~ (9)i = 1 e E C

    w h e r e t h e v a r i a t i o n o f p(v[c) i s n o w i n c l u d e d i nt h e v a r i a t i o n o f d(n , e ) .F o r a l a r g e e n o u g h s a m p l e , w e m a y r e p l a c e t h es u m o v e r o b s e r v a t i o n s i n ( 9 ) b y t h e a v e r a g e o v e rN

    6 1 ( s ) = - p ( n ) - " p ( l n ) 6 r i d( n , ) + 6 ogZn E N cE C

    w h i c h , a p p l y i n g B a y e s ' s r u l e , b e c o m e s16 1 (S ) = - ~ ~ ( ~ ~ p ( n l c ) 6 r id ( n , c ) + 6 l o g Z .

    e E C h E N

    A t t h e l o g - li k e li h o o d m a x i m u m , t h i s v a r i a t i o nm u s t v a n i s h . W e w i l l s e e b e lo w t h a t t h e u s e o f re l -a t iv e e n t r o p y f o r s i m i l a r i t y m e a s u r e m a k e s 6 lo g Z cv a n i s h a t t h e m a x i m u m a s w e l l , s o t h e l o g l i k e l i -h o o d c a n b e m a x i m i z e d b y m i n i m i z i n g t h e a v e ra g ed i s t o r t i o n w i t h r e s p e c t t o t h e c l a ss c e n t r o i d s w h i l ec l a s s m e m b e r s h i p i s k e p t f i x e d1 p ( n j c ) 6 d ( n , e ) = o ,

    c EC n E Xo r , s u f f i ci e n t ly , i f e a c h o f t h e i n n e r s u m s v a n i s h

    ~ p ( n l c l 6 d ( n , c ) = 0 (10)t e e n E A r

    M i n i m i z i n g t h e A v e r a g e K L D i s t o r t i o n W ef i rs t sh o w t h a t t h e m i n i m i z a t i o n o f t h e r e l a t i v ee n t r o p y y i e l d s t h e n a t u r a l e x p r e s s i o n f o r c l u s t e rc e n t r o i d sP (v le ) = ~ p (n lc )p (v ln ) (11)

    n E WT o m i n i m i z e t h e a v e r a g e d i s t o r t i o n ( 1 0 ) , w e o b -s e rv e t h a t t h e v a r i a t i o n o f t h e K L d i s t a n c e b e -t w e e n n o u n a n d c e n t r o i d d i s t r i b u t i o n s w i t h r e -s p e c t t o t h e c e n t r o i d d i s t r i b u t i o n p(v[c) , w i t h e a c hc e n t r o i d d i s t r i b u t i o n n o r m a l i z e d b y t h e L a g r a n g em ul t ip l i e r Ac , i s g iven by

    ( - ~ e v P ( V [ n ) l g p ( v [ c ) )~ d ( n , c ) = ~ +A(E,~ev p(v lc ) - 1)= ~ - ~ ( p ( v l n ) + A O , p ( v l c )v ( v l )

    S u b s t i t u t i n g t h i s e x p r e s s i o n i n t o ( 1 0 ) , w e o b t a i n

    , ,~ v p(v lc)S i n c e t h e ~p(vlc ) a r e n o w i n d e p e n d e n t , w e o b t a i ni m m e d i a t e l y t h e d e s i r e d c e n t r o i d e x p r e s s i o n ( 1 1 ) ,w h i c h i s t h e d e s i r e d w e i g h t e d a v e r a g e o f n o u n d i s -t r i b u t i o n s .W e c a n n o w s e e t h a t t h e v a r i a t i o n (5 l o g Z~ v a n -i s h es f o r c e n t r o i d d i s t r i b u t i o n s g i v e n b y ( 1 1 ) , s i n c ei t f o l lo w s f r o m ( 1 0 ) t h a t

    6 log = exp-rid( , , c ) 6 d ( n , e)Z e- r i - - 0

    n

    T h e F r e e E n e r g y F u n c t i o n T h e c om b in e dm i n i m u m d i st o r t io n a n d m a x i m u m e n t r o p y o p ti -m i z a t i o n i s e q u i v a l e n t t o t h e m i n i m i z a t i o n o f a s in -g l e f u n c t i o n , t h e f ree energy

    1 l o g Z n= - ~= < D > - " H l r i ,

    w h e r e ( D ) i s t h e a v e r a g e d i s t o r t i o n ( 5 ) a n d H i st h e c l u s t e r m e m b e r s h i p e n t r o p y ( 6 ) .

    1 8 6

  • 7/30/2019 P93-1024

    5/8

    T h e f r e e e n e r g y d e t e r m i n e s b o t h t h e d i s t o r -t i o n a nd t h e m e m b e r s h i p e n t r o p y t h r o u g hOZF( D ) - O~OFH - O T '

    w h e r e T = / ~ - 1 i s t h e t e m p e r a t u r e .T h e m o s t i m p o r t a n t p r o p e r t y o f th e f r e e e n -e r g y is t h a t i ts m i n i m u m d e t e r m i n e s t h e b a l a n c eb e t w e en t h e " d i so r d e ri n g " m a x i m u m e n t r o p y a n d" o r d e r i n g " d i s t o r t i o n m i n i m i z a t i o n i n w h i c h t h es y s t e m i s m o s t l i k el y t o b e f o u n d . I n f a c t t h e p r o b -a b i l i ty t o f i n d t h e s y s t e m a t a g i v e n c o n f i g u r a t io ni s e x p o n e n t i a l i n F

    P o c e x p - f l F ,s o a s y s t e m i s m o s t l i k e l y t o b e f o u n d i n i t s m i n i -m a l f r e e e n e r g y c o n f i g u r a t i o n .H i e r a r c h i c a l C l u s t e r i n gT h e a n a l o g y w i t h s t a t i st i c a l m e c h a n i c s su g g e s t sa d e t e r m i n i s t i c a n n e a l i n g p r o c e d u r e f o r c l u s te r i n gR o s e e t a l . , 1 9 9 0 ) , i n w h i c h t h e n u m b e r o f c l u s t e r ss d e t e r m i n e d t h r o u g h a s e q u e n c e o f p h a s e t r a n s i -t i o n s b y c o n t i n u o u s l y i n c r e a s in g t h e p a r a m e t e r / ?f o l l o w i n g a n a n n e a l i n g s c h e d u l e .T h e h i g h e r i s f l, t h e m o r e l o c a l i s t h e i n f l u e n c eo f e a c h n o u n o n t h e d e f i n i ti o n o f c e n t r o id s . D i s-t r i b u t i o n a l s i m i l a r i t y p la y s h e r e t h e r o l e o f d i s t o r-t i o n . W h e n t h e s c a l e p a r a m e t e r f l i s c l o se t o z e r o ,t h e s i m i l a r i t y i s a l m o s t i r r e l e v a n t . A l l w o r d s c o n -t r i b u t e a b o u t e q u a l l y to e a c h c e n t r o i d , a n d s o th el o w e s t a v e r ag e d i s t o r t i o n s o l u t i o n i n v o lv e s j u s t o n ec l u s t e r w h o s e c e n t r o i d i s t h e a v e r a g e o f a l l w o r dd i s t r i b u t i o n s . A s f l i s s l o w l y i n c r e a s e d , a c r i t i c a lp o i n t i s e v e n t u a l l y r e a c h e d f o r w h i c h t h e l o w e s tF s o l u t i o n i n v o l v e s t w o d i s t i n c t c e n t r o i d s . W e s a yt h e n t h a t t h e o r i g i n a l c l u s t e r h a s s p l i t i n t o t h e t w on e w c l u s t e r s .I n g e n e r a l , i f w e t a k e a n y c l u s t e r c a n d a t w i nc ' o f c su c h t h a t t h e c e n t r o i d P c ' i s a s m a l l r a n -d o m p e r t u r b a t i o n o f P c , b e lo w t h e c r i ti c a l fl a tw h i c h c sp l i ts t h e m e m b e r s h i p a n d c e n t r o i d r e es t i-m a t i o n p r o c e d u r e g i v e n b y e q u a t i o n s ( 8 ) a n d ( 1 1 )w i l l m a k e p c a n d P c , c o n v e r g e , t h a t i s , c a n d c 'a r e r e a l ly t h e s a m e c l u s t e r. B u t w i t h f l a b o v e t h ec r i t i c a l v a l u e f o r c, t h e t w o c e n t r o i d s w i l l d iv e r g e ,g i v i n g ri se t o t w o d a u g h t e r s o f c.O u r c l u s t e r i n g p r o c e d u r e i s t h u s a s f o l l o w s .W e s t a r t w i t h v e r y l o w /3 a n d a s i n g l e c l u s t e rw h o s e c e n t r o i d i s t h e a v e r a g e o f a l l n o u n d i s t r i-b u t i o n s . F o r a n y g i v e n f l, w e h a v e a c u r r e n t s e t o fl e a f c l u s te r s c o r r e s p o n d i n g t o t h e c u r r e n t f r e e e n-e r g y ( l o c a l) m i n i m u m . T o r e fi n e s u c h a s o l u ti o n ,w e s e a r c h f o r t h e l o w e s t f l w h i c h i s th e c r i t i c a lv a l u e f o r s o m e c u r r e n t l e a f c l u s t e r s p l i ts . I d e a l l y ,t h e r e i s j u s t o n e s p l i t a t t h a t c r i t i c a l v a l u e , b u tf o r p r a c t i c a l p e r f o r m a n c e a n d n u m e r i c a l a c c u r a c yr e a s o n s w e m a y h a v e s e v e r a l s p l i t s a t t h e n e w c r i t -i c al p o i n t . T h e s p l it t i n g p r o c e d u r e c a n t h e n b er e p e a t e d t o a c h i e v e th e d e s i re d n u m b e r o f c l u s te r so r m o d e l c r o s s - e n t ro p y .

    3g unmi ss i l ew e a p o nr o c k e t

    r o o t

    1m i s s i l e 0 . 8 3 5 o f f i c e rr o c k e t 0 . 8 5 0 a i d eb u l l e t 0 . 9 1 7 c h i e f

    0 . 9 4 0 m a n a g e r

    40 . 7 5 8 s h o t 0 . 8 5 80 . 7 8 6 b u l l e t 0 . 9 2 50 . 8 6 2 r o c k e t 0 . 9 3 00 .875 mi s s i l e 1 .037

    2 0 . 4 8 40 . 6 1 20 .6490 .651

    F i g u r e 1 : D i r e c t o b j e c t c l u s t e r s f o r f i r e

    C L U S T E R I N G E X A M P L E SA l l o u r e x p e r i m e n t s i n v o lv e t h e a s y m m e t r i c m o d e ld e s c r i b e d in t h e p r e v i o u s s e c t io n . A s e x p l a i n e dt h e r e , o u r c l u s t e r i n g p r o c e d u r e y i e l d s f o r e a c hv a l u e o f ~ a s e t C Z o f c l u s t e r s m i n i m i z i n g t h e f r e ee n e r g y F , a n d t h e a s y m m e t r i c m o d e l f o r f l e s ti -m a t e s t h e c o n d i t i o n a l v e r b d i s t r i b u t i o n f o r a n o u nn b y

    c E C B

    wh ere p(cln also dep end s on ft.As a first experiment, we used our me th od toc l a ss i fy t h e 6 4 n o u n s a p p e a r i n g m o s t f r e q u e n t l ya s h e a d s o f d i r e c t o b j e c t s o f t h e v e r b " f ir e " in o n ey e a r ( 1 9 8 8 ) o f A s s o c i a t e d P r e s s n e w s w i r e . I n t h isc o r p u s , t h e c h o s e n n o u n s a p p e a r a s d i r e c t o b j e c th e a d s o f a t o t a l o f 2 1 4 7 d i s t i n c t v e r b s , s o e a c hn o u n i s r e p r e s e n t e d b y a d e n s i t y o v e r th e 2 1 4 7v e r b s .F i g u r e 1 s h o w s t h e f o u r w o r d s m o s t s i m i l a r t oe a c h c l u s te r c e n t r o i d , a n d t h e c o r r e s p o n d i n g w o r d -c e n t r o i d K L d i s t a n c e s , f o r t h e f o u r c l u s t e r s r e s u l t-i n g f r o m t h e f i r s t t w o c l u s t e r s p l i ts . I t c a n b e s e e nt h a t f ir s t sp l i t s e p a r a t e s t h e o b j e c t s c o r r e s p o n d i n gt o t h e w e a p o n r y s e n s e o f " fi re " ( c l u s t e r 1 ) f r o m t h eo n e s c o r r e s p o n d i n g t o t h e p e r s o n n e l a c t i o n ( c l u s -t e r 2 ) . T h e s e c o n d s p l i t t h e n f u r t h e r r e f in e s t h ew e a p o n r y s e n s e i n t o a p r o j e c t i l e s e n se ( c l u s te r 3 )a n d a g u n s e n se ( c l u s t e r 4 ). T h a t s p l i t is s o m e -w h a t l e ss s h a r p , p o s s i b l y b e c a u s e n o t e n o u g h d i s -t i n g u i s h i n g c o n t e x t s o c c u r i n t h e c o r p u s .F i g u r e 2 s h o w s t h e f o u r c l o s e st n o u n s t o t h ec e n t r o i d o f e a c h o f a s e t o f h i e r a r c h i c a l c l u s-t e r s d e r i v e d f r o m v e r b - o b j e c t p a i r s i n v o l v i n g t h e1 0 00 m o s t f r e q u e n t n o u n s i n t h e J u n e 1 9 91 e le c -t r o n i c v e r s io n o f G r o l i e r ' s E n c y c l o p e d i a ( 1 0 m i l -

    1 8 7

  • 7/30/2019 P93-1024

    6/8

    g r a n td i s t i n c t i o nf o r mr e p r e s e n t a t i o n

    s t a t e 1 . 3 2 0 r e s i d e n c ea l l y 1 . 4 5 8 s t a t er e si d en c e 1 . 4 7 3 c o n d u c to r/ , . . m o v e m e n t 1 . 5 3 4 t ea c h e r

    " - n u m b e r 0 . 9 9 9 n u m b e rm a t e r ia l 1 . 3 6 1 m a t e r ia lv a r i e t y 1 . 4 0 1 m a s sm a s s 1 . 4 2 2 ' ~ v a r ie t y

    ~ n u m b e rd i v e r s i t ys t r u c t u r ec o n c e n t r a t i o n

    Jc o n t r o l 1 . 2 0 1 1r e c o g n i t i o n 1 . 3 1 7n o m i n a t i o n 1 . 3 6 3

    ~ i ~ i ~ i m 1 .3 6 61 . 3 9 2 e n t 1 . 3 2 9 _1 . 5 5 4 v o y a g e 1 .3 3 8 ~ -1 . 5 7 1 ~ m i g r a t i o n 1 .4 2 81 . 5 7 7 p r o g r e s s 1 . 4 4 1~

    c o n d u c to r 0 . 6 9 9 j I s t a t e ] 1 . 2 7 9 Iv i c e -p r e s id e n t 0 . 7 5 6 ~ e o p l e I 1 . 4 1 7 ]e d it o r 0 . 8 1 4 I m o d e m 1 . 4 1 8d i r e c t o r 0 . 8 2 5 [ f a rm e r 1 . 4 2 5

    1 . 0 8 2 c o m p l e x 1 . 1 6 1 ~ a a v y 1 . 0 9 61 .1 0 2 n e tw o r k 1 . 1 7 5 _ . _ . _ ~ o m m u n i t y 1 .0 9 91 . 2 1 3 c o m m u n it y 1 .2 7 6 ] a e tw o r k 1 .2 4 41 .2 3 3 g r o u p 1 . 3 2 7 ~ I c o m p l e x 1 .2 5 9" ~ o m p l e x [ 1 . 0 9 7 IImaterial [ 0.976 ~ n e t w o r k I 1"21111 . 0 2 6 ~ a l t ] 1 . 2 1 7 [ l a k e 1 1 . 3 6 0 11 . 0 9 3 . . - - - - -- ' - '- ~ m g 1 .2 4 41 ~ r e g i o n 1 1 . 4 3 5 11 .2 5 2 ~ a u m b e r 1 . 2 5 0 [ ~ s s ay [ 0 . 6 9 5 I

    l ' 2 7 8 ~ n u m b e r 1 .0 4 7 I c o m e d y 1 0 . 8 0 0 1c o m e d y 1 . 0 6 0 . . - - - - - - " ~ o e m [ 0 "8 2 91e s s a y 1 . 1 4 2 f - re a t is e [ 0 . 8 5 0 ]p ie c e 1 . 1 9 8 " ~ u r n b e r 1 1 . 1 2 0 I~ a r i e t y 1 . 2 1 7~ a t e r i a l 1 .2 7 5F l u s t e r 1.3111

    ~ t r u c t u r e [ 1 . 3 7 1 1~ e l a t i o n s h i p 1 . 4 6 01 . 4 2 9 c h a n g e 1 . 5 6 1 j . . . ~ P e c t 1 .4 9 2 [1 . 5 3 7 f a il u r e 1 . 5 6 2 " - " ' - ] s y s t e m 1 . 4 9 71 . 5 7 7 v a r i a ti o n 1 . 5 9 2 ~ i a o l l u t i o n 1 . 1 8 7 ]1 . 5 8 2 , s tr u c t u r e 1 . 5 9 2 ~ " ~ a i l u r e 1 .2 9 0\ [ r e _ c r e a s e 1 . 3 2 8I m t e c t i o n 1 . 4 3 2 ]s p e e d 1 .1 7 7 ~ n u m b e r 1 1 . 4 6 1 1l e v e l 1 . 3 1 5 _ . ,_ _ J c o n c e n t r at io n 1 . 4 7 8v e l o c i t y 1 . 3 7 1 ~ t r e n g t h 1 . 4 8 8s iz e 1 . 4 4 0 ~ ~ a ti o 1 .4 8 8

    ~ ) l s p e e d 1 1 . 1 3 0 I~ e n i t h 1 1 . 2 1 4 1e p t h 1 . 2 4 4 1

    e c o g n i t i o n 0 . 8 7 4 ]t c c l a i m 1 . 0 2 6 Ie n o w n 1 . 0 7 9n o m i n a t i o n 1 . 1 0 4f o r m 1 . 1 1 0 I~ x p l a n a t i o n 1 . 2 5 5: a r e 1 . 2 9 1 1: o n t r o l 1 . 2 9 5

    v o y a g e 0.8611L r i p 0 . 9 7 2 ]p r o g r e s s 1 . 0 1 6i m p r o v e m e n t 1 . 1 1 4) r o g r a m 1 . 4 5 9, p e r a t i o n 1 . 4 7 8: t u d y 1 . 4 8 0n v e s t i g a t i o n 1 . 4 8 1 1

    ; o n d u c t o r 0 . 4 5 7 ]r i c e - p r e s i d e n t 0 . 4 7 4l i r e c t o r 0 . 4 8 9: h a i r m a n 0 . 5 0 0 1

    Figu re 2 : N oun C lus t e r s fo r G ro l i e r ' s Enc yc lope d ia

    1 8 8

  • 7/30/2019 P93-1024

    7/8

    ~3~o

    -~ tra in, * - - - - - , t e s tpk s- - - -D ne w

    - - t t - . . . . . . . . . . . . . . . . . . . . . . . . ~ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

    t t t0 0 100 200 300 400n u m b e r o f d u s t e rs

    F i g u r e 3 : A s y m m e t r i c M o d e l E v a l u a t i o n , A P 8 8V e r b - D i r e c t O b j e c t P a i r s

    0.8 " \ .m.......~ e x c e pt iona l

    3 0.6

    -o 0.4

    0.2 - s

    L , . , i0 0 100 200 300num be r o f c lus te rs

    40 0

    F i g u r e 4: P a i r w i s e V e rb C o m p a r i s o n s , A P 8 8 V e r b -D i r e c t O b j e c t P a i r s

    l i o n w o r d s ) .

    M O D E L E V A L U A T I O NT h e p r e c e d i n g q u a l i t a t i v e d i s c u s s i o n p r o v i d e ss o m e i n d ic a t i o n o f w h a t a s p e c t s o f d i s t r ib u t i o n a lr e l a t i o n s h i p s m a y b e d i s c o v e r e d b y c l u s t e r i n g .H o w e v e r , w e a l s o n e e d t o e v a l u a t e c l u s t e r i n g m o r er i g o r o u s l y a s a b a s i s f o r m o d e l s o f d i s t r i b u t i o n a lr e l a t i o n s h i p s . S o , f a r , w e h a v e l o o k e d a t t w o k i n d so f m e a s u r e m e n t s o f m o d e l q u a l i t y : ( i) r e la t i v e e n -t r o p y be t w e e n h e l d -o u t d a t a a n d t h e a s y m m e t r i cm o d e l , a n d ( i i ) p e r f o r m a n c e o n t h e t a s k o f d e c i d-i n g w h i c h o f t w o v e r b s i s m o r e l i k e l y to t a k e a g i v e nn o u n a s d ir e c t o b j e c t w h e n t h e d a t a r e l a t i n g o n eo f t h e v e r b s t o t h e n o u n h a s b e e n w i t h h e l d f r o mt h e t r a i n i n g d a t a .T h e e v a l u a t i o n d e s c r i b e d b e l o w w a s p e r -

    f o r m e d o n t h e l a r g e s t d a t a s e t w e h a v e w o r k e dw i t h s o fa r , e x t r a c t e d f r o m 4 4 m i l l i o n w o r d s o f1 98 8 A s s o c i a t e d P r e s s n e w s w i r e w i t h t h e p a t t e r nm a t c h i n g t e c h n i q u e s m e n t i o n e d e a r l i e r. T h i s c ol -l e c t i o n p r o c e ss y i e l d e d 1 1 12 0 41 v e r b - o b j e c t p a i r s .W e s e l e c te d t h e n t h e s u b s e t i n v o l v i n g t h e 1 0 0 0m o s t f r e q u e n t n o u n s i n t h e c o r p u s f o r c l u s te r i n g ,a n d r a n d o m l y d i v i d e d i t i n t o a t r a i n i n g s e t o f7 5 6 7 2 1 p a i r s a n d a t e s t s e t o f 8 1 2 4 0 p a i r s .R e l a t i v e E n t r o p yF i g u r e 3 p l o ts t h e u n w e i g h t e d a v e r a g e r e l a t i v e e n-t r o p y , i n b i t s, o f s e v e r a l t e s t s e t s t o a s y m m e t -r i c c l u s t e r e d m o d e l s o f d i f f e r e n t s i z es , g i v e n b y

    1 ~ , , e A r , D ( t , ,l l / ~ - ) , w h e r e A f t i s t h e s e t o f d i -r e c t o b j e c t s i n t h e t e s t s e t a n d t ,~ i s t h e r e l a t i v ef r e q u e n c y d i s t r i b u t i o n o f v e r b s t a k i n g n a s d ir e c to b j e c t i n t h e t e s t s e t . 3 F o r e a c h c r i t i c a l v a l u eo f f? , w e s h o w t h e r e l a t i v e e n t r o p y w i t h r e s p e c t t o

    aw e u se u n w e ig h ted av e rag es b ecau se w e a re i n t e r -e s t ed h e r o n h o w w e l l t h e n o u n d i s t r i b u t io n s a r e ap -p ro x im a ted b y t h e c lu s t e r m o d e l . I f w e w ere i n t e r e s t edo n th e t o t a l i n fo rm a t io n l o s s o f u s in g t h e a sy m m e t r i cm o d e l t o en co d e a t e s t co rp u s , w e w o u ld i n s t ead u se

    t h e a s y m m e t r i c m o d e l b a s e d o n g p o f t h e t r a i n -i n g s e t ( s e t t r a i n ) , o f r a n d o m l y s e l ec t e d h e l d - o u tt e s t s e t ( s e t t e s t ) , a n d o f h e l d - o u t d a t a f o r a fu r -t h e r 1 00 0 n o u n s t h a t w e r e n o t c l u s te r e d ( s e t n e w ) .U n s u r p r i s i n g l y , t h e t r a i n i n g s e t r e l a t i v e e n t r o p yd e c r e a s e s m o n o t o n i c a l l y . T h e t e s t s e t r e l a t i v e e n -t r o p y d e c r e a s e s t o a m i n i m u m a t 2 0 6 c l u s t e rs , a n dt h e n s t a r t s i n c r e a s i n g , s u g g e s t i n g t h a t l a r g e r m o d -e l s a r e o v e r t r a i n e d .T h e n e w n o u n t e s t s e t is i n t e n d e d t o t e s tw h e t h e r c l u s t e r s b a s e d o n th e 1 0 0 0 m o s t f r e q u e n tn o u n s a r e u s e f u l c l a s s i f i e r s f o r t h e s e l e c t i o n a l p r o p -e r t i e s o f n o u n s i n g e n e ra l . S i n c e th e n o u n s i n t h et e s t s e t p a i r s d o n o t o c c u r i n t h e t r a i n i n g s e t , w ed o n o t h a v e t h e ir c l u s te r m e m b e r s h i p p r o b a b i l i t i e st h a t a r e n e e d e d in t he a s y m m e t r i c m o d e l . I n s t e a d ,f o r e a c h n o u n n i n t h e t e s t s e t , w e c l a s s i f y i t w i t hr e s p e c t t o t h e c l u s t e r s b y s e t t i n g

    p ( c l n ) = e x p - D D ( p , ~ I c ) / Z ,w h e r e p , ~ i s t h e e m p i r i c a l c o n d i t i o n a l v e r b d i s t r i -b u t i o n f o r n g iv e n b y t h e t e s t s e t . T h e s e c l u s t e rm e m b e r s h i p e s t i m a t e s w e r e t h e n u se d i n t h e a s y m -m e t r i c m o d e l a n d t h e t e s t s e t r e l a t iv e e n t r o p y c a l -c u l a t e d a s b e f o r e . A s t h e f i g u re s h o w s , t h e c l u s t e rm o d e l p r o v id e s o v e r o n e b i t o f i n f o r m a t i o n a b o u tt h e s e l e c t i o n a l p r o p e r t i e s o f t h e n e w n o u n s , b u tt h e o v e r t r a i n i n g e f f ec t is e v e n s h a r p e r t h a n f o r t h eh e l d - o u t d a t a i n v o l v i n g t h e 1 0 0 0 c l u s t e r e d n o u n s .D e c i s i o n T a s kW e a l s o e v a l u a t e d a s y m m e t r i c c lu s t e r m o d e l s o na v e r b d e c i s i on t a s k c l o s er t o p o s s i b l e a p p l i c a t i o n st o d i s a m b i g u a t i o n in l a n g u a g e a n a l ys i s . T h e t a s kc o n s i s t s j u d g i n g w h i c h o f t w o v e r b s v a n d v ' i sm o r e l i k e ly t o t a k e a g i v e n n o u n n a s o b j e c t , w h e na l l o c c u r r e n c e s o f ( v , n ) i n t h e t r a i n i n g s e t w e r ed e l i b e r a t e l y d e l e t e d . T h u s t h i s t e s t e v a l u a t e s h o ww e l l t h e m o d e l s r e c o n s t r u c t m i s s i n g d a t a i n t h eth e w e ig h ted av e rag e ~ , ~ e ~ t f n D ( t , ~ l l ~ , , ) w h ere f , , i st h e r e l a t i v e f r eq u en cy o f n in t h e t e s t s e t .

    1 8 9

  • 7/30/2019 P93-1024

    8/8

    v e r b d i s t r i b u t i o n f o r n f r o m t h e c l u s t e r c e n t r o i d sc l o s e t o n .T h e d a t a f o r t h i s t e s t w a s b u i l t f r o m t h e t r a i n -i n g d a t a f o r t h e p r e v i o u s o n e i n t h e f o l lo w i n g w a y,b a s e d o n a s u g g e s ti o n b y D a g a n e t a l . (1 9 9 3 ) . 1 0 4

    n o u n - v e r b p a i r s w i t h a f a i r l y f r e q u e n t v e r b ( b e -t w e e n 5 00 a n d 5 0 00 o c c u r r e n c e s ) w e r e r a n d o m l yp i c k e d, a n d a l l o c c u r r e n c e s o f e a c h p a i r i n t h et r a i n i n g s e t w e r e de l e t e d . T h e r e s u l t i n g t r a i n i n gs e t w a s u s e d t o b u i l d a s e q u e n c e o f c l u s t e r m o d e l sa s b e f o r e . E a c h m o d e l w a s u s e d t o d e c i d e w h i c h o ft w o v e r b s v a n d v ~ a r e m o r e l i k e l y t o a p p e a r w i t ha n o u n n w h e r e t h e ( v , n ) d a t a w a s d e l e t e d f r o mt h e t r a i n i n g s e t , a n d t h e d e c i s i o n s w e r e c o m p a r e dw i t h t h e c o r r e s p o n d i n g o n e s d e r i v e d f r o m t h e o r i g -i n a l e v e n t f r e q u e n c ie s i n t h e i n i t i a l d a t a s e t . T h ee r r o r r a t e f o r e a c h m o d e l i s s i m p l y t h e p r o p o r t i o no f d i s a g r e e m e n t s f o r t h e s e l e c t e d ( v , n , v t ) t r i p l e s .F i g u r e 4 s h o w s th e e r r o r r a t e s f o r e a c h m o d e l fo ra l l t h e s e l e c t e d ( v , n , v ~ ) ( a l 0 a n d f o r j u s t t h o s ee x c e p t i o n a l t r i p l e s i n w h i c h t h e c o n d i t i o n a l r a t i op ( n , v ) / p ( n , v ~ ) i s o n t h e o p p o s i t e s i d e o f 1 f r o mt h e m a r g i n a l r a t i o p ( v ) / p ( v ~ ) . I n o t h e r w o r d s , t h ee x c e p t i o n a l c a s e s a r e t h o s e i n w h i c h p r e d i c t i o n sb a s e d j u s t o n t h e m a r g i n a l fr e q u e n c i e s , w h i c h th ei n i t ia l o n e - c l u s t e r m o d e l r e p r e s e n t s , w o u l d b e c o n -s i s t e n t l y w r o n g .H e r e t o o w e s e e s o m e o v e r t r a i n i n g f o r t h el a r g e s t m o d e l s c o n s i d e re d , a l t h o u g h n o t f o r t h e e x -c e p t i o n a l v e r b s .

    C O N C L U S I O N SW e h a v e d e m o n s t r a t e d t h a t a g e n e r a l di v i s iv e c l us -t e r i n g p r o c e d u r e f o r p r o b a b i l i t y d i s t r i b u t i o n s c a nb e u s e d t o g r o u p w o r d s a c c o r d i n g t o t h e i r p a r t i c -i p a t i o n i n p a r t i c u l a r g r a m m a t i c a l r e l a t i o n s w i t ho t h e r w o r d s . T h e r e s u l t i n g c l u s te r s a r e i n t u i t iv e l yi n f o r m a t i v e , a n d c a n b e u se d t o c o n s t r u c t c l a s s-b a s e d w o r d c o o c u r r e n c e m o d e l s w i t h s u b s t a n t i a lp r e d i c t i v e p o w e r .W h i l e t h e c l u s t e r s d e r i v e d b y th e p r o p o s e dm e t h o d s e e m i n m a n y c a s e s s e m a n t i c a l l y s ig n if -i c a n t , t h i s i n t u i t i o n n e e d s t o b e g r o u n d e d i n am o r e r i g o r o u s a s s e s s m e n t . I n a d d i t i o n t o p re d i c -t i v e p o w e r e v a l u a t i o n s o f t h e k i n d w e h a v e a l -r e a d y c a r r i e d o u t , i t m i g h t b e w o r t h c o m p a r i n ga u t o m a t i c a l l y - d e r i v e d c l u s t e rs w i t h h u m a n j u d g e :m e n t s i n a s u it a b l e e x p e r i m e n t a l s e t t i n g .M o v i n g f u r t h e r i n t h e d i r e c t i o n o f c l a s s - b a s e dl a n g u a g e m o d e l s , w e p l a n t o c o n s i d e r a d d i t i o n a ld i s t r i b u t i o n a l r e l a t i o n s ( f o r i n s t a n c e , a d j e c t i v e -n o u n ) a n d a p p l y t h e r e s u l t s o f c l u s t e r i n g t ot h e g r o u p i n g o f l e x i c a l a s s o c i a t i o n s i n l e x i c a li z e dg r a m m a r f r a m e w o r k s su c h a s s t o c h a s t i c l e xi c a li z e dt r e e - a d j o in i n g g r a m m a r s ( S c h a b e s, 1 9 92 ).

    A C K N O W L E D G M E N T SW e w o u l d l ik e t o t h a n k D o n H i n d l e fo r m a k i n ga v a i l a b l e t h e 1 9 8 8 A s s o c i a t e d P r e s s v e r b - o b j e c td a t a s e t, t h e F i d d i t c h p a r s e r a n d a v e r b - o b j e c ts t r u c t u r e f i lt e r , M a t s R o o t h f o r s e l e c t in g t h e o b -j e c t s o f " f i r e " d a t a s e t a n d m a n y d i s c u s s i o n s ,D a v i d Y a r o w s k y fo r h e l p w i t h h i s s t e m m i n g a n dc o n c o r d a n c i n g t o o l s, a n d I d o D a g a n f o r s u g g e st i n g

    w a y s o f te s t i n g c l u s t e r m o d e l s .R E F E R E N C E S

    P e te r F . B ro w n , V in cen t J . D e l l a P i e t r a , P e t e r V . d eS -o u za , J en i f e r C . L al , an d R o b er t L . M erce r . 1 9 9 0 .C l a s s - b a se d n - g r a m m o d e l s o f n a t u r a l l a n g u a g e .In P r o c ee d in g s o f t h e I B M N a t u r a l L a n g u a g e I T L ,p ag es 2 8 3 -2 9 8 , P a r i s , F ran ce , M arch .K en n e th W . C h u rch an d W i l li am A . G a le . 1 9 91 .A c o m p a r i s o n o f th e e n h a n c e d G o o d - T u r i n g a n dd e l e t e d e s t i m a t i o n m e t h o d s f o r e s t i m a t i n g p r o b a -b i l i t ies o f Eng l ish b ig ra ms . C o m p u t e r S p e e c h a n dL a n g u a g e , 5 :19-54 .K en n e th W . C h u rch . 1 9 8 8 . A s to ch as t i c p a r t s p ro -g r a m a n d n o u n p h r a s e p a r s e r f o r u n r e s t r i c t e dt ex t . I n P r o c e e d i n g s o f t h e S e c o n d C o n f e r e n c eo n A p p l i e d N a t u r a l L a n g u a g e P r o c e s s i n g , p a g e s1 3 6 -1 4 3 , A u s t in , T ex as . A sso c i a t i o n fo r C o m p u -t a t i o n a l L in g u i s t i c s , M o r r i s to w n , N ew Je r sey .T h o m a s M . C o v e r a n d J o y A . T h o m a s . 1 9 9 1 . Ele-m e n t s o f I n f o r m a t i o n T he o r y. W iley - In t e r sc i en ce ,N ew Y o rk , N ew Y o rk .Id o D ag an , S h au l M ark u s , an d S h au l M ark o v i t ch .1 9 93 . C o n tex tu a l w o rd s im i l a r it y an d e s t im a t io n

    f ro m sp a r se d a t a . I n t h ese p ro ceed in g s .A. P . Dempster , N . M. Laird , and D. B . Rub in . 1977 .M a x i m u m l ik e li h oo d f r o m i n c o m p l e t e d a t a v i a t h eE M a lg o r i t h m . J o u r n a l o f t h e R o y a l S t a t i s t i c a lS o c i e t y , S e r i e s B , 39(1) :1 -38 .R i c h a r d O . D u d a a n d P e t e r E. H a r t . 1 9 7 3 . P a t -t e r n C l a s si fi c a ti o n a n d S c e n e A n a l y s i s . W iley -In t e r se i en ce , N ew Y o rk , N ew Y o rk .Dona ld Hind le . 1990. Nou n class i f icat ion f romp r e d i c a t e - a r g u m e n t s t r u c t ur e s . I n 2 8 t h A n n u a lM e e t i n g o f th e A s s o c i a t i o n f o r C o m p u t a t i o n a lL i n g u i s t i c s , p ag es 26 8 -2 75 , P i t t sb u r g h , P en n sy l -v an i a . A sso c i a t i o n fo r C o m p u ta t i o n a l L in g u i s t i c s ,M o r r i s to w n , N ew Je r sey .D o n a ld H in d le . 1 9 9 3 . A p a r se r fo r t ex t co rp o ra . I nB . T . S . A t ld n s an d A . Z am p o l i , ed i t o r s , C o m p u t a -t i o n a l A p p r o a c h e s t o t he L e x i c o n . O x fo rd U n iv e r -s i t y P res s , O x fo rd , E n g lan d . T o ap p ea r .E d w i n T . J a y n e s . 1 9 8 3 . B r a n d e is l e c tu r e s . I nR o g er D . R o sen k ran t z , ed i t o r , E . T . J a y n e s :P a p e r s o n P r o b a b il it y , S t a t i s t i c s a n d S t a t i s t i c a lP h y s i c s , n u m b er 1 5 8 in S y n th ese L ib ra ry , ch ap -ter 4 , page s 40-76 . D. Reidel , D ordre ch t , H o l land .P h i l ip R esn ik . 1 9 9 2 . W o rd N et an d d i s t r i b u t io n a lan a ly s is : A c l a s s -b ased ap p ro a ch to l ex ica l di s -covery . In A A A I W o r k s ho p o n S t a t i s ti c a l l y -B a s e d N a t u r a l - L a n g u a g e - P r o c e s s i n g T e c h n i q u e s ,San Jose, Cal i fo rn ia , Ju ly .K en n e th R o se , E i t an G u rew i t z , an d G eo f f r ey C . F ox .1 9 9 0 . S t a t i s t i ca l m ech an ics an d p h ase t r an s i t i o n sin c lus ter ing . P h y s i c a l R e v ie w L e t t e r s , 6 5 (8 ) :9 4 5 -

    948.Y v es S eh ab es . 1 9 9 2 . S to ch as t i c l ex ica l i zed t r ee -a d j o i n i n g g r a m m a r s . I n P r o c e e e d i n g s o f t h e 1 4 t hI n t e r n a t i o n a l C o n f er e n ce o n C o m p u t a t i o n a l L i n -g u i s t i c s , N an tes , F ran ce .D av id Y aro w sk y . 1 9 9 2 . C O N C : T o o l s fo r t ex t co rp o ra .T ech n ica l M e m o ran d u m 1 1 22 2-92 1 22 2 -2 9 , A T & TB el l L ab o ra to r i e s .

    1 9 0