The INQUERY Retrieval System

download The INQUERY Retrieval System

of 9

Transcript of The INQUERY Retrieval System

  • 8/14/2019 The INQUERY Retrieval System

    1/9

    T h e I N Q U E R Y R e t r i e v a l S y s t e m

    J a m e s P . C a l l a n , W . B r u c e C r o f t , a n d S t e p h e n M . H a r d i n g

    D e p a r t m e n t o f C o m p u t e r S c i e n c e

    U n i v e r s i t y o f M a s s a c h u s e t t s

    A m h e r s t , M a s s a c h u s e t t s 0 1 0 0 3 , U S A

    c r o f t @ c s . u m a s s . e d u

    A b s t r a c t

    A s l a r g e r a n d m o r e h e t e r o g e n e o u s t e x t

    d a t a b a s e s b e c o m e a v a i l a b l e , i n f o r m a -

    t i o n r e t r i e v a l r e s e a r c h w i l l d e p e n d o n

    t h e d e v e l o p m e n t o f p o w e r f u l , e c i e n t

    a n d e x i b l e r e t r i e v a l e n g i n e s . I n t h i s p a -

    p e r , w e d e s c r i b e a r e t r i e v a l s y s t e m ( I N -

    Q U E R Y ) t h a t i s b a s e d o n a p r o b a b i l i s -

    t i c r e t r i e v a l m o d e l a n d p r o v i d e s s u p p o r t

    f o r s o p h i s t i c a t e d i n d e x i n g a n d c o m p l e x

    q u e r y f o r m u l a t i o n . I N Q U E R Y h a s b e e n

    u s e d s u c c e s s f u l l y w i t h d a t a b a s e s c o n -

    t a i n i n g n e a r l y 4 0 0 , 0 0 0 d o c u m e n t s .

    1 I n t r o d u c t i o n

    T h e i n c r e a s i n g i n t e r e s t i n s o p h i s t i c a t e d i n f o r m a -

    t i o n r e t r i e v a l ( I R ) t e c h n i q u e s h a s l e d t o a n u m -

    b e r o f l a r g e t e x t d a t a b a s e s b e c o m i n g a v a i l a b l e f o r

    r e s e a r c h . T h e s i z e o f t h e s e d a t a b a s e s , b o t h i n

    t e r m s o f t h e n u m b e r o f d o c u m e n t s i n t h e m , a n d

    t h e l e n g t h o f t h e d o c u m e n t s t h a t a r e t y p i c a l l y f u l l

    t e x t , h a s p r e s e n t e d s i g n i c a n t c h a l l e n g e s t o I R r e -

    s e a r c h e r s w h o a r e u s e d t o e x p e r i m e n t i n g w i t h t w o

    o r t h r e e t h o u s a n d d o c u m e n t a b s t r a c t s . I n o r d e r t o

    c a r r y o u t r e s e a r c h w i t h d i e r e n t t y p e s o f t e x t r e p -

    r e s e n t a t i o n s , r e t r i e v a l m o d e l s , l e a r n i n g t e c h n i q u e s ,

    a n d i n t e r f a c e s , a n e w g e n e r a t i o n o f p o w e r f u l , e x -

    i b l e , a n d e c i e n t r e t r i e v a l e n g i n e s n e e d s t o b e i m -

    p l e m e n t e d . A t t h e I n f o r m a t i o n R e t r i e v a l L a b o r a -

    t o r y i n t h e U n i v e r s i t y o f M a s s a c h u s e t t s , w e h a v e

    b e e n d e v e l o p i n g s u c h a s y s t e m f o r t h e p a s t t w o

    y e a r s . T h e I N Q U E R Y s y s t e m i s b a s e d o n a f o r m

    o f p r o b a b i l i s t i c r e t r i e v a l m o d e l c a l l e d t h e i n f e r e n c e

    n e t . T h i s m o d e l i s p o w e r f u l i n t h e s e n s e t h a t i t

    c a n r e p r e s e n t m a n y a p p r o a c h e s t o I R a n d c o m b i n e

    t h e m i n a s i n g l e f r a m e w o r k 8 ] . I t a l s o p r o v i d e s t h e

    a b i l i t y t o s p e c i f y c o m p l e x r e p r e s e n t a t i o n s o f i n f o r -

    m a t i o n n e e d s a n d c o m p a r e t h e m t o d o c u m e n t r e p -

    r e s e n t a t i o n s .

    I n t h i s p a p e r , w e f o c u s o n t h e a r c h i t e c t u r e

    a n d i m p l e m e n t a t i o n o f t h e I N Q U E R Y s y s t e m ,

    w h i c h h a s b e e n d e s i g n e d f o r e x p e r i m e n t s w i t h

    l a r g e d a t a b a s e s . W e s t a r t b y g i v i n g a b r i e f d e s c r i p -

    t i o n o f t h e u n d e r l y i n g i n f e r e n c e n e t m o d e l i n t h e

    n e x t s e c t i o n . W e t h e n p r e s e n t a n o v e r v i e w o f I N -

    Q U E R Y ' s a r c h i t e c t u r e , f o l l o w e d b y m o r e d e t a i l e d

    d e s c r i p t i o n s o f t h e i m p o r t a n t s y s t e m c o m p o n e n t s .

    T h r o u g h o u t t h i s d e s c r i p t i o n , w e w i l l g i v e t i m i n g

    g u r e s f r o m r e c e n t e x p e r i e n c e s w i t h a 1 G i g a b y t e

    d a t a b a s e t h a t c o n t a i n s n e a r l y 4 0 0 , 0 0 0 d o c u m e n t s

    v a r y i n g i n l e n g t h f r o m s h o r t a b s t r a c t s t o 1 5 0 p a g e

    r e p o r t s . W e c o n c l u d e b y d i s c u s s i n g t h e c u r r e n t

    r e s e a r c h a n d d e v e l o p m e n t i s s u e s .

    2 T h e I n f e r e n c e N e t w o r k

    M o d e l

    B a y e s i a n i n f e r e n c e n e t w o r k s a r e p r o b a b i l i s t i c m o d -

    e l s o f e v i d e n t i a l r e a s o n i n g t h a t h a v e b e c o m e w i d e l y

    u s e d i n r e c e n t y e a r s 1 ; 6 ] . A B a y e s i a n i n f e r -

    e n c e n e t w o r k , o r B a y e s n e t , i s a d i r e c t e d a c y c l i c

    g r a p h ( D A G ) i n w h i c h n o d e s r e p r e s e n t p r o p o s i -

    t i o n a l v a r i a b l e s a n d a r c s r e p r e s e n t d e p e n d e n c i e s .

    A n o d e ' s v a l u e i s a f u n c t i o n o f t h e v a l u e s o f t h e

    n o d e s i t d e p e n d s u p o n . L e a f n o d e s t y p i c a l l y r e p r e -

    s e n t p r o p o s i t i o n s w h o s e v a l u e s c a n b e d e t e r m i n e d

    b y o b s e r v a t i o n . O t h e r n o d e s t y p i c a l l y r e p r e s e n t

    p r o p o s i t i o n s w h o s e v a l u e s m u s t b e d e t e r m i n e d b y

  • 8/14/2019 The INQUERY Retrieval System

    2/9

    i n f e r e n c e . T h e n o t a b l e f e a t u r e o f B a y e s n e t s i s t h a t

    d e p e n d e n c i e s a r e n o t n e c e s s a r i l y a b s o l u t e . C e r -

    t a i n t y o r p r o b a b i l i t y c a n b e r e p r e s e n t e d b y w e i g h t s

    o n a r c s .

    I N Q U E R Y i s b a s e d u p o n a t y p e o f B a y e s n e t

    c a l l e d a d o c u m e n t r e t r i e v a l i n f e r e n c e n e t w o r k 9 ;

    8 ] . A d o c u m e n t r e t r i e v a l i n f e r e n c e n e t w o r k , o r i n -

    f e r e n c e n e t , c o n s i s t s o f t w o c o m p o n e n t n e t w o r k s :

    o n e f o r d o c u m e n t s , a n d o n e f o r q u e r i e s ( s e e F i g u r e

    1 ) . N o d e s i n a n i n f e r e n c e n e t a r e e i t h e r t r u e o r

    f a l s e . V a l u e s a s s i g n e d t o a r c s r a n g e f r o m 0 t o 1 ,

    a n d a r e i n t e r p r e t e d a s b e l i e f .

    2 . 1 T h e D o c u m e n t N e t w o r k

    A d o c u m e n t n e t w o r k c a n r e p r e s e n t a s e t o f d o c -

    u m e n t s w i t h d i e r e n t r e p r e s e n t a t i o n t e c h n i q u e s

    a n d a t v a r y i n g l e v e l s o f a b s t r a c t i o n . F i g u r e 1

    s h o w s a s i m p l e d o c u m e n t n e t w o r k w i t h t w o l e v -

    e l s o f a b s t r a c t i o n : t h e d o c u m e n t t e x t l e v e l d , a n d

    t h e c o n t e n t r e p r e s e n t a t i o n l e v e l r . A d d i t i o n a l l e v -

    e l s o f a b s t r a c t i o n a r e p o s s i b l e , f o r e x a m p l e a u d i o o r

    v i d e o r e p r e s e n t a t i o n s , b u t a r e n o t c u r r e n t l y n e e d e d

    b y I N Q U E R Y .

    A d o c u m e n t n o d e d

    i

    r e p r e s e n t s t h e p r o p o s i t i o n

    t h a t a d o c u m e n t s a t i s e s a u s e r q u e r y . D o c u m e n t

    n o d e s a r e a s s i g n e d t h e v a l u e t r u e . T h e v a l u e o n a n

    a r c b e t w e e n a d o c u m e n t t e x t n o d e d

    i

    a n d a c o n t e n t

    r e p r e s e n t a t i o n n o d e r

    k

    i s t h e c o n d i t i o n a l p r o b a b i l -

    i t y P ( r

    k

    d

    i

    ) . A d o c u m e n t ' s p r i o r p r o b a b i l i t y P ( d

    i

    )

    i s 1 / ( n u m b e r o f d o c u m e n t s ) .

    A c o n t e n t r e p r e s e n t a t i o n n o d e r

    k

    r e p r e s e n t s

    t h e p r o p o s i t i o n t h a t a c o n c e p t h a s b e e n o b s e r v e d .

    T h e n o d e m a y b e e i t h e r t r u e o r f a l s e . T h e v a l u e

    o n a n a r c b e t w e e n a c o n t e n t r e p r e s e n t a t i o n n o d e

    r

    k

    a n d a q u e r y c o n c e p t n o d e c

    l

    i s t h e b e l i e f i n t h e

    p r o p o s i t i o n .

    I N Q U E R Y u s e s s e v e r a l t y p e s o f c o n t e n t r e p -

    r e s e n t a t i o n n o d e s . T h e s i m p l e s t c o r r e s p o n d s t o a

    s i n g l e w o r d o f t h e d o c u m e n t t e x t , w h i l e m o r e c o m -

    p l e x c o n c e p t s i n c l u d e n u m b e r s , d a t e s , a n d c o m -

    p a n y n a m e s . S e c t i o n 4 d e s c r i b e s i n m o r e d e t a i l

    t h e t y p e s o f c o n t e n t r e p r e s e n t a t i o n n o d e s c r e a t e d ,

    a n d t h e m e t h o d s u s e d t o c r e a t e t h e m .

    2 . 2 T h e Q u e r y N e t w o r k

    T h e q u e r y n e t w o r k r e p r e s e n t s a n e e d f o r i n f o r m a -

    t i o n . F i g u r e 1 s h o w s t h e n e t w o r k f o r a q u e r y w i t h

    t w o l e v e l s o f a b s t r a c t i o n : t h e q u e r y l e v e l q , a n d

    t h e c o n c e p t l e v e l c . A d d i t i o n a l l e v e l s o f a b s t r a c -

    t i o n a r e p o s s i b l e , b u t a r e n o t c u r r e n t l y n e e d e d b y

    I N Q U E R Y .

    Q u e r y n o d e s r e p r e s e n t t h e p r o p o s i t i o n t h a t a n

    i n f o r m a t i o n n e e d i s m e t . Q u e r y n o d e s a r e a l w a y s

    t r u e . C o n c e p t n o d e s r e p r e s e n t t h e p r o p o s i t i o n

    t h a t a c o n c e p t i s o b s e r v e d i n a d o c u m e n t . C o n -

    c e p t n o d e s m a y b e e i t h e r t r u e o r f a l s e

    T h e q u e r y n e t w o r k i s a t t a c h e d t o t h e d o c u -

    m e n t n e t w o r k b y a r c s b e t w e e n c o n c e p t n o d e s a n d

    c o n t e n t r e p r e s e n t a t i o n n o d e s . T h e m a p p i n g i s n o t

    a l w a y s o n e - t o - o n e , b e c a u s e c o n c e p t n o d e s m a y d e -

    n e c o n c e p t s n o t e x p l i c i t l y r e p r e s e n t e d i n t h e d o c -

    u m e n t n e t w o r k . F o r e x a m p l e , I N Q U E R Y ' s p h r a s e

    o p e r a t o r c a n b e u s e d t o d e n e a c o n c e p t t h a t i s n o t

    r e p r e s e n t e d e x p l i c i t l y i n t h e d o c u m e n t n e t w o r k .

    T h e a b i l i t y t o s p e c i f y q u e r y c o n c e p t s a t r u n - t i m e i s

    o n e o f t h e c h a r a c t e r i s t i c s t h a t d i s t i n g u i s h e s i n t e l l i -

    g e n t i n f o r m a t i o n r e t r i e v a l f r o m d a t a b a s e r e t r i e v a l .

    2 . 3 T h e L i n k M a t r i x

    D o c u m e n t r e t r i e v a l i n f e r e n c e n e t w o r k s , l i k e t h e

    B a y e s n e t w o r k s f r o m w h i c h t h e y w e r e d e r i v e d , e n -

    a b l e o n e t o s p e c i f y a r b i t r a r i l y c o m p l e x f u n c t i o n s t o

    c o m p u t e t h e b e l i e f i n a p r o p o s i t i o n g i v e n t h e b e -

    l i e f s i n i t s p a r e n t n o d e s . T h e s e f u n c t i o n s a r e s o m e -

    t i m e s c a l l e d l i n k m a t r i c e s . I f t h e b e l i e f f o r e a c h

    c o m b i n a t i o n o f e v i d e n c e w e r e s p e c i e d d i r e c t l y , a

    l i n k m a t r i x f o r a n o d e w i t h n p a r e n t s w o u l d b e

    o f s i z e 2 2

    n

    . T h i s p r o b l e m c a n b e a v o i d e d b y r e -

    s t r i c t i n g t h e w a y s i n w h i c h e v i d e n c e i s c o m b i n e d .

    I N Q U E R Y u s e s a s m a l l s e t o f o p e r a t o r s , d e s c r i b e d

    i n S e c t i o n 6 , f o r w h i c h c l o s e d - f o r m e x p r e s s i o n s c a n

    b e f o u n d .

    3 O v e r v i e w o f t h e A r c h i t e c t u r e

    T h e m a j o r t a s k s p e r f o r m e d b y t h e I N Q U E R Y

    s y s t e m a r e c r e a t i o n o f t h e d o c u m e n t n e t w o r k , c r e -

    a t i o n o f t h e q u e r y n e t w o r k , a n d u s e o f t h e n e t -

    w o r k s t o r e t r i e v e d o c u m e n t s . T h e d o c u m e n t n e t -

    w o r k i s c r e a t e d a u t o m a t i c a l l y b y m a p p i n g d o c u -

    m e n t s o n t o c o n t e n t r e p r e s e n t a t i o n n o d e s , a n d s t o r -

    i n g t h e n o d e s i n a n i n v e r t e d l e f o r e c i e n t r e -

    t r i e v a l . Q u e r y n e t w o r k s a r e s p e c i e d b y a u s e r

    t h r o u g h a u s e r i n t e r f a c e . D o c u m e n t r e t r i e v a l i s

    p e r f o r m e d b y u s i n g r e c u r s i v e i n f e r e n c e t o p r o p a -

    g a t e b e l i e f v a l u e s t h r o u g h t h e i n f e r e n c e n e t , a n d

    t h e n r e t r i e v i n g d o c u m e n t s t h a t a r e r a n k e d h i g h -

  • 8/14/2019 The INQUERY Retrieval System

    3/9

  • 8/14/2019 The INQUERY Retrieval System

    4/9

    D o c u m e n t s

    D o c u m e n t P a r s e r

    D o c u m e n t

    D a t a b a s e

    C o n c e p t

    D i c t i o n a r y

    T r a n s a c t i o n s

    F i l e I n v e r s i o n

    Q u e r i e s

    I n v e r t e d F i l e

    Q u e r y

    -

    Q u e r y

    -

    D o c u m e n t R a n k i n g s

    U s e r I n t e r f a c e

    T e x t P r o c e s s i n g

    R e t r i e v a l S u b s y s t e m

    R e l e v a n t D o c u m e n t s

    F i g u r e 2 : T h e a r c h i t e c t u r e o f t h e I N Q U E R Y i n f o r m a t i o n r e t r i e v a l s y s t e m .

    m a t . I t i s r e s p o n s i b l e f o r p r o v i d i n g t o k e n s , u s u a l l y

    w o r d s , n u m b e r s , o r e l d m a r k e r s , t o t h e s y n t a c -

    t i c a n a l y z e r . I t i s a l s o r e s p o n s i b l e f o r c o n v e r t i n g

    w o r d s t o l o w e r c a s e , d i s c a r d i n g u s e r - s p e c i e d s t o p

    w o r d s ( e . g . ` a ' , ` a n d ' , ` t h e ' ) , a n d o p t i o n a l l y r e m o v -

    i n g w o r d e n d i n g s ( e . g . ` - e d ' , ` - i n g ' ) b e f o r e n o t i f y i n g

    t h e t r a n s a c t i o n m a n a g e r ( d i s c u s s e d b e l o w ) a b o u t

    t h e o c c u r r e n c e o f e a c h w o r d .

    T h e p r i n c i p a l u s e o f s y n t a c t i c a n a l y s i s i n I N -

    Q U E R Y i s t o e n s u r e t h a t a d o c u m e n t i s i n t h e

    e x p e c t e d f o r m a t , a n d t o p r o v i d e e r r o r r e c o v e r y i f

    i t i s n o t . A l l o f I N Q U E R Y ' s s y n t a c t i c a n a l y z e r s

    a r e c r e a t e d b y Y A C C 3 ] .

    4 . 2 C o n c e p t R e c o g n i z e r s

    I N Q U E R Y i s c u r r e n t l y c a p a b l e o f r e c o g n i z i n g a n d

    t r a n s f o r m i n g i n t o c a n o n i c a l f o r m a t f o u r t y p e s o f

    c o n c e p t s : n u m b e r s , d a t e s , p e r s o n n a m e s a n d c o m -

    p a n y n a m e s . I N Q U E R Y a l s o c o n t a i n s a c o n c e p t

    r e c o g n i z e r t o r e c o g n i z e a n d r e c o r d t h e l o c a t i o n s o f

    s e n t e n c e a n d p a r a g r a p h b o u n d a r i e s . C o n c e p t r e c -

    o g n i z e r s t e n d t o b e c o m p l e x 5 ; 7 ] , s o i t i s d e s i r a b l e

    t o i m p l e m e n t t h e m a s e c i e n t l y a s p o s s i b l e . A l l

    o f I N Q U E R Y ' s c o n c e p t r e c o g n i z e r s a r e c u r r e n t l y

    n i t e s t a t e a u t o m a t a c r e a t e d b y L E X 4 ] . I n p r i n -

    c i p a l , i t i s p o s s i b l e t o c o m b i n e t h e r e c o g n i z e r s i n t o

    a s i n g l e n i t e s t a t e a u t o m a t o n , h o w e v e r L E X c a n -

    n o t c r e a t e a u t o m a t a o f t h e r e q u i r e d s i z e .

    T h e n u m b e r a n d d a t e r e c o g n i z e r s u s e g r a m -

    m a r s s i m i l a r t o M a u l d i n ' s 5 ] . T h e m a j o r d i e r -

    e n c e i s I N Q U E R Y ' s u s e o f s t r i n g a r i t h m e t i c t o

    a v o i d r o u n d o e r r o r s i n t h e n u m b e r r e c o g n i z e r .

    T h e r e c o g n i z e r s m a p d i e r e n t e x p r e s s i o n s o f a c o n -

    c e p t ( e . g . 1 m i l l i o n , o r 1 0 0 0 0 0 0 , o r 1 , 0 0 0 , 0 0 0 ) i n t o

    a c a n o n i c a l f o r m a t .

    T h e c o m p a n y n a m e r e c o g n i z e r i s s i m i l a r t o ,

    b u t l e s s s o p h i s t i c a t e d t h a n , R a u ' s 7 ] . I t l o o k s

    f o r s t r i n g s o f c a p i t a l i z e d w o r d s t h a t e n d w i t h o n e

    t h e l e g a l i d e n t i e r s t h a t o f t e n a c c o m p a n y c o m p a n y

    n a m e s ( e . g . \ C o " , \ I n c " , \ L t d " , o r \ S p A " ) . I f t h e

    c o m p a n y n a m e o c c u r s o n c e w i t h a l e g a l i d e n t i -

    e r , t h e r e c o g n i z e r c a n u s u a l l y r e c o g n i z e a l l o t h e r

    o c c u r r e n c e s o f t h e n a m e i n t h e d o c u m e n t . T h i s

    s t r a t e g y p e r f o r m s r e a s o n a b l y w e l l o n o u r t e s t c o l -

    l e c t i o n s .

    T h e p e r s o n n a m e r e c o g n i z e r u s e s a s t r a t e g y

    s i m i l a r t o t h e c o m p a n y n a m e r e c o g n i z e r , e x c e p t

    t h a t i t l o o k s f o r o c c u p a t i o n t i t l e s a n d h o n o r i c t i -

    t l e s . T h i s s t r a t e g y p e r f o r m s p o o r l y o n o u r t e s t

    c o l l e c t i o n s . W e a r e c o n t e m p l a t i n g r e p l a c i n g t h e

    c u r r e n t a l g o r i t h m w i t h o n e t h a t r e l i e s m o r e h e a v -

    i l y o n a l a r g e d a t a b a s e o f k n o w n n a m e s .

    T h e s e n t e n c e a n d p a r a g r a p h b o u n d a r y r e c o g -

    n i z e r i s c u r r e n t l y o n l y a b l e t o r e c o g n i z e b o u n d -

    a r i e s t h a t a r e e x p l i c i t l y t a g g e d w i t h e l d m a r k -

    e r s . T h e l o c a t i o n s o f t h e s e b o u n d a r i e s i s s a v e d i n

    a l e , f o r u s e i n a p l a n n e d p r o j e c t o n p a r a g r a p h -

    a n d s e n t e n c e - l e v e l r e t r i e v a l f r o m l a r g e d o c u m e n t s

  • 8/14/2019 The INQUERY Retrieval System

    5/9

    c c c c c c : : : : : : : : : c c c c c c c c c

    B e g i n n i n g

    o f

    D o c u m e n t

    E n d

    o f

    D o c u m e n t

    ?

    ?

    6

    C o n c e p t

    r e c o g n i z e r s

    @

    @I

    D a t a b a s e

    b u i l d e r

    6

    P a r s e r ' s

    l e x i c a l

    a n a l y z e r

    ( a )

    c c c c c c : : : : : : : : : c c c c c c c c c

    B e g i n n i n g

    o f

    D o c u m e n t

    E n d

    o f

    D o c u m e n t

    ?

    ?

    6

    C o n c e p t

    r e c o g n i z e r s

    6

    D a t a b a s e

    b u i l d e r

    6

    P a r s e r ' s

    l e x i c a l

    a n a l y z e r

    ( b )

    F i g u r e 3 : ( a ) T h e p a r s e r ' s l e x i c a l a n a l y z e r c o n v e r t s e l d m a r k e r s t o c a n o n i c a l f o r m a n d p r o v i d e s t o k e n s

    t o t h e s y n t a c t i c a n a l y z e r . ( b ) W h e n t h e p a r s e r a n a l y z e r r e a c h e s t h e e n d o f t h e d o c u m e n t , t h e d a t a b a s e

    b u i l d e r a n d c o n c e p t r e c o g n i z e r s a r e a l l o w e d t o r e a d t h e d o c u m e n t , o n e a t a t i m e .

    c o l l e c t i o n s .

    I n p r i n c i p l e , t h e r e i s n o l i m i t t o t h e n u m b e r

    a n d c o m p l e x i t y o f c o n c e p t r e c o g n i z e r s t h a t c a n b e

    a d d e d t o I N Q U E R Y . F o r e x a m p l e , w e a r e i n v e s -

    t i g a t i n g t h e u s e o f s t o c h a s t i c t a g g i n g 2 ] t o a u t o -

    m a t i c a l l y i d e n t i f y p h r a s e s . T h e m a i n c o n s e q u e n c e

    o f a d d i t i o n a l c o n c e p t r e c o g n i z e r s i s t h e o v e r h e a d

    t h a t t h e y a d d t o t h e p a r s i n g p r o c e s s . T h e c u r r e n t

    s e t o f r e c o g n i z e r s s l o w s p a r s i n g b y a b o u t 2 5 % .

    4 . 3 C o n c e p t S t o r a g e

    T h e l e x i c a l a n a l y z e r s a r e d e s i g n e d t o w o r k e -

    c i e n t l y w i t h s t r i n g s o f c h a r a c t e r s , b u t t h e r e s t o f

    I N Q U E R Y i s n o t . W h e n a d e c i s i o n i s m a d e t o i n -

    d e x a d o c u m e n t b y a w o r d o r h i g h e r - l e v e l c o n c e p t ,

    t h e s t r i n g o f c h a r a c t e r s i s r e p l a c e d w i t h i t s e n t r y

    n u m b e r i n a t e r m d i c t i o n a r y . A r e f e r e n c e t o a n

    e n t r y n u m b e r t a k e l e s s s p a c e a n d c a n b e m a n i p u -

    l a t e d m u c h m o r e e c i e n t l y t h a n a r e f e r e n c e t o a

    s t r i n g o f c h a r a c t e r s . I f t h e w o r d a l r e a d y e x i s t s , t h e

    n u m b e r o f t h e e x i s t i n g e n t r y i s r e t u r n e d , o t h e r w i s e

    a n e w e n t r y i s c r e a t e d .

    I N Q U E R Y o r i g i n a l l y s t o r e d i t s d i c t i o n a r y i n a

    B - t r e e d a t a s t r u c t u r e . H o w e v e r , p e r f o r m a n c e a n a l -

    y s i s s h o w e d t h e d i c t i o n a r y t o b e a b o t t l e n e c k . T h e

    c u r r e n t v e r s i o n o f I N Q U E R Y s t o r e s i t s d i c t i o n a r y

    i n a h a s h t a b l e . T h i s c h a n g e a l o n e r e d u c e d t h e

    t i m e r e q u i r e d t o p a r s e a 3 3 9 M B y t e d o c u m e n t c o l -

    l e c t i o n f r o m 1 6 . 8 C P U h o u r s t o 8 . 2 C P U h o u r s .

    4 . 4 T r a n s a c t i o n G e n e r a t i o n

    E a c h t i m e a t e r m i s i d e n t i e d , w h e t h e r b y t h e

    p a r s e r ' s l e x i c a l a n a l y z e r o r a c o n c e p t r e c o g n i z e r ,

    i t s l o c a t i o n i s r e p o r t e d t o t h e t r a n s a c t i o n m a n -

    a g e r . W h e n t h e e n d o f t h e d o c u m e n t i s r e a c h e d ,

    t h e t r a n s a c t i o n m a n a g e r w r i t e s t o d i s k a s e t o f i n -

    d e x i n g t r a n s a c t i o n s t h a t r e c o r d f o r e a c h t e r m t h e

    f r e q u e n c y a n d l o c a t i o n s o f i t s o c c u r r e n c e i n t h a t

    d o c u m e n t .

    T r a n s a c t i o n s a r e c u r r e n t l y s t o r e d i n t e x t l e s

    u s i n g a s u b o p t i m a l e n c o d i n g m e t h o d . O u r e x p e r -

    i m e n t s w i t h l a r g e c o l l e c t i o n s h a v e p r o d u c e d m o r e

    t r a n s a c t i o n s t h a n t o n o n e o f o u r d i s k s . T h e

    t r a n s a c t i o n m a n a g e r c o p e s w i t h t h i s p r o b l e m b y

    c r e a t i n g a n e w t r a n s a c t i o n l e e a c h t i m e a n I N -

    Q U E R Y d o c u m e n t p a r s e r i s i n v o k e d . ( O n e i n v o -

    c a t i o n o f a p a r s e r m a y p a r s e m a n y d o c u m e n t s . )

    T h e p e r i o d i c c r e a t i o n o f n e w t r a n s a c t i o n l e s e n -

    a b l e s u s t o s c a t t e r t h e m a c r o s s s e v e r a l d i s k s .

    5 F i l e I n v e r s i o n

    E a c h t r a n s a c t i o n r e p r e s e n t s a l i n k b e t w e e n a d o c u -

    m e n t n o d e a n d a c o n t e n t r e p r e s e n t a t i o n n o d e . T h e

    e n t i r e d o c u m e n t n e t w o r k i s r e p r e s e n t e d b y t h e s e t

    o f t r a n s a c t i o n l e s p r o d u c e d d u r i n g p a r s i n g . T h e

    t a s k a d d r e s s e d a f t e r p a r s i n g i s t o o r g a n i z e t h e n e t -

    w o r k s o t h a t e v i d e n c e m a y b e p r o p a g a t e d t h r o u g h

    i t r a p i d l y a n d e c i e n t l y .

    T h e v a l u e o f a n i n t e r n a l n e t w o r k n o d e i s a

    f u n c t i o n o f t h e v a l u e s a s s i g n e d t o i t s p a r e n t s . I N -

    Q U E R Y a v o i d s i n s t a n t i a t i n g t h e e n t i r e d o c u m e n t

    n e t w o r k d u r i n g r e t r i e v a l b y u s i n g r e c u r s i v e i n f e r -

    e n c e t o d e t e r m i n e a n o d e ' s v a l u e . T h e s p e e d o f

    r e c u r s i v e i n f e r e n c e d e p e n d s u p o n h o w f a s t i n f o r -

    m a t i o n a b o u t a n o d e a n d i t s l i n k s c a n b e o b t a i n e d .

    I N Q U E R Y p r o v i d e s f a s t a c c e s s t o t h i s i n f o r m a t i o n

  • 8/14/2019 The INQUERY Retrieval System

    6/9

    b y s t o r i n g i t a s a n i n v e r t e d l e i n a B - T r e e d a t a

    s t r u c t u r e .

    T h e i n v e r t e d l e i s c o n s t r u c t e d m o s t e c i e n t l y

    i f t h e t r a n s a c t i o n s f o r a t e r m a r e p r o c e s s e d t o -

    g e t h e r . T h e r e f o r e t h e t r a n s a c t i o n l e s a r e s o r t e d

    b e f o r e t h e i n v e r t e d l e i s c o n s t r u c t e d . T h e s o r t i n g

    p r o c e d u r e i n v o l v e s s e v e r a l s t e p s , b o t h f o r e c i e n c y

    a n d b e c a u s e t r a n s a c t i o n s m a y b e s t o r e d i n m u l t i -

    p l e l e s t h a t d o n o t a l l t o n o n e d i s k .

    W e b e g i n b y u s i n g t h e U N I X s o r t p r o g r a m t o

    s o r t e a c h t r a n s a c t i o n l e b y t e r m a n d d o c u m e n t

    i d e n t i e r s . I f t h e t r a n s a c t i o n s a l l t o n a s i n g l e

    d i s k , w e m e r g e - s o r t t h e s o r t e d t r a n s a c t i o n l e s .

    O t h e r w i s e w e p a r t i t i o n t h e s o r t e d t r a n s a c t i o n l e s

    a t s o m e t e r m ( e . g . t h e 1 0 , 0 0 0 t h ) a n d m e r g e - s o r t

    p a r t i t i o n s c o v e r i n g t h e s a m e r a n g e s o f t e r m s .

    S o r t i n g i s o n e o f t h e m o s t t i m e - c o n s u m i n g

    t a s k s i n b u i l d i n g a d o c u m e n t n e t w o r k . I n t e s t s

    w i t h a 1 G B y t e d o c u m e n t c o l l e c t i o n , s o r t i n g , p a r -

    t i t i o n i n g a n d m e r g e - s o r t i n g 1 . 3 G B y t e s o f t r a n s a c -

    t i o n s r e q u i r e d 1 3 . 6 C P U h o u r s o n t h e S u n S P A R C -

    s e r v e r 4 9 0 .

    A f t e r t h e t r a n s a c t i o n s a r e s o r t e d , t h e i n v e r t e d

    l e c a n b e c o n s t r u c t e d i n O ( n ) t i m e . T h e k e y s t o

    t h e i n v e r t e d l e a r e t e r m i d s . T h e r e c o r d s i n t h e

    i n v e r t e d l e s t o r e t h e t e r m ' s c o l l e c t i o n f r e q u e n c y ,

    t h e n u m b e r o f d o c u m e n t s i n w h i c h t h e t e r m o c -

    c u r s , a n d t h e t r a n s a c t i o n s i n w h i c h t h e t e r m o c -

    c u r s . T h e i n v e r t e d l e i s s t o r e d i n b i n a r y f o r m a t ,

    w h i c h m a k e s i t s m a l l e r t h a n t h e t r a n s a c t i o n l e s

    f r o m w h i c h i t i s a s s e m b l e d . T h e 1 . 3 G B y t e s o f

    t r a n s a c t i o n s r e f e r r e d t o a b o v e w e r e c o n v e r t e d t o

    a n 8 8 0 M B y t e i n v e r t e d l e i n 2 . 5 C P U h o u r s .

    6 T h e R e t r i e v a l S u b s y s t e m

    T h e r e t r i e v a l s u b s y s t e m c o n v e r t s q u e r y t e x t i n t o a

    q u e r y n e t w o r k , a n d t h e n e v a l u a t e s t h e q u e r y n e t -

    w o r k i n t h e c o n t e x t o f t h e p r e v i o u s l y c o n s t r u c t e d

    d o c u m e n t n e t w o r k .

    6 . 1 B u i l d i n g a Q u e r y N e t w o r k

    Q u e r i e s c a n b e m a d e t o I N Q U E R Y b y u s i n g e i -

    t h e r n a t u r a l l a n g u a g e o r a s t r u c t u r e d q u e r y l a n -

    g u a g e . N a t u r a l l a n g u a g e q u e r i e s a r e c o n v e r t e d

    t o t h e s t r u c t u r e d q u e r y l a n g u a g e b y a p p l y i n g t h e

    # s u m o p e r a t o r t o t h e t e r m s i n t h e q u e r y . T a b l e

    1 d e s c r i b e s # s u m a n d t h e o t h e r o p e r a t o r s i n I N -

    Q U E R Y ' s q u e r y l a n g u a g e . Q u e r y o p e r a t o r s p e r -

    m i t t h e u s e r t o p r o v i d e s t r u c t u r a l i n f o r m a t i o n i n

    t h e q u e r y , i n c l u d i n g p h r a s e a n d p r o x i m i t y r e q u i r e -

    m e n t s . Q u e r y t e x t i s c o n v e r t e d t o l o w e r c a s e , p o s -

    s i b l y c h e c k e d f o r s t o p w o r d s o r s t e m m e d t o c a n o n -

    i c a l w o r d f o r m , a n d c o m p a r e d t o t h e c o n c e p t d i c -

    t i o n a r y b e f o r e b e i n g c o n v e r t e d i n t o a q u e r y n e t .

    Q u e r y n e t n o d e s c o r r e s p o n d t o s t r u c t u r e d l a n -

    g u a g e o p e r a t o r s a n d q u e r y t e r m s . T h e i n f o r m a -

    t i o n c o n t a i n e d i n a n o d e v a r i e s , d e p e n d i n g o n i t s

    t y p e . T h e a t t a c h m e n t o f t h e q u e r y n e t t o t h e p r e -

    e x i s t i n g d o c u m e n t n e t o c c u r s a t t h e t e r m n o d e s .

    6 . 2 R e t r i e v a l E n g i n e

    T h e I N Q U E R Y r e t r i e v a l e n g i n e a c c e p t s t h e r o o t

    n o d e o f a q u e r y n e t a n d e v a l u a t e s i t , r e t u r n i n g a

    s i n g l e n o d e c o n t a i n i n g a b e l i e f l i s t . T h i s b e l i e f l i s t

    i s a s t r u c t u r e c o n t a i n i n g t h e d o c u m e n t s a n d t h e i r

    c o r r e s p o n d i n g \ b e l i e f s " o r p r o b a b i l i t i e s o f m e e t -

    i n g t h e i n f o r m a t i o n n e e d a s d e n e d b y t h e q u e r y .

    T h e r e t r i e v a l e n g i n e d o e s i t s w o r k b y i n s t a n t i a t -

    i n g p r o x i m i t y l i s t s a t t e r m n o d e s , a n d c o n v e r t i n g

    s u c h l i s t s t o b e l i e f l i s t s a s r e q u i r e d b y t h e s t r u c -

    t u r e o f t h e q u e r y n e t , u s i n g m e t h o d s d e n e d i n 9 ] .

    T h i s l i s t m a y b e s o r t e d t o p r o d u c e a r a n k e d l i s t o f

    d o c u m e n t s f o r t h e u s e r t o s e e .

    T h e i n f e r e n c e n e t i s e v a l u a t e d b y r e c u r s i v e c a l l s

    o f t h e m a i n e v a l u a t i o n r o u t i n e w h i c h i n t u r n c a l l s

    o n e o f m a n y p o s s i b l e n o d e s p e c i c e v a l u a t i o n r o u -

    t i n e s . T h e r o u t i n e s r e p r e s e n t t h e c a n o n i c a l f o r m

    o f e v a l u a t i n g a s i m p l i e d l i n k m a t r i x a t e a c h n o d e .

    T h e c l o s e d f o r m e x p r e s s i o n s f o r c o m p u t i n g t h e b e -

    l i e f a t n o d e Q a r e :

    b e l

    n o t

    ( Q ) = 1 ? p

    1

    ( 1 )

    b e l

    o r

    ( Q ) = 1 ? ( 1 ? p

    1

    ) ( 1 ? p

    n

    ) ( 2 )

    b e l

    a n d

    ( Q ) = p

    1

    p

    2

    p

    n

    ( 3 )

    b e l

    m a x

    ( Q ) = m a x ( p

    1

    ; p

    2

    ; : : : ; p

    n

    ) ( 4 )

    b e l

    w s u m

    ( Q ) =

    ( w

    1

    p

    1

    + w

    2

    p

    2

    + + w

    n

    p

    n

    ) w

    q

    ( w

    1

    + w

    2

    + + w

    n

    )

    ( 5 )

    b e l

    s u m

    ( Q ) =

    ( p

    1

    + p

    2

    + + p

    n

    )

    n

    ( 6 )

    T h e b a s i c s t r u c t u r e s f r o m w h i c h a l l c o m p u -

    t a t i o n s o f d o c u m e n t n o d e b e l i e f a r e d e r i v e d a r e

    p r o x i m i t y l i s t s a n d b e l i e f l i s t s . A p r o x i m i t y l i s t

    c o n t a i n s s t a t i s t i c a l a n d p r o x i m i t y ( t e r m p o s i t i o n )

    i n f o r m a t i o n b y d o c u m e n t o n a t e r m s p e c i c b a s i s .

    T h e b e l i e f l i s t i s a l i s t o f d o c u m e n t s a n d a s s o c i a t e d

  • 8/14/2019 The INQUERY Retrieval System

    7/9

    O P E R A T O R A C T I O N

    # a n d A N D t h e t e r m s i n t h e s c o p e o f t h e o p e r a t o r .

    # o r O R t h e t e r m s i n t h e s c o p e o f t h e o p e r a t o r .

    # n o t N E G A T E t h e t e r m i n t h e s c o p e o f t h e o p e r a t o r .

    # s u m V a l u e i s t h e m e a n o f t h e b e l i e f s i n t h e a r g u m e n t s .

    # w s u m V a l u e i s t h e s u m o f w e i g h t e d b e l i e f s i n t h e a r g u m e n t s , s c a l e d b y t h e s u m o f t h e

    w e i g h t s . A n a d d i t i o n a l s c a l e f a c t o r m a y b e s u p p l i e d b y t h e u s e r .

    # m a x T h e b e l i e f i s t h e m a x i m u m o f t h e b e l i e f s i n t h e a r g u m e n t s .

    # n A m a t c h o c c u r s w h e n e v e r a l l o f t h e a r g u m e n t s a r e f o u n d , i n o r d e r , w i t h n o m o r e

    t h a n n w o r d s s e p a r a t i n g a d j a c e n t a r g u m e n t s . F o r e x a m p l e , # 3 ( A B ) m a t c h e s

    \ A B " , \ A c B " a n d \ A c c B " .

    # p h r a s e V a l u e i s a f u n c t i o n o f t h e b e l i e f s r e t u r n e d b y t h e # 3 a n d # s u m o p e r a t o r s . T h e

    i n t e n t i s t o r e l y u p o n f u l l p h r a s e o c c u r r e n c e s w h e n t h e y a r e p r e s e n t , a n d t o r e l y

    u p o n i n d i v i d u a l w o r d s w h e n f u l l p h r a s e s a r e r a r e o r a b s e n t .

    # s y n T h e a r g u m e n t t e r m s a r e t o b e c o n s i d e r e d s y n o n y m o u s .

    T a b l e 1 : T h e o p e r a t o r s i n I N Q U E R Y ' s q u e r y l a n g u a g e .

    b e l i e f v a l u e s a t a g i v e n n o d e , a s w e l l a s d e f a u l t b e -

    l i e f s a n d w e i g h t s u s e d w h e n c o m b i n i n g b e l i e f l i s t s

    f r o m d i e r e n t n o d e s . T h e b e l i e f l i s t w i l l c o n t a i n

    t h e c u m u l a t i v e p r o b a b i l i t y o f a d o c u m e n t s ' r e l e -

    v a n c e t o t h e q u e r y g i v e n t h e v a l u e s o f t h e p a r e n t s .

    B e l i e f l i s t s m a y b e c o m p u t e d f r o m p r o x i m i t y l i s t s ,

    b u t t h e r e v e r s e d e r i v a t i o n i s n o t p o s s i b l e . T h i s l i m -

    i t a t i o n i m p o s e s s o m e r e s t r i c t i o n s o n q u e r y f o r m .

    T h e q u e r y f o r m m u s t n o t p r o d u c e a p r o x i m i t y l i s t

    t y p e r e s u l t a n t n o d e w h i c h i s a c t e d u p o n b y a r o u -

    t i n e e x p e c t i n g a b e l i e f l i s t t y p e . P r o x i m i t y l i s t s

    a r e t r a n s f o r m e d i n t o b e l i e f v a l u e s u s i n g t h e i n f o r -

    m a t i o n i n t h e l i s t a n d c o m b i n e d u s i n g w e i g h t i n g

    o r s c o r i n g f u n c t i o n s .

    N o d e b e l i e f s c o r e s a r e c a l c u l a t e d a s a c o m b i n a -

    t i o n o f t e r m f r e q u e n c y ( t f ) a n d i n v e r s e d o c u m e n t

    f r e q u e n c y ( i d f ) w e i g h t s . T h e v a l u e s a r e n o r m a l -

    i z e d t o r e m a i n b e t w e e n 0 a n d 1 , a n d a r e f u r t h e r

    m o d i e d b y t f a n d b e l i e f d e f a u l t v a l u e s w h i c h t h e

    u s e r m a y d e n e a t p r o g r a m i n v o c a t i o n .

    C a l c u l a t i o n o f a b e l i e f f o r a g i v e n n o d e i s d e -

    p e n d e n t o n t h e t y p e o f n o d e a n d t h e n u m b e r a n d

    b e l i e f i n i t s p a r e n t s a s p r e s e n t e d i n E q u a t i o n s 1 -

    6 . T h e p r o b a b i l i t y c o m b i n a t i o n s a r e a c h i e v e d v i a

    b e l i e f l i s t m e r g e s a n d n e g a t i o n .

    6 . 3 R e t r i e v a l P e r f o r m a n c e

    T y p i c a l q u e r y p r o c e s s i n g t i m e i s 3 t o 6 0 s e c o n d s o n

    a 1 G B y t e d o c u m e n t c o l l e c t i o n . P r o c e s s i n g t i m e

    v a r i e s a c c o r d i n g t o q u e r y c o m p l e x i t y , t h e n u m b e r

    o f t e r m s i n t h e q u e r y a n d t h e i r f r e q u e n c y i n t h e

    c o l l e c t i o n . T e r m s w i t h h i g h c o l l e c t i o n f r e q u e n -

    c i e s a r e l i k e l y t o a d d t o p r o c e s s i n g t i m e d u e t o

    t h e l e n g t h o f a s s o c i a t e d p r o x i m i t y l i s t s . R e t r i e v a l

    p e r f o r m a n c e i s m u c h i m p r o v e d o v e r b o o l e a n a n d

    c o n v e n t i o n a l p r o b a b i l i s t i c r e t r i e v a l . T h e r e a d e r i s

    r e f e r r e d t o 9 ] f o r d e t a i l s .

    7 I n t e r f a c e s

    I N Q U E R Y o e r s b a t c h a n d i n t e r a c t i v e m e t h o d s o f

    q u e r y p r o c e s s i n g , a n d a n a p p l i c a t i o n p r o g r a m m e r s

    i n t e r f a c e ( A P I ) t o s u p p o r t d e v e l o p m e n t o f c u s -

    t o m i z e d f r o n t - e n d s t o t h e r e t r i e v a l e n g i n e . E a c h

    o f t h e s e i n t e r f a c e s i s d i s c u s s e d b e l o w .

    7 . 1 A p p l i c a t i o n P r o g r a m m e r s I n t e r f a c e

    T h e I N Q U E R Y a p p l i c a t i o n p r o g r a m m e r s i n t e r f a c e

    ( A P I ) i s a s e t o f r o u t i n e s t h a t a l l o w p r o g r a m m e r s

    t o d e v e l o p i n t e r f a c e s o f t h e i r o w n t o t h e I N Q U E R Y

    r e t r i e v a l e n g i n e . T h e A P I f u n c t i o n s o p e n a n d c l o s e

    I N Q U E R Y d a t a b a s e s a n d l e s , c o n v e r t q u e r y t e x t

    i n t o q u e r y n e t s , e v a l u a t e q u e r y n e t s , a n d r e t r i e v e

    d o c u m e n t s .

    7 . 2 B a t c h I n t e r f a c e

    T h e b a t c h p r o g r a m t a k e s c o m m a n d l i n e a r g u m e n t s

    i n t h e f o r m o f i n p u t l e n a m e s a n d s w i t c h e s . T h e

    o u t p u t o f t h e p r o g r a m i s a r a n k e d l i s t o f d o c u m e n t s

    b y w e i g h t ( t h e c a l c u l a t e d p r o b a b i l i t y o f r e l e v a n c e )

    i n a l e f o r m a t r e a d a b l e b y a n e v a l u a t i o n p r o g r a m ,

  • 8/14/2019 The INQUERY Retrieval System

    8/9

    w h i c h c a n p r o d u c e s t a n d a r d r e c a l l - p r e c i s i o n t a b l e s

    o n r e t r i e v a l p e r f o r m a n c e . A l e o f r e l e v a n c e j u d g -

    m e n t s f o r t h e s u b m i t t e d q u e r i e s i s r e q u i r e d a s i n -

    p u t f o r t h e b a t c h p r o g r a m . T h i s a r r a n g e m e n t a l -

    l o w s q u e r i e s t o b e r u n r e p e a t e d l y , s o t h a t c h a n g e s

    t o t h e s y s t e m m a y b e e v a l u a t e d .

    7 . 3 U s e r I n t e r f a c e

    T h e i n t e r a c t i v e u s e r i n t e r f a c e s u p p o r t s q u e r i e s i n

    n a t u r a l l a n g u a g e o r s t r u c t u r e d f o r m , a n d w a s p r o -

    d u c e d u s i n g r o u t i n e s f r o m t h e A P I . Q u e r y r e s u l t s

    a r e d i s p l a y e d o n t h e s c r e e n i n t h e f o r m o f a r a n k e d

    d o c u m e n t l i s t . T h e u s e r m a y b r o w s e t h r o u g h t h e

    r e t r i e v e d d o c u m e n t s t o d e t e r m i n e t h e i r r e l e v a n c e

    t o t h e q u e r y . A l e c o n t a i n i n g t h e s e s s i o n r e s u l t s

    m a y a l s o b e p r o d u c e d .

    8 C u r r e n t S t a t u s

    T h e I N Q U E R Y s y s t e m h a s b e e n t e s t e d o n b o t h

    s t a n d a r d i n f o r m a t i o n r e t r i e v a l c o l l e c t i o n s 9 ; 8 ]

    a n d a h e t e r o g e n e o u s 1 G B y t e c o l l e c t i o n . W e c o n -

    t i n u e t o c o n d u c t r e s e a r c h o n i n t e l l i g e n t i n f o r m a -

    t i o n r e t r i e v a l w i t h t h e I N Q U E R Y s y s t e m , a n d e n -

    c o u r a g e o t h e r s t o d o s o . I N Q U E R Y v e r s i o n 1 . 3 ,

    d e s c r i b e d i n t h i s p a p e r , i s d i s t r i b u t e d b y a t e c h -

    n o l o g y t r a n s f e r a g e n c y o f t h e U n i v e r s i t y o f M a s -

    s a c h u s e t t s f o r a n o m i n a l f e e .

    C u r r e n t w o r k o n I N Q U E R Y a d d r e s s e s b o t h

    s o f t w a r e e n g i n e e r i n g a n d r e s e a r c h i s s u e s . O n e r e -

    c e n t i m p r o v e m e n t w a s t h e a d d i t i o n o f e n c o d i n g

    m e t h o d s t o r e d u c e t h e s i z e s o f b o t h t h e i n v e r t e d

    l e a n d t h e u s e r - i n t e r f a c e i n d i c e s . T h e i n v e r t e d l e

    i n d e x h a s b e e n r e d u c e d t o 4 0 % o f i t s p r e v i o u s s i z e ,

    w h i l e t h e u s e r - i n t e r f a c e i n d e x h a s b e e n r e d u c e d t o

    5 % o f i t s p r e v i o u s s i z e . T h i s i m p r o v e m e n t w i l l e n -

    a b l e u s t o i n s t a l l a 2 G B y t e d o c u m e n t c o l l e c t i o n o n

    o u r c u r r e n t h a r d w a r e d u r i n g t h e s u m m e r o f 1 9 9 2 .

    W e a r e a l s o s t u d y i n g t h e u s e o f r e l e v a n c e f e e d -

    b a c k i n I N Q U E R Y . R e l e v a n c e f e e d b a c k e n a b l e s a

    u s e r t o i d e n t i f y t h o s e r e t r i e v e d d o c u m e n t s t h a t a r e

    m o s t r e l e v a n t t o t h e u s e r ' s i n f o r m a t i o n n e e d . T h e

    s y s t e m t h e n a n a l y z e s t h o s e d o c u m e n t s , p r o d u c e s

    a r e v i s e d q u e r y b a s e d u p o n t h e a n a l y s i s , a n d r e -

    t r i e v e s a n e w s e t o f d o c u m e n t s .

    A c o l l e a g u e i s d e v e l o p i n g a J a p a n e s e v e r -

    s i o n o f I N Q U E R Y , c a l l e d J I N Q U E R Y . T h e o n l y

    d i e r e n c e s b e t w e e n I N Q U E R Y a n d J I N Q U E R Y

    a r e t h e l e x i c a l a n d s y n t a c t i c a n a l y z e r s , a n d t h e

    u s e r i n t e r f a c e . J a p a n e s e d o c u m e n t s a r e p a r t i c u -

    l a r l y c h a l l e n g i n g b e c a u s e w o r d b o u n d a r i e s a r e i m -

    p l i c i t . J I N Q U E R Y c u r r e n t l y i n d e x e s d o c u m e n t s

    w i t h K a n j i i c h a r a c t e r s a n d K a t a k a n a w o r d s . A

    s e g m e n t e r t h a t d i v i d e s a s t r e a m o f K a n j i i c h a r a c -

    t e r s i n t o w o r d s i s b e i n g t e s t e d .

    F i n a l l y , r e s e a r c h i s u n d e r w a y t o p r o v i d e b e t -

    t e r s u p p o r t f o r q u e r i e s e x p r e s s e d i n n a t u r a l l a n -

    g u a g e . I N Q U E R Y a n d J I N Q U E R Y c u r r e n t l y h a n -

    d l e n a t u r a l l a n g u a g e b y s u m m i n g t h e b e l i e f s c o n -

    t r i b u t e d b y t h e i n d i v i d u a l q u e r y w o r d s . W e b e -

    l i e v e t h a t i m p r o v e m e n t s c a n b e m a d e b y a u t o m a t i -

    c a l l y i d e n t i f y i n g p h r a s e s , i n c o r p o r a t i n g w o r d s f r o m

    t h e s a u r u s e s , r u n n i n g t h e c o n c e p t r e c o g n i z e r s o n

    q u e r i e s , a n d p e r f o r m i n g o t h e r t y p e s o f m o r p h o l o g -

    i c a l p r o c e s s i n g .

    A c k n o w l e d g e m e n t s

    T h i s r e s e a r c h w a s s u p p o r t e d i n p a r t b y t h e A i r

    F o r c e O c e o f S c i e n t i c R e s e a r c h u n d e r c o n t r a c t

    A F O S R - 9 1 - 0 3 2 4 .

    R e f e r e n c e s

    1 ] E u g e n e C h a r n i a k . B a y s i a n n e t w o r k s w i t h o u t

    t e a r s . A I M a g a z i n e , 1 2 ( 4 ) , W i n t e r 1 9 9 1 .

    2 ] K e n n e t h C h u r c h . A s t o c h a s t i c p a r t s p r o g r a m

    a n d n o u n p h r a s e p a r s e r f o r u n r e s t r i c t e d t e x t . I n

    P r o c e e d i n g s o f t h e 2 n d C o n f e r e n c e o n A p p l i e d

    N a t u r a l L a n g u a g e P r o c e s s i n g , p a g e s 1 3 6 { 1 4 3 ,

    1 9 8 8 .

    3 ] S t e p h e n C . J o h n s o n . Y a c c : Y e t a n o t h e r c o m -

    p i l e r c o m p i l e r . I n U N I X P r o g r a m m e r ' s M a n -

    u a l . B e l l T e l e p h o n e L a b o r a t o r i e s , I n c , M u r r a y

    H i l l , N J , 1 9 7 9 .

    4 ] M . E . L e s k a n d E . S c h m i d t . L e x - a l e x i c a l a n a -

    l y z e r g e n e r a t o r . I n U N I X P r o g r a m m e r ' s M a n -

    u a l . B e l l T e l e p h o n e L a b o r a t o r i e s , I n c , M u r r a y

    H i l l , N J , 1 9 7 9 .

    5 ] M i c h a e l L o r e n M a u l d i n . I n f o r m a t i o n r e t r i e v a l

    b y t e x t s k i m m i n g . P h D t h e s i s , S c h o o l o f

    C o m p u t e r S c i e n c e , C a r n e g i e M e l l o n U n i v e r s i t y ,

    P i t t s b u r g , P A , 1 9 8 9 .

    6 ] J u d e a P e a r l . P r o b a b i l i s t i c r e a s o n i n g i n i n t e l l i -

    g e n t s y s t e m s : N e t w o r k s o f p l a u s i b l e i n f e r e n c e

    M o r g a n K a u f m a n n , S a n M a t e o , C A , 1 9 8 8 .

  • 8/14/2019 The INQUERY Retrieval System

    9/9

    7 ] L i s a F . R a u . E x t r a c t i n g c o m p a n y n a m e s f r o m

    t e x t . I n P r o c e e d i n g s o f t h e S i x t h I E E E C o n -

    f e r e n c e o n A r t i c i a l I n t e l l i g e n c e A p p l i c a t i o n s ,

    1 9 9 1 .

    8 ] H o w a r d T u r t l e a n d W . B r u c e C r o f t . E v a l u -

    a t i o n o f a n i n f e r e n c e n e t w o r k - b a s e d r e t r i e v a l

    m o d e l . A C M T r a n s a c t i o n s o n I n f o r m a t i o n S y s -

    t e m s , 9 ( 3 ) , J u l y 1 9 9 1 .

    9 ] H o w a r d R . T u r t l e a n d W . B r u c e C r o f t . E -

    c i e n t p r o b a b i l i s t i c i n f e r e n c e f o r t e x t r e t r i e v a l .

    I n R I A O ` 9 1 C o n f e r e n c e P r o c e e d i n g s , p a g e s

    6 4 4 { 6 6 1 , B a r c e l o n a , S p a i n , A p r i l 1 9 9 1 .