Comparing Tree Based Methods

download Comparing Tree Based Methods

of 49

Transcript of Comparing Tree Based Methods

  • 8/12/2019 Comparing Tree Based Methods

    1/49

    D i s t in g u i s h i n g t h e F o r e s t fr om t h e T R E E S :

    A C o m p a r i so n o f T r e e B a s e d D a t a M i n i n g M e th o d s

    R ic h a r d D e r r ig , Ph .D . a n d L o u i s e F r a n c i s , FC A S , MA A A

    R i c h a r d D e r r i g , P h D ,

    O P A L C o n s u l t i n g L L C

    4 1 F o s d y k e S t r e e t

    P r o v i d e n c e

    R h o d e I s l a n d , 0 2 9 0 6 , U . S .A .

    P h o n e : 0 0 1 - 4 0 1 - 8 6 1 - 2 8 5 5

    e m a il : r i c h a r d @ d e r r i g . c o m

    L o u i s e F r an c i s , F C A S , A A A

    F r a n c i s A n a l y f ic s & A c t u a r ia l D a t a M i n i n g

    7 0 6 L o m b a r d S t r e e t

    P h i l a d e l p h i a

    P e n n s y l v a n i a , 1 9 1 4 7 , U . S . A .

    P h o n e : 0 0 1 - 2 1 5 -9 2 3 - 1 5 6 7

    e m a i l : l o u i s e _ f r a n c i s @ m s n . c o m

    A b s t r a c t

    I n r e c e n t y e a r s a n u m b e r o f d a t a m i n i n g a p p r o a c h e s f o r m o d e l i n g d a t a c o n t a i n i n g n o n l i n e a r a n d o t h e r

    com pl ex depende nc i es have appe ared i n t he l it er a tu re. O ne o f t he key da t a mi n i ng t echn i ques i s dec i s i on tr ees ,

    a l so r e f e r r ed t o as c lassi fi ca ti on and r eg ress i on tr ees o r CA RT (Bre i man e t a l, 1993) . Th a t m et h od r esu l t s i n

    re la ti ve ly easy t o app l y dec i s ion ru l es t ha t par t i t i on da t a an d m ode l ma ny o f t he compl exi ti es i n i n su rance da ta .

    In r ecen t year s cons i derab l e e f fo r t has been expended t o i mprove t he qua l i t 3 of the f i t of regression t rees .

    T h e s e n e w m e t h o d s a r e b a s e d o n e n s e m b l e s o r n e t w o r k s o f t r e e s a n d c a r t3 , n a m e s l i k e T R E E N E T a n d

    Ra ndo m Fores t . V i aene e t a l (2002) com pare d severa l da t a mi n i ng p roce dures , i nc l ud i ng t r ee m et ho ds and

    l ogi st ic r eg ress i on , fo r p red i c t i on accuracy on a sma l l f ixed da t a se t o f f r aud ind i ca t o r s o r r ed f lags . Th ey

    found s i mp l e l og is ti c r eg ress i on d i d as well a t p r ed i c t i ng exper t op i n i on as t he m ore soph i s t i ca t ed p rocedures .

    In t h i s pape r we wi ll in t roduce som e ava il ab le r eg ress i on t ree app roach es and exp la in ho w t hey a re u sed

    to

    mo del non l i near dependenc i es i n in su ranc e c la im da ta . W e i nvest iga te t he r el at ive p er fo rm anc e o f several

    sof tw are pro duc ts in predict ing the key claim var iables fo r the dec is ion to invest igate for excessive a n d/ o r

    f raudulent pract ices , and the expectat ion of favorable resul t s f rom the invest igat ion , in a large claim database.

    . M n o n g t h e s o f tw a r e p r o g r a m s w e w il l in v es ti ga te a r e C A R T , S - PL U S , T R E E N E T , R a n d o m F o r e s t a n d

    Ins i gh t fu l M i ner Tree p rocedures . Th e da t a u sed fo r t h is ana lys is a r e t he app rox i m at e l y

    500,000

    au t o i n j u ry

    c la im s r e p o r t e d t o t h e D e ta ile d C l a im D a t a b a s e ( D C D ) o f t h e A u t o m o b i l e I n s u r e r s B u r e a u o f M a s s a c h u s e t t s

    f rom acc i den t years 1995 t h ro ug h 199 7 . Th e dec i s i on t o o rder an i ndepen den t med i ca l exam i na t i on o r a

    special invest igat ion for f raud, an d the favorable ou tco m es of suc h decis ions, are the mod el ing targets. W e f ind

    t ha t t he m et ho ds a l l p rov i de som e p red i ct ive va l ue o r l if t f rom t he ava il ab le

    D C D

    variables with significant

    d i ff e rences am on g t he m et h ods an d t he fo u r ta rge ts . A l l mo del i ng ou t c om es a re comp ared t o l og is ti c

    r eg ress i on as i n Vi aene e t a l . w i t h some model / so f t ware combi na t i ons do i ng s i gn i f i can t l y be t xer t han t he

    logist ic model.

    K e y w o r d s :

    Fraud , Dat a Mi n i ng , ROC Cu~,e , Var i ab l e Impor t ance , Dec i s i on Trees

    -)

    D er r i g -Franc i s _005 - No m ore t han t wo pq rag raph s o r on e t ab le o r f igu re can be q uo t ed w i t hou t wr i t ten

    p e r m i s s i o n o f t h e a u t h o r s b e f o r e M a r c h 1 , 2 0 06 .

    Casualty A ctua ria l Society Forum,W inte r 2006 1

  • 8/12/2019 Comparing Tree Based Methods

    2/49

    Distinguishing the Forest rom the T R E E S

    I N T R O D U C T I O N

    I n r e c e n t ye ar s a n u m b e r o f a p p r o ac h e s f o r m o d e l i n g d a t a c o n t a i n in g n o n l i n e a r a n d o t h e r

    c o m p l e x d e p e n d e n c i e s h a v e a p p e a r e d i n t h e l it e ra t u re . M a n y o f t h e m e t h o d s w e r e

    d e v e lo p e d b y r e s e a r c h e rs f r o m th e c o m p u te r s c i e n c e , a r ti f ic i a l i n t e l l i g e n c e a n d s t a t i st i c s

    d i s c ip l i n e s1. T h e m e t h o d s h a v e b e e n w i d e l y c h a r a c te r i ze d a s

    datamining

    e c h n i q u e s . T h e s e

    p r o c e d u r e s i n c lu d e s ev e r a l t h a t s h o u ld b e o f i n t e r e s t t o a c tu a ri e s d e a l i n g w i th l a rg e a n d

    c o m p l e x d a t a se ts . T h e p r o c e d u r e s o f i n te r e s t fo r t h e p u r p o s e s o f th i s p a p e r a r e v a r i o u s

    v a r i e t ie s o f c l a s s if i c a ti o n a n d r e g r e s s io n t re e s o r C AR T . V ia e n e e t a l ( 20 0 2) a p p l i e d a w id e r

    s e t o f p r o c e d u r e s , i n c l u d i n g n e u r a l n e t w o r k s , s u p p o r t v e c t o r m a c h i n e s , a n d a d a s s i c a l

    g e n e r a l l i n e a r m o d e l , l o g is t ic r e g re s s i o n , o n a s m a l l si n g le d a t a s e t o f i n s u r a n c e d a i r n f r a u d

    i n d i c a t o rs o r r e d

    flags

    a s p r e d i c to r s o f s u s p i c i o n o f f r a u d. T h e y f o u n d s i m p l e l o g is t ic

    r e g r e s s io n d i d a s w e l l a t p r e d i c ti n g e x p e r t o p i n i o n o n t h e p r e s e n c e o f f r a u d a s t h e m o r e

    s o p h i s t ic a t e d p r o c e d u re s . S t a te d d i f fe r e n tl y , t h e l o g is t ic m o d e l p e r f o r m e d w e l l e n o u g h i n

    m o d e l i n g t h e e x p e r t o p i n i o n o f f r a u d t h a t t h e r e w a s l i td e n e e d f o r t h e m o r e s o p h i s t ic a t e d

    p r o c e d u r e s : .

    A w i d e v a r i e ty o f s t a ti st ic a l s o f tw a r e i s n o w a v a il a bl e f o r i m p l e m e n t i n g f r a u d a n d o t h e r

    p r e d i c ti v e m o d e l s t h r o u g h c l u s t e ri n g a n d d a t a m i n i n g . I n t h i s p a p e r w e w i ll i n t r o d u c e a

    v a r ie t y o f R e g r e s s io n T r e e d a t a m i n i n g a p p ro a c h e s 3 a n d e x p l a i n h o w t h e y a r e u s e d t o m o d e l

    n o n l i n e a r d e p e n d e n c i e s i n i n s u r a n c e c la i m d a ta . W e a l so i n v e s t ig a t e t h e r e l a ti v e p e r f o r m a n c e

    o f s e v e r al s of t w a r e p r o d u c t s t h a t i m p l e m e n t th e s e m o d e l s . A s a n e x a m p l e o f r e l at i ve

    p e r f o r m a n c e , we t e s t f o r t h e k e y c l a im v a r i a b l e s i n t h e d e c i s io n t o i n v e s t i g a t e f o r e x c e s s iv e

    a n d / o r f r a u d u l e n t p r a ct ic e s i n a l ar g e c l a im d at a b as e . T h e s o f tw a r e p r o g r a m s w e

    i n ve s ti g at e a re C A R T , S - PL U S , T R E E N E T , R a n d o m F o r e st s , a n d I n si g h t f u l T r e e a n d

    E n s e m b le f r o m th e I n s ig h t f u l I ~f in er p a c k a g e . Na iv e B a y e s a n d L o g i s t ic m o d e l s a r e u s e d a s

    b e n c h m a r k s . T h e d a t a u s e d f o r t h i s a n a ly s is a r e t h e a u to b o d i ly i n ju r y l i a b i li t y d a im s

    r e p o r te d t o t h e D e t a i le d C l a im D a t a b a s e 0 D C D ) o f t h e A u t o m o b i l e In s u r e r s B u r e a u o f

    M a s s a c h u s e t t s f r o m a c c id e n t y e a r s 1 9 9 5 t h r o u g h 1 9 9 7 ~. T h r e e t y p e s o f v a r i a b l e s a r e

    e m p lo y e d . S e v e r a l v a r i a b l e s t h o u g h t t o b e r e l a t ed t o t h e d e c i s io n t o i n v e s t i g a t e a r e i n c lu d e d

    h e r e as r e p o r t e d t o t h e D C D , s u c h a s o u t p a t i e n t p r o v i d e r m e d i c a l b i ll a m o u n t s . A f e w

    v a r i a b l e s a r e i n c lu d e d t h a t a r e d e r iv e d f r o m p u b l i c ly a v a i la b l e d e m o g r a p h ic d a t a s o u r c e s ,

    s u c h a s in c o m e p e r h o u s e h o l d f o r e a ch c l a i m a n t ' s z i p c o d e. A d d i t i o n a l v a r ia b l e s a r e d e r iv e d

    b y a c c u m u l a t i n g p r o p o r t i o n a l s ta t is t ic s f r o m t h e D C D ; e .g ., t h e d i s t a n c e f r o m t h e c l a i m a n t ' s

    z i p c o d e t o t h e z i p c o d e o f t h e f ir s t m e d i c a l p r o v i d e r o r c l a i m a n t ' s z i p c o d e r a n k f o r t h e

    n u m b e r o f p l a i n ti f f a t t o rn e y s p e r z i p c o d e . T h e d e c i s i o n t o o r d e r a n i n d e p e n d e n t m e d i c a l

    e x a m in a t i o n o r a s p e ci a l i n v e s t i g a t i o n fo r f r a u d , a n d a f a v o r a b l e o u t c o m e f o r e a c h , a r e t h e

    m o d e l in g t a rg e t .

    E i g h t m o d e l i n g s o f t w a r e r e su l ts w i ll b e c o m p a r e d f o r e f f e ct iv e n e s s b a s e d o n a s t a n d a r d

    p r o c e d u r e , t h e a r e a u n d e r t h e re c e iv e r o p e r a t i n g ch a r a ct e ri s ti c c u r v e ( A U R O C ) . W e f i n d

    t h a t t h e m e t h o d s a ll p r o v i d e s o m e p r e d i c ti v e v a l u e o r li ft f r o m t h e D C D v a r i a b le s w e m a k e

    a v a il a bl e , w i t h s i g n i f i c a n t d i f fe r e n c es a m o n g t h e e i g h t m e t h o d s a n d f o u r t a rg e ts . M o d e l i n g

    o u t c o m e s c a n b e c o m p a r e d t o l o g i st ic r e g re s s i o n as i n V i a e n e e t a l. b u t t h e r e s u l ts h e r e a r e

    d i f fe r e n t. T h e y s h o w s o m e s o f t w a r e / m e t h o d s c a n im p r o v e s i gn i f ic a n tl y o n t h e p r e d i c ti v e

    2 C a s u a l t y A c t u a r i a l S o c i e t y

    Forum,

    W i n t e r 2 0 0 6

  • 8/12/2019 Comparing Tree Based Methods

    3/49

    Distinguishing the Forest rom the T R E E S

    a b i l it y o f t h e l o g i s t ic m o d e l . T h a t r e s u l t m a y b e d u e t o t h e r e l a ti v e r i c h n e s s o f t h i s d a t a s e t

    a n d / o r t h e t y p es o f i n d e p e n d e n t v a ri a bl es a t h a n d c o m p a r e d t o t h e V i a e n e d a ta . W e s h o w

    h o w i m p o r t a n t e a c h v a r ia b l e i s w i t h i n e a c h s o f t w a r e / m o d e l t e s te d s a n d n o t e t h e ty p e o f

    d a t a t h a t a r e im p o r t a n t fo r th i s a n a ly si s . T h i s e n t i r e e x e r c i se s h o u ld p r o v id e p r a c t i c in g

    a c t ua r ie s w i t h g u i d a n c e o n r e g r e s s i o n tr e e s o f t w a r e a n d m a r k e t m e t h o d s t o a n a l y z e c o m p l e x

    n o n l i n e a r re l a t i o n s h ip c o m m o n l y f o u n d i n a l l t y p e s o f i n s u r a n c e d a ta .

    T h e p a p e r i s o r g a n i z e d a s f o l l o w s . S e c t i o n 1 i n t r o d u c e s t h e g e n e r a l n o t i o n o f n o n - l i n e a r

    d e p e n d e n c i e s i n in s u r a n c e d a t a. S e c t i o n 2 d e s c r i b es t h e d a t a s e t o f M a s s a c h u s e tt s a u t o b o d i l y

    in ju r y l i a b il i ty c l a im s a n d v a r i a b l e s u s e d f o r i l l u s t r a ti n g t h e m o d e l s a n d s o f twa r e

    i m p l e m e n t a t i o n s . D e s c r i p t i o n s a n d i l lu s t r a ti o n s o f t h e d a t a m i n i n g m e t h o d s a p p l i e d i n t h e

    p a p e r a p p e a r i n S e c t i o n 3 wh i l e t h e s p e c i f i c s o f twa r e p r o c e d u r e s a r e c o v e r e d i n S e c t i o n 4 .

    C o m p a r a t i v e o u t c o m e s f o r t h e v a ri a b le s ( i m p o r t a n c e ) a n d s o f tw a r e ( A U R O C ) a r e

    r e p o r t e d i n S e c t i o n s 5 a n d 6 . W e p r o v i d e s o m e i n t e r p r e t a t i o n o f t h e r e s u lt s i n t e r m s o f t h e

    d e c i s i o n t o i n v e s t i g at e w i t h i n t h e M a s s a c h u se t t s d a t a a s a n i l l u s tr a t i o n o f t h e u s e f u l n e s s o f

    t h e m o d e l i n g e ff o r t i n S e c t i o n 7 . I m p l i c a t i o n s f o r t h e u s e o f t h e s o f t w a r e m o d e l s a r e

    d i s c u s se d i n s e ct i o n 8. C o n t u s i o n s a r e s h o w n i n S e c t i o n 9 .

    S E C T I O N 1. N O N L I N E A R I T Y I N I N S U R A N C E D A T A

    A c t u a r i e s a r e n e ar l y i n s e p a r a b l e f r o m d a t a a n d d a t a m a n i p u l a t i o n t e c h n i q u e s . D a t a c o m e i n

    a l l f o r m s a s a m a t t e r o f c o u r s e . N u m e r i c ( lo s s ra t io s ) , ca t e g o r i ca l ( i n ju r y t y p e s ), a n d t e x t

    ( a c c id e n t d e s c r ip t i o n ) d a t a a l l f l o o d i n s u r e r s o n a d a i l y b a s i s . R e s e r v in g a n d p r i c in g a r e two

    m a j o r f u n c t i o n s o f c a s u al ty a ct u ar ie s . R e s e r v i n g i n v o l v e s c o m p i l i n g a n d u n d e r s t a n d i n g

    t h r o u g h m a t h e m a t i c a l t e c h n i q u e s h i s t o r i c a l p a t t e r n s o f a p o r t f o l i o o f i n s u r a n c e c l a i m s i n

    o r d e r t o p r e d i c t a n u l t im a te v a lu e . P r i c in g i n v o lv e s t a k in g t h e b e s t e s t im a te s o f h i s to r i c a l

    c o s t d a t a o n c l ai m s a n d e x p e n s e s , c o m b i n i n g t h a t d a t a w i t h f i n a n c i a l a s s e t p ri c i n g m o d e l s

    th a t i n c lu d e p r o j e c t i n g f u tu r e v a lu e s i n o r d e r t o a r r i v e a t b e s t e s t im a te s o f a l l c o s t s o f

    a c c e p t i n g u n d e r w r i t i n g r is k. O f c o u r s e , ac t u ar ie s c o n t i n u a l l y l o o k b a c k a t b o t h a n a ly t ic

    e x e r c is e s t o d e t e r m in e t h e a c c u r a c y o f t h o s e e s t im a te s as t h e r e a l a c c o u n t in g d a t a d e v e lo p s

    o v e r t im e .

    T r a d i t i o n a l l y , a c tu a r ia l m o d e l s w e r e c o n f in e d t o l i n e a r , m u l t i p l i c a t i v e o r m ix e d a lg e b r a i c

    e q u a t io n s i n t h e a b s e n c e o f t h e p o w e r f u l c o m p u t i n g e n v i r o m n e n t w e e n j o y t od a y. T h o s e

    m o s t l y m a n u a l m e t h o d s p r o v i d e d c r u d e a p p r o x i m a t i o n s t h a t s u f fi c e d w h e n a l te r n a ti v e

    m e t h o d s w e r e u n a v a i l a b le o r n o n - e x i s t e n t . S i m p l e d e v i a ti o n s f r o m l i n e a r r e l a ti o n s h i p s, s u c h

    a s e s c a l at i ng in f l a t io n , c o u l d b e h a n d l e d b y s i m p l e t r a n s f o r m a t i o n s o f t h e d a t a ( lo g

    t r a n s f o r m ) t h a t a l lo w e d l in e a r t e c h n i q u e s t o b e a p p l i e d to t h e d a ta . G r a d u a l l y , o v e r t i m e

    t h e s e t r a n s f o r m a t i o n te c h n i q u e s b e c a m e m o r e s o p h i s t i c a t e d a n d c o u l d b e a p p l ie d to m a n y

    p r o b l e m s w i th a v a r i e ty o f n o n - l i n e a r d a t a ~'.

    T r e n d f i n e s o f t im e s e r ie s d a t a , s u c h a s d a l r n s e v e r i t y o r f r e q u e n c y , a re g e n e r a l l y a m e n a b le t o

    l i n e a r t e c h n iq u e s . H o we v e r , d a t a wh e r e i n t e r a c t i o n s a n d c r o s s c o r r e l a t i o n s a r e e s s e n t i a l t o

    t h e m o d e l i n g o f t h e d y n a m i c s o f t h e p r o c e ss u n d e r l y i n g t h e d a t a , r e q u ir e m o r e

    Casualty A ctua ria l Society Forum,W i n t e r 2 0 06 3

  • 8/12/2019 Comparing Tree Based Methods

    4/49

    Distinguishing the Forest rom the T R E E S

    c o m p r e h e n s iv e t e c h n iq u e s t h a t y ie ld m o r e p r e c i s io n o n m o r e t y p e s o f d a t a c o m p le x i t i e s .

    F ig u r e 1 - 1 s h o ws a p a r t i c u l a r n o n - l i n e a r r e l a t i o n s h ip b e twe e n two in s u r a n c e v a r i a b l e s t h a t

    wo u ld b e d i f f ic u l t , i f n o t im p o s s ib l e , t o m o d a l w i th s im p le t e c h n iq u e s. O n e p u r p o s e o f t h i s

    p a p e r i s t o d e m o n s t r a t e a r a n g e o f s o - c a l l e d a rt i fi c i al i n t e l li g e n c e o r s t a ti s t ic a l l e a r n in g

    t e c h n iq u e s t h a t h a v e b e e n d e v e lo p e d t o h a n d l e c o m p l i c a t e d r e l a t i o n s h ip s w i th in d a t a s e t s .

    A n I n s u r a n c e N o n l i n e a r F u n c t i o n :

    P r o v i d e r B i ll v s . P r o b a b i li ty o f I n d e p e n d e n t M e d i c a l E x a m

    O 9 O

    O 8 O

    o 7 0

    |

    ~ o ~ -

    o 5 o -

    o 4 o -

    o a o -

    1

    I I I I I I I I f l l l l l l l l l l m l l l l l l l l l

    P r o v i d e r 2 B i l l

    Figure 1 -1

    Ne a r ly a ll r e g r e s s io n a n d e c o n o m e t r i c a c a d e m ic c o u r s e s a d d r e s s t h e t o p i c o f n o n l in e a r i ty , a t

    l e a s t b r ie f l y. S tu d e n t s a r e in s t r u c t e d i n m e th o d s t o d e t e c t n o n l in e a r i t y a n d h o w to m o d e l it .

    De t e c t i o n g e n e r a l l y i n v o lv e s u s in g s c a t t e r p lo t s o f i n d e p e n d e n t v e r s u s d e p e n d e n t v a r i a b l e s

    o r e v a lu a t in g p lo t s o f r e s id u a l s . T w o m e th o d s o f m o d e l in g n o n l in e a r i t y t h a t a r e g e n e r a l l y

    t a u g h t: a r e 1 ) t r a n s f o r m a t io n o f v a r i a b l e s a n d 2 ) p o ly n o m ia l r e g r e s s io n ( M i l l e r a n d W ic h e m 7,

    1 9 7 7, a n d N e te r e t al , 1 98 5) . F o r i n s t a n c e , i f a n e x a m in a t i o n o f r e s id u a l p lo t s in d i c a t e s t h a t

    t h e m a g n i tu d e o f t h e r e s id u a l s i n c r e a s e s w i th t h e s i z e o f a n i n d e p e n d e n t v a r i a b l e , t h e l o g

    t r a n s f o r m a t i o n i s r e c o m m e n d e d . P o l y n o m i a l r e g r es s i o n s a r e c o n s i d e r e d u s e fu l

    a p p r o x im a t io n s w h e n a c u r v i li n e a r r e l a t i o n s h ip e x is t s b u t i t s e x a c t f o r m i s u n k n o w n .

    A g e n e r a l i z a t i o n o f l i n e a r m o d e l s k no wn a s G e n e r a l i z e d L in e a r M o d e l s o r G L M ( M c C u l l a g h

    a n d N e ld e r , 1 9 89 ) e n a b l e d t h e m o d e l in g o f m u l t i v a r i a t e r e l a t i o n s h ip s i n t h e p r e s e n c e o f

    c e r ta i n k in d s o f n o n - n o r m a l i t y ( i.e . w h e r e t h e r a n d o m c o m p o n e n t i s f ro m t h e e x p o n e n t i a l

    f a m i ly o f d i s t r i b u t i o n ) . T h e l i n k f u n c t i o n o f G L M s f o r m a l i ze s t h e i n c o r p o r a t i o n o f c e r t a in

    n o n l i n e a r r el a t io n s h ip s in t o t h e m o d e l i n g p r o c e d u r e : T h e t r a n s fo r m a t i o n s i n c o r p o r a t e d i n t o

    t h e c o m m o n G L M s a re :

    Th e ide n t i ty l ink : h (Y) = Y

    4 Casua l ty A ctuarial Society Forum, W inter 2006

  • 8/12/2019 Comparing Tree Based Methods

    5/49

    Distinguishing the Forest rom the T R E E S

    Th e log l ink : h (Y) =

    lnC~

    Th e inverse l ink : h (Y) = - - (1)

    Y

    T h e l o g it l in k : h (Y ) = l n ( l _ ~ )

    T h e p r o b i t l in k : h (Y ) = ~ ( Y ) , d e n o t e s th e n o r m a l C D F

    Of th e s e t r a n s f o r m a t io n s , t h e l o g a n d l o g i t t r a n s f o r m a t io n a p p e a r f r e q u e n t ly i n t h e i n s u r a n c e

    l i te r a tu re . B e c a u s e m a n y in s u r a n c e v a r i a b l e s a r e r i g h t s k e we d , t h e l o g t r a n s f o r m a t io n i s

    a p p l i e d to a t t a i ne d a p p r o x i m a t e n o r m a l i ty a n d h o m o g e n e i t y o f v a r i an c e . I n a d d i t i o n , ap r i o r i

    o r d o m a in c o n s id e r a t i o n s ( e . g . , t h e r e l a t i o n s h ip b e twe e n t h e i n d e p e n d e n t v a r i a b l e s a n d t h e

    d e p e n d e n t v a r i a b l e i s b e l i e v e d t o b e m u l f i p l i c a t i v e ) s o m e t im e s s u g g e s t t h e l o g

    t r a n sf o r m a t i o n . T h e l o g i t t r a n s f o r m i s c o m m o n l y u s e d w h e n t h e d e p e n d e n t v a r i ab l e i s

    b ina ry .

    Un f o r m n a td y , wh i l e t h e t e c h n iq u e s c i t e d a b o v e a d d s ig n if i c a n tl y t o t h e a n a ly s t' s a b i l it y t o

    m o d e l n o n l in e a r i t y , t h e y a re n o t s u f f i c i e n t f o r m a n y s i t u a t io n s e n c o u n te r e d i n p r a c t i c e. I n

    a c tu a l i n s u r a n c e d a t a , c o m p le x n o n l in e a r r e l a t i o n s h ip s a re t h e r u l e r a th e r t h a n t h e e x c e p t io n .

    S o m e o f t h e r e a s o n s t h e t r a d i t i o n a l a p p r o a c h e s o f t e n d o n o t p r o v id e a s a t i sf a c to r y

    a p p r o x im a t io n t o n o n l in e a r f u n c t i o n s a r e :

    T h e f o r m o f t h e n o n li n e a ri t y m a y b e o t h e r t h a n o n e o f t h o s e p e rm i t t e d b y t h e

    - kn own t r a n s f o r m a t io n s w h ic h p r o d u c e l i n e a r it y . F ig u r e 1 -1 d i s p l a y s o n e s u c h n o n -

    l i n e a r f u n c t i o n b a s e d o n t h e i n s u r a n c e d a t a b a s e u s e d i n t h is a n a ly s is .

    W h i l e a p o l y n o m i a l o f a d eq u a t e d eg r e e c a n a p p r o x i m a t e m a n y c o m p l e x f u n c ti o n s ,

    e x t r a p o l a t i o n b e y o n d th e d a t a , o r i n t e r p o l a t i o n w i th in t h e d a t a , m a y b e p r o b l e m a t i c ,

    p a r t i c u la r l y f o r h ig h e r o r d e r p o ly n o m ia l s .

    De t e r m in in g t h e a p p r o p r i a t e t r a n s f o r m a t io n ( o r p o ly n o m ia l ) c a n b e d i f f ic u l t i f n o t

    i m p o s s i b l e w h e n t h e r e a r e m a n y i n d e p e n d e n t v a r i ab l e s, a n d t h e a p p r o p r i a t e r e la t i o n

    b e t w e e n t h e t a r g e t a n d e a c h i n d e p e n d e n t v a r ia b l e m u s t b e f o u n d.

    T h e r e l a t i o n sh i p b e t w e e n a d e p e n d e n t v a ri a b le a n d a n i n d e p e n d e n t v a r ia b l e m a y b e

    c o n f o u n d e d b y a t h i r d v a r i a b l e d u e t o i n t e r a c t i o n o r c o r r e l a t i o n s t h a t a r e n o t s im p le

    to a p p r o x im a te .

    T o r e m e d y t h e s e p r o b l e m s r e q u ir e s m e t h o d s w h e r e :

    An y n o n l in e a r r e l a t i o n s h ip c a n b e a p p r o x im a te d .

    T h e a n a ly s t d o e s n o t n e e d t o - kn ow th e f o r m o f t h e n o n l in e a r it y .

    T h e e f f e c t o f i n t e r a c t i o n s ca n b e e a s il y d e t e r m in e d a n d i n c o r p o r a t e d i n to th e m o d e l .

    T h e m e th o d g e n e r a li z e s we l l o n o u t - o f - s a m p le d a t a f o r i n t e r p o l a t i o n o r e x t r a p o l a t i o n

    p u r p o s e s .

    T h e r e g r e s s io n t r e e m e th o d s i n c lu d e d in o u r a n aly si s m e e t t h e s e c o n d i t i o n s . S e c t i o n 3 o f

    t h is p a p e r d e s c r ib e s h o w e a c h o f o u r m e t h o d s m o d e l s n o n l in e a ri t y. W e n o w t u r n t o a

    desc r ip t ion o f the d a ta se t we w i l l use in th is ana lys is .

    C a s u a l t y A c t u a r i a l S o c i e t y Forum, W i n t e r 2 0 0 6 5

  • 8/12/2019 Comparing Tree Based Methods

    6/49

    Distinguishing the Forest rom the T R E E S

    S E C T I O N 2. D E S C R I P T I O N O F T H E M A S S A C H U S E T TS A U T O B O D I L Y

    I N J U R Y D A T A

    T h e d a t a b a s e w e w i l l u s e f o r o u r a n a ly s is i s a s u b s e t o f t h e A u t o m o b i l e I n s u r e r s B u r e a u o f

    M a s s a c h u s e t t s D e t a i l C l a i m D a t a b a s e ( D C D ) ; n a m e l y , t h o s e c l a i m s f r o m a c c i d e n t y e a r s

    1995 - 1997 t ha t ha d c l o s e d by J une 30 , 2003 ( A I B , 2004 ). A l l a u t o c l a im s s a r i s i ng f r om i n j u r y

    c o v e ra g e s : P e r s o n a l I n j u r y P r o t e c ti o n ( P I P ) / M e d i c a l p a y m e n t s e x c es s o f P I P 9, B o d i l y I n j u r y

    L i a b i li t y ( B IL ) , U n i n s u r e d a n d U n d e r i n s u r e d M o t o r i s t . W h i l e th e r e a r e m o r e t h a n 5 0 0 ,0 0 0

    c l a i m s i n t h i s s ubs e t o f D C D da t a , w e w i l l r e s t r i c t ou r a na ly s i s t o t he 162 ,761 t h i r d pa r t y B I L

    c ove r a ge c l a i m s . T h i s w i l l a l l ow us t o d i v i de t he s a m p l e i n t o t r a i n ing , te s t , a nd ho l do u t s ub

    s a m pl e s , e a c h c on t a i n i ng i n e xc e s s o f 50 , 000 c l a i m s

    M

    T he da t a s e t c on t a i n s f i f t y - f ou r

    va r i a b l e s r e l a t i ng t o t he i n s u r e d , da i m a n t , a c c i de n t , i n j u r y , m e d i c a l t r e a t m e n t , ou t pa t i e n t

    m e d i c a l p r o v i d e r s ( 2 m a x i m u m ) , a t t o rn e y p r e s e n c e , a n d t h r ee c l a im s h a n d l i n g t e c h n i q u e s f o r

    m i t i g a ti n g d a i m s c o s t f o r t h e i r p r e s e n ce , o u t c o m e , a n d f o r m u l a ic s a v in g s a m o u n t s .

    T h e c l ai m s h a n d li n g t ec h n i q u e s t r a ck e d a r e: I n d e p e n d e n t M e d i c a l E x a m i n a t i o n ( I M E ) ,

    M e d i c a l A u d i t ( M A ) a n d S p e c ia l I n v e s t i g a ti o n ( S IU ) . I M E s a r e p e r f o r m e d b y l ic e n s e d

    phys i c i a ns o f t he s a m e t ype a s t he t r e a t i ng phys i c i a n u . T he y c os t a pp r ox i m a t e l y $ 350 p e r

    e xa m w i t h a c ha r ge o f $ 75 f o r no s how s . T he y a r e de s i gne d t o ve r if y c l a i m e d i n ju r i e s a nd t o

    e va l ua t e t r e a t m e n t m oda l i t i e s . O n e s i gn o f a w e a k o r bogus c l a i m i s t he f a i l u re t o s u bm i t t o

    a n I M E a n d , t h u s , a n I M E c a n s e rv e a s a s c r e en i n g d e v i c e fo r d e t e c t in g f r a u d a n d b u i l d - u p

    c l a im s . M A s a r e pe e r r e v i e w s o f t he in j u r y , t r e a t m e n t a nd b i l li ng . T he y a r e typ i c a l ly do ne by

    phys i c i a ns w i t h ou t a c la i m a n t e xa m i na t i on , by nu r s e s o n i n s u r e r s ' s t a f f o r by t h i r d pa r t y

    o r ga n i z a t i ons , bu t a l so f r o m e xpe r t s y s t e m s t ha t r e v i e w t he b i l l ing a nd t r e a t m e n t pa t t e r n s 12.

    F a v o r a b l e o u t c o m e s a r e r e p o r t e d b y i n s u re r s w h e n t h e d a m a g e s a r e m i t ig a t e d , t h e b i l l in g a n d

    t r e a t m e n t a r e c u rt a il e d , a n d w h e n t h e c l a im a n t re f u se s t o u n d e r g o t h e I M E o r d o e s n o t

    s h o w . I n t h e l a tt e r t w o s i tu a t io n s t h e i n s u r e r i s o n s o l id g r o u n d t o r e d u c e o r d e n y p a y m e n t s

    und e r t he f a i l u r e - t o - c oope r a t e c l a use i n t he p o l i c y ) 3

    S p e c ia l I n v e s t i g a ti o n ( S IU ) is r e p o r t e d w h e n c l ai m s a re h a n d l e d t h r o u g h n o n - r o u t i n e

    i nve s t i ga t ive t e c hn i que s ( a c c i de n t r e c ons t r u c t i on , e xa m i na t i ons und e r oa t h a n d s u r ve i l l a nc e

    a r e ex a m p l e s ), p o s s ib l y i n c l u d in g a n I M E o r M e d i c a l A u d i t , o n s u s p i c io n o f f r au d . F o r t h e

    m os t pa r t , t he s e c l a i m s a r e ha nd l e d by S pe c i a l I nve s t i ga t i ve U n i t s ( S IU ) w i t h i n t he c l a i m

    de p a r t m e n t o r by s om e t h i r d pa r t y i nve s t i ga ti ve s e r v ic e . O c c a s i ona l l y , c om pa n i e s w i l l be

    o r ga n i z e d s o t ha t a d d i t i ona l a d j u s t e r s , no t s pe c i f ic a l ly a pa r t o f t he c om pa n y S I U , m a y a l s o

    c o n d u c t s p e c i a l i n v e s ti g a ti o n s o n s u s p i c io n o f f ra u d . B o t h t y p e s a re re p o r t e d t o D C D a n d

    w e r e f e r t o b o t h b y t h e s h o r t h a n d S I U i n s u b s e q u e n t t a b le s a n d f i gu r es . F a v o r a b l e o u t c o m e s

    a r e r e p o r t e d f o r S I U i f t h e c l ai m i s d e n i e d o r c o m p r o m i s e d b a s e d o n t h e S I U i n v e s t i g a ti o n .

    F o r p u r p o s e s o f t h is a n al y si s a n d d e m o n s t r a t i o n o f n o n - l i n e a r m o d e l s a n d s o f t w a r e , w e

    e m p l oy t w e n t y - on e po t e n t i a l l y p r e d i c t i ng va r i a b l e s a nd f ou r t a r ge t va r i a b l e s. T h i r t e e n

    p r e d i c t i n g va r i a b l e s a r e num e r i c , t w o f r o m D C D f i e ld s (F ) , e i gh t de r i ve d f r o m i n t e r na l

    d e m o g r a p h i c t y p e d a t a ( D V ) , a n d t h r e e v a r i a b l e s d e r i v e d f r o m e x t e r n a l d e m o g r a p h i c d a t a

    ( D M ) a s s how n i n T a b l e 2 - 1 .

    6 C a s u a l t y A c t u a r i a l S o c i e t y

    Forum,

    W i n t e r 2 0 0 6

  • 8/12/2019 Comparing Tree Based Methods

    7/49

    Distinguishing the Forest rom the T R E E S

    A u t o

    In j u ry L i ab i li t y C l a i m

    N u m e r i c V a r ia b le s

    V a r i a b le N T y p e

    Provider I_B ILL 162,761 F

    Provider 2_BILL 162,761 F

    ARe 155,438 D V

    Re port La~ 162,709 D V

    Treatla~ 147,296 D V

    HouseholdsPerZipcode 118,97 6 D M

    AveralgeHouseValue Per Zip 118 ,976 D M

    I n co m e P e rH o u s eh o ld P e r Z i p 1 1 8 , 9 7 6 D M

    Distance ~IP 1 Zip to CLT. Zip) 72 ,78 6 DV

    Rankattl (rank art/z ip/ 129,174 D V

    Rankdoc2 (rank pro v/z ip/ 109,387 D V

    Rankci~. (rank claimant city,) 118,976 D V

    Rnkpcity (rank pro vide r ci~') 162,761 D V

    Va lid N (lJstwise) 70,397

    M i n i m u m

    M~Lximum

    0 1,861,399

    0 360,000

    0 104

    0 2,793

    1 9

    0 69,449

    0 1,000,001

    0 185,466

    0 769

    1 3,314

    1 2,598

    1 1,874

    0 1,305

    Std .

    M e a n D e v i a t i o n

    2 , 6 7 1 . 9 2 6 , 6 4 0 . 9 8

    5 4 4 . 7 8 1 , 8 0 5 . 9 3

    34.15 15.55

    47.94 144.44

    3.29 1.89

    1 0 , 8 6 8 . 8 7 5 , 9 7 5 . 4 4

    166,816.75 77,314.11

    43,160.69 17,364.45

    38.85 76.44

    150.34 343.07

    110.85 253.58

    77.37 172.76

    30.84 91.65

    N = Nu mb er of no n missing records; F= D C D Field, D V = Internal derived variable, DM = External derived

    variable

    Source; Automobile Insurers Bureau ofMassachusetts, Detail Claim Database, A Y 1995-1997 aud Authors Cakulations.

    T a b l e 2-1

    E i g h t p r e d i c t i n g v a r ia b l e s, a n d f o u r t a r g e t v a r i a b le s ( I M E a n d S I U , D e c i s i o n a n d F a v o r a b l e

    O u t c o m e f o r e a ch ) , a r e c a t e g o r ic a l v a r ia b l e s, a ll t a k e n a s r e p o r t e d f r o m D C D a n d a s s h o w n

    i n T a b l e 2 - 2 .

    Casual ty Ac tuaria l Society Forum, W i n t e r 2 00 6 7

  • 8/12/2019 Comparing Tree Based Methods

    8/49

    Distinguishing the Forest rom the T R E E S

    V a r i a b l e

    Policy T ype

    Em ergent , Treatment 162,761

    He alth Insuran ce 162,756

    Prov ider I - Typ e 162,761

    Prov ider 2 - T}'pe 162,761

    2001 Territo ry 162,298

    Attorney 162,761

    Suspl (SIU Do ne 162,761

    Susp2 (IME Do ne 162,761

    Susp3 (SIU Fa vora ble) 162,761

    Susp4 (IME Favorable 162,761

    Injury Ty pe 162,298

    N = Nttmber of non missing records

    A u t o

    Injury Liability Claim CateBorical Variables

    N

    Type Type Descr ip t ion

    162,761 F Pe rso na l 2%, Com mercial 8%

    F No ne 9%, Onl,v22%, w Outpatient 68%

    F Yes, 15%, No 26%, Unknown 60%

    F C h ir o 1% , Physical Th. 19%, Medical 30%, None 10%

    F C h ir o %, Physical Th. 6%, Medical 36%, None 52%

    F R a tin g erritories 1 (2.2%) Throug h 26 (1.3%); Territory 1-

    16 by increasin~ risk, 17-26 is B oston

    F :kttorne~, resent (89%), no attorney (11%)

    F Sp ecial nvesfi~tion Done (70/0/, N o SIU (93%)

    Independent Medical Examination Done (8%), N o IME

    F (920/o

    Special Investagation Favorab le 0.4% ), N ot Favo rable/Not

    F Do ne (95.6%

    I nd ep en de nt M e d i c a l E x a m F a v o r a b l e ( 4 .4 % ) , N o t

    F Favorab le/Not Don e (96.6%

    Injury Ty pes (24) includin g man or visible (4O/o),strain or

    F sp ra in , ack an d/o r neck (81%), fatality (0.4%), disk

    herniation (1% ) and others

    F= DCD F ie ld

    Note: D escriptive percentages may not add to 100% due to rounding

    Source: A utomobile Insurers Bureau o fMassachusetts, De tail Claim Database, A Y 1995 -1997 a ndA uthors' Calculations.

    Table 2-2

    S i m i la r c la i m in v e s t i g a t io n v a r ia b l e s a r e n o w b e i n g c o l l e c te d b y t h e I n s u r a n c e R e s e a r c h

    C o u n c i l i n t h e i r

    periodic

    sam pl ing o f coun t r3av ide in ju ry c l a im s ( IR C, 2004a , pp 89-104) 14.

    N a t i o n a l ly , a b o u t 4 % a n d 2 % o f B I c l a im s i n v o l v e d I M E s a n d S I U r e s p e c ti v e ly , o n l y o n e -

    h a l f t o o n e - q u a r t e r o f t h e M a s s a c h u s e t t s r a t e . M o s t l i k e l y , t h i s i s b e c a u s e ( 1 ) a m a j o r i t y o f

    o t h e r s t a t e s h a v e a f u ll t o r t s y s t e m a n d s o B I L c o n t a i n s a l l i n j u ry c l a i m s a n d ( 2)

    M a s s a c h u s e t t s i s a f ai rl y u r b a n s t a t e w i t h h i g h c l a i m f r e q u e n c i e s a n d m o r e d u b i o u s c l a i m s l k

    I n f a c t , t h e m o s t r e c e n t I R C s t u d y s h o w s ( I R C , 2 0 0 4 b , p 2 5 ) M a s s a c h u s e t t s h a s t h e h i g h e s t

    p e r c e n t a g e o f B I c l ai m s in n o - f a u l t s ta te s t h a t a r e s u s p e c t e d o f f ra u d ( 2 3 % ) a n d / o r b u i l d u p

    ( 4 1 % ) . I t i s t h e r e f o r e , e n ti r e ly c o n s i s t e n t f o r th e M a s s a c h u s e t t s c l a i m s t o e x h i b i t m o r e n o n -

    r o u t i n e c l a im h a n d l i n g t ec h n i q u e s . F a v o r a b l e o u t c o m e s a v e r a g e a b o u t 6 7 % w h e n a n I M E i s

    d o n e o r a c l a im is r e f e r re d t o S I U . W e n o w t u r n t o d e s c r ip t i o n s o f t h e t y p es o f m o d e l s , a n d

    t h e s o f t w a r e t h a t i m p l e m e n t s t h e m , in t h e n e x t t w o s e c t i o n s b e f o r e w e d e s c r i b e h o w t h e y a r e

    a p p l i e d t o m o d e l t h e I M E a n d S I U t a r g e t v a r ia b l es .

    S E C T I O N 3 . M O D E L S F O R N O N - L I N E A R D E P E N D E N C I E S

    H o w m o d e l s h a n d l e n o n l i n ea r it y

    T r a d i t i o n a l a c t u a r i a l a n d s t a t i s t i c a l t e c h n i q u e s o f t e n a s s u m e t h a t t h e f u n c t i o n a l r d a t i o n s h i p

    b e t w e e n t h e i n d e p e n d e n t v a r i a b l e s a n d t h e d e p e n d e n t v a r i a b l e i s l i n e a r o r t h a t s o m e

    t r a n s f o r m a t i o n o f t h e d a t a e x is t s t h a t c a n b e t r e a t e d a s l in e a r . I n s u r a n c e d a t a o f t e n c o n t a i n

    8 Casua lty A ctuar ia l Soc ie ty Forum, W i n t e r 2 0 06

  • 8/12/2019 Comparing Tree Based Methods

    9/49

    Distinguishing the Forest rom the T R E E S

    v a r i a b le s w h e r e t h e r e l a t i o n s h i p a m o n g v a r i a b le s is n o n l in e a r . T y p i c a l l y w h e n n o n l i n e a r

    r e l a t io n s h i p s e x i st , t h e e x a c t n a t u r e o f t h e n o n l i n e a r i ty ( i.e ., w h e r e s o m e t r a n s f o r m a t i o n c a n

    b e u s e d t o e s t a b l is h li n e ar i ty ) i s n o t k n o w n . I n t h e f i e l d o f d a ta m i n i n g , a n u m b e r o f

    n o n p a r a m e t r i c t e c h n i q u e s h a v e b e e n d e v e l o p e d w h i c h c a n m o d e l n o n l i n e a r r e la t io n s w i t h o u t

    a n y a s s u m p t i o n b e i n g m a d e a b o u t t h e n a t u r e o f t h e no n l in e a r it y . W e c o v e r h o w e a c h o f o u r

    m e t h o d s r e v i e w e d i n th i s p a p e r m o d e l s n o n l in e a r it ie s in t h e f o l l o w i n g t w o e x a m p l e s. T h e

    v a r ia b le s i n t h is e x a m p l e w e r e s e l e ct e d b e c a u s e o f a k n o w n n o n l i n e a r r e l a ti o n s h ip b e t w e e n

    i n d e p e n d e n t a n d d e p e n d e n t v ar i ab l e s.

    E x . 1 T h e d e p e n d e n t v a r i a b l e , a n u m e r i c v a r i a b l e , i s t o t a l p a i d l o s s e s a n d t h e

    i n d e p e n d e n t v a r i a b l e i s p r o v i d e r 2 b ill . T a b l e 3 -1 d i s p l a y s a v e r a g e p a i d lo s s e s a t v a r i o u s

    b an d s o f p ro v id e r 2 b i lP ~.

    E x . 2 T h e d e p e n d e n t v a r i a b l e , a b i n a r y c a t e g o r i c a l v a r i a b l e , i s w h e t h e r o r n o t a n

    i n d e p e n d e n t m e d i c a l e x a m i s r e q u e s t e d a n d t h e i n d e p e n d e n t v a r ia b l e a g ai n is p r o v i d e r 2

    bill.

    Nonlinear Example Data

    Provider 2 B ill (Banded)

    Zero

    1 - 250

    251 - 500

    501 - 1,000

    1,001 - 1,500

    1,501 - 2,500

    2,501 - 5,000

    5,001 - 10,000

    10,001+

    All Claims

    Av g Provider 2 Bill

    Avg Total Paid

    9,063

    Percent IME

    6%

    154 8,761 8%

    375 9,726 9%

    731 11,469 10%

    1,243 14,998 13%

    1,915 17,289 14%

    3,300 23,994 15%

    6,720 47,728 15%

    21,350 83261 15%

    545 11,224 8%

    Table 3-1

    T r e e s

    T r e e s , a l s o k n o w n a s c l a s s i f i c a t i o n a n d r e g r e s s i o n t r e e s ( C A R T ) f i t a m o d e l b y r e c u r s i v e l y

    p a r t i t i o n i n g t h e d a t a i n t o t w o g r o u p s , o n e g r o u p w i t h a h i g h e r v a l u e o n t h e d e p e n d e n t

    v a r ia b l e a n d t h e o t h e r g r o u p w i t h a l o w e r v a lu e o n t h e d e p e n d e n t v a r ia b le . E a c h p a r t it i o n

    o f th e t r e e i s r e f e r r e d t o a s a n o d e . W h e n a p a r e n t n o d e i s s p l it , t h e t w o c h i l d r e n n o d e s , o r

    l e a v e s o f t h e tr e e , a r e e a c h m o r e h o m o g e n o u s ( i.e ., l e s s v a r i a b le ) w i t h r e s p e c t t h e

    d e p e n d e n t v a r i a b l e 17. A g o o d n e s s o f f i t st a ti s ti c is u s e d t o s e l e c t th e s p l it w h i c h m a x i m i z e s

    t h e d i f f er e n c e b e t w e e n t h e t w o n o d e s . W h e n t h e i n d e p e n d e n t v a r i a b le is n u m e r i c , s u c h a s

    p r o v i d e r 2 bill , t h e s p l i t t a k e s t h e f o r m o f a c u t p o i n t , o r t h r e s h o l d : x > c a n d x < c as i n

    F i g u r e 3 - 1 .

    Casualty Actuarial So ciety Forum W inter 2006 9

  • 8/12/2019 Comparing Tree Based Methods

    10/49

  • 8/12/2019 Comparing Tree Based Methods

    11/49

    Distinguishing the Forest rom the T R E E S

    v a r i ab l e i s n u m e r i c , t h e m e a n o f t h e d e p e n d e n t v a ri a b le a t th e t e r m i n a l n o d e s i s t h e

    p r e d i c t i on .

    T he c u r ve o f t he p r e d i c t e d va l ue r e s u l t i ng f r om a t r e e f i t t o t o t a l pa i d l o s s e s i s a s t e p

    f u n c t i o n . A s s h o w n i n F i g u r e 3 - 2 A , w i t h o n l y tw o t e r m i n a l n o d e s , t h e f it te d f u n c t i o n is f la t

    un t i l $ 5 , 021 , s t e ps up t o a h i ghe r va l ue a nd t h e n r e m a i ns f la t. F i gu r e 3 - 2B d i sp l a ys t he

    p r e d i c t e d v al u e s o f a t re e w i t h 7 t e r m i n a l n o d e s . T h e s t e p s o r i n c r e a s e s ar e m o r e g r a d u a l f o r

    t h i s f unc t i on .

    C A R T E x a m p l e w / t h T w o a n d S e v en N o d e s

    T o t a l P a i d a s a F u n c t i o n o f P r o v i d e r 2 B i l l

    | t

    ' 1 4 -

    o

    o

    F i g u r e 3 - 2 A F i g u r e 3 - 2 B

    T h e p r o c e d u r e f o r m o d e l i n g d a t a w h e r e t h e d e p e n d e n t v a r ia b l e i s c a te g o r ic a l ( b in a r y i n o u r

    e xa m pl e ) i s s i m i l a r t o t ha t o f a nu m e r i c va r i a b l e. F o r i n s t a n c e , on e o f t he f r a ud s u r r oga t e s is

    i n d e p e n d e n t m e d i c a l e x a m ( I M E ) r e q u e s t e d . T h e t a r g e t c la ss i s c l a im a n t s f o r w h o m a n I M E

    w a s r e q u e s t e d a n d t h e n o n - t a r g e t g r o u p o f ( p r es u m a b l y ) l e g it im a t e cl a im s is t h a t w h e r e a n

    I M E w a s n o t r e q u e s te d . A t e a c h s te p , th e t r e e p r o c e d u r e s e le c ts t h e s p l it t h a t b e s t i m p r o v e s

    o r l o w e r s n o d e i m p u r i t y . T h a t is , i t a t t e m p t s t o p a r t i t i o n th e d a t a i n t o t w o g r o u p s s o t h a t

    o n e p a r t i t i o n h a s a s i g n i f ic a n t ly h i g h e r p r o p o r t i o n o f t h e t a r g e t c a te g o r y , I M E r e q u e s t e d ,

    t h a n t h e o t h e r n o d e . A n u m b e r o f s t a ti st ic a l g o o d n e s s o f f it s ta t is ti c s m e a s u r e s i s u s e d i n

    d i f f e r e n t p r o d u c t s t o s e le c t t h e o p t i m a l sp lit. T h e s e i n c l u d e e n t r o p y / d e v i a n c e a n d G i n i

    i nde x ( w h i c h i s de s c r i be d l a t e r i n t h i s pa pe r ) . K a n t a r dz i c ( 2003 ) , B r e i m a n e t a l ( 1993 ) a nd

    V e n i b l e s a n d R i p le y (1 9 99 ) d e s c r i b e t h e c o m p u t a t i o n a n d a p p l i c a t io n o f t h e G i n i i n d e x a n d

    e n t r o p y / d e v i a n c e m e a s u r e s is. A s c o r e o r p r o b a b i l i ty c a n b e c o m p u t e d f o r e a c h n o d e a f t er a

    s p l it i s p e r f o r m e d . T h i s i s g e n e r a ll y e s t im a t e d b a s e d o n t h e n u m b e r o f o b s e r v a t i o n s i n t h e

    t a rg e t g r o u p s v e r s u s t h e t o t al n u m b e r o f o b s e r v a t i o n s a t t h e n o d e . T h e s c o r e o r p r o b a b i l i ty

    Casual ty Actuar ia l Socie ty Forum, W inter 2006 11

  • 8/12/2019 Comparing Tree Based Methods

    12/49

    Distinguishing the Forest rom the T R E E S

    i s f r e q u e n t l y u s e d t o a s s i g n r e c o r d s t o o n e o f t h e t w o c l a s se s . T y p i c a l ly , i f t h e m o d e l s c o r e

    e x c e e d s a t h r e s h o l d s u c h a s 0 . 5 , t h e r e c o r d i s a s s i g n e d t o t h e t a r g e t c l a s s ; o t h e r w i s e i t i s

    a s s i g n e d t o t h e n o n - t a r g e t c la ss .

    F i g u r e 3 - 3 A d i s p l a y s th e r e s u l t o f u s i n g a t r e e p r o c e d u r e t o p r e d i c t a c a t e g o r i c a l v a r i a b l e

    f r o m t h e A I B d ata . T h e g r a p h s h o w s t h a t e a c h t im e t h e d a t a is s p li t o n p r o v i d e r 2 b il l; o n e

    c h i ld n o d e h a s a l o w e r p r o p o r t i o n a n d t h e o t h e r a h ig h e r p r o p o r t i o n o f c l ai m a n t s r e c e i v i n g

    I M E s . T h e f i tt e d t r e e f u n c t i o n is u s e d t o m o d e l a n o n l i n e a r r e la t io n s h i p b e t w e e n p r m f i d e r

    b i l l a n d t h e p r o b a b i l i t y t h a t a c l a i m r e c e i v e s a n I M E a s s h o w n i n F i g u r e 3 - 3 B .

    C A R T E x a m p l e w i th S e v e n N o d e s

    I M E P r o p o r t i o n a s a F u n c t i o n o f P r o v i d e r 2 B i l l

    I .

    t

    e

    F i g u r e 3-3A

    C A R T E x a m p l e w i t h S e v e n S te p F u n c t i o n s

    I M E P r o p o r t i o n a s a F u n c t i o n o f P r o v i d e r 2 Bil l

    F i g u r e 3 - 3 B

    T r e e m o d e l s u s e c a t e g o r i c a l a s w e l l a s n u m e r i c i n d e p e n d e n t v a r i a b l e s i n m o d e l i n g c o m p l e x

    d a ta . H o w e v e r , b e c a u s e t h e le v e ls o n c a t e g o r ic a l d a t a m a y n o t b e o r d e r e d , a l l p o s s i b l e t w o -

    w a y s p l i ts o f c a t e g o r i c a l v a r i a b l e s m u s t b e c o n s i d e r e d b e f o r e t h e d a t a a r e p a r t i t i o n e d .

    E n s e m b l e M o d e l s - B o o s t i n g

    E n s e m b l e m o d e l s a r e c o m p o s i t e t r e e m o d e l s . A s e r ie s o f tr e e s i s fi t a n d e a c h t r e e i m p r o v e s

    t h e o v e r a l l f it o f t h e m o d e l . I n t h e d a t a m i n i n g l i te r a t u r e t h e t e c h n i q u e i s o f t e n r e f e r r e d t o a s

    12 Cas ua l t y Ac t ua r i a l Soc i e t y Forum, W i n t e r 2 00 6

  • 8/12/2019 Comparing Tree Based Methods

    13/49

    Dist inguishing the Fores t rom the T R E E S

    bo os t i n g ( H as t i e e t a l 2001 , F r e i d m an , 2001). T h e m e t h od i n i t i a l ly f it s a sm a l l t r e e o f s ay 5

    t o 1 0 te r m i n a l n o d e s o n a t r a i n i n g d a ta s e t. T y p i c al ly , t h e u s e r s p e c if ie s t h e n u m b e r o f

    t e r m i n a l n o d e s , a n d e v e r y t re e f it h a s t h e s a m e n u m b e r o f t e r m i n a l n o d e s . T h e e r r o r , o r

    d i f f e r e n c e b e t w e e n t h e a c t u a l a n d f i t t e d v a l u e s , i s c o m p u t e d a n d u s e d i n a n o t h e r r o u n d o f

    f it ti n g a s a d e p e n d e n t v a ri a b le . T h e e r r o r is a l so u s e d i n t h e c o m p u t a t i o n o f t h e w e i g h t i n

    s u b s e q u e n t r o u n d s o f f it ti n g , w i t h r e c o r d s c o n t a i n i n g l a rg e r e r ro r s r e c e i v i n g h i g h e r w e i g h t i n g

    i n th e n e x t r o u n d o f e s t i m a t io n .

    O n e a l g o r i th m f o r c o m p u t i n g t h e w e i g h t is d e s c r i b e d b y H a s t ie e t a119. C o n s i d e r a n e n s e m b l e

    o f t r ee s 1 , 2 , . . . ,M . T h e e r r o r f o r t he m 'h t r ee m easu r e s t he dep a r t u r e o f the ac t ua l f r om t he

    f it te d v a l u e o n t h e t e s t d a t a a f t e r t h e m 'h m o d e l h a s b e e n fit. W h e n t h e d e p e n d e n t v a r ia b l e i s

    c a te g o ri ca l, a s it is i n t h e f r a u d a p p l i c a ti o n i n t h i s p a p e r , a c o m m o n e r r o r m e a s u r e u s e d i n

    bo os t i n g i s:

    N

    ~ w I ( y , * F ( x ) )

    e r r = ' =' N (2)

    ~ w

    I=1

    w h er e N i s the t o t a l n u m be r o f r eco r ds , w , i s a w e i gh t ( w h i ch i s i n it i a li z ed t o 1 / N i n t he f ir s t

    r ou nd o f f it ti ng ) , I i s an i nd i ca t o r f un c t i on equ a l to z e r o i f t he ca t ego r y i s co r r ec tl y p r ed i c t ed

    an d o ne i f the c la ss a s s i gned i s i nco r r ec t , y , i s t he d ep en de n t va r iab l e , x i s a m a t r i x o f

    p r ed i c t o r s and Fm ( x i s the p r ed i c t i on f o r t he i h r eco r d o f t he m 'h t ree .

    T h en , t he coe f f i c i en t a l pha is a f unc t i on o f t he w e i gh t:

    log(1 -

    e r r m

    ~m = )

    e r r ,

    a n d t h e n e w w e i g h t is :

    w,.m+1 = w m e x p ( a m l ( y , # F m ( x ) ))

    (3)

    T h e p r o c e s s i s p e r f o r m e d m a n y t i m e s u n t i l n o f u r th e r s t a ti st ic a l i m p r o v e m e n t i n t h e f it i s

    o b t a i n e d .

    T h e s p e c i f i c b o o s t i n g p r o c e d u r e s i m p l e m e n t e d d i f f e r a m o n g d i f f e r e n t s o f t w a r e p r o d u c t s .

    F o r i n s t a n c e , T R E E N E T ( F r e i d m a n , 2 00 1) u s e s st o c h a s ti c g r a d i e n t b o o s t i n g . S t o c h a s ti c

    g r a d ie n t b o o s t i n g in c o r p o r a t e s a n u m b e r o f p r o c ed u r e s w h i c h a t t e m p t t o b u i ld a m o r e

    r o b u s t m o d e l b y c o n t r o l l i n g t h e t e n d e n c y o f la r ge c o m p l e x m o d e l s t o o v e r f it th e d a ta . A k e y

    t e c h n i q u e u s e d i s r e s a m p l i n g . A n e w s a m p l e is ra n d o m l y d r a w n f r o m t h e t r a i n i n g d a t a e ac h

    t im e a n e w t re e is f it t o t h e r e s i d u al s f ro m t h e p r i o r r o u n d o f m o d e l e s t i m a t io n . T h e

    g o o d n e s s o f f i t o f t h e m o d e l is a s s e ss e d o n d a t a n o t in c l u d e d i n t h e s a m p l e , th e t e s t d a ta .

    A n o t h e r p r o c e d u r e u s e d b y T R E E N E T t o c o n t r o l o v e r fi tf in g is shr inkage o r regulaf f zat ion. A

    s i m p l e w a y to i m p l e m e n t s h r i n k a g e is t o a p p l y a w e i g h t w h i c h i s g r e a te r t h a n z e r o a n d l es s

    t h a n o n e t o t h e c o n t r i b u t i o n o f e a c h t r e e a s it is a d d e d t o t h e w e i g h t e d a v e r a ge e s t im a t e .

    C a s u a l t y A c t u a r i a l S o c i e t y Forum, W i n t e r 2 0 0 6 1 3

  • 8/12/2019 Comparing Tree Based Methods

    14/49

    Distinguishing the Forest rom the T R E E S

    A l te r n at iv e l y , t h e I n s i g h t f u l M i n e r E n s e m b l e m o d e l e m p l o y s a s i m p l er im p l e m e n t a t i o n o f

    b o o s t i n g w h i c h a p p l ie s n o n - s t o c h a s t i c b o o s t i n g a n d u s e s a ll t h e t r a i n i n g d a t a i n e a c h r o u n d

    o f f i t t ing .

    T h e f i n a l e s t im a t e r e s u l t in g f r o m a n e n s e m b l e a p p r o a c h w i l l b e a w e i g h t e d a v e r ag e o f a l l t h e

    t r ees f it . U sin g a l a rge co l l ec t ion of tr ees a l lows:

    M a n y d if f e re n t v a r ia b l e s t o b e u s ed . S o m e o f t h e s e w o u l d n o t b e u s e d i n s m a l l e r

    m od e l s a '.

    M any d i f f e r en t m ode l s a r e u sed . T he p r ed i c t i ve m od e l i ng l i te r a t u r e ( H as f ie e t a l.,

    2 0 0 1 , F r a n c i s , 2 0 0 3 a , 20 03 c) i n d ic a t e s th a t c o m p o s i t e s o f m u l t i p le m o d e l s p e r f o r m

    be t t e r t h an t he p r ed i c t i on o f a s i ng l e m od e l ~1.

    D i f f e r e n t t r a in i n g a n d t e s t r e c o r d s a r e u s e d ( w i t h s t o c h a s ti c g r a d i e n t b o o s t i n g ) . T h i s

    m a k e s t h e p r o c e d u r e m o r e r o b u s t to t h e i n f l u e n c e o f a f e w e x t r e m e o b s e r v a t i o n s .

    T h e m e t h o d o f f it ti n g m a n y ( o f te n 1 0 0 o r m o r e ) s m a l l t re e s r e s u lt s in f i t te d c u r v e s w h i c h a r e

    a l m o s t s m o o t h . F i g u r e s 3 -4 A a n d 3 - 4 B d i s p la y t w o n o n l i n e a r f u n c t i o n s f it t o t o t a l p a i d a n d

    I M E v a ri ab le s b y th e T R E E N E T e n s e m b l e m o d e l.

    14 Casu alty A ctuaria l Society Forum, Winte r 2006

  • 8/12/2019 Comparing Tree Based Methods

    15/49

    Distinguishing the Forest rom the T R E E S

    Ensem ble Predict ion o f Tota l Pa id

    ~ 4 0 0 0 0 0 0 -

    ~ 3 0 0 0 0 0 -

    _ ~ 2 0 0 0 0 0 -

    f

    i i i i l ~ l l l l l l l l l l l l l l 1 1 1 1 1 1 1

    P r o v i d e r 2 B i l l

    Figuee 3 -4A

    0 9 O -

    0 S O -

    o

    7 o -

    ~ o e o -

    |

    o ..,o-

    o 4 o .

    o 3 o -

    V -

    i i I I I I I I I I I t l l l l l l l l l l l l l l l ' l

    P r o v i d e r 2 B i l l

    Figure 3 -4B

    E n s e m b l e M o d e l s - B a g g i n ~

    B a g g i n g i s a n e n s e m b l e a p p r o a c h b a s e d o n r e s a m p l i n g o r b o o t s t r a p p i n g . B a g g i n g i s a n

    a c r on ym f o r bo o t s t r a p a gg r e ga t i on ( H a s t ie et a l. , 2000 ). B a gg i ng doe s no t u s e the e r r o r

    f r o m t h e p r i o r r o u n d o f f i t ti n g a s a d e p e n d e n t v a r ia b l e o r w e i g h t i n s u b s e q u e n t r o u n d s o f

    f it ti ng . B a gg i ng u s e s r e c u r si ve s a m p l i ng o f re c o r ds i n t he da t a t o f it m a ny t re e s . F o r

    i n s t a nc e a n a na l y s t m a y de c i de t o t a ke a 50% o f t he da t a a s a t r a i n i ng s e t ea c h t i m e a m o de l

    Casualty A ctuar ia l Soc ie ty Forum, W inte r 2006 15

  • 8/12/2019 Comparing Tree Based Methods

    16/49

    Distinguishing the Forest rom the T R E E S

    i s fit. U n d e r b a g g i n g , 10 0 o r m o r e m o d e l s m a y b e f it , e a c h o n e t o a d i f f e re n t s am p l e . T h e

    t r e e s f i t a r e no t n e c e s s a ri l y s m a l l t r e es w i t h 5 t o 10 t e r m i na l node s a s w i t h b oo s t i ng a nd e a c h

    t r ee m a y h a v e a d i f f e r e n t n u m b e r o f t e r m i n a l n o d e s . B y a v e ra g i n g t h e p r e d i c ti o n s o f a

    n u m b e r o f b o o t s t r a p s a m p l e s , b a g g i n g r e d u c e s th e p r e d i c t io n v ar ia n c e . T h e im p l e m e n t a t i o n

    o f b a g g in g u s e d i n th i s p a p e r is k n o w n a s R a n d o m F o r e s t . I n a d d i t i o n t o u s i n g o n l y a

    s a m p l e o f t h e d a t a e a ch t i m e a t re e m o d e l i s fi t, R a n d o m F o r e s t a ls o s a m p l e s f r o m t h e

    va r i a b le s . F o r t h e analy si s i n t h is pa pe r , on e t h i r d o f t he va r i a b l e s w e r e s a m p l e d f o r e a c h

    tree fit .

    F i g u r e s 3 - 5 A d i sp l ay s a n e n s e m b l e R a n d o m F o r e s t t r e e f it t o t o t a l p a id l o s s e s a n d F i g u r e 3 -

    5B d i s p l ays a t r e e f i t t o I M E .

    Ran d o m F o rest P red i c ti o n o f T o t a l P a i d

    I I I I I I I

    0 50000 150000 250000 350000

    Provider 2 B i l l

    Figure 3 5 A

    16 Casua lty A ctuaria l Society Forum, Winte r 2006

  • 8/12/2019 Comparing Tree Based Methods

    17/49

    Distinguishing the Forest rom the T R E E S

    Random Forest Predic tion of IME

    c ;

    o

    o

    c ;

    g

    c~

    I i I I i I i

    5 0 0 0 0 1 5 0 0 0 0 2 5 0 0 0 0 3 5 0 0 0 0

    Pr0v~der 2

    B i l l

    Figure 3-5 B

    N a i v e B a v e s

    T h e N a i v e B a ye s m e t h o d i s a r e la t iv e ly s i m p l e a n d e a s y t o i m p l e m e n t m e t h o d . I n o u r

    c o m p a r i s o n , w e x de w i t a s a b e n c h m a r k d a t a m i n i n g m e t h o d . T h a t i s , w e a r e i n t e r e s te d i n

    h o w m o r e c o m p l e x m e t h o d s i m p r o v e p e r f o r m a n c e ( o r n o t ) a g a in s t a n a p p r o a c h w h e r e

    s i m p l i fy i n g a s s u m p t i o n s a re m a d e i n o r d e r t o m a k e t h e c o m p u t a t i o n s m o r e t r a c ta b l e. W e

    a l s o u s e l o g i st i c r e g r e s s io n m o d e l s a s a s e c o n d b e n c h m a r k .

    T h e Na iv e B a y e s m e th o d wa s d e v e lo p e d f o r c a te g o r i c a l d a t a . S p ec if ic al ly , b o th d e p e n d e n t

    a n d i n d e p e n d e n t v a r i a b l e s a r e ca t e go r i ca l . T h e r e f o r e , it s a p p l i c a t i o n t o f i t ti n g n o n l in e a r

    f u n c t i o n s w i l l b e i l l u s t r a te d o n ly f o r t h e c a t e g o r i ca l ta r g e t v a r i a b l e I M E . I n o r d e r t o u t i l i z e

    n u m e r i c p r e d i c to r v a r i a b l e s i t wa s n e c e s s a r y t o d e r iv e n e w c a t e g o r i c a l v a r i a b l e s b a s e d o n

    d i s cr e ti z in g , o r b i n n i n g , t h e d i s t r i b u t i o n o f d a t a f o r t h e n u m e r i c v a r i ab l e s= .

    T h e k e y si m p l i f y in g a s s u m p t i o n o f t h e N a i v e B a y e s m e t h o d i s t h e a s s u m p t i o n o f

    i n d e p e n d e n c e . A l l p r e d i c t o r v a r ia b l es a re a s s u m e d t o a c t i n d e p e n d e n d y i n i n f l u e n c i n g t h e

    t a r g e t v a r i a b le . I n t e r a c t i o n s a n d c o r r e l a t i o n s a m o n g th e p r e d i c to r v a r i a b le s a r e n o t

    c o n s id e r e d :

    B a y es r u l e is u s e d t o e s t i m a t e t h e p r o b a b i l i ty th a t a r e c o r d w i t h g i v e n i n d e p e n d e n t v a ri a b le

    v e c to r X = { x} i s i n c a t eg o r y C = { c,} o f t h e d e p e n d e n t v a r i a b l e .

    P(cj Ix,)=P (x, Icl)P (cl)/P (x,)

    (4a)

    Casua l ty A ctuarial Society Forum,W inter 2006 17

  • 8/12/2019 Comparing Tree Based Methods

    18/49

    Distinguishing the Forest rom the T R E E S

    B e c a u s e o f t h e N a i v e B a y es a s s u m p t i o n o f c o n d i t i o n a l i n d e p e n d e n c e , t h e p r o b a b i li t y t h a t a n

    o b s e r v a t i o n ~ 1 1 h a v e a s p e ci fi c s e t o f v a l u es f o r t h e i n d e p e n d e n t v a ri a b le s is t h e p r o d u c t o f

    t h e c o n d i t i o n a l p r o b a b il i ti e s o f o b s e r v i n g e a c h o f t h e v a l u e s g i v e n c a t eg o r y c ,

    P ( X I c s ) = I - I P ( x , I c , ) (4b)

    J

    T h e m e t h o d i s d e s c r ib e d i n m o r e d e t ai l i n K a n t a r d z i c (2 00 3). T o i ll u s tr a te t h e u s e o f N a i v e

    B a y e s in p r e d i c t i n g d i sc r e te v a r i ab l e s, t h e p r o v i d e r 2 b i l l d a t a w a s b i n n e d i n t o g r o u p s b a s e d

    o n t h e q u i n t il e s o f t h e d i s t ri b u t io n . B e c a u s e a b o u t 5 0 p e r c e n t o f t h e d a i m s h a v e a v a l u e o f

    z e r o f o r p r o v i d e r 2 b il l, o n l y f o u r c at e g or ie s a r e c r e at e d b y t h e b i n n i n g p r o c e d u r e . T h e n e w

    v a r i a b l e wa s u s e d t o e s t im a te t h e I M E t a r g et s . F ig u r e 3 - 6 d is p l a y s a b a r p lo t o f t h e p r e d i c t e d

    p r o b a b i l i ty o f a n I M E f o r e a c h o f t h e g r o u p s . F i g u r e 3- 7 d is p la y s t h e f i tt e d f u n c t i o n . T h i s

    f u n c t i o n is a s t e p f u n c t i o n w h i c h c h a n g e s v a l u e a t e a ch b o u n d a r y o f a p r o v i d e r 2 b i l l b i n .

    B a y e s P r e d i c t e d P r o b a b il it y IM E R e q u e s t e d v s . Q u i n t il e o f P r o v i de r 2 B i l l

    ~. tac~x -

    .1c~x -

    : , x c c ~ x -

    Provider 2 Bill Ouintile

    Figure 3-6

    18 Casu al ty A ctuarial Society Forum, W inte r 2006

  • 8/12/2019 Comparing Tree Based Methods

    19/49

    Distinguishing the Forest rom the T R E E S

    OA20000-

    |

    5

    ~ 0 0000o0.

    N a i v e B a y e s P r e d i c t e d I M E v s . P r o v i de r 2 B i l l

    i l l l l l l l l l l l l l l l l l l l l l l l l l l l l l l l l l l l l l l l l l l l

    Provider

    2 B i l l

    Figure 3 -7

    S E C T I O N 4. S O F T W A R E F O R M O D E L I N G N O N - L I N E A R D E P E N D E N C I E S

    N o n a d d i t i v i t v : i n t e r a c t i o n s

    C o n v e n t i o n a l st a ti s ti c a l m o d e l s s u c h a s r e g r e s s io n a n d l o g i st i c r e g r e s s i o n a s s u m e n o t o n l y

    l i n e a ri t y , b u t a l s o a d d i t i v i t y o f t h e p r e d i c t o r v a r i a b le s . U n d e r a d d i t iv i t y , t h e e f f e c t o f e a c h

    v a r ia b l e c a n b e c a n b e a d d e d t o t h e m o d e l o n e a t a t im e . W h e n t h e e x a c t fo r m o f t h e

    r e la t io n s h i p b e t w e e n a d e p e n d e n t a n d i n d e p e n d e n t v ar ia b l e d e p e n d s o n t h e v a lu e o f o n e o r

    m o r e o t h e r v a ri a b l es , t h e e f f e ct s ar e n o t a d d i ti v e a n d o n e o r m o r e i n t e r a c t i o n s e xi st . F o r

    i n s t a n c e , th e r e l a t i o n s h i p b e t w e e n p r o v i d e r 2 b i l l a n d I M E m a y v a r y b y t y p e o f i n ju r y ( i.e .

    t r a u m a t i c i n j u r i e s v e r s u s s p r a i n s a n d s t r a i n s ) . I n t e r a c t i o n s a r e c o m m o n i n i n s u r a n c e d a t a

    ( W e i s b e r g a n d D e r r i g , 1 9 9 8 , F r a n c i s , 2 0 0 3 c ) .

    W i t h c o n v e n t i o n a l l i n e a r s t a ti s ti c a l m o d e l s , i n t e r a c t i o n s a r e i n c o r p o r a t e d w i t h m u l t i p l ic a t i v e

    t e r m s :

    Y = a + b l X 1 + b 2 X 2 + b 3 * X I * X 2

    (s)

    I n t h e c a s e o f a t w o - w a y i n t e r a c t i o n , t h e i n t e r a c t i o n t e r m s a p p e a r a s p r o d u c t s o f t w o

    v a r ia b l es . I f o n e o f t h e t w o v a r i a b l e s i s c a t eg o r ic a l, t h e i n t e r a c t i o n t e r m s a l lo w t h e s l o p e o f

    t h e f i t t e d l i n e t o v a r y w i t h t h e l e v e l s o f t h e c a t e g o r i c a l v a r i a b l e . I f b o t h v a r i a b l e s a r e

    c o n t i n u o u s t h e i n t e r a c t i o n i s a b i l i n e a r i n t e r a c t i o n ( J ic a rd a n d T u r r i s i, 2 0 0 3 ) a n d t h e s l o p e o f

    o n e v a r i a b l e c h a n g e s a s a l i n e a r f u n c t i o n o f t h e o t h e r v a r ia b l e . I f b o t h v a r i a b l e s a r e

    c a t e g o ri c a l t h e m o d e l is e q u i v a l e n t t o a t w o f a c t o r A N O V A w i t h i n t e r a c t io n s .

    Casual ty Actuar ia l Soc ie ty Forum, W inter 2006 19

  • 8/12/2019 Comparing Tree Based Methods

    20/49

    Distinguishing the Forest rom the T R E E S

    T h e c o n v e n t i o n a l a p p r o a c h t o h a n d l i n g i n t e r a c t io n s h a s s o m e l i m i t a ti o n s .

    O n l y a l i m i t e d n u m b e r o f t yp e s o f i n t e r a c t i o n s c a n b e m o d e l e d e as ily .

    I f m a n y p r e d i c to r v a r ia b l e s a r e i n c l u d e d in t h e m o d e l , as i s o f t e n t h e c a s e i n m a n y

    p r e d i ct i v e m o d e l i n g a p p l ic a t io n s , i t c a n b e t e d i o u s, i f n o t i m p o s s i b l e , to f i n d a l l t h e

    s i g n i fi c a n t i n t e ra c t io n s . I n c l u d i n g a ll p o s s i b l e in t e r a c t i o n s i n t h e m o d e l w i t h o u t

    r e g a r d t o t h e i r s i g n i f i c a n c e l i k ely r e s u l ts i n a m o d e l w h ic h i s o v e r - p a r a m e te r i ze d .

    T h e t r e e -b a s e d d a t a m i n i n g t e c h n i q u e s u s e d i n t hi s p a p e r e a c h h a v e e f f ic i e n t m e t h o d s f o r

    h a n d l i n g i n t e ra c t i o n s.

    I n t e r a c t i o n s a r e i n h e r e n t i n t h e m e t h o d u s e d b y t re e s t o p a r t i t i o n d a ta . O n c e d a ta

    h a v e b e e n p a r t i t i o n e d , d i f fe r e n t p a r t i t i o n s c a n a n d t y p i ca l ly d o s p l i t o n d i f f e r e n t

    v a r i ab l e s a n d c a p t u r e d i f f e r e n t in t e r a c t i o n s a m o n g t h e p r e d i c t o r v a r i a b le s . W h e n t h e

    d e c i s i o n r u le s u s e d b y a t r ee t o r e a c h a t e r m i n a l n o d e i n v o l v e m o r e t h a n o n e v a r i a b l e ,

    i n g e n e r al , a n i n t e r a c t i o n is b e i n g m o d e l e d .

    E n s e m b l e m e t h o d s i n c o r p o r a t e i n t e r a c t io n s b e c a u s e t h e y a r e b a s e d o n t h e tr e e

    a p p r o a c h .

    N a i v e Ba ye s, b e c a u s e i t a s s u m e s c o n d i t i o n a l i n d e p e n d e n c e o f t h e p r e d i c t o rs , i g n o r e s

    in t e r a c t i o n s .

    L o g i s t i c r e g r e s s io n i n c o r p o r a t e s in t e r a c t i o n s i n th e s a m e wa y o r d in a r y l e a s t s q u a r e s

    r e g r e s s io n d o e s , w i th p r o d u c t i n t e r a c t i o n t er m s . I n t h is f r a u d c o m p a r i s o n s t u d y , n o

    a t t e m p t w a s m a d e t o i n c o r p o r a t e i n t e r a c t i o n te r m s a s t h is p r o c e d u r e l a c ks a n

    e f f i c i e n t wa y t o s e a r c h f o r t h e s i g n i f i c a n t i n t e r a c t i o n s .

    M u l t i p l e predictors

    T h u s f ar , th e d i s c u s s i o n o f t h e t r e e - b a s e d m o d e l s c o n c e r n e d o n l y s im p l e o n e o r t w o v a r i a b l e

    m o d e l s . E x t e n d i n g th e t re e m e t h o d s t o in c o r p o r a t e m a n y p o t e n t i a l p r e d i c t o rs is

    s t r a ig h tf o r wa r d . F o r e a c h t r e e f it , t h e m e th o d p r o c e e d s a s f o ll o ws :

    F o r e a ch v a r ia b l e d e t e r m i n e t h e b e s t tw o - w a y p a r t i t io n o f t h e d a ta .

    S e l ec t t h e v a r i ab l e w h i c h p r o d u c e s t h e b e s t i m p r o v e m e n t i n th e g o o d n e s s o f f it

    s ta t i s tic to sp l i t the da ta a t a pa r t icu la r nod e .

    R e p e a t th e p ro c e s s u n t i l n o f u r t h e r i m p r o v e m e n t i n fi t c a n b e o b t a in e d .

    S o ft w a re fo r m o d e l i n g n o n l i n e a r d e p e n d e n c i e s a n d t e s t in g t h e m o d e l s

    F o u r s o ft w a r e p r o d u c t s w e r e i n c l u d e d i n o u r f r a u d c o m p a r i s o n : T h e y a r e C A R T ,

    T K E E N E T ,

    S - P L U S (R ) a n d I n s i g h t f u l

    M i n e r 23.

    C A R T a n d T R E E N E T a re S a lf or d S ys te m s s t a n d - a lo n e so f tw a r e p r o d u c t s t h a t e a ch

    p e r f o r m s o n e t e c h n iq u e . C A R T ( C l as s if ic a t io n a n d R e g r e s s io n T r e e s) d o e s t r e e a n a ly s is a n d

    T R E E N E T a p pl ie s s to c h as ti c g ra d i e nt b o o s ti n g u s in g th e m e t h o d d e s c ri b e d b y F r e i d m a n

    ( 20 0 1) . A l l t h e s o f twa r e t e s t e d p r o d u c e S AS

    c o d e 24

    t h a t c a n b e u s ed t o i m p l e m e n t th e m o d e l

    20 Casualty A ctua ria l Society Forum, W i n t e r 2 00 6

  • 8/12/2019 Comparing Tree Based Methods

    21/49

    Distinguishing the Forest rom the T R E E S

    i n a p r o d u c t i o n s ta ge . A l l t h e p r o d u c t s c o n t a i n a p r o c e d u r e f o r h a n d l i n g m i s s i n g v a l u e s

    u s i n g s u r ro g a t e v ar ia b le s . A t a n y g i v e n s p l it p o i n t , C A R T a n d T R E E N E T f i n d th e v a r ia b l e

    th a t i s n e x t i n im p o r t a n c e i n i n f l u e n c in g t h e t a r g e t v a r i a b l e a n d t h e y u s e t h i s v a r i a b l e t o

    r e p l a c e t h e m i s s in g d at a. T h e s p e c i fi c s ta t is t ic u s e d t o r a n k t h e v a r i a b l es a n d f i n d t h e

    s u r r o g a t e s i s d e s c r ib e d i n B r i e m a n e t . a l. ( 19 9 3) . D i f f e r e n t v e r s io n s o f C A R T a n d

    T R E E N E T h a n d l e d i f fe r e n t s iz e d a t ab a s e s. T h e n u m b e r o f l e ve l s o f c a t eg o r ic a l v a r ia b l es

    a f f e c t s h o w m u c h m e m o r y i s n e e d e d , a s m o r e l e v e l s n e c e s s i t a t e m o r e m e m o r y . T h e 1 2 8 k

    v e r s io n o f e a c h p r o d u c t wa s u s e d f o r t h i s a n a ly si s . W i th a p p r o x im a te ly 1 00 ,0 0 0 r e c o r d s i n

    t h e t r a i n i n g d a ta , o c c a s i o n a l m e m o r y p r o b l e m s w e r e e x p e r i en c e d a n d i t b e c a m e n e c e s sa r y to

    s a m p le f e we r r e c o r d s . O n e o f t h e v e r y u s e f u l f e a tu r e s o f t h e S a l fo r d S y s te m s s o f twa r e i s

    t h a t a l l t h e p r o d u c t s r a n k v a r i a b l e s i n im p o r t a n c e 5.

    S - P L U S a n d R a r e c o m p r e h e n s iv e s t a ti s ti c a l l a n g u a g e s u s e d t o p e r f o r m a r a n g e o f s t a t is t ic a l

    a n a ly s e s i n c l u d i n g e x p l o ra t o r y d a t a a n a ly s is , r e g r es s io n , A N O V A , g e n e r a li z e d l in e a r m o d e l s ,

    t re e s a n d n e u r a l n et w o r k s . B o t h S - P L U S a n d R a r e d e r iv e d f r o m S , a s t at is ti ca l p r o g r a m m i n g

    l a n g u a g e o r ig i n a ll y d e v e l o p e d a t B e l l L a b s . T h e S p r o g e n y , S - P L U S a n d R , a re p o p u l a r

    a m o n g a c a d e m i c s ta t is t ic i an s . S - P L U S i s a c o m m e r c i a l p r o d u c t s o l d b y I n s i g h t f u l w h i c h h a s

    a t r u e G U I i n t e r f a c e t h a t f a c il it at es e a s i er h a n d l in g o f s o m e f u n c t i o n s . I n s ig h t f u l a ls o

    s u p p l ie s t e c h n i c al s u p p o r t . T h e S - P L U S p r o g r a m m i n g l a n g u a ge i s w i de l y u se d b y a n a l y st s

    w h o d o s e r io u s n u m b e r c r u n c h i n g . T h e y f i n d i t m o r e e f f e c ti v e , e s pe c ia ll y f o r p r o ce s s e s t h a t

    a r e f r e q u e n t ly re p e a t e d . R i s f r ee o p e n s o u r c e s t a t i st i ca l s o f twa r e t h a t i s s u p p o r t e d l a r g e ly b y

    a c a d e m ic st a t is t ic i a n s a n d c o m p u te r s c i e n c e f ac u lt y. I t h a s o n ly l im i t e d G U I f u n c t i o n a l i t y

    a n d t h e d a t a m i n i n g f u n c t i o n s m u s t b e a c c e ss e d t h r o u g h t h e l a ng u a g e . M o s t c o d e w r i t t e n

    f o r S - P L U S w i l l a l so w o r k f o r R . O n e n o t a b l e d i f f e re n c e i s t h a t d a ta m u s t b e c o n v e r t e d t o

    t e x t m o d e t o b e r e a d b y R (a b i t o f a n i n c o n v e n i e n c e , b u t u s u a ll y n o t a n i n s u r m o u n t a b l e

    o n e ) . F o x ( 20 0 2) p o in t s o u t s o m e o f t h e d i f fe r e n c e s b e tw e e n t h e two l a n g u a g e s , wh e r e t h e y

    e xis t. T h e S - P L U S p r o c e d u r e s u s e d h e r e i n th e f r a u d c o m p a r i s o n a re f o u n d in b o t h S - P L U S

    a n d R . H o w e v e r o n e e n s e m b l e tr ee m e t h o d u s e d, R a n d o m F o r e s t , a pp e ar s o n l y to b e

    a v a i la b l e i n R . T h e S - P L US ( R ) p r o c e d u r e s u s e d we r e : th e t r e e f u n c t i o n f o r d e c i s io n t r ee s

    a n d t h e g lm ( g e n e r a li z e d l i n e a r m o d e l s ) f o r l o g i st i c r e g r e s s io n . S - P L US ( R ) i n c o r p o r a t e s

    r e la t iv e ly c r u d e m e t h o d s f o r h a n d l i n g m i s s i n g v a lu e s . T h e s e i n c l u d e e l i m i n a t i n g a ll r e c o r d s

    w i t h a m i s s i n g v a l u e o n a n y v a r ia b l e , a n a p p r o a c h w h i c h i s g e n e r a ll y n o t r e c o m m e n d e d

    ( F r a n c i s 2 0 0 5 , AU s io n 2 0 02 ). S - P L U S a l so c r e a te s a n e w c a t e g o r y f o r m i s s in g v a lu e s ( o n

    c a t e g o ri c a l v a r i a b le s ) a n d a l lo ws a b o r t i n g t h e a n a ly si s i f a m i s s in g v a lu e is f o u n d . I n g e n e r a l ,

    i t i s n e c e s s a ry t o p r e p r o c e s s t h e d a t a ( a t l e a s t t h e n u m e r i c v a ri a b l e s wh e r e t h e r e is n o m i s s in g

    v a lu e m e t h o d 2~) t o m a k e a p r o v i s io n f o r t h e m i s s in g v a lu e s . I n t h e f r a u d c o m p a r i s o n , a

    c o n s t a n t n o t i n t h e r a n g e o f t h e d a t a w a s s u b s t i t u t e d i n t o t h e v a r i a b l e a n d a n i n d i c a t o r

    d u m m y v a ri a b le f o r m i s s i n g w a s c r e a te d f o r e a c h n u m e r i c v a ri a b le w i t h m i s s i n g v a lu e s . S -

    P L U S a n d R a r e g e n e r a l l y n o t c o n s id e r e d o p t im a l c h o i c e s f o r a n a ly z in g l a rg e d a t a b a se s .

    A f t e r e x p e r i e n c i n g s o m e d i f fi c u lt y r e a d i n g t r a i n i n g d a t a o f a b o u t 1 0 0 ,0 0 0 r e c o r d s i n t o S -

    P L U S , t h e d a t a b a s e wa s r e d u c e d t o c o n t a in o n ly t h e v a ri a b l e s u s e d i n t h e a na ly si s. O n c e t h e

    d a t a w a s r e a d i n t o S - P L U S , f e w p r o b l e m s w e r e e x p e ri e n ce d . A n o t h e r e c c e n t r ic i ty i s t h a t t h e

    S - P L U S t r e e f u n c t i o n c a n o n ly h a n d le 3 2 l e v el s o n a n y g iv e n c a t e g o ri c a l v a r i a b l e , s o i n t h e

    p r e p r o c e s s i n g t h e n u m b e r o f le v e ls m a y n e e d t o b e r e d u c e d 27. T h e R R a n d o m F o r e s t

    f u n c t i o n i n c o r p o r a t e s a p r o c e d u r e t h a t c a n b e u s e d t o r a n k v a r i a b l e s i n i m p o r t a n c e . T h e

    Casua l ty A ctuarial Society Forum, W inter 2006 21

  • 8/12/2019 Comparing Tree Based Methods

    22/49

    Distinguishing the Forest rom the T R E E S

    p r o c e d u r e p r o d u c e s a n

    i m p u r i t y

    s t a ti s ti c wh ic h c a n b e u s e d t o r a n k t h e v a r i a b l es . T h e

    i m p u r i t y is b a s e d o n t h e G i n i i n d e x f o r c l a s si fi c at io n a p p l i ca t i o n s a n d m e a n s q u a r e d e r r o r f o r

    n u m e r i c d e p e n d e n t v a ri a bl e s. T h e S - P L U S t r e e f u n c d o n c o n t a i n s n o b u i l t - i n c a p a b il it y f o r

    r a n k i n g v a r ia b l e s i n im p o r t a n c e . T h e r e f o r e u s i n g th e S - P L U S l a n g u ag e , a n a l g o r i t h m w a s

    c o d e d i n t o S - P L U S t o r a n k t h e v a r ia b l es . T h e m e t h o d i s d e s c ri b e d in F r a n c i s (2 00 1) a n d

    P o t t s ( 20 0 0) . T h e p r o c e d u r e q u a n t i f i e s h o w m u c h th e e r r o r i n c r e a s e s w h e n a v a r i a b l e i s

    r e m o v e d f r o m t h e m o d e l ; t h e la r ge r t h e in c r e a s e i n e r r o rs , t h e m o r e i m p o r t a n t t h e v a r ia b l e.

    T h e I n s i g h t f u l M i n e r is a d a ta m i n i n g s .u ite t h a t c o n t a i n s t h e m o s t c o m m o n d a t a m i n i n g

    to o l s : r e g r e s s io n , l o g i s t i c r e g r e s s io n , t r e e s , e n s e m b le t r e e s , n e u r a l n e two r k s a n d Na iv e

    Bayes~ . A s m e n t i o n e d e ar li er , I n s i g h t f u l a ls o m a r k e t s S - P L U S . H o w e v e r , t h e In s i g h t f u l

    M i n e r h a s b e e n o p t i m i z e d f o r la rg e d a ta b a s es a n d c o n t a i n s m e t h o d s ( N a i v e B ay es ) w h i c h a r e

    n o t p a r t o f S - P L U S ( R ) . T h e N a i v e B a y e s , T r e e a n d E n s e m b l e T r e e p r o c e d u r e s f r o m

    I n s i g h t f u l M i n e r a re u s e d h e r e i n t h e f r a u d c o m p a r i s o n . T h e i n s i g h t f u l M i n e r h a s s e v er a l

    p r o c e d u r e s f o r a u to m a t i c a l ly h a n d l i n g m i s s i n g v a lu e s . T h e s e a r e 1) d r o p r e c o r d s w i t h

    m is s in g v a lu e s , 2) r a n d o m ly g e n e r a t e a v a lu e , 3) r e p l a c e w i th t h e m e a n , 4 ) r e p l a c e w i th a

    c o n s t a n t a n d 5 ) c a rr y f o r wa r d t h e l a s t o b se t a -a t io n . E a c h m i s s in g v a lu e wa s r e p l a c e d w i th a

    c o n s t a n t . I n t h e o r y , t h e d a t a m i n i n g m e t h o d s u s e d , s u c h a s tr e es , s h o u l d b e a b l e to p a r t i t i o n

    r e c o rd s c o d e d f o r m i s s i n g f r o m t h e o t h e r o b s e ~ - a t i o n s w i t h l e g it im a t e c at e go r ic a l o r n u m e r i c

    v a lu e s a n d s e p a r a t e ly e s t im a te t h e i r im p a c t o n t h e t a r g e t v a r i a b l e (p o s s ib l e a f t e r a l l o win g f o r

    i n t e r a c ti o n s w i t h o t h e r v a r ia b l es ) . S e r ve r v e rs i o n s o f t h e I n s i g h t f u l M i n e r g e n e r a te C c o d e

    t h a t c a n b e u s e d i n d e p l o y i n g t h e m o d e l , b u t t h e v e r s i o n u s e d i n t h is a n a l y si s d i d n o t h a v e

    t h a t c a p ab i li ty . A s m e n t i o n e d a b o v e s o m e p r e p r o c e s s i n g w a s n e c e s s a ry f o r t h e N a i v e B a y e s

    p r o c e d u r e . S i n c e I n s i g h t f u l M i n e r c o n t a i n s n o p r o c e d u r e f o r r a n k i n g v a r ia b l e s i n

    i m p o r t a n c e , n o r a n k i n g s w e r e p r o v i d e d f o r t h e I m i n e r m e t h o d s .

    V a l i d a t i n e a n d T e s t i n ~

    v

    I t is c o m m o n in d a t a m in in g c ir cl es t o p a r t i t i o n t h e d a t a i n to t h r e e g r o u p s ( H a s t i e e t al .,

    2 0 01 ). O n e g r o u p i s u s e d f o r t r a in in g , o r f i tt i n g t h e m o d e l . A n o th e r g r o u p , r e f e r r e d t o a s

    th e v a l i d a t i o n s e t, i s u s e d f o r t e s t i n g t h e f it o f th e m o d e l a n d r e - e s t im a t in g p a r a m e te r s i n

    o r d e r t o o b t a i n a b e t t e r m o d e l . I t i s c o m m o n f o r a n u m b e r o f it e r a ti o n s o f t e s t in g a n d

    f i t t in g t o o c c u r b e f o r e a fi n a l m o d e l i s s e le c t ed . T h e t h i r d g r o u p o f d a t a , t h e h o ld o u t

    s a m p l e , i s u s e d t o o b t a i n a n u n b i a s e d te s t o f t h e m o d e l ' s a cc u ra c y. A n a l te r n a t iv e a p p r o a c h

    to a v a l i d a t i o n s a m p le t h a t i s e sp e c i al l y a p p r o p r i a t e wh e n t h e s a m p le s i z e u s e d i n t h e a n a ly s is

    i s r e la t i v ely m o d e s t , i s c r o s s - v a l id a t i o n . C r o s s - v a l i d a t i o n i s a m e th o d i n v o lv in g h o ld in g o u t a

    p o r t i o n o f t h e t r a i n i n g s a m p l e , sa y o n e f i f th o f t h e d a t a , f it t in g a m o d e l t o t h e r e m a i n d e r o f

    th e d a t a a n d t e s t i n g i t o n t h e h e ld o u t d a ta . I n t h e c a s e o f 5 - f o ld c r o s s v a l i d a t i o n , t h e

    p r o c e s s i s r e p e a t e d f i v e t im e s a n d t h e a v e r a g e g o o d n e s s o f f i t o f t h e f i v e v a l i d a t i o n s is

    c o m p u t e d . T h e v a r i o u s s o f tw a r e p ro d u c t s a n d p ro c e d u r e s h a v e d i f f e re n t m e t h o d s f o r

    v a l i d a t i n g t h e m o d e l s . S o m e ( I n s ig h t f u l M in e r T r e e ) o n ly a l l o w c r o s s - v a l i d a t io n . O th e r s

    ( T R E E N E T ) u s e a v a l i d a t i o n sa m p le . S - P L U S ( R ) a l lo ws e i t h e r a p p r o a c h -~ t o b e u s e d ( s o a

    t e s t s a m p le o f a b o u t 2 0 % o f t h e t r a in in g d a t a wa s u s e d a s we h a d a r e la t i v e ly l a r g e d a ta b a s e ) .

    N e i t h e r v a l i d a t io n s a m p l e n o r c r o s s -v a l i d at i o n w a s u s e d w i t h N a i v e B a y e s, L o g i s t ic

    R e g r e s s i o n o r t h e E n s e m b l e T r e e.

    22 Casual ty A ctuarial Society Forum, W inte r 2006

  • 8/12/2019 Comparing Tree Based Methods

    23/49

    Distinguishing the Forest rom the T R E E S

    I n t h i s a na ly s i s, a pp r o x i m a t e l y a th i r d o f t he da t a , a bo u t 50 , 000 r e c o r ds , w a s u s e d a s t he

    h o l d o u t s a m p l e f o r t h e f i n a l t e s ti n g a n d c o m p a r i s o n o f t h e m o d e l s . T w o k e y s ta ti st ic s o f t e n

    us e d t o c om pa r e m ode l s a c c u r a c y a r e s e ns i t iv i t y a n d s pe d f i c i t y .

    S e n s i t i v i t y

    i s t h e p e r c e n t a g e o f

    e ve n t s ( i. e. , c l a i m s w i t h a n I M E o r r e f e r r e d t o a s pe c ia l i nve s t i ga t i on un i t ) t ha t w e r e

    p r e d i c t e d t o b e e v e n t s . T h e

    q ~ e c i f i d ~ y

    i s t h e p e r c e n t a g e o f n o n e v e n t s ( i n o u r a p p l i c a t i o n s

    c la i m s b e l i ev e d to b e l e g i ti m a te ) t h a t w e r e p r e d i c t e d t o b e n o n e v e n t s . B o t h o f t h e s e

    s t at is t ic s s hou l d be h i gh f o r a go od m o de l . T a b l e 4 - 1 , o f t e n r e f e r r e d to a s a c on f us i o n

    m a t r i x ( H a s f i e et . a l. , 2001 ) , p r e s e n t s a n e xa m pl e o f t he c a l c u l a ti on .

    Sample Confusion Matrix: Sensi t iv i ty and Spec i f ic i ty

    T r u e C l a s s

    P r e d i c t i o n N o Y es R o w T o t a l

    No 800 200 1 ,000

    Y e s 2 0 0 4 0 0 6 0 0

    Co lumn Tota l 1 ,000 600

    Correc t Tota l Pem ent Correc t

    Sen sit iv i ty 800 1 ,000 80

    Sp ec i fic ity 400 600 67

    Table 4-1

    I n t h e e x a m p l e c o n f u s i o n m a t r ix , 8 0 0 o f 1 ,0 0 0 n o n - e v e n t s a r e p r e d i c t e d t o b e n o n - e v e n t s s o

    t he s e ns i ti v i t y i s 80% . T h e s pe c i fi c it y i s 67% s i nc e 400 o f 600 t r ue po s i t ive s a r e a c c u r a t e l y

    predic ted .

    Casual ty Actuarial S ociety

    Forum,

    W inter 2006 23

  • 8/12/2019 Comparing Tree Based Methods

    24/49

    Distinguishing the Forest rom the T R E E S

    S E C T I O N 5 . S O F T W A R E R A N K I N G S O F I M P O R T A N T V A R I A B L E S I N

    T H E D E C I S I O N T O I N V E S T I G A T E : I M E A N D S IU

    T h e r e m a i n d e r o f t h i s p a p e r i s d e v o t e d t o i l l u s tr a t