Fundamentos del desarrollo de un modelo de Credit Scoring ...

Fundamentos del desarrollo de un modelo de Credit Scoring

para aprobacion de creditos de consumo

Trabajo de Tesispresentado al

Departamento de Matematicas

por

Francisco Baquero V.

Director: Rene Meziat

Para optar al tıtulo deMatematico

Departamento de MatematicasUniversidad de Los Andes

Febrero 2006

“The true spirit of delight, the exaltation,

the sense of being more than Man,

which is the touchstone of the highest excellence,

is to be found in mathematics as surely as poetry.”

Bertrand Russell (1872-1970), Mysticism and Logic, 1917

ii

Prefacio

Durante cerca de un ano y medio hice parte del equipo de trabajo de LiSim, una empresa de

consultorıa especializada en Riesgo, pionera en el desarrollo de modelos de Scoring en Colombia.

En su trayectoria de cerca de diez anos LiSim se ha posicionado nacional e internacionalmente

como uno de los principales proveedores de modelos de scoring. Trabajando en LiSim no solo

aprendı acerca del Credit Scoring sino que tambien me di cuenta de mi gusto por la estadıstica. En

este trabajo pretendo mostrar mucho de lo que aprendı en mi trabajo como consultor, centrandome

en una de las aplicaciones que tienen los modelos de Scoring, i.e. la aprobacion de creditos.

iii

Agradecimientos

Quiero expresar mi gratitud con todo el grupo LiSim y en especial con su presidenta, la Dra.

Lilian Simbaqueba, por permitirme hacer uso de los conocimientos que adquirı como consultor

de la empresa. Les agradezco inmensamente toda su colaboracion y buena disposicion para el

desarrollo exitoso de este documento. Agradezco tambien a Rene Meziat, director de este proyecto,

por motivarme a investigar en este tema con el que reforce mi gusto por la estadıstica. A mis papas

y a mis hermanos: Gracias, todo esto se lo debo a ustedes.

iv

Resumen

En este trabajo se exponen de manera sencilla los metodos mas frecuentemente usados

en el desarrollo de modelos de Credit Scoring ası como algunos metodos alternativos. Para mayor

claridad, el cuarto capıtulo se consagra a un ejemplo practico

v

INDICE

Indice

Prefacio III

Agradecimientos IV

Resumen V

I. Introduccion 4

1.1. Historia del Credit Scoring . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

1.2. Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

II. Metodos estadısticos: Analisis discriminante y Regresiones 8

2.1. Definicion de Buenos y Malos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

2.2. Analisis Discriminante: Aproximacion desde la Teorıa de la decision . . . . . . . . 9

2.2.1. Teorıa de la Decision . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

2.2.2. Determinando la mejor Regla de Decision . . . . . . . . . . . . . . . . . . 10

2.2.3. Caso continuo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

2.2.4. Caso simple: Una sola variable con distribucion normal . . . . . . . . . . . 13

2.2.5. J variables con distribucion multivariada normal y misma matriz de varianza-

covarianza para los dos grupos . . . . . . . . . . . . . . . . . . . . . . . . . 14

2.2.6. J variables con distribucion multivariada normal: Varianzas distintas de

Buenos y Malos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

2.3. Analisis discriminante midiendo la separacion de los dos grupos: El indicador de

Mahalanobis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

2.4. Analisis Discriminante mediante Regresion lineal . . . . . . . . . . . . . . . . . . 17

1

INDICE 2

2.4.1. Regresion logıstica: El modelo LOGIT . . . . . . . . . . . . . . . . . . . . 21

2.5. Medidas de Calidad del modelo: Las pruebas KS y Gini . . . . . . . . . . . . . . . 23

2.5.1. Prueba KS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

2.5.2. El coeficiente de Gini y las curvas de Lorentz . . . . . . . . . . . . . . . . 24

2.5.3. Uso del Diagrama de Lorentz para determinar el Cut-Off . . . . . . . . . . 25

III. Metodos alternativos para el desarrollo de una Scorecard 27

3.1. Estadıstica no-parametrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

3.1.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

3.1.2. Los k vecinos mas cercanos . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

3.2. Programacion lineal y programacion entera . . . . . . . . . . . . . . . . . . . . . . 30

3.2.1. El Problema de Maximizacion del KS . . . . . . . . . . . . . . . . . . . . . 33

IV. Caso practico del desarrollo de una Scorecard 36

4.1. Definicion de Buenos y Malos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

4.2. Seleccion de las variables para el modelo: Analisis de Correlaciones . . . . . . . . 37

4.3. Estimacion de los coeficientes mediante un software estadıstico . . . . . . . . . . . 38

4.3.1. Regresion lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

4.3.2. Regresion logıstica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

4.4. Medidas de Calidad de los modelos: Las pruebas KS y Gini . . . . . . . . . . . . . 42

4.4.1. Prueba KS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

4.4.2. Coeficiente de Gini . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

4.5. Uso practico de la Scorecard: Determinando el Cut-Off . . . . . . . . . . . . . . . 43

V. Conclusiones 45

INDICE 3

Referencias 48

Capıtulo I

Introduccion

El Credit Scoring es una de las aplicaciones mas exitosas de la investigacion de operaciones y

hoy en dıa practicamente la totalidad de instituciones financieras hacen uso de esta metodologıa

para el manejo del riesgo crediticio.

Los modelos de Credit Scoring son una herramienta que apoya la toma de decisiones mediante

un pronostico del riesgo que el cliente representa para una entidad. Desde el momento mismo de

la aprobacion de un credito, las instituciones financieras incurren en varios tipos de riesgo entre

los cuales podemos mencionar:

Riesgo de aprobacion

Riesgo de no pago

Riesgo de desercion

Riesgo de fraude

Las tecnicas de clasificacion tambien aparecen en areas tan diversas como el diagnostico de

cancer de mama, la deteccion de fraudes y la identificacion de patrones. El problema de pronos-

ticar el riesgo en el que se incurre al aprobar un nuevo cliente es particularmente difıcil, pues a

diferencia de los otros riesgos mencionados, en el proceso de aprobacion no se dispone de informa-

cion previa de comportamiento del cliente. El pronostico se debe hacer entonces unicamente con

la informacion que suministre el cliente en la aprobacion del credito.

Esta metodologıa consiste en identificar las variables de la solicitud de credito que tienen una

mayor incidencia en el comportamiento de pago de los clientes. El objetivo es un crecimiento en

la prestacion de servicios, teniendo un control exacto sobre el nivel de riesgo que desea manejar la

entidad.

El Scoring permite segmentar la poblacion y determinar con anterioridad que perfiles son de-

seables o indeseables para la entidad; de esta forma, se ahorran recursos como tiempo dedicado

4

1.1 Historia del Credit Scoring 5

por un analista a la evaluacion del perfil del usuario y, en general, todos aquellos gastos adminis-

trativos que implican la evaluacion de un credito. En este orden de ideas, el Scoring facilita a la

Entidad y, en especial, a sus analistas, el enfoque en aquellos usuarios potenciales, deseables, que

requieren mayor tiempo de servicio y atencion al usuario. Por otra parte, al existir una herramienta

automatizada, se reduce el tiempo de respuesta a un usuario con lo que se esta ganando en servicio.

En la medida que el Scoring evalua el caracter (perfil del usuario) de acuerdo al riesgo que repre-

senta, permite condicionar aspectos del credito como la garantıa o capacidad de pago de acuerdo

al nivel de representa este usuario para una entidad.

1.1. Historia del Credit Scoring

El resultado eventual del Credit Scoring es la segmentacion de una poblacion que esta solicitando

un producto, entre “buenos” clientes y “malos”clientes, en el sentido de que buenos son aquellos

que la entidad esta dispuesta a aprobar y malos, aquellos que no. Fisher, en 1936, abordo por

primera vez en estadıstica el problema de identificar diferentes grupos en una misma poblacion.

Su proposito era el de diferenciar entre dos tipos distintos de iris midiendo sus diferentes partes.

En 1941, en un proyecto de investigacion desarrollado para la Oficina Nacional de Investigaciones

Economicas de Estados Unidos, Durand noto que las tecnicas que Fisher usaba para segmentar

plantas tambien servıan para identificar “buenos” y “malos” creditos.

Los analistas de credito de una entidad siempre han tenido ciertos criterios, algunos de ellos ob-

vios, y otros dados por la experiencia, para determinar si un cliente que solicita un credito tiene

buen perfil de pago. Sin embargo, estos criterios estan sujetos a la opinion de cada analista y

pueden variar. Por esta razon, ya desde la decada de 1930 hubo algunos intentos para unificar

estos criterios y estos conceptos, con el fin de agilizar los procesos de aprobacion de creditos con

un cierto cubrimiento de riesgo. Ası se crearon los primeros sistemas, algunos de ellos numericos,

para otorgar puntajes o simplemente calificaciones de buenos o malos a los creditos.

En 1952, Wonderlic noto que las investigaciones hechas en estadıstica y los avances en los meto-

dos para otorgar credito podıan integrarse para dar un manejo mas adecuado a la aprobacion del

credito. Fue ası como aparecio en San Francisco Fair Isaac, la primera firma consultora estadıstica

especializada en este tipo de modelos. Hoy en dıa, Fair Isaac continua siendo uno de los principales

proveedores de Scorecards en el mundo y tiene centrales de riesgo a lo largo y ancho del planeta.

La aparicion de las tarjetas de credito en la decada siguiente revoluciono por completo la indus-

tria del credito. Dado el inmenso volumen de solicitudes de tarjetas de credito, la implementacion

de herramientas como el Credit Scoring no solo eran utiles sino necesarias. Esta revolucion vino

1.1 Historia del Credit Scoring 6

de la mano con un notorio desarrollo de la industria de la computacion. Los modelos de Credit

Scoring demostraron ser exitosos, reduciendo hasta en un 50 % los problemas de cartera vencida,

demostrando ser mucho mas eficaces que la subjetividad de los analistas de credito.

En nuestro paıs, el desarrollo de modelos de Credit Scoring esta en auge. En el ano 2001 se

reunio el comite de Basilea II para dar recomendaciones a banqueros y a gente en la industria

crediticia sobre un adecuado manejo del riesgo, con el fin de prevenir graves crisis como la de

los Dragones Asiaticos en 1997. La Superintendencia Bancaria ha impuesto para el ano 2006 la

implementacion de modelos estadısticos para el manejo de riesgo crediticio, por lo cual el campo

de accion e investigacion en este tema ha sido y seguira siendo amplio en un futuro proximo.

A pesar de sus evidentes resultados, el Credit Scoring ha sufrido de crıticas a lo largo de la historia.

En primer lugar se dio la discusion sobre que tipo de variables se deben usar o no en la elaboracion

de modelos de Scoring. En algunos paıses, esta disyuntiva ya ha sido resuelta mediante leyes en

las cuales se especifica el tipo de informacion que puede ser considerada en la decision de otorgar o

no un credito. En Estados Unidos, por ejemplo, la decision de otorgar o no un credito no se puede

basar en condiciones de edad, raza, sexo, religion ni ningun tipo de caracterısticas consideradas

como discriminatorias1 . Esto no es necesariamente beneficioso, pues por ejemplo, es muy comun

ver que las mujeres tienen muy buen comportamiento de pago, o que los clientes de la tercera

edad son mejores que el resto. Sin embargo, tambien se exige que esta decision tenga un soporte

estadıstico como el que provee el Credit Scoring.

El Credit Scoring tambien ha sido criticado por no explicar la relacion causa-consecuencia que

existe entre las variables que se incluyen en el modelo y el comportamiento de pago de los clientes.

Es decir, se le critica de ser un metodo netamente empırico y pragmatico. Su objetivo es el de

pronosticar un riesgo, no explicarlo. Su metodologıa estadıstica es valida y reposa sobre el supuesto

de que “el futuro sera como el pasado” aunque esto tambien puede ser objeto de discusion.

Por ultimo, podemos mencionar que el Credit Scoring ha hecho aportes y se ha nutrido de lo

que conoce como “Minerıa de Datos” o “Data Mining”, una practica muy comun en la ultima

decada en las empresas de consumo masivo; esta practica consiste en explorar las bases de datos,

para descubrir en ellas patrones y relaciones entre las diferentes variables, y esto es exactamente lo

que se pretende en el Credit Scoring. Muchas de las tecnicas que se usan como resumenes de datos,

reduccion de variables y agrupacion por rangos, son tecnicas ampliamente usadas en el desarrollo

de modelos de Scoring.

1En la industria del Credit Scoring es famoso un ejemplo de un modelo en el cual se usaron variables como“Numero de a’s” en el nombre, para identificar el origen etnico del solicitante

1.2 Objetivos 7

1.2. Objetivos

En este trabajo expondre algunos metodos para el desarrollo de modelos de Credit Scoring,

comparando su complejidad, su sustento teorico y su viabilidad en cuanto a recursos, enmarcando

todas las metodologıas dentro de un contexto historico.

En particular se analizaran en detalle los metodos de analisis discriminante, regresion lineal y

regresion logıstica, que son los de uso mas frecuente en el desarrollo de Scorecards en portafolios

de Credito. Veremos como mediante metodos distintos, se llega a resultados equivalentes para de-

terminar la funcion discriminante lineal. Se hara un ejemplo practico con unos datos simulados de

una cartera de credito de consumo.

Igualmente, se explicaran los metodos alternativos mediante los cuales se trabaja en Credit Scor-

ing. Entre ellos, expondremos metodos de estadıstica no-parametrica como el de “Los k vecinos

mas cercanos”, k-NN (k nearest neighbors), ası como metodos no-estadısticos como Programacion

lineal y Programacion entera.

Capıtulo II

Metodos estadısticos: Analisis discriminante y Regresiones

Si se cuenta con J variables el problema consiste en determinar una funcion F : RJ −→ R que

a cada (X1, X2, · · · , XJ) le asigne un puntaje que permita calificarlo como buen o mal cliente, y

aprobarlo ( resp. rechazarlo) en caso de que el puntaje se encuentre por encima ( resp. debajo) de

un cierto puntaje que denominaremos cut-off. En el caso del Scoring de Aprobacion el pronostico

que se realiza abarca toda la vida del cliente con el credito. Se busca pronosticar si quien se presen-

ta hoy como solicitante sera un buen o mal cliente, a partir de la morosidad esperada con cada uno.

Se analiza el comportamiento de todos los clientes durante su primer credito aprobado con la

entidad.

A partir de la informacion que se conoce del solicitante, que es en esencia su informacion so-

ciodemografica e historica de comportamiento de pago con otras instituciones si se dispone de un

reporte de centrales de riesgo, se busca pronosticar si tendra un buen o mal comportamiento de

pago para el credito solicitado.

2.1. Definicion de Buenos y Malos

La Definicion de Buenos y Malos permite segmentar la Poblacion Objetivo en un grupo que se

considere con un perfil deseable para aprobar un credito (buenos) y en un grupo que no es optimo

aprobar (malos). Esta es la variable que se va a pronosticar y la que el Score pretende explicar.

Efectivamente, una definicion de Malos se refiere a aquellas cuentas, que dada su experiencia,

la entidad no quiere seleccionar para actividad comercial.

Las variables que se pueden analizar para esta definicion son: Moras promedio, moras maximas,

numero de cuotas vencidas, indicadores de reestructuraciones o refinanciaciones y en general, todas

las variables que puedan ser indicio de un mal comportamiento de pago.

8

2.2 Analisis Discriminante: Aproximacion desde la Teorıa de la decision 9

Posterior a la definicion de Buenos y Malos, el paso siguiente es la definicion de la Ventana del

modelo, es decir el perıodo de tiempo para los creditos madurados. La maduracion se refiere al

tiempo de historia que como mınimo deben tener los creditos para ser modelados.

Ejemplo: Supongamos que se tiene un portafolio de 1500 creditos de consumo y que se ha definido

la ventana para la cual se hara el analisis. La definicion de buenos y malos se puede dar observando

la siguiente tabla:

En este caso, si definimos como cliente bueno aquel que ha pagado en promedio con una

mora menor a 15 dıas y con una mora maxima tambien menor a 15 dıas se obtiene la siguiente

distribucion:

2.2. Analisis Discriminante: Aproximacion desde la Teorıa de la decision

2.2.1. Teorıa de la Decision

La teorıa de la decision es un campo de estudio interdisciplinario, que ha sido objeto de estudio

en matematicas, estadıstica, economıa, filosofıa, administracion y psicologıa. Se refiere a como se

toman decisiones, y como las decisiones optimas pueden ser alcanzadas. La teorıa de la decision es

mas normativa o preceptiva, es decir se refiere a identificar la mejor decision que se puede tomar,

asumiendo que quien toma la decision dispone de toda la informacion necesaria para hacerlo de la

mejor manera posible, calculando con exactitud perfecta, y de manera completamente racional. El

uso practico de este acercamiento preceptivo (como la gente debe tomar decisiones) se llama anali-

sis de la decision, y se dirige a encontrar las herramientas, las metodologıas y software para ayudar

a tomar mejores decisiones. Las herramientas que buscan automatizar los procesos y brindar un

apoyo en la toma de decisiones se llaman los sistemas de ayuda de decision. Es obvio que la gente

no se comporta tıpicamente de maneras optimas, por lo cual hay tambien un campo de estudio

relacionado, que es una disciplina positiva o descriptiva, procurando describir lo que hara la gente

realmente.


La teorıa de la decision es solamente relevante en las decisiones que son difıciles por una cier-

ta razon. El concepto de valor esperado surgio el Siglo XVII. Blaise Pascal lo invoco en su famoso

dilema entre creer y no creer en Dios de su Pensees, publicado en 1670. En el momento que uno

debe tomar una decision, la accion que se elija debe ser la que tiene un mayor valor esperado. En

1738, Daniel Bernoulli publico Exposicion de una nueva teorıa en la medida del riesgo

en el que expone la paradoja de San Petersburgo para demostrar que la teorıa del valor esperado

debıa ser normativamente incorrecta. En ese artıculo, Bernoulli tambien da un ejemplo en el cual

un comerciante holandes intenta decidir si asegurar un envıo de Amsterdam a San Petersburgo en

invierno, cuando se sabe que hay una probabilidad del 5 % de que la nave y el cargo se pierdan.

En su solucion el define una funcion para uso general y calcula la utilidad esperada mas que una

ganancia monetaria.

2.2.1.1. El dilema del Pascal

El dilema del Pascal es un ejemplo clasico de una decision bajo incertidumbre. La incertidumbre,

segun Pascal, es si existe o no Dios. Y la creencia o la no-creencia personal en Dios es la opcion

que se tomara. La recompensa por creer en Dios, si es que existe Dios realmente, es infinita, por lo

tanto ası la probabilidad de la existencia de Dios sea pequena, el valor esperado de creer en Dios

es mayor que el de la no-creencia, ası que es mejor creer en Dios.

2.2.2. Determinando la mejor Regla de Decision

Sea A ⊆ RJ el conjunto de posibles respuestas que pueden dar los clientes al formulario de

aprobacion. Lo que se busca mediante el Credit Scoring es determinar un criterio para subdividir A

en dos conjuntos mas pequenos AB y AM de tal forma que los clientes cuyas respuestas pertenezcan

al conjunto AB sean calificados como“buenos”y los que respondan dentro del conjunto AM sean

calificados como “malos” clientes. Existen entonces dos errores posibles en los cuales se puede

incurrir al tomar una decision sobre la aprobacion o no del credito:

1. Rechazar el credito dado que el cliente era bueno. En este caso, se sacrifica una eventual

ganancia que se habrıa obtenido aprobando un buen cliente.

2. Aprobar el credito dado que el cliente era malo. En este caso, las perdidas se producen por

el mal comportamiento de pago del cliente.

Supongamos que la ganancia esperada L es la misma para todos los clientes y que la perdida

esperada D tambien es la misma para todos los clientes. Sea pB el porcentaje total de buenos

clientes y sea pM el porcentaje total de Malos clientes. Supongamos por simplicidad que |A| < ∞,

es decir, que solo existen finitas maneras posibles de llenar un formulario de aprobacion. Esta

suposicion es sensata ası se disponga de variables continuas pues por ejemplo, si se trata del nivel


de ingreso, los valores se pueden agrupar por rangos, haciendo ası finitas las opciones de respuesta.

Sea p(x|B) la probabilidad de que un cliente tenga atributos x dado que es bueno. Esta probabilidad

es condicional y esta dada por la formula:

p(x|B) =p(el cliente es bueno y tiene caracterısticas x)

p(el cliente es bueno)

De la misma forma se define p(x|M) la probabilidad de que un cliente tenga atributos x dado que

es malo.

De manera semejante, sea q(B|x) la probabilidad de que un cliente sea bueno dado que sus carac-

terısticas son x

q(B|x) =p(el cliente tiene caracterısticas x y es bueno)

p(el cliente tiene caracterısticas x)

Combinando estas dos probabilidades y fijando

p(x) = p(el cliente tiene caracterısticas x) se obtiene:

p(el cliente es bueno y tiene caracterısticas x) = q(B|x)p(x) = p(x|B)pB

Llegamos ası al Teorema de Bayes:

q(B|x) =p(x|B)pB

p(x)

y por un procedimiento semejante:

q(M |x) =p(x|M)pM

p(x)

Combinamos estos dos resultados y se obtiene:

q(B|x)q(M |x)

=p(x|B)pB

p(x|M)pM

Si se aceptan los clientes cuyas caracterısticas estan en el conjunto AB y se rechazan aquellos

que esten en AM , el costo esperado por cada solicitante es:

L∑

x∈AM

p(x|B)pB + D∑

x∈AB

p(x|M)pM = L∑

x∈AM

q(B|x)p(x) + D∑

x∈AB

q(M |x)p(x)

Para ver como se minimiza este costo, es suficiente notar que si x ∈ AB solo se genera un

costo si quien solicita el credito es un mal cliente y por lo tanto el costo en el que se incurre es:

Dp(x|M)pM . Por el contrario, si x ∈ AM el costo que se genera es Lp(x|B)pB .

Ası se obtiene la Regla de decision: x se ubica en AG si Dp(x|M)pM ≤ Lp(x|B)pB


AB = {x|Dp(x|M)pM ≤ Lp(x|B)pB}

={x|D

L≤ p(x|B)pB

p(x|M)pM

}

={x|D

L≤ q(B|x)

q(M |x)

}.

Sin embargo, esta solucion al problema tiene el inconveniente de que depende de la perdida

esperada y de la ganancia esperada, y estas cantidades no son necesariamente conocidas.

Es mas frecuente encontrar en la practica una aproximacion al problema ası: Fijar una tasa de

aprobacion a, mientras que se minimizan las perdidas.

En ese caso AB debe ser tal que:∑

x∈AB

(p(x|B)pB + p(x|M)pM ) = a

mientras que la cartera sin pago, o en “default”∑

x∈AB

p(x|M)pM1 se minimiza.

Sea b(x) = p(x|M)pM . El problema de optimizacion consiste entonces en hallar un conjunto AB

tal que:

mın∑

x∈AB

b(x) =∑

x∈AB

(b(x)p(x)

)p(x)

sujeto a

∑

x∈AB

p(x) = a

La solucion a este problema se puede hallar mediante multiplicadores de Lagrange, o simple-

mente, observando que cualquier administrador es averso al riesgo y por lo tanto escoge la solucion

de tal forma que b(x)p(x) ≤ c en donde c se fija para que

mın∑

x∈AB

p(x) = a

Entonces, en este caso:

AB ={x| b(x)

p(x)≤ c

}

= {x|q(B|x) ≤ c}

={x|1− c

c≤ p(x|B)pB

p(x|M)pM

}.

1Default: En el ambito financiero el evento de incumplimiento total de una obligacion


Por lo tanto, la Regla de decision que se obtiene mediante este procedimiento, es equivalente

al procedimiento anterior, para una escogencia adecuada de las perdidas y ganancias estimadas D

y L.

2.2.3. Caso continuo

Si ahora consideramos el caso en el que las variables que se capturan en el formulario de solicitud

de credito son continuas, el procedimiento es analogo al hecho para las variables discretas. Las

probabilidades discretas condicionales p(x|B) y p(x|M) se cambian por las funciones de densidad

de probabilidad f(x|B) y f(x|M). Las sumas se cambian por integrales y los costos se convierten

entonces en:

L

∫

x∈AM

f(x|B)pBdx + D

∫

x∈AB

f(x|M)pMdx.

Ası, llegamos a una Regla de decision equivalente:

AB = {x|Df(x|M)pM ≤ Lf(x|B)pB}

={x|D

L≤ f(x|B)pB

f(x|M)pM

}

2.2.4. Caso simple: Una sola variable con distribucion normal

Supongamos que se dispone de una unica variable continua para pronosticar el comportamiento

de pago de un cliente. Sea esta variable aleatoria X y supongamos que tanto las probabilidades de

X dado que es bueno y como dado que es malo son Normales con media y varianza constantes, y

que ademas, las varianzas de los dos grupos son iguales, es decir:

f(x|B) =1√

2πσ2e

−(x− µB)2

σ2

y

f(x|M) =1√

2πσ2e

−(x− µM )2

σ2


En este caso:

AB = {x|Df(x|M)pM ≤ Lf(x|B)pB}

={x|D

L≤ f(x|B)pB

f(x|M)pM

}

=

{x|DpM

LpB≤ e

−(x−µB)2

σ2

e−(x−µM )2

σ2

}

=

{x|DpM

LpB≤ e

((x− µM )2 − (x− µB)2

2σ2

)}

=

{x|x ≥

( µB2 + µM

2

2+ σ2 log

(DpM

LpB

)

µB − µM

)}

Para efectos practicos, la Regla de decision se puede interpretar en este caso como “Apruebe si

x es lo suficientemente grande”.

2.2.5. J variables con distribucion multivariada normal y misma matriz de varianza-covarianza para los dos grupos

En la practica, la decision de otorgar o no un credito se basa en mucho mas que una sola vari-

able pues difıcilmente una sola variable puede determinar un perfil de riesgo del cliente. En el caso

en que se disponga de J variables, supongamos que si X = (x1, . . . , xJ) es el vector de respuestas,

µB y µM son los vectores promedio de las poblaciones de clientes buenos y malos respectivamente

y que la variable se distribuye normal multivariada para las dos poblaciones. Supongamos tam-

bien que la matriz de varianza-covarianza Σ es la misma para las dos poblaciones es decir tal que

E(Xi|B) = µB,i, E(Xi|M) = µM,i y E(XiXj |B) = E(XiXj |M) = Σij

En este caso la funcion de densidad de probabilidad condicional de X dado que el cliente es

bueno se ve ası:

f(x|B) = (2π)−J2 (detΣ)−

12 exp

(−(x− µB)Σ−1(x− µB)T

2

)

en donde (x− µB) es un vector de 1× p y (x− µB)T su transpuesto.

Por un procedimiento identico al realizado en §2.2.4 llegamos a la Regla de decision:

2.3 Analisis discriminante midiendo la separacion de los dos grupos: El indicador deMahalanobis 15

f(x|B)f(x|M)

≥ DpM

LpB.

El conjunto AB queda entonces definido ası:

AB ={x∣∣∣∣x · Σ−1(µB − µM )T ≥ µB · Σ−1µB

T + µM · Σ−1µMT

2+ log

(DpM

LpB

)}

Notese que la regla de decision se basa en una combinacion lineal de los xi’s, esta funcion es la que se

conoce como funcion discriminante lineal. Notese tambien que determinando la Regla de decision,

asumimos que las medias y las varianzas-covarianzas de la poblacion se conocen, pero este caso se

da rara vez en la practica. Entonces, reemplazamos Σ por S, la matriz de varianzas-covarianzas de

la muestra y µB y µM por mB y mM las medias muestrales de las poblaciones de Buenos y Malos

respectivamente.

2.2.6. J variables con distribucion multivariada normal: Varianzas distintas de Buenosy Malos

Otra crıtica que se puede hacer al procedimiento anterior es el supuesto de que las varianzas

de las poblaciones de Buenos y Malos son iguales. Supongamos entonces que ΣB es la matriz cor-

respondiente a la poblacion de buenos clientes y ΣM la de los malos clientes., entonces, retomando

la Regla de decision obtenida en §2.2.4

f(x|B)f(x|M)

≥ DpM

LpB=⇒

(x(ΣB−1 − ΣM

−1)xT + 2x · (Σ−1B µB

T − Σ−1M µM

T ) ≥

µB · Σ−1µBT + µM · Σ−1µM

T + 2 log(

DpM

LpB

)

La funcion discriminante que se obtiene es una forma cuadratica en las variables x1, . . . , xJ , por

lo cual uno supondrıa una mejor discriminacion que en el caso de varianzas iguales. Sin embargo,

al suponer que las varianzas son distintas, se debe estimar el doble de parametros, i.e. todas las

entradas de ΣB y ΣM , por lo cual, la incertidumbre en los resultados es el doble de la anterior;

parece entonces inutil buscar esa supuesta mayor precision en los modelos. En 1983, Reichert, Cho

y G.M. Wagner confirman esta suposicion mediante numerosos experimentos.

2.3. Analisis discriminante midiendo la separacion de los dos grupos: Elindicador de Mahalanobis

En su trabajo original de 1936, Fisher introdujo la funcion discriminante lineal para identificar

varios grupos dentro de una poblacion de flores. En nuestro caso, se pretende identificar dos grupos,

i.e. el grupo de los Buenos y el grupo de los Malos, mediante una tal funcion que solo involucre

variables disponibles en el formulario de solicitud de credito y en las centrales de riesgo. Si tenemos:

2.3 Analisis discriminante midiendo la separacion de los dos grupos: El indicador deMahalanobis 16

Y =J∑

i=1

wiXi.

una combinacion lineal cualquiera de las variables Xi, . . . , XJ . Para saber que tan separados

estan los clientes buenos de los clientes malos, una primera medida obvia es medir que tan alejadas

se encuentran las medias de los buenos y de los malos. Ademas, se debe tener en cuenta la dispersion

de los datos en los dos grupos. Por esta razon, Fisher sugirio el indicador de Mahalanobis para

medir la distancia entre los dos grupos, suponiendo que en los dos se tiene la misma varianza. Este

indicador esta dado por la formula:

M =Distancia entre las medias muestrales de los dos grupos

(varianza muestral de cada grupo)12

Al dividir por las varianzas, se estandariza la medida, para que esta sea independiente de la

escala que se use en cada variable.

En el contexto del Credit Scoring, si asumimos que mB ymM son las medias muestrales de los

buenos y de los malos respectivamente y que S es la matriz de varianza-covarianza muestral en-

tonces

M(w) = wT · mB −mM

(wT · S ·w)12

Pues se tiene que E(Y |B) = wT ·mB y E(Y |M) = wT ·mM y V ar(Y ) = wT · S ·w.

Como M(w) es una medida de discriminacion entre los grupos, lo que se pretende es maximizar

esta medida asignando valores a los wi’s.

Entonces, derivando M con respecto a w :

∂M

∂w=

mB −mM

(wT · S ·w)12− (w · (mB −mM )T ) · SwT

(wT · S ·w)32

.

Igualando a cero:

mB −mM

(wT · S ·w)12− (w · (mB −mM )T ) · SwT

(wT · S ·w)32

= 0

(mB −mM )(wT · S ·w) = (w · (mB −mM )T ) · SwT

wT =S−1(mB −mM )T (wT · S ·w)

12

(w · (mB −mM )T )

Para demostrar que este punto crıtico es un maximo habrıa que demostrar que la matriz Hessiana

de las segundas derivadas de M con respecto a los wi’s evaluada en este punto no es definida

positiva.

2.4 Analisis Discriminante mediante Regresion lineal 17

Dado que wT ·S·ww·(mB−mM )T es un escalar, se obtiene que:

w ∝ S−1(mB −mM )T

por lo cual, la funcion discriminante lineal que se obtiene en este caso es la misma que se obtuvo

en el caso multivariado normal, pero con la diferencia de que esta vez no se hizo ninguna suposicion

acerca de las distribuciones. Este metodo funciona sea cual sea la distribucion de X.

2.4. Analisis Discriminante mediante Regresion lineal

El metodo de regresion lineal, estimando los pesos de las variables mediante mınimos cuadrados

ordinarios, es ampliamente usado para los modelos de Credit Scoring.

Supongamos que pi es la probabilidad de que el i-esimo cliente cumpla con sus obligaciones de

pago y supongamos que

pi =J∑

k=1

wkxki∀i

Sea nB el numero de buenos clientes y nM el numero de malos clientes, de manera que nB+nM = n.

Supongamos por simplicidad que los clientes buenos son los primeros nB-esimos, de manera que

para ellos pi = 1 y para los malos, es decir, del (nB + 1)-esimo en adelante, pi = 0.

El error εi en la inferencia para el i-esimo cliente esta dado por:

εi =

1−J∑

k=0

wkxki 1 ≤ i ≤ nB

J∑k=0

wkxki nB ≤ i ≤ n

Luego, la Suma de los Cuadrados de los errores (SCE) esta dada por:

SCE =n∑

i=1

ε2i =

nB∑

i=1

(1−

J∑

k=0

wkxki

)2

+nM∑

i=1

( J∑

k=0

wkxki

)2

Si escribimos la ecuacion de regresion en terminos matriciales, esta se ve ası:

1 x11 . . . . . . xJ

1

1 x12 . . . . . . xJ

2

. . . . . . . . . . . . . . .

1 x1nB

. . . . . . xJnB

1 x1nB+1 . . . . . . xJ

nB+1

. . . . . . . . . . . . . . .

1 x1n . . . . . . xJ

n

w0

w1

. . .

wnB

wnB+1

. . .

wn

=

1

1

. . .

1

0

. . .

0


Sea X=

1 x11 . . . . . . xJ

1

1 x12 . . . . . . xJ

2

. . . . . . . . . . . . . . .

1 x1nB

. . . . . . xJnB

1 x1nB+1 . . . . . . xJ

nB+1

. . . . . . . . . . . . . . .

1 x1n . . . . . . xJ

n

sea wT =

w0

w1

. . .

wnB

wnB+1

. . .

wn

y sea pT =

(1B

0M

)

En donde 1B es el vector de 1 × nB cuyas entradas son todas iguales a 1. La ecuacion se con-

vierte entonces en XwT = pT

SCE se puede reescribir ası:

SCE = (XwT − pT )T (XwT − pT )

Para minimizar, derivamos con respecto a w e igualamos a cero:

∂SCE

∂w= XT (XwT − pT ) = 0

XT XwT = XT pT

Entonces el estimador de w es:

wT = (XT X)−1XT pT

Veamos ahora, que este metodo produce la misma funcion lineal discriminante estimada en los

metodos anteriormente expuestos:

Sea XB=

x11 . . . . . . x1J

x21 . . . . . . x2J

. . . . . . . . . . . .

xnB1 . . . . . . xnBJ

Sea XM=

x11 . . . . . . x1J

x21 . . . . . . x2J

. . . . . . . . . . . .

xnM1 . . . . . . xnM J

Entonces

XT · pT =

(1 1

XB XM

)(1B

0

)=

(nB

nBmB

)


por otra parte:

XT X =

(1 1

XB XM

)(1 XB

1 XM

)=

(n nBmB + nMmM

nBmTB + nMmT

M XTBXB + XT

MXM

)

XTBXB + XT

MXM = n · Cov(Xi, Xj) + nBmBmTB + nMmMmT

M

Reemplazando Cov(Xi, Xj) por S, la matriz de varianza-covarianza de la muestra:

XTBXB + XT

MXM = n · S + nBmBmTB + nMmMmT

M

nw0 + (nBmB + nMmM )wT = nB

Luego, despejando w0:

w0 =nB −+(nBmB + nMmM )wT

n

Ademas:

(nBmTB + nMmT

M )w0 + (n · S + nBmBmTB + nMmMmT

M )wT = nBmTB

Reemplazando w0:

(nBmTB + nMmT

M )(

nB − (nBmB + nMmM )wT

n

)+

n · SwT + (nBmBmTB + nMmMmT

M )wT = nBmTB

Entonces, simplificando:

(nBnM

n

)(mB −mM )wT + nSwT =

(nBnM

n

)(mB −mM )T

de donde:

SwT = c(mB −mM )T

Por lo tanto, la regresion lineal produce la misma funcion discriminante que se obtuvo mini-

mizando las funciones de costos y el ındice de Mahalanobis. La ventaja esta en que se puede usar

todo el poder de esta herramienta estadısitca, ampliamente conocida, con las pruebas estadısticas

de significancia individual de las variables y global del modelo ası como conocer el R2 para deter-

minar que tanto la variabilidad en las variables predictivas afecta la variabilidad en la probabilidad

de que un cliente sea bueno o malo.


Teorema 2.1 (Gauss-Markov) El metodo de regresion por mınimos cuadrados produce el MELI

(Mejor estimador lineal insesgado), en el sentido de que cualquier otro estimador lineal de los

coeficientes tiene una matriz de varianza-covarianza mayor que la del estimador de MCO

Demostracion: Vamos a proponer otro estimador lineal para w

w = ((XT X)−1X + C)p

E[w] = E[(XT X)−1X + C)(Xw + U)],En donde U es el vector de los errores

E[w] = E[(XT X)−1XT Xw] + E[(XT X)−1XT U ] + CXw + CE[U ]

E[w] = w + CXw

Luego, w es insesgado solo si CX = 0

var − cov(w) = E[(w− E[w])(w− E[w])T ]

var − cov(w) = E[(w−w)(w−w)T ]

var − cov(w) = E[((XT X)−1XT U + CU)((XT X)−1XT U + CU)T ]

var − cov(w) = E[((XT X)−1XT U + CU)(UT CT + UT X(XT X)−1)]

var − cov(w) = E[(XT X)−1XT UUT CT + (XT X)−1XT UUT X(XT X)−1

+ CUUT CT + CUUT X(XT X)−1]

var − cov(w) = σ2(XT X)−1XT CT + σ2(XT X)−1 + σ2CCT + σ2CX(XT X)−1

var − cov(w) = σ2(XT X)−1 + σ2CCT

Luego, var-cov(w) es “mınima” si C = 0. ♣

Tambien puede demostrarse que los estimadores de MCO son los estimadores de maxima verosimil-

itud por lo cual, cumplen con las siguientes propiedades:

1. Cada wi tiene una distribucion normal con media E(wi) y varianza V ar(wi) = c(i+1)σ2 en

donde c(i+1) es el (i + 1)-esimo elemento de la diagonal de (XT X)−1

2. Cov(wi, wj) = c(i+1)(j+1)σ2 en donde c(i+1)(j+1) es el elemento de (XT X)−1 que se encuentra

en la (i + 1)-esima fila y la (j + 1)-esima columna.

Con lo anterior, podemos entonces estimar la varianza de los errores por

S2 =pT p− wT XT p

n− J


en donde, n es el numero de observaciones y m es el numero de coeficientes por calcular. Entonces,

podemos estimar V ar(wi) ası:

s2(wi) = c(j+1)S2

Conociendo entonces la varianza de la muestra, el estadıstico:

T =wj −wj

s(wj)

sigue una distribucion t de student con n − J grados de libertad. Podemos entonces realizar la

prueba de hipotesis:

H0 : wj = 0

Halternativa : wj 6= 0

Uno de los supuestos del modelo de regresion lineal es que los errores se distribuyen normal con

media cero. Por lo tanto, los cuadrados de los errores se distribuyen χ2 y la suma de ellos, tambien.

Lo mismo sucede con la suma de cuadrados de la regresion. SCEn−J = CME es el cuadrado medio

del error y CMR = SCRJ−1 es el cuadrado medio de la regresion. Al tomar el cociente de ellos dos:

F =CMR

CME

Se obtiene un estadıstico F que se distribuye F con J − 1 y n − J grados de libertad. Con este

estadıstico se puede entonces llevar a cabo la prueba de hipotesis estadıstica:

H0 : w1 = w2 = · · · = wJ = 0

Halternativa : wj 6= 0Para algun i

2.4.1. Regresion logıstica: El modelo LOGIT

La Regresion lineal mediante el metodo de mınimos cuadrados ordinarios se basa en supuestos

que muchas veces son difıciles de verificar y que mas aun, en la practica se ven frecuentemente

quebrantados. En este caso, la funcion discriminante que se quiere calcular con la regresion debe

tener como rango el intervalo [0, 1] porque la variable dependiente, es una probabilidad. El modelo

de regresion lineal multiple, a priori, no tiene por que estar acotado, por lo cual a diferentes valores

de xi, . . . , xJ la variable dependiente pi podrıa variar en un rango de −∞ a ∞. Para resolver esta

posible falla del modelo en el contexto del Credit Scoring, Wiginton en 1980 fue uno de los primeros

autores en introducir una transformacion, que lleva al modelo LOGIT. Para ello, noto que si pi

varıa en un rango entre 0 y 1 sus “odds” =pi

1− pivarıan entonces entre 0 e ∞. Por lo tanto

log(

pi

1− pi

)varıa entre −∞ e ∞. Por esta razon, si se estima el modelo

log(

pi

1− pi

)=

J∑

k=1

wkxki∀i


se logra que pi varıe entre 0 y 1 pues

pi =ew·x

1 + ew·x < 1

Esta ecuacion se conoce como el supuesto de la Regresion logıstica. Los coeficientes de esta

ecuacion no se pueden estimar mediante mınimos cuadrados ordinarios, pues el logaritmo de los

“odds” solo toma dos valores, que carecen de sentido:

log(

pi

1− pi

)=

log( 01 ) si el cliente i es malo

log( 10 ) si el cliente i es bueno

Para estimar los pesos de las variables, se debe entonces utilizar un metodo alternativo, entre

los que podemos mencionar metodos de maxima verosimilitud, que a su vez necesitan de algoritmos

como el de Newton-Raphson. El metodo de maxima verosimilitud consiste en estimar el valor de

los parametros maximizando la probabilidad de que la muestra que se tiene sea representativa.

El ajuste del modelo, su capacidad predictiva, la significancia global y la significancia individ-

ual de las variables, se pueden medir mediante pruebas de hipotesis estadısticas, tal como en el

caso de la Regresion lineal. Usando el metodo de maxima verosimilitud, se puede demostrar tam-

bien que el pseudo − R2 mide el ajuste del modelo, aunque en el caso de los modelos de Scoring,

este no es el problema primordial.

Igualmente, para la significancia individual, dado que se supuso que los pesos de las variables

tenıan una distribucion normal, se puede usar el estadıstico Z para la prueba de hipotesis:

H0 : wj = 0

Halternativa : wj 6= 0

Para la significancia global del modelo, se usa el estadıstico χ2 con J grados de libertad, que

tambien se conoce como el cociente de verosimilitud LR por sus siglas en ingles (Likelihood Ratio).

Si se supone de nuevo que la distribucion de X es normal multivariada y que las medias son

µB entre los buenos y µM entre los malos con una matriz comun de varianza-covarianza Σ. Es

decir, tal que E(Xi|B) = µB,i, E(Xi|M) = µM,i y E(XiXj |B) = E(XiXj |M) = Σij

f(x|B) = (2π)−J2 (detΣ)−

12 exp

(−(x− µB)Σ−1(x− µB)T

2

)

2.5 Medidas de Calidad del modelo: Las pruebas KS y Gini 23

Si pB es el porcentaje de buenos clientes de toda la poblacion y pM el de malos entonces el

logaritmo de los “odds” de probabilidad para el i-esimo cliente son:

log(

pi

1− pi

)= log

(pGf(x|B)pMf(x|M)

)

= x · Σ−12(µM − µB)T + (µBΣ−1µTB + µMΣ−1µT

M ) + log(

pB

pM

)

Se obtiene entonces tambien una combinacion lineal de los xi’s, por lo cual, se satisface el supuesto

de la regresion logıstica.

Sin embargo, el supuesto de normalidad no es una condicion necesaria para que se satisfaga el

supuesto de la regresion logıstica. Por ejemplo, consideremos el caso en el que todas las variables

son binarias e independientes entre ellas. Esto quiere decir que:

p(Xi = 1|B) = pB(i);p(Xi = 0|B) = 1− pB(i)

p(Xi = 1|M) = pM (i);p(Xi = 0|B) = 1− pM (i)

Luego, si pB ypM son las proporciones de buenos y de malos clientes en toda la poblacion

p(B|x) =p(x|B)pB

p(x)=

n∏i=1

pB(i)xi(1− pB(i)xi)1−xipB

p(x)

Entonces

log(

p(B|x)p(M |x)

)=

∑

i

xi(log(pB(i))− log(pM (i)))

+∑

i

(1− xi)(log(1− pB(i))− log(1− pM (i))) + log(

pB

pM

)

=∑

i

xi

(log

(pB(i)(1− pM (i))pM (i)(1− pB(i))

))+

∑

i

log(

1− pB(i)1− pM (i)

)

+ log(

pB

pM

)

El resultado que se obtiene es de nuevo una combinacion lineal de las variables por lo cual, se

cumple el supuesto de la regresion logıstica.

2.5. Medidas de Calidad del modelo: Las pruebas KS y Gini

2.5.1. Prueba KS

La idea del estadıstico Kolmogorov-Smirnoff, al igual que el ındice de Mahalanobis, es medir

que tanto discrimina el score entre buenos y malos. Para ello, se define: PB(s) =∑x≤s

pB(x) y

PM (s) =∑x≤s

pM (x), que son las distribuciones acumuladas, de buenos y malos respectivamente,

hasta el score s.


Ası, se define entonces el estadıstico Kolmogorov-Smirnoff como:

KS = maxs|PB(s)− PM (s)|

Claramente, mientras mas se acerque este valor al 100%, mayor discriminacion tendra el modelo

2.5.2. El coeficiente de Gini y las curvas de Lorentz

Una ındice estadıstico de amplio conocimiento, por su frecuente uso en economıa, es el coefi-

ciente de Gini. Este coeficiente se usa para medir la desigualdad en la distribucion del ingreso en

una economıa. En los paıses del tercer mundo esta desigualdad es muy marcada, en especial en

paıses como Sudafrica, Brasil, Chile o Colombia, por lo cual el correspondientre coeficiente de Gini

es muy alto.

En el contexto del Credit Scoring, a diferencia de una economıa, lo que se pretende es que el

modelo estadıstico que se haga para pronosticar el comportamiento de pago de los clientes sı dis-

crimine mucho entre Buenos y Malos clientes y que por lo tanto tenga un coeficiente de Gini muy

alto.


2.5.2.1. Calculo del Coeficiente de Gini

Para el calculo del coeficiente de Gini se grafica PB(s) vs. PM (s). Esta grafica es la que se

conoce como el diagrama de Lorentz. En la misma grafica se incluye la recta dada por la ecuacion

PB(s) = PM (s), que corresponderıa al hipotetico caso en el que, en cualquier s, PB(s) = PM (s),

por lo cual, no habrıa ningun tipo de discriminacion. En cambio, el caso de mayor discriminacion

serıa aquel en que la curva de Lorentz se acerque mas al eje horizontal para todo s < 1 pues este

serıa un discriminador perfecto.

Para medir que tan alejada se encuentra esta curva de la diagonal se calcula el area entre la

diagonal y la curva. El Gini se define, como el doble de dicha area. Considerando que el area del

triangulo ∆OAB es 12 y suponiendo que la funcion discriminante -lineal o no- que se obtuvo es

continua:

Gini = 2 ∗(

12−

∫ 1

0

PB(s)dPM (s))

Observemos que si el diagrama de Lorentz de una Scorecard es la recta, Gini = 0 y si es el

perfecto discriminador, Gini = 1

2.5.3. Uso del Diagrama de Lorentz para determinar el Cut-Off

Supongamos que se conocen L y D, PB(s) = f(PM (s)) y que los porcentajes de buenos y malos

de toda la poblacion son pB y pM entonces la perdida esperada dado que el cut-off se fijo en un


score s es:

P erdida = LPB(s)pB + D(1− PB(s))pM

Si hacemos que PM (s) = x, lo anterior se puede re-escribir como:

P erdida = LpBf(x) + D(1− x)pM

Entonces, derivamos e igualamos a cero:

LpBf ′(x)−DpM = 0

Por lo tanto, concluımos que las perdidas se minimizan si f ′(x) =DpM

LpBPara hallar el cut-off se

procede de la siguiente manera

Se traza la recta con pendiente − LpB

DpMque pasa por el punto (1,0). Sea esta recta ∆

Se proyecta la curva y = f(x) sobre ∆.

El punto para el cual la recta que lo une con su proyeccion es tangente a y = f(x) es el punto

que estamos buscando, pues en ese punto f ′(x) =DpM

LpB

Si la funcion f no es convexa en todo [0, 1], el procedimiento anterior puede producir mas de un

punto. Se toma aquel que se acerque mas al punto (1, 0)

De nuevo, como vimos anteriormente, este procedimiento tiene el problema que se asume que

se conocen D y L y este no es necesariamente el caso pues habrıa que hacer inferencia estadıstica

sobre los clientes rechazados.

Capıtulo III

Metodos alternativos para el desarrollo de una Scorecard

3.1. Estadıstica no-parametrica

3.1.1. Introduccion

La mayorıa de los metodos estadısticos mas comunes, como la Regresion lineal o el Analisis de

Varianza ANOVA recaen sobre supuestos que se hacen acerca de las distribuciones de los datos.

Por ejemplo, el analisis de varianza se basa en el supuesto de que los datos provienen de una dis-

tribucion normal. Por ello, muchas veces, los experimentos estadısticos que se realizan consisten

en estimar los parametros de las distribuciones de la poblacion que se esta evaluando.

Otro inconveniente que se puede encontrar en los metodos estadısticos parametricos, es que muchas

veces su aplicabilidad se limita a variables aleatorias continuas y ademas, la robustez y confiabili-

dad de la inferencia que se hace es muy sensible, en particular cuando la muestra que se tiene es

muy pequena. Ademas, muchos de los metodos, como la estimacion por mınimos cuadrados o la

construccion de intervalos de confianza, dependen del orden y de la escala cuantitativa que tienen

las variables.

Esta claro, que la decision de otorgar o no un credito y las variables que se analizan al momen-

to de tomar dicha decision, sufren de muchas de las fallas que se pueden atribuir a la Estadıstica

Parametrica. Este caso es muy frecuente en estudios para Ciencias Sociales o Estudios de Mercado.

Por ejemplo, si se evalua por que razon un consumidor prefiere una bebida, es difıcil que este grado

de preferencia se pueda cuantificar y aun si se crea una escala de 1 a 10, esta es completamente

arbitraria.

Este inconveniente es aun mas evidente para variables como el Sexo o el Estado Civil, en las

cuales es imposible establecer algun tipo de orden.

La rama de la estadıstica consistente en hacer inferencia acerca de variables sin hacer ningun

27

3.1 Estadıstica no-parametrica 28

tipo de supuestos sobre las distribuciones de las variables de la muestra (ej: ANOVA) y que tam-

poco supone ningun tipo de forma funcional entre las variables (ej: REGRESIONES LINEAL Y

LOGIT) se conoce como Estadıstica no-parametrica. Los metodos no-parametricos son, por lo

general, mas faciles de aplicar que los metodos parametricos pues requieren de pocos supuestos

y funcionan bastante bien en variables que se definen en escalas no ordinales. Sin embargo, cabe

resaltar que si las variables aleatorias de una muestra satisfacen los supuestos que se hacen sobre

ellas, es mejor usar metodos parametricos, no solo por su facil aplicabilidad sino tambien por su

facilidad de interpretacion.

3.1.2. Los k vecinos mas cercanos

El metodo de los k-vecinos mas cercanos es un metodo de estadıstica no parametrica para es-

timar funciones de densidad de probabilidad y fue introducido por primera vez por Fix y Hodges

en 1952 y Cover y Hart en 1967. En el contexto del Credit Scoring, Chatterjee y Barcun en 1970

fueron los primeros en introducir esta metodologıa y Henley y Hand en 1996 [3]publicaron un

artıculo con un extenso analisis sobre el metodo basado en numerosos experimentos.

Se ha considerado un metodo util para modelos de Credit Scoring por las siguientes razones:

Su caracter no-parametrico le permite capturar irregularidades que pueda tener la funncion

discriminante sobre el espacio muestral

Experimentos han revelado que es un metodo mas efectivo que otros metodos no-parametricos

Su filosofıa y su razon de ser son muy sencillas por lo que parece ser facilmente explicable e

interpretable para administradores y banqueros.

La idea del metodo consiste en definir una nueva metrica en RJ de tal forma que al evaluar

un nuevo cliente se identifique a los k clientes con mayor semejanza y que ya han sido clasificados

como “buenos” o “malos”y segun sus caracterısticas, clasificarlo “bueno” o “malo”. Para ello, se

necesita de un espacio de diseno, que ya ha sido clasificado y un espacio de prueba, que serıan

los nuevos solicitantes. Por obvias razones, es de suma importancia escoger bien la metrica y el

numero k de vecinos mas cercanos, ası como el numero crıtico de vecinos con el cual se considera

que el cliente evaluado es bueno o malo. Aunque normalmente se usa como regla clasificar a un

cliente como malo si mas de la mitad de sus k-vecinos mas cercanos lo son, es posible que la regla

cambie. Si se conocen las perdidas esperadas por aprobar malos clientes y rechazar malos clientes,

la regla que minimiza los costos es que un cliente sea clasificado como malo si al menosD

D + Lde

los clientes que mas se le asemejan lo son.

Trabajando en problemas de vecinos mas cercanos, Fukanaga y Flick introdujeron en 1984 la

3.1 Estadıstica no-parametrica 29

siguiente metrica que permite identificar las particularidades de cada conjunto de datos:

d(x1,x2) =√

(x1 − x2)A(x1)(x1 − x2)

En donde A es una matriz de J ×J que puede depender o no de cada x. En su artıculo, Henley et.

al [3] optan por una matriz que no dependa del punto, para que la metrica resultante sea global.

Argumentan que si se escoge una metrica local, es posible que esta capture particularidades de la

muestra, que pueden no ser validas para todo el espacio muestral. Entonces introducen una metrica

definida ası:“Definimos la separacion entre dos puntos como la distancia entre ellos en la direccion

ortogonal a los contornos de equiprobabilidad para p(B|x), la probabilidad de pertenecer a la clase

AB -ser “bueno”- dado que el cliente tiene caracterısticas x. Si se conocieran las ecuaciones de

los verdaderos contornos de equiprobabilidad, la distancia que se escogerıa serıa la distancia en la

direccion ortogonal.” La direccion ortogonal es aquella que separa mejor los conjuntos AB y AM

definidos en el Capıtulo 2. Por lo tanto, es precisamente la direccion de w estimado por cualquier

metodo de analisis disriminante. La distancia en la direccion ortogonal entre dos puntos x y y

esta dada por:

d⊥(x,y) =√

(x− y)T wwT (x− y).

En la practica, la direccion ortogonal se estima mediante MCO, por lo cual, los contornos de

equiprobabilidad que se usan son lineales. Considerando que rara vez se da este caso, para construir

la metrica Henley et. al.[3] la combinan con la norma euclidiana al cuadrado

d(x,y)2 = ||x− y||2 = (x− y)T (x− y)

Dando como resultado la metrica:

d⊥(x,y) =√

(x− y)T (1 + DwwT )(x− y)

que es una forma de la metrica propuesta por Fukunaga y Flick, con

AD,w = I(1 + DwwT )

En donde D es un numero por determinar.

En sus experimentos Henley et. al.[3] llegan a un D ≈ 1,4 para el portafolio en consideracion,

pues es este valor el que minimiza el porcentaje de malos clientes entre los aprobados, mantenien-

do un nivel de aprobacion del 70 %. Muestran tambien que para valores muy pequenos de k, el

porcentaje de malos clientes entre los aprobados es notoriamente mayor que para valores grandes.

A partir de 100, no parece haber mayores variaciones en el porcentaje de malos clientes, aunque

el porcentaje es muy sensible a pequenas variaciones de k.

3.2 Programacion lineal y programacion entera 30

La gran ventaja de este metodo es su facil interpretabilidad y su facil adaptabilidad a los cambios

en la base de datos sobre la cual se construye. La muestra base sobre la cual se construye se puede ir

actualizando periodicamente sin mayor dificultad. Si bien es cierto que el numero de calculos que se

requieren para su implementacion es mucho mayor que para los metodos expuestos en el Capıtulo

anterior, la velocidad de las computadoras hoy en dıa hacen que este problema sea irrelevante.

Sin embargo, este metodo tiene como desventaja que es practicamente imposible monitorear su

calidad, dado que no produce puntajes como tal. Igualmente, es difıcil identificar si la metrica es

obsoleta. Por ultimo, para calcular la direccion ortogonal a los contornos de equiprobabilidad, se

estiman los pesos de las variables como se hizo por regresion lineal o logıstico, por lo cual, muchos

optan en la practica por estos metodos mas tradicionales.

3.2. Programacion lineal y programacion entera

El uso de metodos no-parametricos y de la programacion lineal en problemas de clasificacion

de grupos dentro de poblaciones fue introducido por primera vez en 1965 por el profesor Olvi Man-

gasarian, hoy en dıa en la Universidad de Wisconsin, ampliamente conocido por su investigacion en

optimizacion y en especial, en la aplicacion de metodos de optimizacion al diagnostico de Cancer de

Mama. Mangasarian noto que los metodos de la programacion lineal podıan aplicarse a problemas

de clasificacion en los cuales existe un hiperplano -es decir, una funcion discriminante lineal- que

separe perfectamente los dos grupos en cuestion. Freed y Glover, en 1981 y Hand, el mismo ano

identificaron que las tecnicas de la programacion lineal podıan ser usadas en el contexto de los

problemas de clasificacion aun si los grupos no son linealmente separables, usando como funcion

objetivo la suma de los errores absolutos o la maxima desviacion de los errores.

Recordemos que el objetivo del Credit Scoring es separar A ⊆ RJ , el conjunto de posibles re-

spuestas a un formulario de solicitud de credito, en dos subconjuntos AB y AM de tal forma que

un nuevo solicitante sea clasificado como un buen prospecto o como un mal prospecto. De nuevo,

denotaremos como nB y nM el numero de buenos y de malos clientes en la muestra sobre la cual

se construye el modelo, y llamaremos n el tamano de la muestra. Si X = (X1, X2, . . . , XJ), lo que

se pretende es encontrar (w1, . . . , wJ ) de tal forma queJ∑

i=1

wiXJ se encuentre por encima de un

valor c, el cut-off si el solicitante es un buen cliente y por debajo de c si es malo.

Como hemos visto en metodos anteriores, es poco probable que exista una division perfecta entre

buenos y malos, por lo cual se considera un posible error εi para cada uno de los n solicitantes.

Este puede ser positivo o cero. Si el i-esimo solicitante es bueno, entoncesJ∑

k=1

wkXk ≥ c− εi, y si


es maloJ∑

k=1

wkXk ≤ c + εi. Sea F (ε1, . . . , εJ) = ε1 + · · · + εn y sea gi(w1, . . . , wJ ) =J∑

k=1

wkXik.

Minimizar la suma de los valores absolutos de los errores, equivale a resolver el siguiente programa

lineal:

mın F (ε1, . . . , εJ)

sujeto a: gi(w1, . . . , wJ) ≥ c− εi para cada i tal que el i-esimo solicitante es bueno

gi(w1, . . . , wJ) ≤ c + εi para cada i tal que el i-esimo solicitante es malo

εi ≥ 0,∀i

Si en lugar de minimizar la suma de los errores absolutos se minimiza el maximo error, el

problema se simplifica ası:

mın ε

sujeto a: gi(w1, . . . , wJ) ≥ c− ε para cada i tal que el i-esimo solicitante es bueno

gi(w1, . . . , wJ) ≤ c + ε para cada i tal que el i-esimo solicitante es malo

ε ≥ 0

La gran ventaja que tiene la formulacion por programacion lineal sobre los metodos estadısticos

es que el modelo de Scoring se puede moldear a gusto del usuario. Por ejemplo, si un banco ha

lanzado un nuevo credito, disenado especialmente para clientes mas jovenes y si X1 es la variable

binaria, 1 si el cliente tiene menos de 30 anos, 0 de lo contrario, y X2 es 1 si el cliente tiene mas

de 50 anos y 0 de lo contrario, lo unico que se debe hacer es agregar la restriccion w1 ≥ w2. Otro

ejemplo es que se quiera dar prelacion a las variables de historia de comportamiento suministradas

por una central de riesgo sobre el resto de las variables. Para lograrlo, si suponemos que hay s

variables de centrales de riesgo, se ordenan las variables de tal forma que estas sean las s primeras

y se agrega la restriccion:

w1xi1 + · · ·+ wsx

is ≥ ws+1x

is+1 + · · ·+ wnxi

n

Una de las formulaciones mas generales del problema de asignar pesos a las variables mediante

tecnicas de programacion lineal fue propuesta por Freed y Glover en 1986. Su idea consiste en

minimizar, ademas de los errores εi que se definieron anteriormente, las desviaciones de los clientes

que sı fueron clasificados de manera correcta. Si denotamos estas desviaciones por ei, el problema

es equivalente a resolver el siguiente programa lineal:


mın k0ε0 − l0e0 +n∑

i=1

kiεi +n∑

i=1

liei

sujeto a: gi(w1, . . . , wJ) ≥ c− ε0 − εi + e0 + ei para cada i tal que el i-esimo solicitante es bueno

gi(w1, . . . , wJ) ≤ c + ε0 + εi − e0 − ei para cada i tal que el i-esimo solicitante es malop∑

j=1

(nM

nM∑

k=1

xkj − nB

nB∑

k=1

xkj

)wj = 1

εi, ei ≥ 0,∀i

Sin embargo, se pueden presentar varios inconvenientes en la resolucion del problema:

En las restricciones se ha impuesto un c tal que el score de los buenos este por encima de c

y el de los malos por debajo. Si se pudiera escoger el c de la mejor forma tal y como se hace

con los wi’s, siempre existirıa la posibilidad de una solucion trivial wi = 0 ,∀i, caso en el cual

todos los clientes tendrıan un score de 0 y se encontrarıan en el cut-off. Una manera obvia

de intentar resolver este inconveniente podrıa ser fijar c = 1, aunque Freed y Glover en 1986

mostraron que habrıa que resolver el programa dos veces: caso 1: c > 0, caso 2: c < 0.

Si bien esta formulacion es flexible, el modelo resultante no se adapta tan facilmente a cambios

en los datos. Es posible que haya problemas para los cuales la eleccion ideal de c sea c = 0. Esto

quiere decir que el modelo resultante no es invariante mediante transformaciones lineales a los

datos, como lo muestran Thomas et.al[1] en el Ejemplo 5.2 del Capıtulo 5. Se han propuesto

varias alternativas como cambiar gi(w1, . . . , wJ) ≤ c − ε por gi(w1, . . . , wJ) ≤ c − e − ε, de

tal forma que haya una brecha entre las regiones de buenos y de malos, aunque se crea el

inconveniente de como clasificar a los clientes que se encuentran en la brecha. Glover propuso

en 1990 una forma que resuelve el inconveniente si los vectores promedio de los buenos y

malos son distintos, agregando la siguiente restriccion:

p∑

j=1

(nM

nM∑

k=1

xkj − nB

nB∑

k=1

xkj

)wj = 1

Dado que los modelos que se obtienen mediante programacion lineal no se basan en supuestos

estadısticos, es difıcil estimar la robustez de los modelos y su significancia estadıstica, como

se puede hacer con los modelos estimados mediante tecnicas de regresion. Igualmente, es

difıcil estimar cuales son las variables mas predictivas y cual es su grado de significancia

estadıstica. Para ello, numerosos autores han propuesto tecnicas de Jakknife y Bootstrap.

Ademas, si en una prueba de hipotesis se estima que un peso wi calculado mediante regresion

no es estadısticamente significativo, este es un problema facilmente corregible.


3.2.1. El Problema de Maximizacion del KS

3.2.1.1. Formulacion por Programacion entera mixta

La calidad de un modelo de Credit Scoring se evalua normalmente mediante la prueba estadısti-

ca de Kolmogorov-Smirnoff, calculando la maxima distancia entre las distribuciones acumuladas

de buenos clientes y de malos clientes. A mayor valor del estadıstico, mayor calidad del modelo.

Por lo tanto, si se tiene ya la definicion de buenos y malos, el problema se puede plantear como

hallar los pesos que se asignan a cada una de las J variables y un escalar c (cut-off ) en donde

la separacion entre las dos curvas alcance su mayor valor. Denotaremos por xij la caracterıstica

j-esima del i-esimo cliente. Denotaremos por |B| el numero de buenos clientes y |M | el numero de

malos clientes. Definimos finalmente δi = 1 si el score es menor o igual a c y δi = 0 de lo contrario.

Con las definiciones anteriores, el problema se puede plantear ası:

max1|M |

∑

M

δi − 1|B|

∑

B

δi

sujeto a

−J∑

j=1

wjxij ≤ −c− ε + N · δi, ∀i ∈ B

J∑j=1

wjxij ≤ c + N(1− δi),∀i ∈ M

(c, δ, wj) ∈ {−1, 1} × {0, 1} × RJ

En donde ε es un numero pequeno y N es un numero grande. Al restringir c a ±1 y haciendo

ε lo suficientemente pequeno, se eliminan todas las posibles soluciones triviales. La Formulacion

anterior se denotara como el Problema (P).

3.2.1.2. Problema Dual del Problema de Programacion entera mixta: Multiplicadores de La-grange

El Problema (P) se puede plantear en terminos de multiplicadores de Lagrange ası:

mınλi≥0∀i∈B

θi≥0∀i∈M

maxδ∈{0,1}c=±1

wj∈R

1|M |

∑M

δi − 1|B|

∑B

δi

− ∑i∈B

λi(−J∑

j=1

wjxij + c + ε−N · δi)

− ∑i∈M

θi(J∑

j=1

wjxij − c−N(1− δi))


Este, a su vez es equivalente al siguiente problema:

mınλi≥0∀i∈B

θi≥0∀i∈M

−ε∑B

λi + N∑M

θi

+maxδ∈{0,1}c=±1

wj∈R

∑B

(Nλi − 1|B| )δi +

∑M

(1|M | −Nθi)δi

+c(∑M

θi −∑B

λi) +∑j

(∑ı∈B

λixij −

∑ı∈M

θixij)wj

.

Pero, si se tiene la factibilidad del Problema (P), se tiene tambien la finitud de la funcion

objetivo del problema dual. Basta entonces con maximizar cada una de las sumas del planteamiento

anterior. Por lo tanto, el problema dual de Lagrange se puede escribir como:

mın−ε∑

B

λi + N∑

M

θi +∣∣∣∣∑

B

λi −∑

M

θi

∣∣∣∣ +∑

M

max(0,1|M | −Nθi) +

∑

B

max(0, Nλi − 1|B| )

sujeto a

∑

i∈B

λi · xji −

∑

i∈M

θi · xji = 0, j ∈ {1, 2, . . . , J}

λi, θi ≥ 0.

Este problema es un programa lineal y su representacion en forma estandar es la siguiente:

mın−ε∑

B

λi + N∑

M

θi + Z+ + Z− +∑

M

mi+

∑

B

bi+

sujeto a:

∑

M

θi −∑

B

λi − Z+ + Z− = 0

mi+ + N · θi ≥ 1

|M | , i ∈ M

−bi+ + N · λi ≥ 1

|B| , i ∈ B

∑

i∈B

λi · xji −

∑

i∈M

θi · xji = 0, j = 1, 2, . . . , J


λi, θi,mi+, bi

+, Z+, Z− ≥ 0

Con esta formulacion del problema, los multiplicadores de Lagrange se pueden interpretar como

los pesos que se quieren asignar a las variables.

El KS es solo una de las medidas de calidad de la Scorecard, por lo cual existen muchas otras

formulaciones posibles del calculo de la funcion discriminante como un problema de programacion

entera. En el capıtulo anterior ya vimos como se puede obtener la funcion discriminante lineal

maximizando el ındice de Mahalanobis o minimizando los costos en los que se incurren. Por ejem-

plo, es posible plantear el problema en terminos del coeficiente de Gini o de la funcion de costos

esperados individuales.

Capıtulo IV

Caso practico del desarrollo de una Scorecard

Por la dificultad para contar con datos reales, se simularon aleatoriamente las siguientes vari-

ables que se pueden obtener en una solicitud de credito: Edad, Estado Civil, Numero de Hijos,

Estrato, Nivel de Ingresos, Profesion, Antiguedad en el trabajo, Plazo solicitado, Monto Solicita-

do, Valor de la Cuota, Porcentaje de endeudamiento, Ciudad, Numero de productos con el banco,

Mora Promedio, Mora Maxima, Sexo, Tiene Credito con otra entidad, Mora Maxima en Centrales

de Riesgo, Tiene vehıculo propio y Tipo de Vivienda. El tamano del portafolio se fijo en 5.000

clientes y se asume que los datos corresponden al primer credito de un cliente ya aprobado en la

entidad.

4.1. Definicion de Buenos y Malos

La definicion de Buenos y Malos puede variar segun la entidad. Para nuestro caso diremos que

un cliente bueno es aquel que ha pagado en promedio con una mora menor o igual a 7 dıas y que

nunca ha tenido una mora mayor a 15 dıas. Es comun encontrar estas definiciones en terminos de

cuotas vencidas, o tambien incorporando otras variables como indicadores sobre si figura en listas

negras.

La situacion se observa en la siguiente tabla:

La distribucion entre buenos y malos queda entonces ası:

36

4.2 Seleccion de las variables para el modelo: Analisis de Correlaciones 37

4.2. Seleccion de las variables para el modelo: Analisis de Correlaciones

Una vez se define el indicador de Buenos y Malos, este se cruza con todas las variables

disponibles para determinar cuales son las variables y en que rangos inciden en el buen o mal

comportamiento de pago de los clientes.

Ejemplo: Indicador de Buenos y Malos vs. Ciudad

En este analisis, se incluye la columna %ref (% de referencia) para determinar que tan alejado

esta un cierto rango de una variable de la media de la poblacion, indicando ası un comportamien-

to diferenciado. El %ref corresponde a la desviacion estandar del porcentaje de malos de una

caracterıstica con respecto al porcentaje total de la poblacion, es decir:

%ref =%malospoblacion − %maloscaracterıstica

%malospoblacion.

Se considera que un % de referencia mayor a un 25% en terminos absolutos marca un alto

grado de correlacion entre la variable y el indicador de buenos y malos, aunque esto no es una regla

estricta y en este paso de seleccion de las variables entran en juego criterios ajenos a la estadıstica

como las polıticas de aprobacion de una entidad, la experiencia que tenga la entidad o el marco

regulatorio en el cual deba operar el modelo.

En la tabla se observa que los clientes procedentes de Barranquilla tienen un mal comportamien-

to de pago mientras que los clientes procedentes de Bucaramanga y de Bogota tienen un buen

comportamiento de pago. Como la separacion con respecto a la media es semejante, estas dos

caracterısticas se pueden agrupar en una sola. Igualmente, se observa una tendencia hacia un mal

comportamiento por parte de los clientes procedentes de Medellın, pero debido a que esta tendencia

no es tan marcada, no se considera esta variable para su inclusion en el modelo. Por otra parte,

tambien se observa que los clientes de Pereira son de buen comportamiento, pero debido a que la

porcion del portafolio correspondiente a esta ciudad es muy pequena comparada con el tamano de

todo el portafolio, tampoco se considera esta caracterıstica. En general, se busca que las variables

que se incluyan en el modelo tengan por lo menos el 3% de la poblacion total y menos del 70 %

pues de lo contrario, no contribuirıan en la discriminacion entre buenos y malos clientes.

4.3 Estimacion de los coeficientes mediante un software estadıstico 38

Repitiendo este procedimiento para todas las variables disponibles (salvo para las moras maxi-

ma y promedio pues estas no se conocen en el momento del estudio de credito), se identificaron las

siguientes caracterısticas como relevantes para el modelo estadıstico:

Variable Rango Premio o Castigo

Edad a.18 a 25 Castigo

Edad Mas de 60 Premio

Estado Civil Soltero Castigo

Numero de hijos 3 o mas Premio

Estrato 3 Castigo

Estrato 6 Premio

Nivel de Ingresos Mas de 3’000.000 Premio

Profesion Ingeniero Premio

Antiguedad en el trabajo Menos de 2 anos Castigo

Plazo Solicitado 48 meses Castigo

Monto Solicitado Mas de 12’500.000 Castigo

Valor de la Cuota Mas de 1’000.000 Castigo

% de endeudamiento Mas del 50% Castigo

Ciudad Barranquilla Castigo

Ciudad Bogota o Bucaramanga Premio

Actividad Economica Telecomunicaciones, Castigo

Computadores

y Software

Numero de

productos con el Banco 0 Castigo

Sexo Femenino Premio

Mora maxima

central de riesgo 0 Premio

Por cada una de las caracterısticas que se identifico se crea una variable binaria que toma el

valor 1 si el cliente tiene la caracterıstica y 0 de lo contrario. En total, se crearon 19 variables y

con el “Archivo de 1’s y 0’s” se hace la regresion.

4.3. Estimacion de los coeficientes mediante un software estadıstico

4.3.1. Regresion lineal

Usando el paquete estadıstico Statar se corren las regresiones para estimar los pesos de las

variables y ası, calcular el Score. Para depurar los modelos, e incluir unicamente las variables mas


predictivas, se hace uso de varias pruebas de hipotesis mencionadas el el Capıtulo 2.

Incluyendo todas las variables que se seleccionaron mediante las tablas de correlaciones, se corrio la

regresion lineal, obteniendo un R2 de 58%, y un estadıstico F de 373,85, por lo que se puede afir-

mar que el modelo es globalmente significativo y que la variacion de las variables incluidas explica

el 58% de la variacion en la probabilidad de que un cliente sea bueno o malo. Sin embargo, las

pruebas de t de significancias individuales, arrojaron como resultado, que las variables 2, 9, 16 y 17

no tienen significancia estadıstica (a un nivel de confiabilidad del 95%), pues el p−valor calculado

es mayor al 10 %.

Ası, se obtuvo el siguiente resultado, omitiendo las variables anteriormente mencionadas:

Number of obs 5000

F( 15, 4984) 473,36

p-valor 0

R-squared 0,5876

Adj R-squared 0,5863

Root MSE 0,29398

var20 Coef. Std. Err. t P¿t [95% Conf. Interval]

var1 0,0821197 .0163892 5.01 0.000 .0499897 0,1142498

var3 -0,0612902 .0137728 -4.45 0.000 -.0882909 -0,0342895

var4 0,0316016 .0113354 2.79 0.005 .0093793 0,0538239

var5 -0,0537733 .0115357 -4.66 0.000 -.0763884 -0,0311582

var6 0,0347799 .0103962 3.35 0.001 .0143988 0,0551609

var7 0,0793551 .0103701 7.65 0.000 .0590252 0,0996851

var8 0,0301659 .0102183 2.95 0.003 .0101336 0,0501982

var10 -0,1306917 .0440755 -2.97 0.003 -.217099 -0,0442843

var11 -0,0558619 .0208006 -2.69 0.007 -.0966402 -0,0150836

var12 -0,1394943 .0259574 -5.37 0.000 -.1903823 -0,0886064

var13 -0,144884 .0286893 -5.05 0.000 -.2011277 -0,0886403

var14 -0,0442869 .0139541 -3.17 0.002 -.071643 -0,0169308

var15 0,02704302 .0089123 7.90 0.000 .0529582 0,0879022

var18 0,0502155 .0087094 5.77 0.000 .0331413 0,0672897

var19 0,7364685 .0093864 78.46 0.000 .718067 0,7548699

cons 0,1383707 .0140393 9.86 0.000 .1108474 0,1658939

Se calcula entonces el Score de cada cliente. Se multiplica por 1000, para que quede en una

escala de 1 a 1000:


Score = 1000 ∗ (0, 14 + 0, 08 ∗ v1 − 0, 06 ∗ v3 + 0, 03 ∗ v4 − 0, 05 ∗ v5 + 0, 03 ∗ v6 + 0, 08 ∗ v7+

0, 03 ∗ v8 − 0, 13 ∗ v10 − 0, 06 ∗ v11 − 0, 14 ∗ v12 − 0, 14 ∗ v13

− 0, 04 ∗ v14 + 0, 07 ∗ v15 + 0, 05 ∗ v18 + 0, 74 ∗ v19)

La distribucion por Rangos de Score, se muestra en la siguiente tabla:

El resultado, tal como se preve es que, a mayor Score, menor porcentaje de Malos clientes.

4.3.2. Regresion logıstica

Con la regresion logıstica, las pruebas Z de significancia individual arrojaron los mismos resul-

tados que la regresion lineal, i.e. omitir las variables 2, 9, 16 y 17.

Ası, se obtuvo el siguiente resultado, omitiendo las variables anteriormente mencionadas:

Number of obs 5000

LR chi(15) 3266.54

p-valor 0.000

Pseudo R2 0,5368


var20 Coef. Std. Err. z P¿z [95% Conf. Interval]

var1 0,7933338 .171669 4.62 0.000 .4568687 1.129799

var3 -0,7072326 .1582586 -4.47 0.000 -1.017414 -0,3970514

var4 0,4339326 .1357401 3.20 0.001 .1678868 0,6999783

var5 -0,6403433 .1363175 -4.70 0.000 -.9075206 -0,373166

var6 0,4294323 .1261124 3.41 0.001 .1822566 0,676608

var7 0,9569431 .1273633 7.51 0.000 .7073157 1.20657

var8 0,3694549 .1241019 2.98 0.003 .1262196 0,6126902

var10 -1.440554 .4620981 -3.12 0.002 -2.346249 -0.5348582

var11 -.5594475 .2192381 -2.55 0.011 -.9891464 -.1297486

var12 -1.441214 .2830468 -5.09 0.000 -1.995975 -0,8864523

var13 -1.124393 .2997554 -3.75 0.000 -1.711903 -0,5368832

var14 -0,5464728 .1602247 -3.41 0.001 -.8605075 -0,2324382

var15 .848462 .1096207 7.74 0.000 .6336093 1.063315

var18 0,6259897 .1061237 5.90 0.000 .417991 0,8339883

var19 4.868891 .1279257 38.06 0.000 4.618161 5.119621

cons -2.509152 .1683841 -14.90 0.000 -2.839179 -2.179125

La prueba χ2de significancia global del modelo muestra que el modelo sı es estadısticamente

significativo. Se calcula entonces el Score de cada cliente. Se multiplica por 1000, para que quede

en una escala de 1 a 1000:

Score = 1000 ∗(

eA

1 + eA

)

En donde,

A = −2,51 + 0, 79 ∗ v1 − 0, 70 ∗ v3 + 0, 43 ∗ v4 − 0, 64 ∗ v5 + 0, 43 ∗ v6 + 0, 96 ∗ v7+

0, 37 ∗ v8 − 1,44 ∗ v10 − 0, 56 ∗ v11 − 1, 44 ∗ v12 − 1, 12 ∗ v13

− 0, 55 ∗ v14 + 0, 85 ∗ v15 + 0, 63 ∗ v18 + 4, 86 ∗ v19

La distribucion por Rangos de Score, se muestra en la siguiente tabla:

Al igual que en el caso anterior, a mayor Score, menor porcentaje de Malos clientes.

4.4 Medidas de Calidad de los modelos: Las pruebas KS y Gini 42

4.4. Medidas de Calidad de los modelos: Las pruebas KS y Gini

4.4.1. Prueba KS

Para el calculo del estadıstico KS, se ordenan los datos de menor a mayor score y se calcula

el correpondiente porcentaje acumulado de buenos y de malos clientes. Se calcula adicionalmente

una columna correspondiente a la diferencia entre estos dos porcentajes y el maximo valor de esta

columna sera el ındice de KS del modelo.

Para el modelo lineal, se obtuvo un coeficiente de KS de 79,42% que se alcanza para un score de

727.

Para el modelo logıstico, se obtuvo un coeficiente de KS de 78,92% que se alcanza para un

score de 745.

En la realidad, rara vez se alcanza un KS tan alto en un modelo de aprobacion. Se considera

que un modelo cuyo KS se encuentre en el rango comprendido entre el 30 % y el 40 % es un modelo

de muy buena calidad.

4.5 Uso practico de la Scorecard: Determinando el Cut-Off 43

4.4.2. Coeficiente de Gini

Para el calculo del coeficiente de Gini, de nuevo, se ordenan los datos de menor a mayor y

su correspondiente porcentaje acumulado. Para el calculo de∫ 1

0PB(s)dPM (s), esta se aproxima

mediante su suma inferior es decir, aproximando el area mediante rectangulos:

∫ 1

0

PB(s)dPM (s) ≈∑

s

PB(s) ∗ PM (s)

Para el modelo lineal, obtuvimos un coeficiente de Gini del 87,22%. El siguiente es el diagrama

de Lorentz resultante:

Para el modelo logıstico, obtuvimos un coeficiente de Gini del 87,59%. El siguiente es el dia-

grama de Lorentz resultante:

4.5. Uso practico de la Scorecard: Determinando el Cut-Off

El criterio mediante el cual se determina el puntaje mınimo para aprobar un credito o Cut-off

puede variar. Mas aun, pueden existir varios tipos de corte. Por ejemplo, una vez se ha hecho

el modelo estadıstico, su confiabilidad solo sera sustentada mediante resultados, por lo cual, una

primera aproximacion puede ser mantener el nivel de aprobacion actual.

En nuestro ejemplo, si suponemos que el nivel de aprobacion es de un 70 % de las solicitudes

que se reciben, el cut-off quedarıa fijado en un Score de 356 para el modelo lineal.

4.5 Uso practico de la Scorecard: Determinando el Cut-Off 44

Rango de Score clientes % del total

Mas de 356 3500 70%

Menos de 356 1500 30%

Sin embargo, en el momento en que se tenga mas confianza en esta herramienta se puede

adoptar una regla de decision algo mas sofisticada. Si observamos las tablas siguientes que son la

distribucion acumulada ascendente por score y la distribucion acumulada descendente por score:

se pueden fijar varios tipos de cortes. Por ejemplo, si observamos la tabla de distribucion descen-

dente vemos que si se rechazan automaticamente todas las solicitudes cuyo score es menor a 650,

se estara sacrificando unicamente el 10,05% de los buenos clientes, mientras que se habra evitado

mas del 75% de los malos clientes.

De la misma forma, si observamos la distribucion ascendente por score y se fija aprobacion au-

tomatica en 800, se evita el 91,18% de los clientes malos, sacrificando unicamente 13 % de los

buenos clientes.

En este caso, quedarıan 164 clientes en una “zona gris” entre 650 y 800. Esto corresponde unica-

mente al 3,28% del portafolio, por lo cual, a estos clientes se les podrıa hacer un estudio mas

detallado de aprobacion. Este estudio, puede incluso realizarse con otro modelo de Scoring.

Tambien se puede observar que el punto en donde las curvas de los porcentajes acumulados de

buenos y malos alcanzan su mayor distancia es donde mejor discriminan, por lo cual, esta tambien

es una opcion valida para el cut-off.

Capıtulo V

Conclusiones

En este trabajo se han expuesto algunas de las diferentes alternativas para el desarrollo de

un modelo de Credit Scoring. Hoy en dıa, como se menciono anteriormente, los metodos de re-

gresion lineal o logıstica son los mas ampliamente usados comercialmente, por su facil desarrollo,

ademas de contar con todo el soporte de poderosas herramientas estadısticas como las pruebas de

hipotesis. Con este tipo de modelos, es facil determinar cuales son las variables que tienen mayor

incidencia sobre el comportamiento de pago de los clientes, gracias a las pruebas de significancia

global e individual. Como vimos en el Capıtulo 4 con el ejemplo practico, aunque aparentemente

la regresion logıstica tendrıa una ventaja teorica sobre la regresion lineal por la posibilidad de que

las probabilidades de pago pronosticadas varıen entre −∞ e ∞, los dos metodos arrojan resultados

muy semejantes, como lo reflejan los indicadores Gini y KS que se calcularon.

Las ventajas en cuanto a recursos de computacion y de tiempo, hoy en dıa no son un factor escen-

cial entre las opciones para desarrollar un modelo de Credit Scoring, gracias a los grandes avances

en la velocidad de procesamiento de las computadoras. Por esta razon, metodos que anteriormente

habrıan podido parecer poco viables por la gran cantidad de calculos requeridos, como el de los

k vecinos mas cercanos, son hoy de facil implementacion y desarrollo. Esta ultima metodologıa

tiene como gran ventaja que la muestra sobre la cual se construye el modelo puede ser actual-

izada periodicamente sin mayor dificultad. Sin embargo, dado que no se calcula un puntaje para

cada cliente, es difıcil evaluar la calidad de la segmentacion que se produce. Tampoco es posible

determinar cuando la metrica que se esta usando es obsoleta, para capturar los posibles cambios

que pueda tener una poblacion. Ademas, como este metodo no produce un puntaje para cada

solicitante evaluado, es posible que muchos administradores de cartera prefieran de metodos mas

convencionales como los de regresion para entender que criterio se esta usando en la aprobacion

de creditos.

Los metodos de programacion lineal para calcular los pesos de las variables tienen como ventaja

que pueden incluir tantas restricciones como se necesiten y por ello, se puede asignar el peso y la

prioridad que se quiera a cada una de las variables de las que se disponga. De nuevo, el agregar estas

45

46

restricciones no representa un mayor inconveniente en cuanto a tiempo de calculo, mientras que si

este tipo de restricciones se incluyen en modelos estadısticos de regresion, sı se pueden presentar

problemas en cuanto a recursos de computacion. Sin embargo, se debe mencionar que en estos

metodos no existe una herramienta tan concluyente como las pruebas de significancia para incluir

unicamente las variables mas significativas dentro de un modelo. Es por esto que proyectos recientes

han buscado metodos como Bootstrapping y Jakknife para realizar pruebas de significancia en las

variables. El desarrollo de Scorecards mediante este tipo de metodos parece estar en aumento, con

resultados notables, en particular cuando se cuenta con muestras grandes. En la practica, se ha

visto que las formulaciones del problema de optimizacion, pueden tener como solucion conjuntos

de pesos con un gran numero de ceros, por lo que el poder de discriminacion entre clientes se

disminuye considerablemente. Numerosas investigaciones como las de Sarkar (2004)[2] o Bugera

et. al. (2002) [4] se han llevado a cabo en este sentido. En este ultimo artıculo, se muestra como,

usando herramientas de programacion lineal, se pueden estimar tambien funciones discriminantes

cuadraticas, que por su geometrıa pueden adaptarse mejor a los datos y por lo tanto, discriminar

mejor entre buenos y malos clientes.

Existen tambien muchos otros metodos como Arboles de Clasificacion, Redes Neuronales, Al-

goritmos Geneticos, Redes Bayesianas o los Sistemas Expertos que producen la discriminacion

entre buenos y malos. La ventaja que parecen tener estos metodos sobre los mas convencionales

es su poder para capturar las interacciones entre las variables, hecho que difıcilmente se identi-

ficarıa mediante metodos estadısticos o de programacion lineal. Por ejemplo, usando arboles de

clasificacion podrıa identificarse de una manera natural segmentos muy especıficos de buen o mal

comportamiento como “las mujeres casadas mayores de 50 anos”, que difıcilmente podrıan ser es-

tablecidos a traves de otro tipo de modelos.

Muchas de las crıticas que se le han hecho a la metodologıa del Credit Scoring para la aprobacion

de creditos siguen hoy vigentes y llevan a debates que se pueden considerar mas de ındole etica y

moral que estadıstica o matematica. El artıculo de Capon (1982)[5], enumera diversas fallas que se

pueden atribuir a este tipo de sistemas como son el darle prioridad a la confiabilidad estadıstica y a

la robustez de los modelos, por encima de relaciones causa-consecuencia logicas para determinar el

comportamiento de pago de los clientes. Por esta razon, el uso y el desarrollo de modelos de Credit

Scoring debe estar muy bien regulado. Como mencionamos en nuestro capıtulo introductorio, una

regulacion excesiva tambien puede acarrear problemas o producir un efecto contrario al esperado

pues por ejemplo, si se prohıbe el uso de variables como sexo o edad, se dejarıa de premiar a seg-

mentos que frecuentemente tienen mejor comportamiento como las mujeres o los clientes mayores

de 60 anos.

47

La etapa de implementacion de los modelos tambien es crıtica por lo que los resultados que se

produzcan deben ser de facil comprension e interpretacion por parte de quienes deben finalmente

hacer uso de este tipo de sistemas. De nada sirve que se construya un modelo con toda una

metodologıa cientıfica rigurosa que lo soporte si en el momento de utilizarlo, el criterio de decision

que se determina es tan complejo que no se puede usar en la practica.

Referencias

[1] Thomas, Lyn C, Edelman, David B. y Crook, Jonathan N., Credit Scoring and Its Applications,

SIAM, Society for Industrial and Applied Mathematics, Philadelphia 2002

[2] Sarkar, Debashish, Solving Mixed Integer Formulation of the KS Maximization problem - Dual

Based Methods and Results from large Practical Problems, Management Sciences Group, CIT,

New Jersey, USA, 2005

[3] Henley,W.E. y Hand,D.J., A k Nearest Neighbour Classifier for assessing consumer credit risk,

“The Statistician”, 45, Royal Statistical Society, 1996, p 77–95.

[4] Bugera, Vladimir, Konno, Hiroshi y Uryasev, Stanislav, Credit Cards Scoring with Quadratic

Utility Functions, “Journal of Multi-Criteria Decision Analysis”, 11, Wiley InterScience, 2002,

p 197–211

[5] Capon, Noel, Credit Scoring Systems: A Critical Analysis, “Journal of Marketing”, 46, Pro-

Quest Information and learning company, 1982, p 82–91.

[6] De Castro Korgi, Rodrigo El Universo LATEX, Departamento de Matematicas y Estadıstica,

Universidad Nacional de Colombia, 2001

[7] Canavos, George C. Probabilidad y Estadıstica, Aplicaciones y Metodos, Mc Graw Hill, 1988

[8] Gujarati, Damodar N. Basic Econometrics, Mc Graw Hill, Boston, 2003

[9] Hill, R. Carter, Griffiths, William E. y Judge, George G., Learning and practicing Econometrics,

John Wiley & Sons, New York, 2001.

[10] Mays, Elizabeth , Credit Scoring for Risk Managers: The Handbook for Lenders, Thomson,

South-Western, 5191 Natorp Boulevard, Mason, Ohio 45040, 2004.

[11] Enciso, Miguel Alberto Explicacion de los modelos estadısticos para el desarrollo de un Score

para un portafolio de Creditos de Consumo, Tesis presentada al Departamento de Ingenierıa

Industrial, Universidad de Los Andes, Bogota, Colombia 2003,

48

49

[12] Navas, Juan Fernando, Aplicacion de Boosting en la clasificacion de poblaciones: Un estudio

practico, Tesis presentada al Departamento de Ingenierıa Electrica y Electronica, Universidad

de Los Andes, Bogota, Colombia, 2004,

[13] Decision Theory, Wikipedia, the free Encyclopedia, disponible en

http://en.wikipedia.org/wiki/Decision Theory, 2005.

Fundamentos del desarrollo de un modelo de Credit Scoring ...

Documents

Transcript of Fundamentos del desarrollo de un modelo de Credit Scoring ...