Fundamentos del desarrollo de un modelo de Credit Scoring ...
Transcript of Fundamentos del desarrollo de un modelo de Credit Scoring ...
Fundamentos del desarrollo de un modelo de Credit Scoring
para aprobacion de creditos de consumo
Trabajo de Tesispresentado al
Departamento de Matematicas
por
Francisco Baquero V.
Director: Rene Meziat
Para optar al tıtulo deMatematico
Departamento de MatematicasUniversidad de Los Andes
Febrero 2006
“The true spirit of delight, the exaltation,
the sense of being more than Man,
which is the touchstone of the highest excellence,
is to be found in mathematics as surely as poetry.”
Bertrand Russell (1872-1970), Mysticism and Logic, 1917
ii
Prefacio
Durante cerca de un ano y medio hice parte del equipo de trabajo de LiSim, una empresa de
consultorıa especializada en Riesgo, pionera en el desarrollo de modelos de Scoring en Colombia.
En su trayectoria de cerca de diez anos LiSim se ha posicionado nacional e internacionalmente
como uno de los principales proveedores de modelos de scoring. Trabajando en LiSim no solo
aprendı acerca del Credit Scoring sino que tambien me di cuenta de mi gusto por la estadıstica. En
este trabajo pretendo mostrar mucho de lo que aprendı en mi trabajo como consultor, centrandome
en una de las aplicaciones que tienen los modelos de Scoring, i.e. la aprobacion de creditos.
iii
Agradecimientos
Quiero expresar mi gratitud con todo el grupo LiSim y en especial con su presidenta, la Dra.
Lilian Simbaqueba, por permitirme hacer uso de los conocimientos que adquirı como consultor
de la empresa. Les agradezco inmensamente toda su colaboracion y buena disposicion para el
desarrollo exitoso de este documento. Agradezco tambien a Rene Meziat, director de este proyecto,
por motivarme a investigar en este tema con el que reforce mi gusto por la estadıstica. A mis papas
y a mis hermanos: Gracias, todo esto se lo debo a ustedes.
iv
Resumen
En este trabajo se exponen de manera sencilla los metodos mas frecuentemente usados
en el desarrollo de modelos de Credit Scoring ası como algunos metodos alternativos. Para mayor
claridad, el cuarto capıtulo se consagra a un ejemplo practico
v
INDICE
Indice
Prefacio III
Agradecimientos IV
Resumen V
I. Introduccion 4
1.1. Historia del Credit Scoring . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2. Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
II. Metodos estadısticos: Analisis discriminante y Regresiones 8
2.1. Definicion de Buenos y Malos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.2. Analisis Discriminante: Aproximacion desde la Teorıa de la decision . . . . . . . . 9
2.2.1. Teorıa de la Decision . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.2.2. Determinando la mejor Regla de Decision . . . . . . . . . . . . . . . . . . 10
2.2.3. Caso continuo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.2.4. Caso simple: Una sola variable con distribucion normal . . . . . . . . . . . 13
2.2.5. J variables con distribucion multivariada normal y misma matriz de varianza-
covarianza para los dos grupos . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.2.6. J variables con distribucion multivariada normal: Varianzas distintas de
Buenos y Malos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.3. Analisis discriminante midiendo la separacion de los dos grupos: El indicador de
Mahalanobis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.4. Analisis Discriminante mediante Regresion lineal . . . . . . . . . . . . . . . . . . 17
1
INDICE 2
2.4.1. Regresion logıstica: El modelo LOGIT . . . . . . . . . . . . . . . . . . . . 21
2.5. Medidas de Calidad del modelo: Las pruebas KS y Gini . . . . . . . . . . . . . . . 23
2.5.1. Prueba KS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.5.2. El coeficiente de Gini y las curvas de Lorentz . . . . . . . . . . . . . . . . 24
2.5.3. Uso del Diagrama de Lorentz para determinar el Cut-Off . . . . . . . . . . 25
III. Metodos alternativos para el desarrollo de una Scorecard 27
3.1. Estadıstica no-parametrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.1.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.1.2. Los k vecinos mas cercanos . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
3.2. Programacion lineal y programacion entera . . . . . . . . . . . . . . . . . . . . . . 30
3.2.1. El Problema de Maximizacion del KS . . . . . . . . . . . . . . . . . . . . . 33
IV. Caso practico del desarrollo de una Scorecard 36
4.1. Definicion de Buenos y Malos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
4.2. Seleccion de las variables para el modelo: Analisis de Correlaciones . . . . . . . . 37
4.3. Estimacion de los coeficientes mediante un software estadıstico . . . . . . . . . . . 38
4.3.1. Regresion lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
4.3.2. Regresion logıstica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
4.4. Medidas de Calidad de los modelos: Las pruebas KS y Gini . . . . . . . . . . . . . 42
4.4.1. Prueba KS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
4.4.2. Coeficiente de Gini . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
4.5. Uso practico de la Scorecard: Determinando el Cut-Off . . . . . . . . . . . . . . . 43
V. Conclusiones 45
INDICE 3
Referencias 48
Capıtulo I
Introduccion
El Credit Scoring es una de las aplicaciones mas exitosas de la investigacion de operaciones y
hoy en dıa practicamente la totalidad de instituciones financieras hacen uso de esta metodologıa
para el manejo del riesgo crediticio.
Los modelos de Credit Scoring son una herramienta que apoya la toma de decisiones mediante
un pronostico del riesgo que el cliente representa para una entidad. Desde el momento mismo de
la aprobacion de un credito, las instituciones financieras incurren en varios tipos de riesgo entre
los cuales podemos mencionar:
Riesgo de aprobacion
Riesgo de no pago
Riesgo de desercion
Riesgo de fraude
Las tecnicas de clasificacion tambien aparecen en areas tan diversas como el diagnostico de
cancer de mama, la deteccion de fraudes y la identificacion de patrones. El problema de pronos-
ticar el riesgo en el que se incurre al aprobar un nuevo cliente es particularmente difıcil, pues a
diferencia de los otros riesgos mencionados, en el proceso de aprobacion no se dispone de informa-
cion previa de comportamiento del cliente. El pronostico se debe hacer entonces unicamente con
la informacion que suministre el cliente en la aprobacion del credito.
Esta metodologıa consiste en identificar las variables de la solicitud de credito que tienen una
mayor incidencia en el comportamiento de pago de los clientes. El objetivo es un crecimiento en
la prestacion de servicios, teniendo un control exacto sobre el nivel de riesgo que desea manejar la
entidad.
El Scoring permite segmentar la poblacion y determinar con anterioridad que perfiles son de-
seables o indeseables para la entidad; de esta forma, se ahorran recursos como tiempo dedicado
4
1.1 Historia del Credit Scoring 5
por un analista a la evaluacion del perfil del usuario y, en general, todos aquellos gastos adminis-
trativos que implican la evaluacion de un credito. En este orden de ideas, el Scoring facilita a la
Entidad y, en especial, a sus analistas, el enfoque en aquellos usuarios potenciales, deseables, que
requieren mayor tiempo de servicio y atencion al usuario. Por otra parte, al existir una herramienta
automatizada, se reduce el tiempo de respuesta a un usuario con lo que se esta ganando en servicio.
En la medida que el Scoring evalua el caracter (perfil del usuario) de acuerdo al riesgo que repre-
senta, permite condicionar aspectos del credito como la garantıa o capacidad de pago de acuerdo
al nivel de representa este usuario para una entidad.
1.1. Historia del Credit Scoring
El resultado eventual del Credit Scoring es la segmentacion de una poblacion que esta solicitando
un producto, entre “buenos” clientes y “malos”clientes, en el sentido de que buenos son aquellos
que la entidad esta dispuesta a aprobar y malos, aquellos que no. Fisher, en 1936, abordo por
primera vez en estadıstica el problema de identificar diferentes grupos en una misma poblacion.
Su proposito era el de diferenciar entre dos tipos distintos de iris midiendo sus diferentes partes.
En 1941, en un proyecto de investigacion desarrollado para la Oficina Nacional de Investigaciones
Economicas de Estados Unidos, Durand noto que las tecnicas que Fisher usaba para segmentar
plantas tambien servıan para identificar “buenos” y “malos” creditos.
Los analistas de credito de una entidad siempre han tenido ciertos criterios, algunos de ellos ob-
vios, y otros dados por la experiencia, para determinar si un cliente que solicita un credito tiene
buen perfil de pago. Sin embargo, estos criterios estan sujetos a la opinion de cada analista y
pueden variar. Por esta razon, ya desde la decada de 1930 hubo algunos intentos para unificar
estos criterios y estos conceptos, con el fin de agilizar los procesos de aprobacion de creditos con
un cierto cubrimiento de riesgo. Ası se crearon los primeros sistemas, algunos de ellos numericos,
para otorgar puntajes o simplemente calificaciones de buenos o malos a los creditos.
En 1952, Wonderlic noto que las investigaciones hechas en estadıstica y los avances en los meto-
dos para otorgar credito podıan integrarse para dar un manejo mas adecuado a la aprobacion del
credito. Fue ası como aparecio en San Francisco Fair Isaac, la primera firma consultora estadıstica
especializada en este tipo de modelos. Hoy en dıa, Fair Isaac continua siendo uno de los principales
proveedores de Scorecards en el mundo y tiene centrales de riesgo a lo largo y ancho del planeta.
La aparicion de las tarjetas de credito en la decada siguiente revoluciono por completo la indus-
tria del credito. Dado el inmenso volumen de solicitudes de tarjetas de credito, la implementacion
de herramientas como el Credit Scoring no solo eran utiles sino necesarias. Esta revolucion vino
1.1 Historia del Credit Scoring 6
de la mano con un notorio desarrollo de la industria de la computacion. Los modelos de Credit
Scoring demostraron ser exitosos, reduciendo hasta en un 50 % los problemas de cartera vencida,
demostrando ser mucho mas eficaces que la subjetividad de los analistas de credito.
En nuestro paıs, el desarrollo de modelos de Credit Scoring esta en auge. En el ano 2001 se
reunio el comite de Basilea II para dar recomendaciones a banqueros y a gente en la industria
crediticia sobre un adecuado manejo del riesgo, con el fin de prevenir graves crisis como la de
los Dragones Asiaticos en 1997. La Superintendencia Bancaria ha impuesto para el ano 2006 la
implementacion de modelos estadısticos para el manejo de riesgo crediticio, por lo cual el campo
de accion e investigacion en este tema ha sido y seguira siendo amplio en un futuro proximo.
A pesar de sus evidentes resultados, el Credit Scoring ha sufrido de crıticas a lo largo de la historia.
En primer lugar se dio la discusion sobre que tipo de variables se deben usar o no en la elaboracion
de modelos de Scoring. En algunos paıses, esta disyuntiva ya ha sido resuelta mediante leyes en
las cuales se especifica el tipo de informacion que puede ser considerada en la decision de otorgar o
no un credito. En Estados Unidos, por ejemplo, la decision de otorgar o no un credito no se puede
basar en condiciones de edad, raza, sexo, religion ni ningun tipo de caracterısticas consideradas
como discriminatorias1 . Esto no es necesariamente beneficioso, pues por ejemplo, es muy comun
ver que las mujeres tienen muy buen comportamiento de pago, o que los clientes de la tercera
edad son mejores que el resto. Sin embargo, tambien se exige que esta decision tenga un soporte
estadıstico como el que provee el Credit Scoring.
El Credit Scoring tambien ha sido criticado por no explicar la relacion causa-consecuencia que
existe entre las variables que se incluyen en el modelo y el comportamiento de pago de los clientes.
Es decir, se le critica de ser un metodo netamente empırico y pragmatico. Su objetivo es el de
pronosticar un riesgo, no explicarlo. Su metodologıa estadıstica es valida y reposa sobre el supuesto
de que “el futuro sera como el pasado” aunque esto tambien puede ser objeto de discusion.
Por ultimo, podemos mencionar que el Credit Scoring ha hecho aportes y se ha nutrido de lo
que conoce como “Minerıa de Datos” o “Data Mining”, una practica muy comun en la ultima
decada en las empresas de consumo masivo; esta practica consiste en explorar las bases de datos,
para descubrir en ellas patrones y relaciones entre las diferentes variables, y esto es exactamente lo
que se pretende en el Credit Scoring. Muchas de las tecnicas que se usan como resumenes de datos,
reduccion de variables y agrupacion por rangos, son tecnicas ampliamente usadas en el desarrollo
de modelos de Scoring.
1En la industria del Credit Scoring es famoso un ejemplo de un modelo en el cual se usaron variables como“Numero de a’s” en el nombre, para identificar el origen etnico del solicitante
1.2 Objetivos 7
1.2. Objetivos
En este trabajo expondre algunos metodos para el desarrollo de modelos de Credit Scoring,
comparando su complejidad, su sustento teorico y su viabilidad en cuanto a recursos, enmarcando
todas las metodologıas dentro de un contexto historico.
En particular se analizaran en detalle los metodos de analisis discriminante, regresion lineal y
regresion logıstica, que son los de uso mas frecuente en el desarrollo de Scorecards en portafolios
de Credito. Veremos como mediante metodos distintos, se llega a resultados equivalentes para de-
terminar la funcion discriminante lineal. Se hara un ejemplo practico con unos datos simulados de
una cartera de credito de consumo.
Igualmente, se explicaran los metodos alternativos mediante los cuales se trabaja en Credit Scor-
ing. Entre ellos, expondremos metodos de estadıstica no-parametrica como el de “Los k vecinos
mas cercanos”, k-NN (k nearest neighbors), ası como metodos no-estadısticos como Programacion
lineal y Programacion entera.
Capıtulo II
Metodos estadısticos: Analisis discriminante y Regresiones
Si se cuenta con J variables el problema consiste en determinar una funcion F : RJ −→ R que
a cada (X1, X2, · · · , XJ) le asigne un puntaje que permita calificarlo como buen o mal cliente, y
aprobarlo ( resp. rechazarlo) en caso de que el puntaje se encuentre por encima ( resp. debajo) de
un cierto puntaje que denominaremos cut-off. En el caso del Scoring de Aprobacion el pronostico
que se realiza abarca toda la vida del cliente con el credito. Se busca pronosticar si quien se presen-
ta hoy como solicitante sera un buen o mal cliente, a partir de la morosidad esperada con cada uno.
Se analiza el comportamiento de todos los clientes durante su primer credito aprobado con la
entidad.
A partir de la informacion que se conoce del solicitante, que es en esencia su informacion so-
ciodemografica e historica de comportamiento de pago con otras instituciones si se dispone de un
reporte de centrales de riesgo, se busca pronosticar si tendra un buen o mal comportamiento de
pago para el credito solicitado.
2.1. Definicion de Buenos y Malos
La Definicion de Buenos y Malos permite segmentar la Poblacion Objetivo en un grupo que se
considere con un perfil deseable para aprobar un credito (buenos) y en un grupo que no es optimo
aprobar (malos). Esta es la variable que se va a pronosticar y la que el Score pretende explicar.
Efectivamente, una definicion de Malos se refiere a aquellas cuentas, que dada su experiencia,
la entidad no quiere seleccionar para actividad comercial.
Las variables que se pueden analizar para esta definicion son: Moras promedio, moras maximas,
numero de cuotas vencidas, indicadores de reestructuraciones o refinanciaciones y en general, todas
las variables que puedan ser indicio de un mal comportamiento de pago.
8
2.2 Analisis Discriminante: Aproximacion desde la Teorıa de la decision 9
Posterior a la definicion de Buenos y Malos, el paso siguiente es la definicion de la Ventana del
modelo, es decir el perıodo de tiempo para los creditos madurados. La maduracion se refiere al
tiempo de historia que como mınimo deben tener los creditos para ser modelados.
Ejemplo: Supongamos que se tiene un portafolio de 1500 creditos de consumo y que se ha definido
la ventana para la cual se hara el analisis. La definicion de buenos y malos se puede dar observando
la siguiente tabla:
En este caso, si definimos como cliente bueno aquel que ha pagado en promedio con una
mora menor a 15 dıas y con una mora maxima tambien menor a 15 dıas se obtiene la siguiente
distribucion:
2.2. Analisis Discriminante: Aproximacion desde la Teorıa de la decision
2.2.1. Teorıa de la Decision
La teorıa de la decision es un campo de estudio interdisciplinario, que ha sido objeto de estudio
en matematicas, estadıstica, economıa, filosofıa, administracion y psicologıa. Se refiere a como se
toman decisiones, y como las decisiones optimas pueden ser alcanzadas. La teorıa de la decision es
mas normativa o preceptiva, es decir se refiere a identificar la mejor decision que se puede tomar,
asumiendo que quien toma la decision dispone de toda la informacion necesaria para hacerlo de la
mejor manera posible, calculando con exactitud perfecta, y de manera completamente racional. El
uso practico de este acercamiento preceptivo (como la gente debe tomar decisiones) se llama anali-
sis de la decision, y se dirige a encontrar las herramientas, las metodologıas y software para ayudar
a tomar mejores decisiones. Las herramientas que buscan automatizar los procesos y brindar un
apoyo en la toma de decisiones se llaman los sistemas de ayuda de decision. Es obvio que la gente
no se comporta tıpicamente de maneras optimas, por lo cual hay tambien un campo de estudio
relacionado, que es una disciplina positiva o descriptiva, procurando describir lo que hara la gente
realmente.
2.2 Analisis Discriminante: Aproximacion desde la Teorıa de la decision 10
La teorıa de la decision es solamente relevante en las decisiones que son difıciles por una cier-
ta razon. El concepto de valor esperado surgio el Siglo XVII. Blaise Pascal lo invoco en su famoso
dilema entre creer y no creer en Dios de su Pensees, publicado en 1670. En el momento que uno
debe tomar una decision, la accion que se elija debe ser la que tiene un mayor valor esperado. En
1738, Daniel Bernoulli publico Exposicion de una nueva teorıa en la medida del riesgo
en el que expone la paradoja de San Petersburgo para demostrar que la teorıa del valor esperado
debıa ser normativamente incorrecta. En ese artıculo, Bernoulli tambien da un ejemplo en el cual
un comerciante holandes intenta decidir si asegurar un envıo de Amsterdam a San Petersburgo en
invierno, cuando se sabe que hay una probabilidad del 5 % de que la nave y el cargo se pierdan.
En su solucion el define una funcion para uso general y calcula la utilidad esperada mas que una
ganancia monetaria.
2.2.1.1. El dilema del Pascal
El dilema del Pascal es un ejemplo clasico de una decision bajo incertidumbre. La incertidumbre,
segun Pascal, es si existe o no Dios. Y la creencia o la no-creencia personal en Dios es la opcion
que se tomara. La recompensa por creer en Dios, si es que existe Dios realmente, es infinita, por lo
tanto ası la probabilidad de la existencia de Dios sea pequena, el valor esperado de creer en Dios
es mayor que el de la no-creencia, ası que es mejor creer en Dios.
2.2.2. Determinando la mejor Regla de Decision
Sea A ⊆ RJ el conjunto de posibles respuestas que pueden dar los clientes al formulario de
aprobacion. Lo que se busca mediante el Credit Scoring es determinar un criterio para subdividir A
en dos conjuntos mas pequenos AB y AM de tal forma que los clientes cuyas respuestas pertenezcan
al conjunto AB sean calificados como“buenos”y los que respondan dentro del conjunto AM sean
calificados como “malos” clientes. Existen entonces dos errores posibles en los cuales se puede
incurrir al tomar una decision sobre la aprobacion o no del credito:
1. Rechazar el credito dado que el cliente era bueno. En este caso, se sacrifica una eventual
ganancia que se habrıa obtenido aprobando un buen cliente.
2. Aprobar el credito dado que el cliente era malo. En este caso, las perdidas se producen por
el mal comportamiento de pago del cliente.
Supongamos que la ganancia esperada L es la misma para todos los clientes y que la perdida
esperada D tambien es la misma para todos los clientes. Sea pB el porcentaje total de buenos
clientes y sea pM el porcentaje total de Malos clientes. Supongamos por simplicidad que |A| < ∞,
es decir, que solo existen finitas maneras posibles de llenar un formulario de aprobacion. Esta
suposicion es sensata ası se disponga de variables continuas pues por ejemplo, si se trata del nivel
2.2 Analisis Discriminante: Aproximacion desde la Teorıa de la decision 11
de ingreso, los valores se pueden agrupar por rangos, haciendo ası finitas las opciones de respuesta.
Sea p(x|B) la probabilidad de que un cliente tenga atributos x dado que es bueno. Esta probabilidad
es condicional y esta dada por la formula:
p(x|B) =p(el cliente es bueno y tiene caracterısticas x)
p(el cliente es bueno)
De la misma forma se define p(x|M) la probabilidad de que un cliente tenga atributos x dado que
es malo.
De manera semejante, sea q(B|x) la probabilidad de que un cliente sea bueno dado que sus carac-
terısticas son x
q(B|x) =p(el cliente tiene caracterısticas x y es bueno)
p(el cliente tiene caracterısticas x)
Combinando estas dos probabilidades y fijando
p(x) = p(el cliente tiene caracterısticas x) se obtiene:
p(el cliente es bueno y tiene caracterısticas x) = q(B|x)p(x) = p(x|B)pB
Llegamos ası al Teorema de Bayes:
q(B|x) =p(x|B)pB
p(x)
y por un procedimiento semejante:
q(M |x) =p(x|M)pM
p(x)
Combinamos estos dos resultados y se obtiene:
q(B|x)q(M |x)
=p(x|B)pB
p(x|M)pM
Si se aceptan los clientes cuyas caracterısticas estan en el conjunto AB y se rechazan aquellos
que esten en AM , el costo esperado por cada solicitante es:
L∑
x∈AM
p(x|B)pB + D∑
x∈AB
p(x|M)pM = L∑
x∈AM
q(B|x)p(x) + D∑
x∈AB
q(M |x)p(x)
Para ver como se minimiza este costo, es suficiente notar que si x ∈ AB solo se genera un
costo si quien solicita el credito es un mal cliente y por lo tanto el costo en el que se incurre es:
Dp(x|M)pM . Por el contrario, si x ∈ AM el costo que se genera es Lp(x|B)pB .
Ası se obtiene la Regla de decision: x se ubica en AG si Dp(x|M)pM ≤ Lp(x|B)pB
2.2 Analisis Discriminante: Aproximacion desde la Teorıa de la decision 12
AB = {x|Dp(x|M)pM ≤ Lp(x|B)pB}
={x|D
L≤ p(x|B)pB
p(x|M)pM
}
={x|D
L≤ q(B|x)
q(M |x)
}.
Sin embargo, esta solucion al problema tiene el inconveniente de que depende de la perdida
esperada y de la ganancia esperada, y estas cantidades no son necesariamente conocidas.
Es mas frecuente encontrar en la practica una aproximacion al problema ası: Fijar una tasa de
aprobacion a, mientras que se minimizan las perdidas.
En ese caso AB debe ser tal que:∑
x∈AB
(p(x|B)pB + p(x|M)pM ) = a
mientras que la cartera sin pago, o en “default”∑
x∈AB
p(x|M)pM1 se minimiza.
Sea b(x) = p(x|M)pM . El problema de optimizacion consiste entonces en hallar un conjunto AB
tal que:
mın∑
x∈AB
b(x) =∑
x∈AB
(b(x)p(x)
)p(x)
sujeto a
∑
x∈AB
p(x) = a
La solucion a este problema se puede hallar mediante multiplicadores de Lagrange, o simple-
mente, observando que cualquier administrador es averso al riesgo y por lo tanto escoge la solucion
de tal forma que b(x)p(x) ≤ c en donde c se fija para que
mın∑
x∈AB
p(x) = a
Entonces, en este caso:
AB ={x| b(x)
p(x)≤ c
}
= {x|q(B|x) ≤ c}
={x|1− c
c≤ p(x|B)pB
p(x|M)pM
}.
1Default: En el ambito financiero el evento de incumplimiento total de una obligacion
2.2 Analisis Discriminante: Aproximacion desde la Teorıa de la decision 13
Por lo tanto, la Regla de decision que se obtiene mediante este procedimiento, es equivalente
al procedimiento anterior, para una escogencia adecuada de las perdidas y ganancias estimadas D
y L.
2.2.3. Caso continuo
Si ahora consideramos el caso en el que las variables que se capturan en el formulario de solicitud
de credito son continuas, el procedimiento es analogo al hecho para las variables discretas. Las
probabilidades discretas condicionales p(x|B) y p(x|M) se cambian por las funciones de densidad
de probabilidad f(x|B) y f(x|M). Las sumas se cambian por integrales y los costos se convierten
entonces en:
L
∫
x∈AM
f(x|B)pBdx + D
∫
x∈AB
f(x|M)pMdx.
Ası, llegamos a una Regla de decision equivalente:
AB = {x|Df(x|M)pM ≤ Lf(x|B)pB}
={x|D
L≤ f(x|B)pB
f(x|M)pM
}
2.2.4. Caso simple: Una sola variable con distribucion normal
Supongamos que se dispone de una unica variable continua para pronosticar el comportamiento
de pago de un cliente. Sea esta variable aleatoria X y supongamos que tanto las probabilidades de
X dado que es bueno y como dado que es malo son Normales con media y varianza constantes, y
que ademas, las varianzas de los dos grupos son iguales, es decir:
f(x|B) =1√
2πσ2e
−(x− µB)2
σ2
y
f(x|M) =1√
2πσ2e
−(x− µM )2
σ2
2.2 Analisis Discriminante: Aproximacion desde la Teorıa de la decision 14
En este caso:
AB = {x|Df(x|M)pM ≤ Lf(x|B)pB}
={x|D
L≤ f(x|B)pB
f(x|M)pM
}
=
{x|DpM
LpB≤ e
−(x−µB)2
σ2
e−(x−µM )2
σ2
}
=
{x|DpM
LpB≤ e
((x− µM )2 − (x− µB)2
2σ2
)}
=
{x|x ≥
( µB2 + µM
2
2+ σ2 log
(DpM
LpB
)
µB − µM
)}
Para efectos practicos, la Regla de decision se puede interpretar en este caso como “Apruebe si
x es lo suficientemente grande”.
2.2.5. J variables con distribucion multivariada normal y misma matriz de varianza-covarianza para los dos grupos
En la practica, la decision de otorgar o no un credito se basa en mucho mas que una sola vari-
able pues difıcilmente una sola variable puede determinar un perfil de riesgo del cliente. En el caso
en que se disponga de J variables, supongamos que si X = (x1, . . . , xJ) es el vector de respuestas,
µB y µM son los vectores promedio de las poblaciones de clientes buenos y malos respectivamente
y que la variable se distribuye normal multivariada para las dos poblaciones. Supongamos tam-
bien que la matriz de varianza-covarianza Σ es la misma para las dos poblaciones es decir tal que
E(Xi|B) = µB,i, E(Xi|M) = µM,i y E(XiXj |B) = E(XiXj |M) = Σij
En este caso la funcion de densidad de probabilidad condicional de X dado que el cliente es
bueno se ve ası:
f(x|B) = (2π)−J2 (detΣ)−
12 exp
(−(x− µB)Σ−1(x− µB)T
2
)
en donde (x− µB) es un vector de 1× p y (x− µB)T su transpuesto.
Por un procedimiento identico al realizado en §2.2.4 llegamos a la Regla de decision:
2.3 Analisis discriminante midiendo la separacion de los dos grupos: El indicador deMahalanobis 15
f(x|B)f(x|M)
≥ DpM
LpB.
El conjunto AB queda entonces definido ası:
AB ={x∣∣∣∣x · Σ−1(µB − µM )T ≥ µB · Σ−1µB
T + µM · Σ−1µMT
2+ log
(DpM
LpB
)}
Notese que la regla de decision se basa en una combinacion lineal de los xi’s, esta funcion es la que se
conoce como funcion discriminante lineal. Notese tambien que determinando la Regla de decision,
asumimos que las medias y las varianzas-covarianzas de la poblacion se conocen, pero este caso se
da rara vez en la practica. Entonces, reemplazamos Σ por S, la matriz de varianzas-covarianzas de
la muestra y µB y µM por mB y mM las medias muestrales de las poblaciones de Buenos y Malos
respectivamente.
2.2.6. J variables con distribucion multivariada normal: Varianzas distintas de Buenosy Malos
Otra crıtica que se puede hacer al procedimiento anterior es el supuesto de que las varianzas
de las poblaciones de Buenos y Malos son iguales. Supongamos entonces que ΣB es la matriz cor-
respondiente a la poblacion de buenos clientes y ΣM la de los malos clientes., entonces, retomando
la Regla de decision obtenida en §2.2.4
f(x|B)f(x|M)
≥ DpM
LpB=⇒
(x(ΣB−1 − ΣM
−1)xT + 2x · (Σ−1B µB
T − Σ−1M µM
T ) ≥
µB · Σ−1µBT + µM · Σ−1µM
T + 2 log(
DpM
LpB
)
La funcion discriminante que se obtiene es una forma cuadratica en las variables x1, . . . , xJ , por
lo cual uno supondrıa una mejor discriminacion que en el caso de varianzas iguales. Sin embargo,
al suponer que las varianzas son distintas, se debe estimar el doble de parametros, i.e. todas las
entradas de ΣB y ΣM , por lo cual, la incertidumbre en los resultados es el doble de la anterior;
parece entonces inutil buscar esa supuesta mayor precision en los modelos. En 1983, Reichert, Cho
y G.M. Wagner confirman esta suposicion mediante numerosos experimentos.
2.3. Analisis discriminante midiendo la separacion de los dos grupos: Elindicador de Mahalanobis
En su trabajo original de 1936, Fisher introdujo la funcion discriminante lineal para identificar
varios grupos dentro de una poblacion de flores. En nuestro caso, se pretende identificar dos grupos,
i.e. el grupo de los Buenos y el grupo de los Malos, mediante una tal funcion que solo involucre
variables disponibles en el formulario de solicitud de credito y en las centrales de riesgo. Si tenemos:
2.3 Analisis discriminante midiendo la separacion de los dos grupos: El indicador deMahalanobis 16
Y =J∑
i=1
wiXi.
una combinacion lineal cualquiera de las variables Xi, . . . , XJ . Para saber que tan separados
estan los clientes buenos de los clientes malos, una primera medida obvia es medir que tan alejadas
se encuentran las medias de los buenos y de los malos. Ademas, se debe tener en cuenta la dispersion
de los datos en los dos grupos. Por esta razon, Fisher sugirio el indicador de Mahalanobis para
medir la distancia entre los dos grupos, suponiendo que en los dos se tiene la misma varianza. Este
indicador esta dado por la formula:
M =Distancia entre las medias muestrales de los dos grupos
(varianza muestral de cada grupo)12
Al dividir por las varianzas, se estandariza la medida, para que esta sea independiente de la
escala que se use en cada variable.
En el contexto del Credit Scoring, si asumimos que mB ymM son las medias muestrales de los
buenos y de los malos respectivamente y que S es la matriz de varianza-covarianza muestral en-
tonces
M(w) = wT · mB −mM
(wT · S ·w)12
Pues se tiene que E(Y |B) = wT ·mB y E(Y |M) = wT ·mM y V ar(Y ) = wT · S ·w.
Como M(w) es una medida de discriminacion entre los grupos, lo que se pretende es maximizar
esta medida asignando valores a los wi’s.
Entonces, derivando M con respecto a w :
∂M
∂w=
mB −mM
(wT · S ·w)12− (w · (mB −mM )T ) · SwT
(wT · S ·w)32
.
Igualando a cero:
mB −mM
(wT · S ·w)12− (w · (mB −mM )T ) · SwT
(wT · S ·w)32
= 0
(mB −mM )(wT · S ·w) = (w · (mB −mM )T ) · SwT
wT =S−1(mB −mM )T (wT · S ·w)
12
(w · (mB −mM )T )
Para demostrar que este punto crıtico es un maximo habrıa que demostrar que la matriz Hessiana
de las segundas derivadas de M con respecto a los wi’s evaluada en este punto no es definida
positiva.
2.4 Analisis Discriminante mediante Regresion lineal 17
Dado que wT ·S·ww·(mB−mM )T es un escalar, se obtiene que:
w ∝ S−1(mB −mM )T
por lo cual, la funcion discriminante lineal que se obtiene en este caso es la misma que se obtuvo
en el caso multivariado normal, pero con la diferencia de que esta vez no se hizo ninguna suposicion
acerca de las distribuciones. Este metodo funciona sea cual sea la distribucion de X.
2.4. Analisis Discriminante mediante Regresion lineal
El metodo de regresion lineal, estimando los pesos de las variables mediante mınimos cuadrados
ordinarios, es ampliamente usado para los modelos de Credit Scoring.
Supongamos que pi es la probabilidad de que el i-esimo cliente cumpla con sus obligaciones de
pago y supongamos que
pi =J∑
k=1
wkxki∀i
Sea nB el numero de buenos clientes y nM el numero de malos clientes, de manera que nB+nM = n.
Supongamos por simplicidad que los clientes buenos son los primeros nB-esimos, de manera que
para ellos pi = 1 y para los malos, es decir, del (nB + 1)-esimo en adelante, pi = 0.
El error εi en la inferencia para el i-esimo cliente esta dado por:
εi =
1−J∑
k=0
wkxki 1 ≤ i ≤ nB
J∑k=0
wkxki nB ≤ i ≤ n
Luego, la Suma de los Cuadrados de los errores (SCE) esta dada por:
SCE =n∑
i=1
ε2i =
nB∑
i=1
(1−
J∑
k=0
wkxki
)2
+nM∑
i=1
( J∑
k=0
wkxki
)2
Si escribimos la ecuacion de regresion en terminos matriciales, esta se ve ası:
1 x11 . . . . . . xJ
1
1 x12 . . . . . . xJ
2
. . . . . . . . . . . . . . .
1 x1nB
. . . . . . xJnB
1 x1nB+1 . . . . . . xJ
nB+1
. . . . . . . . . . . . . . .
1 x1n . . . . . . xJ
n
w0
w1
. . .
wnB
wnB+1
. . .
wn
=
1
1
. . .
1
0
. . .
0
2.4 Analisis Discriminante mediante Regresion lineal 18
Sea X=
1 x11 . . . . . . xJ
1
1 x12 . . . . . . xJ
2
. . . . . . . . . . . . . . .
1 x1nB
. . . . . . xJnB
1 x1nB+1 . . . . . . xJ
nB+1
. . . . . . . . . . . . . . .
1 x1n . . . . . . xJ
n
sea wT =
w0
w1
. . .
wnB
wnB+1
. . .
wn
y sea pT =
(1B
0M
)
En donde 1B es el vector de 1 × nB cuyas entradas son todas iguales a 1. La ecuacion se con-
vierte entonces en XwT = pT
SCE se puede reescribir ası:
SCE = (XwT − pT )T (XwT − pT )
Para minimizar, derivamos con respecto a w e igualamos a cero:
∂SCE
∂w= XT (XwT − pT ) = 0
XT XwT = XT pT
Entonces el estimador de w es:
wT = (XT X)−1XT pT
Veamos ahora, que este metodo produce la misma funcion lineal discriminante estimada en los
metodos anteriormente expuestos:
Sea XB=
x11 . . . . . . x1J
x21 . . . . . . x2J
. . . . . . . . . . . .
xnB1 . . . . . . xnBJ
Sea XM=
x11 . . . . . . x1J
x21 . . . . . . x2J
. . . . . . . . . . . .
xnM1 . . . . . . xnM J
Entonces
XT · pT =
(1 1
XB XM
)(1B
0
)=
(nB
nBmB
)
2.4 Analisis Discriminante mediante Regresion lineal 19
por otra parte:
XT X =
(1 1
XB XM
)(1 XB
1 XM
)=
(n nBmB + nMmM
nBmTB + nMmT
M XTBXB + XT
MXM
)
XTBXB + XT
MXM = n · Cov(Xi, Xj) + nBmBmTB + nMmMmT
M
Reemplazando Cov(Xi, Xj) por S, la matriz de varianza-covarianza de la muestra:
XTBXB + XT
MXM = n · S + nBmBmTB + nMmMmT
M
nw0 + (nBmB + nMmM )wT = nB
Luego, despejando w0:
w0 =nB −+(nBmB + nMmM )wT
n
Ademas:
(nBmTB + nMmT
M )w0 + (n · S + nBmBmTB + nMmMmT
M )wT = nBmTB
Reemplazando w0:
(nBmTB + nMmT
M )(
nB − (nBmB + nMmM )wT
n
)+
n · SwT + (nBmBmTB + nMmMmT
M )wT = nBmTB
Entonces, simplificando:
(nBnM
n
)(mB −mM )wT + nSwT =
(nBnM
n
)(mB −mM )T
de donde:
SwT = c(mB −mM )T
Por lo tanto, la regresion lineal produce la misma funcion discriminante que se obtuvo mini-
mizando las funciones de costos y el ındice de Mahalanobis. La ventaja esta en que se puede usar
todo el poder de esta herramienta estadısitca, ampliamente conocida, con las pruebas estadısticas
de significancia individual de las variables y global del modelo ası como conocer el R2 para deter-
minar que tanto la variabilidad en las variables predictivas afecta la variabilidad en la probabilidad
de que un cliente sea bueno o malo.
2.4 Analisis Discriminante mediante Regresion lineal 20
Teorema 2.1 (Gauss-Markov) El metodo de regresion por mınimos cuadrados produce el MELI
(Mejor estimador lineal insesgado), en el sentido de que cualquier otro estimador lineal de los
coeficientes tiene una matriz de varianza-covarianza mayor que la del estimador de MCO
Demostracion: Vamos a proponer otro estimador lineal para w
w = ((XT X)−1X + C)p
E[w] = E[(XT X)−1X + C)(Xw + U)],En donde U es el vector de los errores
E[w] = E[(XT X)−1XT Xw] + E[(XT X)−1XT U ] + CXw + CE[U ]
E[w] = w + CXw
Luego, w es insesgado solo si CX = 0
var − cov(w) = E[(w− E[w])(w− E[w])T ]
var − cov(w) = E[(w−w)(w−w)T ]
var − cov(w) = E[((XT X)−1XT U + CU)((XT X)−1XT U + CU)T ]
var − cov(w) = E[((XT X)−1XT U + CU)(UT CT + UT X(XT X)−1)]
var − cov(w) = E[(XT X)−1XT UUT CT + (XT X)−1XT UUT X(XT X)−1
+ CUUT CT + CUUT X(XT X)−1]
var − cov(w) = σ2(XT X)−1XT CT + σ2(XT X)−1 + σ2CCT + σ2CX(XT X)−1
var − cov(w) = σ2(XT X)−1 + σ2CCT
Luego, var-cov(w) es “mınima” si C = 0. ♣
Tambien puede demostrarse que los estimadores de MCO son los estimadores de maxima verosimil-
itud por lo cual, cumplen con las siguientes propiedades:
1. Cada wi tiene una distribucion normal con media E(wi) y varianza V ar(wi) = c(i+1)σ2 en
donde c(i+1) es el (i + 1)-esimo elemento de la diagonal de (XT X)−1
2. Cov(wi, wj) = c(i+1)(j+1)σ2 en donde c(i+1)(j+1) es el elemento de (XT X)−1 que se encuentra
en la (i + 1)-esima fila y la (j + 1)-esima columna.
Con lo anterior, podemos entonces estimar la varianza de los errores por
S2 =pT p− wT XT p
n− J
2.4 Analisis Discriminante mediante Regresion lineal 21
en donde, n es el numero de observaciones y m es el numero de coeficientes por calcular. Entonces,
podemos estimar V ar(wi) ası:
s2(wi) = c(j+1)S2
Conociendo entonces la varianza de la muestra, el estadıstico:
T =wj −wj
s(wj)
sigue una distribucion t de student con n − J grados de libertad. Podemos entonces realizar la
prueba de hipotesis:
H0 : wj = 0
Halternativa : wj 6= 0
Uno de los supuestos del modelo de regresion lineal es que los errores se distribuyen normal con
media cero. Por lo tanto, los cuadrados de los errores se distribuyen χ2 y la suma de ellos, tambien.
Lo mismo sucede con la suma de cuadrados de la regresion. SCEn−J = CME es el cuadrado medio
del error y CMR = SCRJ−1 es el cuadrado medio de la regresion. Al tomar el cociente de ellos dos:
F =CMR
CME
Se obtiene un estadıstico F que se distribuye F con J − 1 y n − J grados de libertad. Con este
estadıstico se puede entonces llevar a cabo la prueba de hipotesis estadıstica:
H0 : w1 = w2 = · · · = wJ = 0
Halternativa : wj 6= 0Para algun i
2.4.1. Regresion logıstica: El modelo LOGIT
La Regresion lineal mediante el metodo de mınimos cuadrados ordinarios se basa en supuestos
que muchas veces son difıciles de verificar y que mas aun, en la practica se ven frecuentemente
quebrantados. En este caso, la funcion discriminante que se quiere calcular con la regresion debe
tener como rango el intervalo [0, 1] porque la variable dependiente, es una probabilidad. El modelo
de regresion lineal multiple, a priori, no tiene por que estar acotado, por lo cual a diferentes valores
de xi, . . . , xJ la variable dependiente pi podrıa variar en un rango de −∞ a ∞. Para resolver esta
posible falla del modelo en el contexto del Credit Scoring, Wiginton en 1980 fue uno de los primeros
autores en introducir una transformacion, que lleva al modelo LOGIT. Para ello, noto que si pi
varıa en un rango entre 0 y 1 sus “odds” =pi
1− pivarıan entonces entre 0 e ∞. Por lo tanto
log(
pi
1− pi
)varıa entre −∞ e ∞. Por esta razon, si se estima el modelo
log(
pi
1− pi
)=
J∑
k=1
wkxki∀i
2.4 Analisis Discriminante mediante Regresion lineal 22
se logra que pi varıe entre 0 y 1 pues
pi =ew·x
1 + ew·x < 1
Esta ecuacion se conoce como el supuesto de la Regresion logıstica. Los coeficientes de esta
ecuacion no se pueden estimar mediante mınimos cuadrados ordinarios, pues el logaritmo de los
“odds” solo toma dos valores, que carecen de sentido:
log(
pi
1− pi
)=
log( 01 ) si el cliente i es malo
log( 10 ) si el cliente i es bueno
Para estimar los pesos de las variables, se debe entonces utilizar un metodo alternativo, entre
los que podemos mencionar metodos de maxima verosimilitud, que a su vez necesitan de algoritmos
como el de Newton-Raphson. El metodo de maxima verosimilitud consiste en estimar el valor de
los parametros maximizando la probabilidad de que la muestra que se tiene sea representativa.
El ajuste del modelo, su capacidad predictiva, la significancia global y la significancia individ-
ual de las variables, se pueden medir mediante pruebas de hipotesis estadısticas, tal como en el
caso de la Regresion lineal. Usando el metodo de maxima verosimilitud, se puede demostrar tam-
bien que el pseudo − R2 mide el ajuste del modelo, aunque en el caso de los modelos de Scoring,
este no es el problema primordial.
Igualmente, para la significancia individual, dado que se supuso que los pesos de las variables
tenıan una distribucion normal, se puede usar el estadıstico Z para la prueba de hipotesis:
H0 : wj = 0
Halternativa : wj 6= 0
Para la significancia global del modelo, se usa el estadıstico χ2 con J grados de libertad, que
tambien se conoce como el cociente de verosimilitud LR por sus siglas en ingles (Likelihood Ratio).
Si se supone de nuevo que la distribucion de X es normal multivariada y que las medias son
µB entre los buenos y µM entre los malos con una matriz comun de varianza-covarianza Σ. Es
decir, tal que E(Xi|B) = µB,i, E(Xi|M) = µM,i y E(XiXj |B) = E(XiXj |M) = Σij
f(x|B) = (2π)−J2 (detΣ)−
12 exp
(−(x− µB)Σ−1(x− µB)T
2
)
2.5 Medidas de Calidad del modelo: Las pruebas KS y Gini 23
Si pB es el porcentaje de buenos clientes de toda la poblacion y pM el de malos entonces el
logaritmo de los “odds” de probabilidad para el i-esimo cliente son:
log(
pi
1− pi
)= log
(pGf(x|B)pMf(x|M)
)
= x · Σ−12(µM − µB)T + (µBΣ−1µTB + µMΣ−1µT
M ) + log(
pB
pM
)
Se obtiene entonces tambien una combinacion lineal de los xi’s, por lo cual, se satisface el supuesto
de la regresion logıstica.
Sin embargo, el supuesto de normalidad no es una condicion necesaria para que se satisfaga el
supuesto de la regresion logıstica. Por ejemplo, consideremos el caso en el que todas las variables
son binarias e independientes entre ellas. Esto quiere decir que:
p(Xi = 1|B) = pB(i);p(Xi = 0|B) = 1− pB(i)
p(Xi = 1|M) = pM (i);p(Xi = 0|B) = 1− pM (i)
Luego, si pB ypM son las proporciones de buenos y de malos clientes en toda la poblacion
p(B|x) =p(x|B)pB
p(x)=
n∏i=1
pB(i)xi(1− pB(i)xi)1−xipB
p(x)
Entonces
log(
p(B|x)p(M |x)
)=
∑
i
xi(log(pB(i))− log(pM (i)))
+∑
i
(1− xi)(log(1− pB(i))− log(1− pM (i))) + log(
pB
pM
)
=∑
i
xi
(log
(pB(i)(1− pM (i))pM (i)(1− pB(i))
))+
∑
i
log(
1− pB(i)1− pM (i)
)
+ log(
pB
pM
)
El resultado que se obtiene es de nuevo una combinacion lineal de las variables por lo cual, se
cumple el supuesto de la regresion logıstica.
2.5. Medidas de Calidad del modelo: Las pruebas KS y Gini
2.5.1. Prueba KS
La idea del estadıstico Kolmogorov-Smirnoff, al igual que el ındice de Mahalanobis, es medir
que tanto discrimina el score entre buenos y malos. Para ello, se define: PB(s) =∑x≤s
pB(x) y
PM (s) =∑x≤s
pM (x), que son las distribuciones acumuladas, de buenos y malos respectivamente,
hasta el score s.
2.5 Medidas de Calidad del modelo: Las pruebas KS y Gini 24
Ası, se define entonces el estadıstico Kolmogorov-Smirnoff como:
KS = maxs|PB(s)− PM (s)|
Claramente, mientras mas se acerque este valor al 100%, mayor discriminacion tendra el modelo
2.5.2. El coeficiente de Gini y las curvas de Lorentz
Una ındice estadıstico de amplio conocimiento, por su frecuente uso en economıa, es el coefi-
ciente de Gini. Este coeficiente se usa para medir la desigualdad en la distribucion del ingreso en
una economıa. En los paıses del tercer mundo esta desigualdad es muy marcada, en especial en
paıses como Sudafrica, Brasil, Chile o Colombia, por lo cual el correspondientre coeficiente de Gini
es muy alto.
En el contexto del Credit Scoring, a diferencia de una economıa, lo que se pretende es que el
modelo estadıstico que se haga para pronosticar el comportamiento de pago de los clientes sı dis-
crimine mucho entre Buenos y Malos clientes y que por lo tanto tenga un coeficiente de Gini muy
alto.
2.5 Medidas de Calidad del modelo: Las pruebas KS y Gini 25
2.5.2.1. Calculo del Coeficiente de Gini
Para el calculo del coeficiente de Gini se grafica PB(s) vs. PM (s). Esta grafica es la que se
conoce como el diagrama de Lorentz. En la misma grafica se incluye la recta dada por la ecuacion
PB(s) = PM (s), que corresponderıa al hipotetico caso en el que, en cualquier s, PB(s) = PM (s),
por lo cual, no habrıa ningun tipo de discriminacion. En cambio, el caso de mayor discriminacion
serıa aquel en que la curva de Lorentz se acerque mas al eje horizontal para todo s < 1 pues este
serıa un discriminador perfecto.
Para medir que tan alejada se encuentra esta curva de la diagonal se calcula el area entre la
diagonal y la curva. El Gini se define, como el doble de dicha area. Considerando que el area del
triangulo ∆OAB es 12 y suponiendo que la funcion discriminante -lineal o no- que se obtuvo es
continua:
Gini = 2 ∗(
12−
∫ 1
0
PB(s)dPM (s))
Observemos que si el diagrama de Lorentz de una Scorecard es la recta, Gini = 0 y si es el
perfecto discriminador, Gini = 1
2.5.3. Uso del Diagrama de Lorentz para determinar el Cut-Off
Supongamos que se conocen L y D, PB(s) = f(PM (s)) y que los porcentajes de buenos y malos
de toda la poblacion son pB y pM entonces la perdida esperada dado que el cut-off se fijo en un
2.5 Medidas de Calidad del modelo: Las pruebas KS y Gini 26
score s es:
P erdida = LPB(s)pB + D(1− PB(s))pM
Si hacemos que PM (s) = x, lo anterior se puede re-escribir como:
P erdida = LpBf(x) + D(1− x)pM
Entonces, derivamos e igualamos a cero:
LpBf ′(x)−DpM = 0
Por lo tanto, concluımos que las perdidas se minimizan si f ′(x) =DpM
LpBPara hallar el cut-off se
procede de la siguiente manera
Se traza la recta con pendiente − LpB
DpMque pasa por el punto (1,0). Sea esta recta ∆
Se proyecta la curva y = f(x) sobre ∆.
El punto para el cual la recta que lo une con su proyeccion es tangente a y = f(x) es el punto
que estamos buscando, pues en ese punto f ′(x) =DpM
LpB
Si la funcion f no es convexa en todo [0, 1], el procedimiento anterior puede producir mas de un
punto. Se toma aquel que se acerque mas al punto (1, 0)
De nuevo, como vimos anteriormente, este procedimiento tiene el problema que se asume que
se conocen D y L y este no es necesariamente el caso pues habrıa que hacer inferencia estadıstica
sobre los clientes rechazados.
Capıtulo III
Metodos alternativos para el desarrollo de una Scorecard
3.1. Estadıstica no-parametrica
3.1.1. Introduccion
La mayorıa de los metodos estadısticos mas comunes, como la Regresion lineal o el Analisis de
Varianza ANOVA recaen sobre supuestos que se hacen acerca de las distribuciones de los datos.
Por ejemplo, el analisis de varianza se basa en el supuesto de que los datos provienen de una dis-
tribucion normal. Por ello, muchas veces, los experimentos estadısticos que se realizan consisten
en estimar los parametros de las distribuciones de la poblacion que se esta evaluando.
Otro inconveniente que se puede encontrar en los metodos estadısticos parametricos, es que muchas
veces su aplicabilidad se limita a variables aleatorias continuas y ademas, la robustez y confiabili-
dad de la inferencia que se hace es muy sensible, en particular cuando la muestra que se tiene es
muy pequena. Ademas, muchos de los metodos, como la estimacion por mınimos cuadrados o la
construccion de intervalos de confianza, dependen del orden y de la escala cuantitativa que tienen
las variables.
Esta claro, que la decision de otorgar o no un credito y las variables que se analizan al momen-
to de tomar dicha decision, sufren de muchas de las fallas que se pueden atribuir a la Estadıstica
Parametrica. Este caso es muy frecuente en estudios para Ciencias Sociales o Estudios de Mercado.
Por ejemplo, si se evalua por que razon un consumidor prefiere una bebida, es difıcil que este grado
de preferencia se pueda cuantificar y aun si se crea una escala de 1 a 10, esta es completamente
arbitraria.
Este inconveniente es aun mas evidente para variables como el Sexo o el Estado Civil, en las
cuales es imposible establecer algun tipo de orden.
La rama de la estadıstica consistente en hacer inferencia acerca de variables sin hacer ningun
27
3.1 Estadıstica no-parametrica 28
tipo de supuestos sobre las distribuciones de las variables de la muestra (ej: ANOVA) y que tam-
poco supone ningun tipo de forma funcional entre las variables (ej: REGRESIONES LINEAL Y
LOGIT) se conoce como Estadıstica no-parametrica. Los metodos no-parametricos son, por lo
general, mas faciles de aplicar que los metodos parametricos pues requieren de pocos supuestos
y funcionan bastante bien en variables que se definen en escalas no ordinales. Sin embargo, cabe
resaltar que si las variables aleatorias de una muestra satisfacen los supuestos que se hacen sobre
ellas, es mejor usar metodos parametricos, no solo por su facil aplicabilidad sino tambien por su
facilidad de interpretacion.
3.1.2. Los k vecinos mas cercanos
El metodo de los k-vecinos mas cercanos es un metodo de estadıstica no parametrica para es-
timar funciones de densidad de probabilidad y fue introducido por primera vez por Fix y Hodges
en 1952 y Cover y Hart en 1967. En el contexto del Credit Scoring, Chatterjee y Barcun en 1970
fueron los primeros en introducir esta metodologıa y Henley y Hand en 1996 [3]publicaron un
artıculo con un extenso analisis sobre el metodo basado en numerosos experimentos.
Se ha considerado un metodo util para modelos de Credit Scoring por las siguientes razones:
Su caracter no-parametrico le permite capturar irregularidades que pueda tener la funncion
discriminante sobre el espacio muestral
Experimentos han revelado que es un metodo mas efectivo que otros metodos no-parametricos
Su filosofıa y su razon de ser son muy sencillas por lo que parece ser facilmente explicable e
interpretable para administradores y banqueros.
La idea del metodo consiste en definir una nueva metrica en RJ de tal forma que al evaluar
un nuevo cliente se identifique a los k clientes con mayor semejanza y que ya han sido clasificados
como “buenos” o “malos”y segun sus caracterısticas, clasificarlo “bueno” o “malo”. Para ello, se
necesita de un espacio de diseno, que ya ha sido clasificado y un espacio de prueba, que serıan
los nuevos solicitantes. Por obvias razones, es de suma importancia escoger bien la metrica y el
numero k de vecinos mas cercanos, ası como el numero crıtico de vecinos con el cual se considera
que el cliente evaluado es bueno o malo. Aunque normalmente se usa como regla clasificar a un
cliente como malo si mas de la mitad de sus k-vecinos mas cercanos lo son, es posible que la regla
cambie. Si se conocen las perdidas esperadas por aprobar malos clientes y rechazar malos clientes,
la regla que minimiza los costos es que un cliente sea clasificado como malo si al menosD
D + Lde
los clientes que mas se le asemejan lo son.
Trabajando en problemas de vecinos mas cercanos, Fukanaga y Flick introdujeron en 1984 la
3.1 Estadıstica no-parametrica 29
siguiente metrica que permite identificar las particularidades de cada conjunto de datos:
d(x1,x2) =√
(x1 − x2)A(x1)(x1 − x2)
En donde A es una matriz de J ×J que puede depender o no de cada x. En su artıculo, Henley et.
al [3] optan por una matriz que no dependa del punto, para que la metrica resultante sea global.
Argumentan que si se escoge una metrica local, es posible que esta capture particularidades de la
muestra, que pueden no ser validas para todo el espacio muestral. Entonces introducen una metrica
definida ası:“Definimos la separacion entre dos puntos como la distancia entre ellos en la direccion
ortogonal a los contornos de equiprobabilidad para p(B|x), la probabilidad de pertenecer a la clase
AB -ser “bueno”- dado que el cliente tiene caracterısticas x. Si se conocieran las ecuaciones de
los verdaderos contornos de equiprobabilidad, la distancia que se escogerıa serıa la distancia en la
direccion ortogonal.” La direccion ortogonal es aquella que separa mejor los conjuntos AB y AM
definidos en el Capıtulo 2. Por lo tanto, es precisamente la direccion de w estimado por cualquier
metodo de analisis disriminante. La distancia en la direccion ortogonal entre dos puntos x y y
esta dada por:
d⊥(x,y) =√
(x− y)T wwT (x− y).
En la practica, la direccion ortogonal se estima mediante MCO, por lo cual, los contornos de
equiprobabilidad que se usan son lineales. Considerando que rara vez se da este caso, para construir
la metrica Henley et. al.[3] la combinan con la norma euclidiana al cuadrado
d(x,y)2 = ||x− y||2 = (x− y)T (x− y)
Dando como resultado la metrica:
d⊥(x,y) =√
(x− y)T (1 + DwwT )(x− y)
que es una forma de la metrica propuesta por Fukunaga y Flick, con
AD,w = I(1 + DwwT )
En donde D es un numero por determinar.
En sus experimentos Henley et. al.[3] llegan a un D ≈ 1,4 para el portafolio en consideracion,
pues es este valor el que minimiza el porcentaje de malos clientes entre los aprobados, mantenien-
do un nivel de aprobacion del 70 %. Muestran tambien que para valores muy pequenos de k, el
porcentaje de malos clientes entre los aprobados es notoriamente mayor que para valores grandes.
A partir de 100, no parece haber mayores variaciones en el porcentaje de malos clientes, aunque
el porcentaje es muy sensible a pequenas variaciones de k.
3.2 Programacion lineal y programacion entera 30
La gran ventaja de este metodo es su facil interpretabilidad y su facil adaptabilidad a los cambios
en la base de datos sobre la cual se construye. La muestra base sobre la cual se construye se puede ir
actualizando periodicamente sin mayor dificultad. Si bien es cierto que el numero de calculos que se
requieren para su implementacion es mucho mayor que para los metodos expuestos en el Capıtulo
anterior, la velocidad de las computadoras hoy en dıa hacen que este problema sea irrelevante.
Sin embargo, este metodo tiene como desventaja que es practicamente imposible monitorear su
calidad, dado que no produce puntajes como tal. Igualmente, es difıcil identificar si la metrica es
obsoleta. Por ultimo, para calcular la direccion ortogonal a los contornos de equiprobabilidad, se
estiman los pesos de las variables como se hizo por regresion lineal o logıstico, por lo cual, muchos
optan en la practica por estos metodos mas tradicionales.
3.2. Programacion lineal y programacion entera
El uso de metodos no-parametricos y de la programacion lineal en problemas de clasificacion
de grupos dentro de poblaciones fue introducido por primera vez en 1965 por el profesor Olvi Man-
gasarian, hoy en dıa en la Universidad de Wisconsin, ampliamente conocido por su investigacion en
optimizacion y en especial, en la aplicacion de metodos de optimizacion al diagnostico de Cancer de
Mama. Mangasarian noto que los metodos de la programacion lineal podıan aplicarse a problemas
de clasificacion en los cuales existe un hiperplano -es decir, una funcion discriminante lineal- que
separe perfectamente los dos grupos en cuestion. Freed y Glover, en 1981 y Hand, el mismo ano
identificaron que las tecnicas de la programacion lineal podıan ser usadas en el contexto de los
problemas de clasificacion aun si los grupos no son linealmente separables, usando como funcion
objetivo la suma de los errores absolutos o la maxima desviacion de los errores.
Recordemos que el objetivo del Credit Scoring es separar A ⊆ RJ , el conjunto de posibles re-
spuestas a un formulario de solicitud de credito, en dos subconjuntos AB y AM de tal forma que
un nuevo solicitante sea clasificado como un buen prospecto o como un mal prospecto. De nuevo,
denotaremos como nB y nM el numero de buenos y de malos clientes en la muestra sobre la cual
se construye el modelo, y llamaremos n el tamano de la muestra. Si X = (X1, X2, . . . , XJ), lo que
se pretende es encontrar (w1, . . . , wJ ) de tal forma queJ∑
i=1
wiXJ se encuentre por encima de un
valor c, el cut-off si el solicitante es un buen cliente y por debajo de c si es malo.
Como hemos visto en metodos anteriores, es poco probable que exista una division perfecta entre
buenos y malos, por lo cual se considera un posible error εi para cada uno de los n solicitantes.
Este puede ser positivo o cero. Si el i-esimo solicitante es bueno, entoncesJ∑
k=1
wkXk ≥ c− εi, y si
3.2 Programacion lineal y programacion entera 31
es maloJ∑
k=1
wkXk ≤ c + εi. Sea F (ε1, . . . , εJ) = ε1 + · · · + εn y sea gi(w1, . . . , wJ ) =J∑
k=1
wkXik.
Minimizar la suma de los valores absolutos de los errores, equivale a resolver el siguiente programa
lineal:
mın F (ε1, . . . , εJ)
sujeto a: gi(w1, . . . , wJ) ≥ c− εi para cada i tal que el i-esimo solicitante es bueno
gi(w1, . . . , wJ) ≤ c + εi para cada i tal que el i-esimo solicitante es malo
εi ≥ 0,∀i
Si en lugar de minimizar la suma de los errores absolutos se minimiza el maximo error, el
problema se simplifica ası:
mın ε
sujeto a: gi(w1, . . . , wJ) ≥ c− ε para cada i tal que el i-esimo solicitante es bueno
gi(w1, . . . , wJ) ≤ c + ε para cada i tal que el i-esimo solicitante es malo
ε ≥ 0
La gran ventaja que tiene la formulacion por programacion lineal sobre los metodos estadısticos
es que el modelo de Scoring se puede moldear a gusto del usuario. Por ejemplo, si un banco ha
lanzado un nuevo credito, disenado especialmente para clientes mas jovenes y si X1 es la variable
binaria, 1 si el cliente tiene menos de 30 anos, 0 de lo contrario, y X2 es 1 si el cliente tiene mas
de 50 anos y 0 de lo contrario, lo unico que se debe hacer es agregar la restriccion w1 ≥ w2. Otro
ejemplo es que se quiera dar prelacion a las variables de historia de comportamiento suministradas
por una central de riesgo sobre el resto de las variables. Para lograrlo, si suponemos que hay s
variables de centrales de riesgo, se ordenan las variables de tal forma que estas sean las s primeras
y se agrega la restriccion:
w1xi1 + · · ·+ wsx
is ≥ ws+1x
is+1 + · · ·+ wnxi
n
Una de las formulaciones mas generales del problema de asignar pesos a las variables mediante
tecnicas de programacion lineal fue propuesta por Freed y Glover en 1986. Su idea consiste en
minimizar, ademas de los errores εi que se definieron anteriormente, las desviaciones de los clientes
que sı fueron clasificados de manera correcta. Si denotamos estas desviaciones por ei, el problema
es equivalente a resolver el siguiente programa lineal:
3.2 Programacion lineal y programacion entera 32
mın k0ε0 − l0e0 +n∑
i=1
kiεi +n∑
i=1
liei
sujeto a: gi(w1, . . . , wJ) ≥ c− ε0 − εi + e0 + ei para cada i tal que el i-esimo solicitante es bueno
gi(w1, . . . , wJ) ≤ c + ε0 + εi − e0 − ei para cada i tal que el i-esimo solicitante es malop∑
j=1
(nM
nM∑
k=1
xkj − nB
nB∑
k=1
xkj
)wj = 1
εi, ei ≥ 0,∀i
Sin embargo, se pueden presentar varios inconvenientes en la resolucion del problema:
En las restricciones se ha impuesto un c tal que el score de los buenos este por encima de c
y el de los malos por debajo. Si se pudiera escoger el c de la mejor forma tal y como se hace
con los wi’s, siempre existirıa la posibilidad de una solucion trivial wi = 0 ,∀i, caso en el cual
todos los clientes tendrıan un score de 0 y se encontrarıan en el cut-off. Una manera obvia
de intentar resolver este inconveniente podrıa ser fijar c = 1, aunque Freed y Glover en 1986
mostraron que habrıa que resolver el programa dos veces: caso 1: c > 0, caso 2: c < 0.
Si bien esta formulacion es flexible, el modelo resultante no se adapta tan facilmente a cambios
en los datos. Es posible que haya problemas para los cuales la eleccion ideal de c sea c = 0. Esto
quiere decir que el modelo resultante no es invariante mediante transformaciones lineales a los
datos, como lo muestran Thomas et.al[1] en el Ejemplo 5.2 del Capıtulo 5. Se han propuesto
varias alternativas como cambiar gi(w1, . . . , wJ) ≤ c − ε por gi(w1, . . . , wJ) ≤ c − e − ε, de
tal forma que haya una brecha entre las regiones de buenos y de malos, aunque se crea el
inconveniente de como clasificar a los clientes que se encuentran en la brecha. Glover propuso
en 1990 una forma que resuelve el inconveniente si los vectores promedio de los buenos y
malos son distintos, agregando la siguiente restriccion:
p∑
j=1
(nM
nM∑
k=1
xkj − nB
nB∑
k=1
xkj
)wj = 1
Dado que los modelos que se obtienen mediante programacion lineal no se basan en supuestos
estadısticos, es difıcil estimar la robustez de los modelos y su significancia estadıstica, como
se puede hacer con los modelos estimados mediante tecnicas de regresion. Igualmente, es
difıcil estimar cuales son las variables mas predictivas y cual es su grado de significancia
estadıstica. Para ello, numerosos autores han propuesto tecnicas de Jakknife y Bootstrap.
Ademas, si en una prueba de hipotesis se estima que un peso wi calculado mediante regresion
no es estadısticamente significativo, este es un problema facilmente corregible.
3.2 Programacion lineal y programacion entera 33
3.2.1. El Problema de Maximizacion del KS
3.2.1.1. Formulacion por Programacion entera mixta
La calidad de un modelo de Credit Scoring se evalua normalmente mediante la prueba estadısti-
ca de Kolmogorov-Smirnoff, calculando la maxima distancia entre las distribuciones acumuladas
de buenos clientes y de malos clientes. A mayor valor del estadıstico, mayor calidad del modelo.
Por lo tanto, si se tiene ya la definicion de buenos y malos, el problema se puede plantear como
hallar los pesos que se asignan a cada una de las J variables y un escalar c (cut-off ) en donde
la separacion entre las dos curvas alcance su mayor valor. Denotaremos por xij la caracterıstica
j-esima del i-esimo cliente. Denotaremos por |B| el numero de buenos clientes y |M | el numero de
malos clientes. Definimos finalmente δi = 1 si el score es menor o igual a c y δi = 0 de lo contrario.
Con las definiciones anteriores, el problema se puede plantear ası:
max1|M |
∑
M
δi − 1|B|
∑
B
δi
sujeto a
−J∑
j=1
wjxij ≤ −c− ε + N · δi, ∀i ∈ B
J∑j=1
wjxij ≤ c + N(1− δi),∀i ∈ M
(c, δ, wj) ∈ {−1, 1} × {0, 1} × RJ
En donde ε es un numero pequeno y N es un numero grande. Al restringir c a ±1 y haciendo
ε lo suficientemente pequeno, se eliminan todas las posibles soluciones triviales. La Formulacion
anterior se denotara como el Problema (P).
3.2.1.2. Problema Dual del Problema de Programacion entera mixta: Multiplicadores de La-grange
El Problema (P) se puede plantear en terminos de multiplicadores de Lagrange ası:
mınλi≥0∀i∈B
θi≥0∀i∈M
maxδ∈{0,1}c=±1
wj∈R
1|M |
∑M
δi − 1|B|
∑B
δi
− ∑i∈B
λi(−J∑
j=1
wjxij + c + ε−N · δi)
− ∑i∈M
θi(J∑
j=1
wjxij − c−N(1− δi))
3.2 Programacion lineal y programacion entera 34
Este, a su vez es equivalente al siguiente problema:
mınλi≥0∀i∈B
θi≥0∀i∈M
−ε∑B
λi + N∑M
θi
+maxδ∈{0,1}c=±1
wj∈R
∑B
(Nλi − 1|B| )δi +
∑M
(1|M | −Nθi)δi
+c(∑M
θi −∑B
λi) +∑j
(∑ı∈B
λixij −
∑ı∈M
θixij)wj
.
Pero, si se tiene la factibilidad del Problema (P), se tiene tambien la finitud de la funcion
objetivo del problema dual. Basta entonces con maximizar cada una de las sumas del planteamiento
anterior. Por lo tanto, el problema dual de Lagrange se puede escribir como:
mın−ε∑
B
λi + N∑
M
θi +∣∣∣∣∑
B
λi −∑
M
θi
∣∣∣∣ +∑
M
max(0,1|M | −Nθi) +
∑
B
max(0, Nλi − 1|B| )
sujeto a
∑
i∈B
λi · xji −
∑
i∈M
θi · xji = 0, j ∈ {1, 2, . . . , J}
λi, θi ≥ 0.
Este problema es un programa lineal y su representacion en forma estandar es la siguiente:
mın−ε∑
B
λi + N∑
M
θi + Z+ + Z− +∑
M
mi+
∑
B
bi+
sujeto a:
∑
M
θi −∑
B
λi − Z+ + Z− = 0
mi+ + N · θi ≥ 1
|M | , i ∈ M
−bi+ + N · λi ≥ 1
|B| , i ∈ B
∑
i∈B
λi · xji −
∑
i∈M
θi · xji = 0, j = 1, 2, . . . , J
3.2 Programacion lineal y programacion entera 35
λi, θi,mi+, bi
+, Z+, Z− ≥ 0
Con esta formulacion del problema, los multiplicadores de Lagrange se pueden interpretar como
los pesos que se quieren asignar a las variables.
El KS es solo una de las medidas de calidad de la Scorecard, por lo cual existen muchas otras
formulaciones posibles del calculo de la funcion discriminante como un problema de programacion
entera. En el capıtulo anterior ya vimos como se puede obtener la funcion discriminante lineal
maximizando el ındice de Mahalanobis o minimizando los costos en los que se incurren. Por ejem-
plo, es posible plantear el problema en terminos del coeficiente de Gini o de la funcion de costos
esperados individuales.
Capıtulo IV
Caso practico del desarrollo de una Scorecard
Por la dificultad para contar con datos reales, se simularon aleatoriamente las siguientes vari-
ables que se pueden obtener en una solicitud de credito: Edad, Estado Civil, Numero de Hijos,
Estrato, Nivel de Ingresos, Profesion, Antiguedad en el trabajo, Plazo solicitado, Monto Solicita-
do, Valor de la Cuota, Porcentaje de endeudamiento, Ciudad, Numero de productos con el banco,
Mora Promedio, Mora Maxima, Sexo, Tiene Credito con otra entidad, Mora Maxima en Centrales
de Riesgo, Tiene vehıculo propio y Tipo de Vivienda. El tamano del portafolio se fijo en 5.000
clientes y se asume que los datos corresponden al primer credito de un cliente ya aprobado en la
entidad.
4.1. Definicion de Buenos y Malos
La definicion de Buenos y Malos puede variar segun la entidad. Para nuestro caso diremos que
un cliente bueno es aquel que ha pagado en promedio con una mora menor o igual a 7 dıas y que
nunca ha tenido una mora mayor a 15 dıas. Es comun encontrar estas definiciones en terminos de
cuotas vencidas, o tambien incorporando otras variables como indicadores sobre si figura en listas
negras.
La situacion se observa en la siguiente tabla:
La distribucion entre buenos y malos queda entonces ası:
36
4.2 Seleccion de las variables para el modelo: Analisis de Correlaciones 37
4.2. Seleccion de las variables para el modelo: Analisis de Correlaciones
Una vez se define el indicador de Buenos y Malos, este se cruza con todas las variables
disponibles para determinar cuales son las variables y en que rangos inciden en el buen o mal
comportamiento de pago de los clientes.
Ejemplo: Indicador de Buenos y Malos vs. Ciudad
En este analisis, se incluye la columna %ref (% de referencia) para determinar que tan alejado
esta un cierto rango de una variable de la media de la poblacion, indicando ası un comportamien-
to diferenciado. El %ref corresponde a la desviacion estandar del porcentaje de malos de una
caracterıstica con respecto al porcentaje total de la poblacion, es decir:
%ref =%malospoblacion − %maloscaracterıstica
%malospoblacion.
Se considera que un % de referencia mayor a un 25% en terminos absolutos marca un alto
grado de correlacion entre la variable y el indicador de buenos y malos, aunque esto no es una regla
estricta y en este paso de seleccion de las variables entran en juego criterios ajenos a la estadıstica
como las polıticas de aprobacion de una entidad, la experiencia que tenga la entidad o el marco
regulatorio en el cual deba operar el modelo.
En la tabla se observa que los clientes procedentes de Barranquilla tienen un mal comportamien-
to de pago mientras que los clientes procedentes de Bucaramanga y de Bogota tienen un buen
comportamiento de pago. Como la separacion con respecto a la media es semejante, estas dos
caracterısticas se pueden agrupar en una sola. Igualmente, se observa una tendencia hacia un mal
comportamiento por parte de los clientes procedentes de Medellın, pero debido a que esta tendencia
no es tan marcada, no se considera esta variable para su inclusion en el modelo. Por otra parte,
tambien se observa que los clientes de Pereira son de buen comportamiento, pero debido a que la
porcion del portafolio correspondiente a esta ciudad es muy pequena comparada con el tamano de
todo el portafolio, tampoco se considera esta caracterıstica. En general, se busca que las variables
que se incluyan en el modelo tengan por lo menos el 3% de la poblacion total y menos del 70 %
pues de lo contrario, no contribuirıan en la discriminacion entre buenos y malos clientes.
4.3 Estimacion de los coeficientes mediante un software estadıstico 38
Repitiendo este procedimiento para todas las variables disponibles (salvo para las moras maxi-
ma y promedio pues estas no se conocen en el momento del estudio de credito), se identificaron las
siguientes caracterısticas como relevantes para el modelo estadıstico:
Variable Rango Premio o Castigo
Edad a.18 a 25 Castigo
Edad Mas de 60 Premio
Estado Civil Soltero Castigo
Numero de hijos 3 o mas Premio
Estrato 3 Castigo
Estrato 6 Premio
Nivel de Ingresos Mas de 3’000.000 Premio
Profesion Ingeniero Premio
Antiguedad en el trabajo Menos de 2 anos Castigo
Plazo Solicitado 48 meses Castigo
Monto Solicitado Mas de 12’500.000 Castigo
Valor de la Cuota Mas de 1’000.000 Castigo
% de endeudamiento Mas del 50% Castigo
Ciudad Barranquilla Castigo
Ciudad Bogota o Bucaramanga Premio
Actividad Economica Telecomunicaciones, Castigo
Computadores
y Software
Numero de
productos con el Banco 0 Castigo
Sexo Femenino Premio
Mora maxima
central de riesgo 0 Premio
Por cada una de las caracterısticas que se identifico se crea una variable binaria que toma el
valor 1 si el cliente tiene la caracterıstica y 0 de lo contrario. En total, se crearon 19 variables y
con el “Archivo de 1’s y 0’s” se hace la regresion.
4.3. Estimacion de los coeficientes mediante un software estadıstico
4.3.1. Regresion lineal
Usando el paquete estadıstico Statar se corren las regresiones para estimar los pesos de las
variables y ası, calcular el Score. Para depurar los modelos, e incluir unicamente las variables mas
4.3 Estimacion de los coeficientes mediante un software estadıstico 39
predictivas, se hace uso de varias pruebas de hipotesis mencionadas el el Capıtulo 2.
Incluyendo todas las variables que se seleccionaron mediante las tablas de correlaciones, se corrio la
regresion lineal, obteniendo un R2 de 58%, y un estadıstico F de 373,85, por lo que se puede afir-
mar que el modelo es globalmente significativo y que la variacion de las variables incluidas explica
el 58% de la variacion en la probabilidad de que un cliente sea bueno o malo. Sin embargo, las
pruebas de t de significancias individuales, arrojaron como resultado, que las variables 2, 9, 16 y 17
no tienen significancia estadıstica (a un nivel de confiabilidad del 95%), pues el p−valor calculado
es mayor al 10 %.
Ası, se obtuvo el siguiente resultado, omitiendo las variables anteriormente mencionadas:
Number of obs 5000
F( 15, 4984) 473,36
p-valor 0
R-squared 0,5876
Adj R-squared 0,5863
Root MSE 0,29398
var20 Coef. Std. Err. t P¿t [95% Conf. Interval]
var1 0,0821197 .0163892 5.01 0.000 .0499897 0,1142498
var3 -0,0612902 .0137728 -4.45 0.000 -.0882909 -0,0342895
var4 0,0316016 .0113354 2.79 0.005 .0093793 0,0538239
var5 -0,0537733 .0115357 -4.66 0.000 -.0763884 -0,0311582
var6 0,0347799 .0103962 3.35 0.001 .0143988 0,0551609
var7 0,0793551 .0103701 7.65 0.000 .0590252 0,0996851
var8 0,0301659 .0102183 2.95 0.003 .0101336 0,0501982
var10 -0,1306917 .0440755 -2.97 0.003 -.217099 -0,0442843
var11 -0,0558619 .0208006 -2.69 0.007 -.0966402 -0,0150836
var12 -0,1394943 .0259574 -5.37 0.000 -.1903823 -0,0886064
var13 -0,144884 .0286893 -5.05 0.000 -.2011277 -0,0886403
var14 -0,0442869 .0139541 -3.17 0.002 -.071643 -0,0169308
var15 0,02704302 .0089123 7.90 0.000 .0529582 0,0879022
var18 0,0502155 .0087094 5.77 0.000 .0331413 0,0672897
var19 0,7364685 .0093864 78.46 0.000 .718067 0,7548699
cons 0,1383707 .0140393 9.86 0.000 .1108474 0,1658939
Se calcula entonces el Score de cada cliente. Se multiplica por 1000, para que quede en una
escala de 1 a 1000:
4.3 Estimacion de los coeficientes mediante un software estadıstico 40
Score = 1000 ∗ (0, 14 + 0, 08 ∗ v1 − 0, 06 ∗ v3 + 0, 03 ∗ v4 − 0, 05 ∗ v5 + 0, 03 ∗ v6 + 0, 08 ∗ v7+
0, 03 ∗ v8 − 0, 13 ∗ v10 − 0, 06 ∗ v11 − 0, 14 ∗ v12 − 0, 14 ∗ v13
− 0, 04 ∗ v14 + 0, 07 ∗ v15 + 0, 05 ∗ v18 + 0, 74 ∗ v19)
La distribucion por Rangos de Score, se muestra en la siguiente tabla:
El resultado, tal como se preve es que, a mayor Score, menor porcentaje de Malos clientes.
4.3.2. Regresion logıstica
Con la regresion logıstica, las pruebas Z de significancia individual arrojaron los mismos resul-
tados que la regresion lineal, i.e. omitir las variables 2, 9, 16 y 17.
Ası, se obtuvo el siguiente resultado, omitiendo las variables anteriormente mencionadas:
Number of obs 5000
LR chi(15) 3266.54
p-valor 0.000
Pseudo R2 0,5368
4.3 Estimacion de los coeficientes mediante un software estadıstico 41
var20 Coef. Std. Err. z P¿z [95% Conf. Interval]
var1 0,7933338 .171669 4.62 0.000 .4568687 1.129799
var3 -0,7072326 .1582586 -4.47 0.000 -1.017414 -0,3970514
var4 0,4339326 .1357401 3.20 0.001 .1678868 0,6999783
var5 -0,6403433 .1363175 -4.70 0.000 -.9075206 -0,373166
var6 0,4294323 .1261124 3.41 0.001 .1822566 0,676608
var7 0,9569431 .1273633 7.51 0.000 .7073157 1.20657
var8 0,3694549 .1241019 2.98 0.003 .1262196 0,6126902
var10 -1.440554 .4620981 -3.12 0.002 -2.346249 -0.5348582
var11 -.5594475 .2192381 -2.55 0.011 -.9891464 -.1297486
var12 -1.441214 .2830468 -5.09 0.000 -1.995975 -0,8864523
var13 -1.124393 .2997554 -3.75 0.000 -1.711903 -0,5368832
var14 -0,5464728 .1602247 -3.41 0.001 -.8605075 -0,2324382
var15 .848462 .1096207 7.74 0.000 .6336093 1.063315
var18 0,6259897 .1061237 5.90 0.000 .417991 0,8339883
var19 4.868891 .1279257 38.06 0.000 4.618161 5.119621
cons -2.509152 .1683841 -14.90 0.000 -2.839179 -2.179125
La prueba χ2de significancia global del modelo muestra que el modelo sı es estadısticamente
significativo. Se calcula entonces el Score de cada cliente. Se multiplica por 1000, para que quede
en una escala de 1 a 1000:
Score = 1000 ∗(
eA
1 + eA
)
En donde,
A = −2,51 + 0, 79 ∗ v1 − 0, 70 ∗ v3 + 0, 43 ∗ v4 − 0, 64 ∗ v5 + 0, 43 ∗ v6 + 0, 96 ∗ v7+
0, 37 ∗ v8 − 1,44 ∗ v10 − 0, 56 ∗ v11 − 1, 44 ∗ v12 − 1, 12 ∗ v13
− 0, 55 ∗ v14 + 0, 85 ∗ v15 + 0, 63 ∗ v18 + 4, 86 ∗ v19
La distribucion por Rangos de Score, se muestra en la siguiente tabla:
Al igual que en el caso anterior, a mayor Score, menor porcentaje de Malos clientes.
4.4 Medidas de Calidad de los modelos: Las pruebas KS y Gini 42
4.4. Medidas de Calidad de los modelos: Las pruebas KS y Gini
4.4.1. Prueba KS
Para el calculo del estadıstico KS, se ordenan los datos de menor a mayor score y se calcula
el correpondiente porcentaje acumulado de buenos y de malos clientes. Se calcula adicionalmente
una columna correspondiente a la diferencia entre estos dos porcentajes y el maximo valor de esta
columna sera el ındice de KS del modelo.
Para el modelo lineal, se obtuvo un coeficiente de KS de 79,42% que se alcanza para un score de
727.
Para el modelo logıstico, se obtuvo un coeficiente de KS de 78,92% que se alcanza para un
score de 745.
En la realidad, rara vez se alcanza un KS tan alto en un modelo de aprobacion. Se considera
que un modelo cuyo KS se encuentre en el rango comprendido entre el 30 % y el 40 % es un modelo
de muy buena calidad.
4.5 Uso practico de la Scorecard: Determinando el Cut-Off 43
4.4.2. Coeficiente de Gini
Para el calculo del coeficiente de Gini, de nuevo, se ordenan los datos de menor a mayor y
su correspondiente porcentaje acumulado. Para el calculo de∫ 1
0PB(s)dPM (s), esta se aproxima
mediante su suma inferior es decir, aproximando el area mediante rectangulos:
∫ 1
0
PB(s)dPM (s) ≈∑
s
PB(s) ∗ PM (s)
Para el modelo lineal, obtuvimos un coeficiente de Gini del 87,22%. El siguiente es el diagrama
de Lorentz resultante:
Para el modelo logıstico, obtuvimos un coeficiente de Gini del 87,59%. El siguiente es el dia-
grama de Lorentz resultante:
4.5. Uso practico de la Scorecard: Determinando el Cut-Off
El criterio mediante el cual se determina el puntaje mınimo para aprobar un credito o Cut-off
puede variar. Mas aun, pueden existir varios tipos de corte. Por ejemplo, una vez se ha hecho
el modelo estadıstico, su confiabilidad solo sera sustentada mediante resultados, por lo cual, una
primera aproximacion puede ser mantener el nivel de aprobacion actual.
En nuestro ejemplo, si suponemos que el nivel de aprobacion es de un 70 % de las solicitudes
que se reciben, el cut-off quedarıa fijado en un Score de 356 para el modelo lineal.
4.5 Uso practico de la Scorecard: Determinando el Cut-Off 44
Rango de Score clientes % del total
Mas de 356 3500 70%
Menos de 356 1500 30%
Sin embargo, en el momento en que se tenga mas confianza en esta herramienta se puede
adoptar una regla de decision algo mas sofisticada. Si observamos las tablas siguientes que son la
distribucion acumulada ascendente por score y la distribucion acumulada descendente por score:
se pueden fijar varios tipos de cortes. Por ejemplo, si observamos la tabla de distribucion descen-
dente vemos que si se rechazan automaticamente todas las solicitudes cuyo score es menor a 650,
se estara sacrificando unicamente el 10,05% de los buenos clientes, mientras que se habra evitado
mas del 75% de los malos clientes.
De la misma forma, si observamos la distribucion ascendente por score y se fija aprobacion au-
tomatica en 800, se evita el 91,18% de los clientes malos, sacrificando unicamente 13 % de los
buenos clientes.
En este caso, quedarıan 164 clientes en una “zona gris” entre 650 y 800. Esto corresponde unica-
mente al 3,28% del portafolio, por lo cual, a estos clientes se les podrıa hacer un estudio mas
detallado de aprobacion. Este estudio, puede incluso realizarse con otro modelo de Scoring.
Tambien se puede observar que el punto en donde las curvas de los porcentajes acumulados de
buenos y malos alcanzan su mayor distancia es donde mejor discriminan, por lo cual, esta tambien
es una opcion valida para el cut-off.
Capıtulo V
Conclusiones
En este trabajo se han expuesto algunas de las diferentes alternativas para el desarrollo de
un modelo de Credit Scoring. Hoy en dıa, como se menciono anteriormente, los metodos de re-
gresion lineal o logıstica son los mas ampliamente usados comercialmente, por su facil desarrollo,
ademas de contar con todo el soporte de poderosas herramientas estadısticas como las pruebas de
hipotesis. Con este tipo de modelos, es facil determinar cuales son las variables que tienen mayor
incidencia sobre el comportamiento de pago de los clientes, gracias a las pruebas de significancia
global e individual. Como vimos en el Capıtulo 4 con el ejemplo practico, aunque aparentemente
la regresion logıstica tendrıa una ventaja teorica sobre la regresion lineal por la posibilidad de que
las probabilidades de pago pronosticadas varıen entre −∞ e ∞, los dos metodos arrojan resultados
muy semejantes, como lo reflejan los indicadores Gini y KS que se calcularon.
Las ventajas en cuanto a recursos de computacion y de tiempo, hoy en dıa no son un factor escen-
cial entre las opciones para desarrollar un modelo de Credit Scoring, gracias a los grandes avances
en la velocidad de procesamiento de las computadoras. Por esta razon, metodos que anteriormente
habrıan podido parecer poco viables por la gran cantidad de calculos requeridos, como el de los
k vecinos mas cercanos, son hoy de facil implementacion y desarrollo. Esta ultima metodologıa
tiene como gran ventaja que la muestra sobre la cual se construye el modelo puede ser actual-
izada periodicamente sin mayor dificultad. Sin embargo, dado que no se calcula un puntaje para
cada cliente, es difıcil evaluar la calidad de la segmentacion que se produce. Tampoco es posible
determinar cuando la metrica que se esta usando es obsoleta, para capturar los posibles cambios
que pueda tener una poblacion. Ademas, como este metodo no produce un puntaje para cada
solicitante evaluado, es posible que muchos administradores de cartera prefieran de metodos mas
convencionales como los de regresion para entender que criterio se esta usando en la aprobacion
de creditos.
Los metodos de programacion lineal para calcular los pesos de las variables tienen como ventaja
que pueden incluir tantas restricciones como se necesiten y por ello, se puede asignar el peso y la
prioridad que se quiera a cada una de las variables de las que se disponga. De nuevo, el agregar estas
45
46
restricciones no representa un mayor inconveniente en cuanto a tiempo de calculo, mientras que si
este tipo de restricciones se incluyen en modelos estadısticos de regresion, sı se pueden presentar
problemas en cuanto a recursos de computacion. Sin embargo, se debe mencionar que en estos
metodos no existe una herramienta tan concluyente como las pruebas de significancia para incluir
unicamente las variables mas significativas dentro de un modelo. Es por esto que proyectos recientes
han buscado metodos como Bootstrapping y Jakknife para realizar pruebas de significancia en las
variables. El desarrollo de Scorecards mediante este tipo de metodos parece estar en aumento, con
resultados notables, en particular cuando se cuenta con muestras grandes. En la practica, se ha
visto que las formulaciones del problema de optimizacion, pueden tener como solucion conjuntos
de pesos con un gran numero de ceros, por lo que el poder de discriminacion entre clientes se
disminuye considerablemente. Numerosas investigaciones como las de Sarkar (2004)[2] o Bugera
et. al. (2002) [4] se han llevado a cabo en este sentido. En este ultimo artıculo, se muestra como,
usando herramientas de programacion lineal, se pueden estimar tambien funciones discriminantes
cuadraticas, que por su geometrıa pueden adaptarse mejor a los datos y por lo tanto, discriminar
mejor entre buenos y malos clientes.
Existen tambien muchos otros metodos como Arboles de Clasificacion, Redes Neuronales, Al-
goritmos Geneticos, Redes Bayesianas o los Sistemas Expertos que producen la discriminacion
entre buenos y malos. La ventaja que parecen tener estos metodos sobre los mas convencionales
es su poder para capturar las interacciones entre las variables, hecho que difıcilmente se identi-
ficarıa mediante metodos estadısticos o de programacion lineal. Por ejemplo, usando arboles de
clasificacion podrıa identificarse de una manera natural segmentos muy especıficos de buen o mal
comportamiento como “las mujeres casadas mayores de 50 anos”, que difıcilmente podrıan ser es-
tablecidos a traves de otro tipo de modelos.
Muchas de las crıticas que se le han hecho a la metodologıa del Credit Scoring para la aprobacion
de creditos siguen hoy vigentes y llevan a debates que se pueden considerar mas de ındole etica y
moral que estadıstica o matematica. El artıculo de Capon (1982)[5], enumera diversas fallas que se
pueden atribuir a este tipo de sistemas como son el darle prioridad a la confiabilidad estadıstica y a
la robustez de los modelos, por encima de relaciones causa-consecuencia logicas para determinar el
comportamiento de pago de los clientes. Por esta razon, el uso y el desarrollo de modelos de Credit
Scoring debe estar muy bien regulado. Como mencionamos en nuestro capıtulo introductorio, una
regulacion excesiva tambien puede acarrear problemas o producir un efecto contrario al esperado
pues por ejemplo, si se prohıbe el uso de variables como sexo o edad, se dejarıa de premiar a seg-
mentos que frecuentemente tienen mejor comportamiento como las mujeres o los clientes mayores
de 60 anos.
47
La etapa de implementacion de los modelos tambien es crıtica por lo que los resultados que se
produzcan deben ser de facil comprension e interpretacion por parte de quienes deben finalmente
hacer uso de este tipo de sistemas. De nada sirve que se construya un modelo con toda una
metodologıa cientıfica rigurosa que lo soporte si en el momento de utilizarlo, el criterio de decision
que se determina es tan complejo que no se puede usar en la practica.
Referencias
[1] Thomas, Lyn C, Edelman, David B. y Crook, Jonathan N., Credit Scoring and Its Applications,
SIAM, Society for Industrial and Applied Mathematics, Philadelphia 2002
[2] Sarkar, Debashish, Solving Mixed Integer Formulation of the KS Maximization problem - Dual
Based Methods and Results from large Practical Problems, Management Sciences Group, CIT,
New Jersey, USA, 2005
[3] Henley,W.E. y Hand,D.J., A k Nearest Neighbour Classifier for assessing consumer credit risk,
“The Statistician”, 45, Royal Statistical Society, 1996, p 77–95.
[4] Bugera, Vladimir, Konno, Hiroshi y Uryasev, Stanislav, Credit Cards Scoring with Quadratic
Utility Functions, “Journal of Multi-Criteria Decision Analysis”, 11, Wiley InterScience, 2002,
p 197–211
[5] Capon, Noel, Credit Scoring Systems: A Critical Analysis, “Journal of Marketing”, 46, Pro-
Quest Information and learning company, 1982, p 82–91.
[6] De Castro Korgi, Rodrigo El Universo LATEX, Departamento de Matematicas y Estadıstica,
Universidad Nacional de Colombia, 2001
[7] Canavos, George C. Probabilidad y Estadıstica, Aplicaciones y Metodos, Mc Graw Hill, 1988
[8] Gujarati, Damodar N. Basic Econometrics, Mc Graw Hill, Boston, 2003
[9] Hill, R. Carter, Griffiths, William E. y Judge, George G., Learning and practicing Econometrics,
John Wiley & Sons, New York, 2001.
[10] Mays, Elizabeth , Credit Scoring for Risk Managers: The Handbook for Lenders, Thomson,
South-Western, 5191 Natorp Boulevard, Mason, Ohio 45040, 2004.
[11] Enciso, Miguel Alberto Explicacion de los modelos estadısticos para el desarrollo de un Score
para un portafolio de Creditos de Consumo, Tesis presentada al Departamento de Ingenierıa
Industrial, Universidad de Los Andes, Bogota, Colombia 2003,
48
49
[12] Navas, Juan Fernando, Aplicacion de Boosting en la clasificacion de poblaciones: Un estudio
practico, Tesis presentada al Departamento de Ingenierıa Electrica y Electronica, Universidad
de Los Andes, Bogota, Colombia, 2004,
[13] Decision Theory, Wikipedia, the free Encyclopedia, disponible en
http://en.wikipedia.org/wiki/Decision Theory, 2005.