Estimaciones via Kernel
-
Upload
giovanny-casas-agudelo -
Category
Documents
-
view
2.506 -
download
0
Transcript of Estimaciones via Kernel
ESTIMACIONES VIA KERNEL
Giovanny Casas Agudeo
Profesor: Juan Carlos Correa
Estadística Bayesiana
Facultad de Ciencias- Escuela de Estadística
Universidad Nacional de Colombia
Medellín, Colombia
2010
ESTIMACIONES DE DENSIDAD
VIA KERNEL
1
TABLA DE CONTENIDO
1. Introducción ..................................................................................................... 3
2. Estimaciones .................................................................................................... 4
3. Tipos de Estimaciones .................................................................................... 5
3.1. Conceptos Básicos ...................................................................................... 6
4. Métodos No Parametricos de Estimación.................................................... 8
5. Estimaciones de Densidad Via Kernel ......................................................... 10
5.1. Funciones Kernel ......................................................................................... 14
6. Estimacion de Densidad Multivariada Via Kernel .................................... 19
7. Ejercicio de Aplicación .................................................................................. 20
8. Bibliografía ...................................................................................................... 25
2
INTRODUCCIÓN
La teoría clásica de la regresión se basa, en gran parte, en el supuesto que las ob-
servaciones son independientes y se encuentran idéntica y normalmente distribuidas. Si
bien existen muchos fenómenos del mundo real que pueden modelarse de esta manera,
para el tratamiento de ciertos problemas, la normalidad de los datos es insostenible.
En el intento de eliminar esa restricción se diseñaron métodos que hacen un número
mínimo de supuestos sobre los modelos que describen las observaciones.
La teoría de los métodos no paramétricos trata, esencialmente, el desarrollo de proced-
imientos de inferencia estadística, que no realizan una suposición explícita con respecto
a la forma funcional de la distribución de probabilidad de las observaciones de la mues-
tra. Si bien en la Estadística no paramétrica también aparecen modelos y parámetros,
ellos están de�nidos de una manera más general que en su contrapartida paramétrica.
La regresión no paramétrica es una colección de técnicas para el ajuste de funciones
de regresión cuando existe poco conocimiento a priori acerca de su forma. Proporciona
funciones suavizadas de la relación y el procedimiento se denomina suavizado.
Los fundamentos de los métodos de suavizado son antiguos pero sólo lograron el es-
tado actual de desarrollo gracias a los avances de la computación y los estudios por
simulación han permitido evaluar sus comportamientos.
La técnica más simple de suavizado, los promedios móviles, fue la primera en usarse,
sin embargo han surgido nuevas técnicas como la estimación vía kernel o la regre-
sión local ponderada. Estos estimadores de regresión no paramétrica son herramientas
poderosas para el análisis de datos, tanto como una técnica de estimación para resumir
una relación compleja que no puede ser aprehendida por un modelo paramétrico, como
para suplementar (o complementar) un análisis de regresión paramétrico.
3
ESTIMACIONES
En estadística se llama estimación al conjunto de técnicas que permiten dar un valor
aproximado de un parámetro de una población a partir de los datos proporcionados por
una muestra.
La inferencia estadística es el proceso de usar resultados muestrales para obtener con-
clusiones respecto a las características de una población. Vamos a estudiar los proced-
imientos estadísticos que permitan estimar dos parámetros de una población: la media
y la proporción.
Razón para estimar
Los administradores utilizan las estimaciones porque se deben tomar decisiones racionales,
sin que tengan la información pertinente completa y con una gran incertidumbre ac-
erca de lo que pueda deparar el futuro, pero con la intención de que las estimaciones
constituyan una buena aproximación de los parámetros desconocidos de la población.
Estimador
Es la regla o procedimiento, expresado en general por medio de una fórmula, que se
utiliza para deducir la estimación.
Estimación.
Es un valor especí�co observado de un estimador, por lo que asigna uno o varios valores
numéricos a un parámetro de una población sobre la base de datos de muestra. En
su versión más simple, una estimación de la media de una determinada característica
de una población de tamaño N sería la media de esa misma característica para una
muestra de tamaño n.
Un estimador de un parámetro poblacional es una función de los datos muéstrales.
En pocas palabras, es una fórmula que depende de los valores obtenidos de una mues-
tra, para realizar estimaciones.
4
TIPOS DE ESTIMACIONES:
� Estimación de parámetros:
Un problema importante de la inferencia estadística es la estimación de parámetros de
la población, brevemente parámetros, de los correspondientes estadísticos muéstrales,
o simplemente estadísticos.
� Estimaciones sin sesgo:
Si la media de las dispersiones de muestreo con un estadístico es igual que la del cor-
respondiente parámetro de la población, el estadístico se llamara estimador sin sesgo,
del parámetro; si no, si no se llama estimador sesgado. Los correspondientes valores
de tal estadístico se llaman estimación sin sesgo, y estimación con sesgo respectivamente.
� Estimación puntual :
Consiste en la estimación del valor del parámetro mediante un sólo valor, obtenido
de una fórmula determinada. Por ejemplo, si se pretende estimar la talla media de
un determinado grupo de individuos, puede extraerse una muestra y ofrecer como esti-
mación puntual la talla media de los individuos de la muestra.
Cuando usamos una estimación puntual, sabemos que aunque usemos un método bueno
de estimación es prácticamente improbable que el valor de la estimación coincida con el
verdadero valor del parámetro, así que sería conveniente acompañar nuestra estimación
con alguna medida que nos permitiera expresar la cercanía del estimador al parámetro.
Una solución a ello no los brindan los estimadores por Intervalos de Con�anza.
� Estimación por intervalos:
Consiste en la obtención de un intervalo dentro del cual estará el valor del parámetro
estimado con una cierta probabilidad. En la estimación por intervalos se usan los sigu-
ientes conceptos
5
Conceptos Básicos:
Intervalo de con�anza:
El intervalo de con�anza es una expresión del tipo [j1, j2] ó j1 ≤ j ≤ j2, donde
j es el parámetro a estimar. Este intervalo contiene al parámetro estimado con una
determinada certeza o nivel de con�anza.
Variabilidad del parámetro:
Si no se conoce, puede obtenerse una aproximación en los datos aportados por la liter-
atura cientí�ca o en un estudio piloto. También hay métodos para calcular el tamaño
de la muestra que prescinde de este aspecto. Habitualmente se usa como medida de
esta variabilidad la desviación típica poblacional y se denota sv.
Error de la estimación:
Es una medida de su precisión que se corresponde con la amplitud del intervalo de con-
�anza. Cuanta más precisión se desee en la estimación de un parámetro, más estrecho
deberá ser el intervalo de con�anza y, si se quiere mantener o disminuír el error, más
ocurrencias deberán incluirse en la muestra estudiada. En caso de no incluir nuevas
observaciones para la muestra, más error se comete al aumentar la precisión. Se suele
llamar E, según la fórmula E = j2 - j1.
Nivel de con�anza:
Es la probabilidad de que el verdadero valor del parámetro estimado en la población se
sitúe en el intervalo de con�anza obtenido. El nivel de con�anza se denota por (1-a),
aunque habitualmente suele expresarse con un porcentaje ((1-a)*100%).
Es habitual tomar como nivel de con�anza un 95% o un 99%, que se corresponden
con valores a de 0,05 y 0,01, respectivamente.
Donde el Valor a es también llamado nivel de signi�cancia. Es la probabilidad (en
tanto por uno) de fallar en nuestra estimación, esto es, la diferencia entre la certeza (1)
y el nivel de con�anza (1-a). Por ejemplo, en una estimación con un nivel de con�anza
del 95%, el valor a es (100�95)/100 = 0,05.
Valor crítico:
Se representa por Za/2. Es el valor de la abscisa en una determinada distribución que
6
deja a su derecha un área igual a a/2, siendo 1-a el nivel de con�anza. Normalmente
los valores críticos están tabulados o pueden calcularse en función de la distribución de
la población.
Por ejemplo, para una distribución normal, de media 0 y desviación típica 1, el valor
crítico para a = 0.05 se calcularía del siguiente modo: se busca en la tabla de la dis-
tribución ese valor (o el más aproximado), bajo la columna �Área�; se observa que se
corresponde con =0.64. Entonces Za/2 = 0.64.
Si la media o desviación típica de la distribución normal no coinciden con las de la
tabla, se puede realizar el cambio de variable t= (X−m)sv
para su cálculo. Con estas de�ni-
ciones, si tras la extracción de una muestra se dice que �3 es una estimación de la media
con un margen de error de 0.6 y un nivel de con�anza del 99%�, podemos interpretar
que el verdadero valor de la media se encuentra entre 2.7 y 3.3, con una probabilidad
del 99%. Los valores 2.7 y 3.3 se obtienen restando y sumando, respectivamente, la
mitad del error, para obtener el intervalo de con�anza según las de�niciones dadas.
Para un tamaño �jo de la muestra, los conceptos de error y nivel de con�anza van
relacionados. Si admitimos un error mayor, esto es, aumentamos el tamaño del in-
tervalo de con�anza, tenemos también una mayor probabilidad de éxito en nuestra
estimación, es decir, un mayor nivel de con�anza.
7
MÉTODOS NO PARAMÉTRICOS DE ESTIMACIÓN
La estadística no paramétrica es una rama de la estadística que estudia las pruebas
y modelos estadísticos cuya distribución subyacente no se ajusta a los llamados crite-
rios paramétricos. Su distribución no puede ser de�nida a priori, pues son los datos
observados los que la determinan.
La utilización de estos métodos se hace recomendable cuando no se puede asumir que
los datos se ajusten a una distribución conocida, cuando el nivel de medida empleado
no sea, como mínimo, de intervalo.
Los métodos no paramétricos tienen ventajas sobre los paramétricos algunos de el-
los son:
Los métodos paramétricos en muchas ocasiones no cumplen con los supuestos acerca
de la forma funcional del conjunto de variables aleatorias de las cuales provienen los
datos, produciendo así modelos no muy con�ables que generan sesgos en y deterioran
la calidad de los pronósticos; en el campo no paramétrico se evita este problema al
permitir una forma funcional �exible, y no un conjunto pequeño de modelos rígidos
como lo hacen los paramétricos.
Sin embargo, se les hace dos críticas, la primera se re�ere a la demora en el trabajo
computacional y la segunda al amplio error cuadrático medio de predicción. Gracias
a desarrollos tecnológicos en el ámbito computacional y su disponibilidad a bajo costo
queda sin peso la primera crítica.
Como lo escribe Härdle (1990), la aproximación no paramétrica a la estimación de
curvas de regresión tiene cuatro propósitos principales.
Primero: Proveer un método versátil de explorar una relación general entre dos vari-
ables.
Segundo: Generar una predicción de observaciones aun no hechas, sin referencia a
un modelo paramétrico �jo.
8
Tercero: Proporcionar una herramienta para encontrar observaciones espurias, me-
diante el estudio de la in�uencia de puntos aislados.
Cuarto: Constituye un método �exible de sustitución de observaciones faltantes o atípi-
cas y permite interpolar entre valores adyacentes de las variables exógenas.
Dentro del marco de regresión no paramétrica se pueden citar además de los méto-
dos basados en kernel o suavizamiento, los de estimación basada en los k vecinos más
cercanos (k-nearest neighbor), las estimaciones con series ortogonales, regresión cuan-
tílica y los suavizamientos de Splines.
El presente trabajo se centra en los basados en metodología kernel, la cual se describe
a continuación
9
ESTIMACIONES DE DENSIDAD VIA KERNEL
Propuestos por primera vez por Rosenblatt (1956), la singularidad de estos estimadores
radica en que adoptan un enfoque no paramétrico para la formulación de funciones de
densidad. Con ello no se imponen asunciones tan rígidas a los datos como sucede en el
planteamiento paramétrico.
Según lo señala Silverman (1986), asumiendo que la distribución de datos posee una
densidad de probabilidad f, se les posibilita hablar más por sí mismos al determinar
dicha función f, que si se exigiera su adecuación a una determinada familia de funciones
paramétricas.
Desde el punto de vista matemático estos estimadores poseen un cierto número de
propiedades interesantes:
a) Son funciones simétricas centradas en cero y su integral vale la unidad.
b) Puesto que el Kernel es una función de densidad, el estimador f̂ también lo es.
c) En la mayoría de los casos (dependiendo del Kernel) se trata también de funciones
continuas y diferenciables.
d) Los Kernels son positivos.
En el caso univariado, el estimador por kernels de la función de densidad f(x) se
obtiene de la siguiente manera. Consideremos que x1, . . .xn es una variable aleatoria
X con función de densidad f(x), de�namos la función de distribución empirica por:
Fn(x) =#de obs ≤ x
n
el cual es un estimador de la función de distribución acumulada F (x) de X. Con-
siderando que la función de densidad f(x) es la derivada de la función de distribución
F y usando aproximación para derivada se tiene que:
f̂(x) =Fn(x+ h) + Fn(x− h)
n(1)
10
donde h es un valor positivo cercano a cero. Lo anterior es equivalente a la proporción
de puntos en el intervalo (x-h, x+h) dividido por h. La ecuación (1) puede ser escrita
como:
f̂(x) =1
nh
n∑i=1
K
(x− xih
)
Donde:
x = Punto en el cual se trata de estimar la densidad
xi= Valor de la variable en el caso i=l, ... , n
K= Símbolo del Kernel
h = Anchura de la ventana o parámetro de suavizado.
Donde la función peso K está de�nida por:
K(z) =
0 si | z |> 1
12
si | z |≤ 1
Este es llamado el kernel uniforme y h llamado el ancho de banda es un parámetro de
suavización que indica cuanto contribuye cada punto muestral al estimado en el punto
x. En general, K y h deben satisfacer ciertas condiciones de regularidad, tales como:
1. Integral desde −∞ hasta ∞ de K(z) = 1
2. K(z) debe ser acotado y absolutamente integrable en (−∞,∞)
3. limn→∞ h (n) = 0
Usualmente, pero no siempre, K(z)>0 y simétrico, luego cualquier función de densidad
simétrica puede usarse como kernel.
Entre los kernels mas usados los cuales veremos con mas profundidad mas adelante son:
11
a) El kernel Rectangular o Uniforme es de�nido por:
K(z) =
0 si | z |> 1
12
si | z |≤ 1
En este caso cualquier punto en el intervalo (x-h, x+h) contribuye 12nh
al estimado de
f(x) en el punto x, y cualquier punto fuera de ese intervalo no contribuye en nada.
b) El kernel Gaussiano de�nido por:
K(z) =1√2πexp(−(1/2) z2)
En este caso el kernel representa una función peso más suave donde todos los puntos
contribuyen al estimado de f(x) en x.
c) El kernel Triangular de�nido por:
K(z) = 1− | z |
Para | z |menor que 1 y en otro caso.
d)El kernel "Biweight" de�nido por
K(z) =
1516(1− z2)2 si | z |< 1
0 E.O.C
e) El kernel Epanechnikov de�nido por:
K(z) =
3
4√5(1− z2
5) si | z |<
√5
0 E.O.C
12
El parámetro h es llamado el ancho de banda. Si h es muy pequeño entonces el esti-
mador de densidad por kernel degenera en una colección de n picos cada uno de ellos
localizado en cada punto muestral.
Si h es demasiado grande entonces el estimado se sobresuaviza y se obtiene casi una
distribucion uniforme. El valor de h también depende del tamaño de la muestra, con
muestras pequeñas se debe escoger un h grande y con muestras grandes se puede escoger
un h pequeño.
La mayoría de las posibles elecciones para el parámetro ancho de banda h basados en
un conjunto de datos X de tamaño n hacen uso de la fórmula anterior. A continuación
se listan algunas elecciones de h:
� h = rango(x)2(1+log2n)
� h = 1.06min(σ̂, R/1.34)n−1/5
donde σ̂ es la desviación estándar estimada del conjunto de datos y R representa el
rango intercuartílico, las constantes provienen de asumir que la densidad descono-
cida es Normal y un kernel gausiano. Este es básicamente el método usado por
SAS/INSIGHT para estimar la curvatura.
� h = 1.144σ̂n−1/5
Otros métodos mas so�sticados son:
� El método de Sheather y Jones (1991) que propone estimar la curvatura usando
también el método del kernel, pero con un ancho de banda g distinto al que se
usa para estimar la densidad. Los estimadores de densidad de la libreria de Ripley
usan este método.
� Usando validación cruzada, propiamente el método �dejando uno afuera�. Aqui el
h es considerado como un parámetro que debe ser estimado. Hay dos alternativas,
usando mínimos cuadrados (aqui se obtiene un estimado insesgado), o maxima
verosimilitud (aqui se obtiene un estimador sesgado). Ver Bowman and Azzalini
(1997), para una implementación en S-Plus.
� Usando "Bootstrapping", en este caso se encuentra un estimado del MISE usando
muestras con reemplazamiento y se minimiza con respecto a h.
13
Cao, Cuevas y Gonzalez (1994) hacen una comparación de varios metodos de elegir el
ancho de banda h y llegan a la conclusión de que sin considerar el "boostrapping", el
método de Sheather y Jones es el de mejor rendimiento.
FUNCIONES KERNEL:
A continuación se mencionan las funciones kernel más usadas en aplicaciones prac-
ticas. Con �nes ilustrativos se presentan los kernel estándar, K(u) , pero se debe tener
en cuenta que en la practica se utiliza.
Kh = h−1K(uh
)Kernel Uniforme: Asigna peso de 1
hpor igual a todas las observaciones que están a
distancia no mayor de h y cero a las demás. Una representación grá�ca será.
Kernel Triangular: Asigna pesos de 1ha observaciones coincidentes y el peso de
las otras decrece linealmente hasta un peso de cero a las que están a h o mas lejos.
Gra�camente seria:
14
Kernel Epanechnikov: Para las observaciones que están a distancia de 0 a h asigna
pesos entre 0.75 y cero, con decrecimiento cuadrático. Las que están a una distancia
de h o mayor tienen peso cero. Su grá�ca se muestra a continuación:
Kernel Bicuadrado: Los pesos para observaciones cercanas son cuando mas de 0.93
con decrecimiento polinomial cuártico hasta llegar a cero, cuando la distancia es de h
o mayor.
15
Kernel Gaussiano: Asigna pesos de acuerdo a una densidad normal estándar. Obser-
vaciones cuya distancia oscila entre cero y 1 reciben peso entre 0.4 y 0.2, las que están
a distancia 3 reciben peso de 0.0039 y prácticamente cero el resto de observaciones. Es
un Kernel muy popular, con soporte no compacto y diferenciable en todo su soporte o
recorrido. En este caso el ancho de banda en Kh(u) desempeña el papel de desviación
estándar.
Kernel Tri-Cúbico: El cual es similar al Epanechnikov pero más plano en la cima;
con la ventaja teórica de que es diferenciable en los límites de su soporte (| u |= 1).
16
Kernel Dirichlet: Los pesos son asignados según ondas senosoidales de magnitud
decrecientes, con un `lóbulo principal' o mayor alrededor de cero y lóbulos laterales o
menores a los dos lados. Este kernel resulta de soporte no acotado. Tiene la particu-
laridad de no ser siempre positiva y es usada en análisis espectral, véase Prietsley (1984).
De las anteriores funciones kernel y de otras que existen en la literatura las mas usadas
son la función Tri-cúbico, Epanechnikov y la Gaussiana soportado en sus propiedades
estadísticas y asintóticas. Dado que la elección de la función kernel no afecta marcada-
mente los resultados, como es aceptado ampliamente en la literatura, en este trabajo
se usa el Kernel Gaussiano.
17
Naturalmente la obtención de la función de estimación puede realizarse en puntos difer-
entes a los datos observados. La idea básica consiste, en conclusión, en calcular para
unos determinados puntos, la suma promediada (de ahí que el estimador suponga sumar
sobre n y dividir luego por este valor) de los Kernels o �elevaciones� centradas sobre las
observaciones.
Entre las funciones no mencionadas tenemos:
� Coseno: Para | u |≤ 1π
4cos(π2u)
� K2 de Silverman: Para | u |≤ 13
π
(1− u2
)2
18
ESTIMACIÓN PORKERNELS DE UNA FUNCIÓNDE DENSIDADMUL-
TIVARIADA
La función de estimación Kernel multivariada no sería más que una extensión de las
formulaciones anteriores.
El método de kernels fue extendido a distribuciones multivariadas por Cacoullos (1966).
En este caso X1, X2, . . . .Xn es una muestra de vectores aleatorios distribuidos con una
densidad f(x) en un espacio de dimensión d. El estimador de la función de densidad
usando un kernel multivariado k y con ancho de banda h �jo para cada componenente
del vector es de la forma:
f̂(x) =1
nhd
n∑i=1
K
(x− xih
)
la función kernel K, de�nida para un vector x de dimensión d, debe satisfacer que:
La K(x)dx=1
Usualmente, pero no siempre, K será una función de densidad multivariada radial-
mente simétrica y unimodal. El ancho de banda h puede ser considerado también como
un vector si se considera que es distinto para cada componente.
Existen otras formas más generales del estimador de densidad por kernel.
Los kernels más usados son las versiones multivariadas de los de�nidos anteriormente.
1. El kernel Gaussiano será:
K(x) = (2π)−d/2exp(−(1/2)x´x)
2. El kernel "Biweight" será:
K(z) =
3π−1(1− x´x)2 si x´x < 1
0 E.O.C
19
3. El kernel Epanechnikov será:
K(z) =
12c
−1d (d+ 2)(1− x´x) si x´x < 1
0 E.O.C
donde cd es el volumen de una esfera unitaria de dimensión d: Así, c1=2, c2=p, c3=4π/3.
4. El kernel "Triweight" se de�ne en forma similar al "Biweight" como:
K(z) =
4π−1(1− x´x)3 si x´x < 1
0 E.O.C
Kernels Productos
En el caso multivariado, una alternativa a usar un kernel multivariado, el cuál es afec-
tado por la �maldición de la dimensionalidad� es usar productos de kernels univariados.
Considerando que x=(x1,. . . .xp) es un vector p-dimensional, el estimador kernel pro-
ducto se de�ne por:
f̂(x) =1
nhp
n∑i=1
p∏j=1
K
(xj − xji
h
)
donde K es un kernel univariado. Un caso más general es considerar un h distinto para
cada variable.
Kernels para variables discretas
Si las las variables predictoras son binarias 0-1, entonces Aitchison and Aitken (Biometrika,
1976) propusieron el siguiente kernel p-dimensional
f̂(x) =1
nhp
n∑i=1
K (x, xj, h)
donde:
20
K (x, xj, h) = hp−d2j (1− h)d2j
Con d2j es la distancia euclideana al cuadrado entre x y xj , es decir el número de
elementos diferentes que tienen entre si, y 1/2≤ h ≤1. Titterington (Technometrics,
1980) estudió varias maneras de elegir el ancho de banda h. En particular, si se tiene
una sola variable Binomial entonces K(x,y)=h si x=y y K(x,y)=1-h si x6=y y el método
de "dejar uno afuera" produce la siguiente valor óptimo de h
h = max(0.5,−(r21a1 + r22a2)n/a1a2)
donde a1 = n(r1 − r2) − 1 y a2 = n(r2 − r1) − 1. Aquí r1 es la frecuencia relativa del
Grupo 1 y r2 es la frecuencia relativa del grupo 2, n es el total de observaciones en la
muestra de entrenamiento.
21
EJERCICIO DE APLICACIÓN
El ejemplo corresponde a los datos de bosques tropicales. Se localizaron 3604 árboles
en un bosque húmedo tropical.
El estudio se realizo para conocer el patrón espacial de los arboles del bosque trop-
ical
A continuación se muestra el código para el análisis de los arboles en el bosque con
sus respectivos grá�cos y explicación:
library(spatstat)
data(bei)
#planar point pattern: 3604 points
#window: rectangle = [0, 1000] x [0, 500] metres
plot(bei, main = "Arboles de un bosque tropical", pch = ".")
den <- density(bei, 100) plot(den, main = "Densidad") plot(bei, pch = ".", add = T)
contour(den, main = "Contorno", axes = F)
persp(den, main = "Densidad 3D", zlab = "Densidad", theta = 45, phi = 35)
Las estimaciones de densidad via kernel se muestran a continuación.
Primero observemos la distribución de los árboles:
22
Arboles de un bosque tropical
Veamos la densidad
Densidad
0.00
50.
010.
015
A continuación la grá�ca de contornos
23
Contorno
0.004
0.0
04
0.006
0.006
0.006 0.008
0.008
0.008
0.01
0.01
0.012
0.012
0.014
0.016
Finalmete, la densidad viendola en 3-Dimensión.
x
y
Densidad
Densidad 3D
24
BIBLIOGRAFÍAS
ALMENDRAS OPAZO, Edagar. 2002. Estimaciones Via Kernel. Universidad Ad-ventista de Chile. 38 pág
LUCENO, Alberto and PUIG PEY, Jaime. 2002. Journal of Quality Technology.
25