Estimaciones via Kernel

ESTIMACIONES VIA KERNEL

Giovanny Casas Agudeo

Profesor: Juan Carlos Correa

Estadística Bayesiana

Facultad de Ciencias- Escuela de Estadística

Universidad Nacional de Colombia

Medellín, Colombia

2010

ESTIMACIONES DE DENSIDAD

VIA KERNEL

1

TABLA DE CONTENIDO

1. Introducción ..................................................................................................... 3

2. Estimaciones .................................................................................................... 4

3. Tipos de Estimaciones .................................................................................... 5

3.1. Conceptos Básicos ...................................................................................... 6

4. Métodos No Parametricos de Estimación.................................................... 8

5. Estimaciones de Densidad Via Kernel ......................................................... 10

5.1. Funciones Kernel ......................................................................................... 14

6. Estimacion de Densidad Multivariada Via Kernel .................................... 19

7. Ejercicio de Aplicación .................................................................................. 20

8. Bibliografía ...................................................................................................... 25

2

INTRODUCCIÓN

La teoría clásica de la regresión se basa, en gran parte, en el supuesto que las ob-

servaciones son independientes y se encuentran idéntica y normalmente distribuidas. Si

bien existen muchos fenómenos del mundo real que pueden modelarse de esta manera,

para el tratamiento de ciertos problemas, la normalidad de los datos es insostenible.

En el intento de eliminar esa restricción se diseñaron métodos que hacen un número

mínimo de supuestos sobre los modelos que describen las observaciones.

La teoría de los métodos no paramétricos trata, esencialmente, el desarrollo de proced-

imientos de inferencia estadística, que no realizan una suposición explícita con respecto

a la forma funcional de la distribución de probabilidad de las observaciones de la mues-

tra. Si bien en la Estadística no paramétrica también aparecen modelos y parámetros,

ellos están de�nidos de una manera más general que en su contrapartida paramétrica.

La regresión no paramétrica es una colección de técnicas para el ajuste de funciones

de regresión cuando existe poco conocimiento a priori acerca de su forma. Proporciona

funciones suavizadas de la relación y el procedimiento se denomina suavizado.

Los fundamentos de los métodos de suavizado son antiguos pero sólo lograron el es-

tado actual de desarrollo gracias a los avances de la computación y los estudios por

simulación han permitido evaluar sus comportamientos.

La técnica más simple de suavizado, los promedios móviles, fue la primera en usarse,

sin embargo han surgido nuevas técnicas como la estimación vía kernel o la regre-

sión local ponderada. Estos estimadores de regresión no paramétrica son herramientas

poderosas para el análisis de datos, tanto como una técnica de estimación para resumir

una relación compleja que no puede ser aprehendida por un modelo paramétrico, como

para suplementar (o complementar) un análisis de regresión paramétrico.

3

ESTIMACIONES

En estadística se llama estimación al conjunto de técnicas que permiten dar un valor

aproximado de un parámetro de una población a partir de los datos proporcionados por

una muestra.

La inferencia estadística es el proceso de usar resultados muestrales para obtener con-

clusiones respecto a las características de una población. Vamos a estudiar los proced-

imientos estadísticos que permitan estimar dos parámetros de una población: la media

y la proporción.

Razón para estimar

Los administradores utilizan las estimaciones porque se deben tomar decisiones racionales,

sin que tengan la información pertinente completa y con una gran incertidumbre ac-

erca de lo que pueda deparar el futuro, pero con la intención de que las estimaciones

constituyan una buena aproximación de los parámetros desconocidos de la población.

Estimador

Es la regla o procedimiento, expresado en general por medio de una fórmula, que se

utiliza para deducir la estimación.

Estimación.

Es un valor especí�co observado de un estimador, por lo que asigna uno o varios valores

numéricos a un parámetro de una población sobre la base de datos de muestra. En

su versión más simple, una estimación de la media de una determinada característica

de una población de tamaño N sería la media de esa misma característica para una

muestra de tamaño n.

Un estimador de un parámetro poblacional es una función de los datos muéstrales.

En pocas palabras, es una fórmula que depende de los valores obtenidos de una mues-

tra, para realizar estimaciones.

4

TIPOS DE ESTIMACIONES:

� Estimación de parámetros:

Un problema importante de la inferencia estadística es la estimación de parámetros de

la población, brevemente parámetros, de los correspondientes estadísticos muéstrales,

o simplemente estadísticos.

� Estimaciones sin sesgo:

Si la media de las dispersiones de muestreo con un estadístico es igual que la del cor-

respondiente parámetro de la población, el estadístico se llamara estimador sin sesgo,

del parámetro; si no, si no se llama estimador sesgado. Los correspondientes valores

de tal estadístico se llaman estimación sin sesgo, y estimación con sesgo respectivamente.

� Estimación puntual :

Consiste en la estimación del valor del parámetro mediante un sólo valor, obtenido

de una fórmula determinada. Por ejemplo, si se pretende estimar la talla media de

un determinado grupo de individuos, puede extraerse una muestra y ofrecer como esti-

mación puntual la talla media de los individuos de la muestra.

Cuando usamos una estimación puntual, sabemos que aunque usemos un método bueno

de estimación es prácticamente improbable que el valor de la estimación coincida con el

verdadero valor del parámetro, así que sería conveniente acompañar nuestra estimación

con alguna medida que nos permitiera expresar la cercanía del estimador al parámetro.

Una solución a ello no los brindan los estimadores por Intervalos de Con�anza.

� Estimación por intervalos:

Consiste en la obtención de un intervalo dentro del cual estará el valor del parámetro

estimado con una cierta probabilidad. En la estimación por intervalos se usan los sigu-

ientes conceptos

5

Conceptos Básicos:

Intervalo de con�anza:

El intervalo de con�anza es una expresión del tipo [j1, j2] ó j1 ≤ j ≤ j2, donde

j es el parámetro a estimar. Este intervalo contiene al parámetro estimado con una

determinada certeza o nivel de con�anza.

Variabilidad del parámetro:

Si no se conoce, puede obtenerse una aproximación en los datos aportados por la liter-

atura cientí�ca o en un estudio piloto. También hay métodos para calcular el tamaño

de la muestra que prescinde de este aspecto. Habitualmente se usa como medida de

esta variabilidad la desviación típica poblacional y se denota sv.

Error de la estimación:

Es una medida de su precisión que se corresponde con la amplitud del intervalo de con-

�anza. Cuanta más precisión se desee en la estimación de un parámetro, más estrecho

deberá ser el intervalo de con�anza y, si se quiere mantener o disminuír el error, más

ocurrencias deberán incluirse en la muestra estudiada. En caso de no incluir nuevas

observaciones para la muestra, más error se comete al aumentar la precisión. Se suele

llamar E, según la fórmula E = j2 - j1.

Nivel de con�anza:

Es la probabilidad de que el verdadero valor del parámetro estimado en la población se

sitúe en el intervalo de con�anza obtenido. El nivel de con�anza se denota por (1-a),

aunque habitualmente suele expresarse con un porcentaje ((1-a)*100%).

Es habitual tomar como nivel de con�anza un 95% o un 99%, que se corresponden

con valores a de 0,05 y 0,01, respectivamente.

Donde el Valor a es también llamado nivel de signi�cancia. Es la probabilidad (en

tanto por uno) de fallar en nuestra estimación, esto es, la diferencia entre la certeza (1)

y el nivel de con�anza (1-a). Por ejemplo, en una estimación con un nivel de con�anza

del 95%, el valor a es (100�95)/100 = 0,05.

Valor crítico:

Se representa por Za/2. Es el valor de la abscisa en una determinada distribución que

6

deja a su derecha un área igual a a/2, siendo 1-a el nivel de con�anza. Normalmente

los valores críticos están tabulados o pueden calcularse en función de la distribución de

la población.

Por ejemplo, para una distribución normal, de media 0 y desviación típica 1, el valor

crítico para a = 0.05 se calcularía del siguiente modo: se busca en la tabla de la dis-

tribución ese valor (o el más aproximado), bajo la columna �Área�; se observa que se

corresponde con =0.64. Entonces Za/2 = 0.64.

Si la media o desviación típica de la distribución normal no coinciden con las de la

tabla, se puede realizar el cambio de variable t= (X−m)sv

para su cálculo. Con estas de�ni-

ciones, si tras la extracción de una muestra se dice que �3 es una estimación de la media

con un margen de error de 0.6 y un nivel de con�anza del 99%�, podemos interpretar

que el verdadero valor de la media se encuentra entre 2.7 y 3.3, con una probabilidad

del 99%. Los valores 2.7 y 3.3 se obtienen restando y sumando, respectivamente, la

mitad del error, para obtener el intervalo de con�anza según las de�niciones dadas.

Para un tamaño �jo de la muestra, los conceptos de error y nivel de con�anza van

relacionados. Si admitimos un error mayor, esto es, aumentamos el tamaño del in-

tervalo de con�anza, tenemos también una mayor probabilidad de éxito en nuestra

estimación, es decir, un mayor nivel de con�anza.

7

MÉTODOS NO PARAMÉTRICOS DE ESTIMACIÓN

La estadística no paramétrica es una rama de la estadística que estudia las pruebas

y modelos estadísticos cuya distribución subyacente no se ajusta a los llamados crite-

rios paramétricos. Su distribución no puede ser de�nida a priori, pues son los datos

observados los que la determinan.

La utilización de estos métodos se hace recomendable cuando no se puede asumir que

los datos se ajusten a una distribución conocida, cuando el nivel de medida empleado

no sea, como mínimo, de intervalo.

Los métodos no paramétricos tienen ventajas sobre los paramétricos algunos de el-

los son:

Los métodos paramétricos en muchas ocasiones no cumplen con los supuestos acerca

de la forma funcional del conjunto de variables aleatorias de las cuales provienen los

datos, produciendo así modelos no muy con�ables que generan sesgos en y deterioran

la calidad de los pronósticos; en el campo no paramétrico se evita este problema al

permitir una forma funcional �exible, y no un conjunto pequeño de modelos rígidos

como lo hacen los paramétricos.

Sin embargo, se les hace dos críticas, la primera se re�ere a la demora en el trabajo

computacional y la segunda al amplio error cuadrático medio de predicción. Gracias

a desarrollos tecnológicos en el ámbito computacional y su disponibilidad a bajo costo

queda sin peso la primera crítica.

Como lo escribe Härdle (1990), la aproximación no paramétrica a la estimación de

curvas de regresión tiene cuatro propósitos principales.

Primero: Proveer un método versátil de explorar una relación general entre dos vari-

ables.

Segundo: Generar una predicción de observaciones aun no hechas, sin referencia a

un modelo paramétrico �jo.

8

Tercero: Proporcionar una herramienta para encontrar observaciones espurias, me-

diante el estudio de la in�uencia de puntos aislados.

Cuarto: Constituye un método �exible de sustitución de observaciones faltantes o atípi-

cas y permite interpolar entre valores adyacentes de las variables exógenas.

Dentro del marco de regresión no paramétrica se pueden citar además de los méto-

dos basados en kernel o suavizamiento, los de estimación basada en los k vecinos más

cercanos (k-nearest neighbor), las estimaciones con series ortogonales, regresión cuan-

tílica y los suavizamientos de Splines.

El presente trabajo se centra en los basados en metodología kernel, la cual se describe

a continuación

9

ESTIMACIONES DE DENSIDAD VIA KERNEL

Propuestos por primera vez por Rosenblatt (1956), la singularidad de estos estimadores

radica en que adoptan un enfoque no paramétrico para la formulación de funciones de

densidad. Con ello no se imponen asunciones tan rígidas a los datos como sucede en el

planteamiento paramétrico.

Según lo señala Silverman (1986), asumiendo que la distribución de datos posee una

densidad de probabilidad f, se les posibilita hablar más por sí mismos al determinar

dicha función f, que si se exigiera su adecuación a una determinada familia de funciones

paramétricas.

Desde el punto de vista matemático estos estimadores poseen un cierto número de

propiedades interesantes:

a) Son funciones simétricas centradas en cero y su integral vale la unidad.

b) Puesto que el Kernel es una función de densidad, el estimador f̂ también lo es.

c) En la mayoría de los casos (dependiendo del Kernel) se trata también de funciones

continuas y diferenciables.

d) Los Kernels son positivos.

En el caso univariado, el estimador por kernels de la función de densidad f(x) se

obtiene de la siguiente manera. Consideremos que x1, . . .xn es una variable aleatoria

X con función de densidad f(x), de�namos la función de distribución empirica por:

Fn(x) =#de obs ≤ x

n

el cual es un estimador de la función de distribución acumulada F (x) de X. Con-

siderando que la función de densidad f(x) es la derivada de la función de distribución

F y usando aproximación para derivada se tiene que:

f̂(x) =Fn(x+ h) + Fn(x− h)

n(1)

10

donde h es un valor positivo cercano a cero. Lo anterior es equivalente a la proporción

de puntos en el intervalo (x-h, x+h) dividido por h. La ecuación (1) puede ser escrita

como:

f̂(x) =1

nh

n∑i=1

K

(x− xih

)

Donde:

x = Punto en el cual se trata de estimar la densidad

xi= Valor de la variable en el caso i=l, ... , n

K= Símbolo del Kernel

h = Anchura de la ventana o parámetro de suavizado.

Donde la función peso K está de�nida por:

K(z) =

0 si | z |> 1

12

si | z |≤ 1

Este es llamado el kernel uniforme y h llamado el ancho de banda es un parámetro de

suavización que indica cuanto contribuye cada punto muestral al estimado en el punto

x. En general, K y h deben satisfacer ciertas condiciones de regularidad, tales como:

1. Integral desde −∞ hasta ∞ de K(z) = 1

2. K(z) debe ser acotado y absolutamente integrable en (−∞,∞)

3. limn→∞ h (n) = 0

Usualmente, pero no siempre, K(z)>0 y simétrico, luego cualquier función de densidad

simétrica puede usarse como kernel.

Entre los kernels mas usados los cuales veremos con mas profundidad mas adelante son:

11

a) El kernel Rectangular o Uniforme es de�nido por:

K(z) =

0 si | z |> 1

12

si | z |≤ 1

En este caso cualquier punto en el intervalo (x-h, x+h) contribuye 12nh

al estimado de

f(x) en el punto x, y cualquier punto fuera de ese intervalo no contribuye en nada.

b) El kernel Gaussiano de�nido por:

K(z) =1√2πexp(−(1/2) z2)

En este caso el kernel representa una función peso más suave donde todos los puntos

contribuyen al estimado de f(x) en x.

c) El kernel Triangular de�nido por:

K(z) = 1− | z |

Para | z |menor que 1 y en otro caso.

d)El kernel "Biweight" de�nido por

K(z) =

1516(1− z2)2 si | z |< 1

0 E.O.C

e) El kernel Epanechnikov de�nido por:

K(z) =

3

4√5(1− z2

5) si | z |<

√5

0 E.O.C

12

El parámetro h es llamado el ancho de banda. Si h es muy pequeño entonces el esti-

mador de densidad por kernel degenera en una colección de n picos cada uno de ellos

localizado en cada punto muestral.

Si h es demasiado grande entonces el estimado se sobresuaviza y se obtiene casi una

distribucion uniforme. El valor de h también depende del tamaño de la muestra, con

muestras pequeñas se debe escoger un h grande y con muestras grandes se puede escoger

un h pequeño.

La mayoría de las posibles elecciones para el parámetro ancho de banda h basados en

un conjunto de datos X de tamaño n hacen uso de la fórmula anterior. A continuación

se listan algunas elecciones de h:

� h = rango(x)2(1+log2n)

� h = 1.06min(σ̂, R/1.34)n−1/5

donde σ̂ es la desviación estándar estimada del conjunto de datos y R representa el

rango intercuartílico, las constantes provienen de asumir que la densidad descono-

cida es Normal y un kernel gausiano. Este es básicamente el método usado por

SAS/INSIGHT para estimar la curvatura.

� h = 1.144σ̂n−1/5

Otros métodos mas so�sticados son:

� El método de Sheather y Jones (1991) que propone estimar la curvatura usando

también el método del kernel, pero con un ancho de banda g distinto al que se

usa para estimar la densidad. Los estimadores de densidad de la libreria de Ripley

usan este método.

� Usando validación cruzada, propiamente el método �dejando uno afuera�. Aqui el

h es considerado como un parámetro que debe ser estimado. Hay dos alternativas,

usando mínimos cuadrados (aqui se obtiene un estimado insesgado), o maxima

verosimilitud (aqui se obtiene un estimador sesgado). Ver Bowman and Azzalini

(1997), para una implementación en S-Plus.

� Usando "Bootstrapping", en este caso se encuentra un estimado del MISE usando

muestras con reemplazamiento y se minimiza con respecto a h.

13

Cao, Cuevas y Gonzalez (1994) hacen una comparación de varios metodos de elegir el

ancho de banda h y llegan a la conclusión de que sin considerar el "boostrapping", el

método de Sheather y Jones es el de mejor rendimiento.

FUNCIONES KERNEL:

A continuación se mencionan las funciones kernel más usadas en aplicaciones prac-

ticas. Con �nes ilustrativos se presentan los kernel estándar, K(u) , pero se debe tener

en cuenta que en la practica se utiliza.

Kh = h−1K(uh

)Kernel Uniforme: Asigna peso de 1

hpor igual a todas las observaciones que están a

distancia no mayor de h y cero a las demás. Una representación grá�ca será.

Kernel Triangular: Asigna pesos de 1ha observaciones coincidentes y el peso de

las otras decrece linealmente hasta un peso de cero a las que están a h o mas lejos.

Gra�camente seria:

14

Kernel Epanechnikov: Para las observaciones que están a distancia de 0 a h asigna

pesos entre 0.75 y cero, con decrecimiento cuadrático. Las que están a una distancia

de h o mayor tienen peso cero. Su grá�ca se muestra a continuación:

Kernel Bicuadrado: Los pesos para observaciones cercanas son cuando mas de 0.93

con decrecimiento polinomial cuártico hasta llegar a cero, cuando la distancia es de h

o mayor.

15

Kernel Gaussiano: Asigna pesos de acuerdo a una densidad normal estándar. Obser-

vaciones cuya distancia oscila entre cero y 1 reciben peso entre 0.4 y 0.2, las que están

a distancia 3 reciben peso de 0.0039 y prácticamente cero el resto de observaciones. Es

un Kernel muy popular, con soporte no compacto y diferenciable en todo su soporte o

recorrido. En este caso el ancho de banda en Kh(u) desempeña el papel de desviación

estándar.

Kernel Tri-Cúbico: El cual es similar al Epanechnikov pero más plano en la cima;

con la ventaja teórica de que es diferenciable en los límites de su soporte (| u |= 1).

16

Kernel Dirichlet: Los pesos son asignados según ondas senosoidales de magnitud

decrecientes, con un `lóbulo principal' o mayor alrededor de cero y lóbulos laterales o

menores a los dos lados. Este kernel resulta de soporte no acotado. Tiene la particu-

laridad de no ser siempre positiva y es usada en análisis espectral, véase Prietsley (1984).

De las anteriores funciones kernel y de otras que existen en la literatura las mas usadas

son la función Tri-cúbico, Epanechnikov y la Gaussiana soportado en sus propiedades

estadísticas y asintóticas. Dado que la elección de la función kernel no afecta marcada-

mente los resultados, como es aceptado ampliamente en la literatura, en este trabajo

se usa el Kernel Gaussiano.

17

Naturalmente la obtención de la función de estimación puede realizarse en puntos difer-

entes a los datos observados. La idea básica consiste, en conclusión, en calcular para

unos determinados puntos, la suma promediada (de ahí que el estimador suponga sumar

sobre n y dividir luego por este valor) de los Kernels o �elevaciones� centradas sobre las

observaciones.

Entre las funciones no mencionadas tenemos:

� Coseno: Para | u |≤ 1π

4cos(π2u)

� K2 de Silverman: Para | u |≤ 13

π

(1− u2

)2

18

ESTIMACIÓN PORKERNELS DE UNA FUNCIÓNDE DENSIDADMUL-

TIVARIADA

La función de estimación Kernel multivariada no sería más que una extensión de las

formulaciones anteriores.

El método de kernels fue extendido a distribuciones multivariadas por Cacoullos (1966).

En este caso X1, X2, . . . .Xn es una muestra de vectores aleatorios distribuidos con una

densidad f(x) en un espacio de dimensión d. El estimador de la función de densidad

usando un kernel multivariado k y con ancho de banda h �jo para cada componenente

del vector es de la forma:

f̂(x) =1

nhd

n∑i=1

K

(x− xih

)

la función kernel K, de�nida para un vector x de dimensión d, debe satisfacer que:

La K(x)dx=1

Usualmente, pero no siempre, K será una función de densidad multivariada radial-

mente simétrica y unimodal. El ancho de banda h puede ser considerado también como

un vector si se considera que es distinto para cada componente.

Existen otras formas más generales del estimador de densidad por kernel.

Los kernels más usados son las versiones multivariadas de los de�nidos anteriormente.

1. El kernel Gaussiano será:

K(x) = (2π)−d/2exp(−(1/2)x´x)

2. El kernel "Biweight" será:

K(z) =

3π−1(1− x´x)2 si x´x < 1

0 E.O.C

19

3. El kernel Epanechnikov será:

K(z) =

12c

−1d (d+ 2)(1− x´x) si x´x < 1

0 E.O.C

donde cd es el volumen de una esfera unitaria de dimensión d: Así, c1=2, c2=p, c3=4π/3.

4. El kernel "Triweight" se de�ne en forma similar al "Biweight" como:

K(z) =

4π−1(1− x´x)3 si x´x < 1

0 E.O.C

Kernels Productos

En el caso multivariado, una alternativa a usar un kernel multivariado, el cuál es afec-

tado por la �maldición de la dimensionalidad� es usar productos de kernels univariados.

Considerando que x=(x1,. . . .xp) es un vector p-dimensional, el estimador kernel pro-

ducto se de�ne por:

f̂(x) =1

nhp

n∑i=1

p∏j=1

K

(xj − xji

h

)

donde K es un kernel univariado. Un caso más general es considerar un h distinto para

cada variable.

Kernels para variables discretas

Si las las variables predictoras son binarias 0-1, entonces Aitchison and Aitken (Biometrika,

1976) propusieron el siguiente kernel p-dimensional

f̂(x) =1

nhp

n∑i=1

K (x, xj, h)

donde:

20

K (x, xj, h) = hp−d2j (1− h)d2j

Con d2j es la distancia euclideana al cuadrado entre x y xj , es decir el número de

elementos diferentes que tienen entre si, y 1/2≤ h ≤1. Titterington (Technometrics,

1980) estudió varias maneras de elegir el ancho de banda h. En particular, si se tiene

una sola variable Binomial entonces K(x,y)=h si x=y y K(x,y)=1-h si x6=y y el método

de "dejar uno afuera" produce la siguiente valor óptimo de h

h = max(0.5,−(r21a1 + r22a2)n/a1a2)

donde a1 = n(r1 − r2) − 1 y a2 = n(r2 − r1) − 1. Aquí r1 es la frecuencia relativa del

Grupo 1 y r2 es la frecuencia relativa del grupo 2, n es el total de observaciones en la

muestra de entrenamiento.

21

EJERCICIO DE APLICACIÓN

El ejemplo corresponde a los datos de bosques tropicales. Se localizaron 3604 árboles

en un bosque húmedo tropical.

El estudio se realizo para conocer el patrón espacial de los arboles del bosque trop-

ical

A continuación se muestra el código para el análisis de los arboles en el bosque con

sus respectivos grá�cos y explicación:

library(spatstat)

data(bei)

#planar point pattern: 3604 points

#window: rectangle = [0, 1000] x [0, 500] metres

plot(bei, main = "Arboles de un bosque tropical", pch = ".")

den <- density(bei, 100) plot(den, main = "Densidad") plot(bei, pch = ".", add = T)

contour(den, main = "Contorno", axes = F)

persp(den, main = "Densidad 3D", zlab = "Densidad", theta = 45, phi = 35)

Las estimaciones de densidad via kernel se muestran a continuación.

Primero observemos la distribución de los árboles:

22

Arboles de un bosque tropical

Veamos la densidad

Densidad

0.00

50.

010.

015

A continuación la grá�ca de contornos

23

Contorno

0.004

0.0

04

0.006

0.006

0.006 0.008

0.008

0.008

0.01

0.01

0.012

0.012

0.014

0.016

Finalmete, la densidad viendola en 3-Dimensión.

x

y

Densidad

Densidad 3D

24

BIBLIOGRAFÍAS

ALMENDRAS OPAZO, Edagar. 2002. Estimaciones Via Kernel. Universidad Ad-ventista de Chile. 38 pág

LUCENO, Alberto and PUIG PEY, Jaime. 2002. Journal of Quality Technology.

25

Estimaciones via Kernel

Documents

Transcript of Estimaciones via Kernel