1 Regresion Lineal Simple

38
ESTADISTICA APLICADA REGRESION LINEAL SIMPLE MINIMOS CUADRADOS INTRODUCCIÓN El presente trabajo forma parte de los objetivos y contenidos de aprendizaje de la cátedra ESTADÍSTICA, que pretende desarrollar las habilidades para la utilización de los métodos lineales y estimación de mínimos cuadrados. Para lograr este fin, se realizo la consulta de una bibliografía básica la cual permitió desarrollar los conceptos y ejemplos, como base. En este trabajo básicamente se habla de cómo desarrollar la aplicación de los métodos lineales y estimación por mínimos cuadrados, además de inferencia, predicción y correlación. Se desarrollaron una serie de ejemplos mediante los cuales se trata de presentar manera mas sencilla usar estos métodos. MÉTODOS DE MÍNIMOS CUADRADOS. El procedimiento mas objetivo para ajustar una recta a un conjunto de datos presentados en un diagrama de dispersión se conoce como "el método de los mínimos cuadrados". La recta resultante presenta dos características importantes: 1. Es nula la suma de las desviaciones verticales de los puntos a partir de la recta de ajuste (Y ー - Y) = 0.

description

REGRESIÓN LINEAL

Transcript of 1 Regresion Lineal Simple

REGRESION LINEAL SIMPLE

ESTADISTICA APLICADA

REGRESION LINEAL SIMPLEMINIMOS CUADRADOS

INTRODUCCIN

El presente trabajo forma parte de los objetivos y contenidos de aprendizaje de la ctedra ESTADSTICA, que pretende desarrollar las habilidades para la utilizacin de los mtodos lineales y estimacin de mnimos cuadrados.

Para lograr este fin, se realizo la consulta de una bibliografa bsica la cual permiti desarrollar los conceptos y ejemplos, como base.En este trabajo bsicamente se habla de cmo desarrollar la aplicacin de los mtodos lineales y estimacin por mnimos cuadrados, adems de inferencia, prediccin y correlacin.

Se desarrollaron una serie de ejemplos mediante los cuales se trata de presentar manera mas sencilla usar estos mtodos.

MTODOS DE MNIMOS CUADRADOS.El procedimiento mas objetivo para ajustar una recta a un conjunto de datos presentados en un diagrama de dispersin se conoce como "el mtodo de los mnimos cuadrados". La recta resultante presenta dos caractersticas importantes:1. Es nula la suma de las desviaciones verticales de los puntos a partir de la recta de ajuste

(Y - Y) = 0.2. Es mnima la suma de los cuadrados de dichas desviaciones. Ninguna otra recta dara

Una suma menor de las desviaciones elevadas al cuadrado (Y - Y) 0

(Mnima).

El procedimiento consiste entonces en minimizar los residuos al cuadrado Ci

Re emplazando nos queda

La obtencin de los valores de a y b que minimizan esta funcin es un problema que se puede resolver recurriendo a la derivacin parcial de la funcin en trminos de a y b: llamemos G a la funcin que se va a minimizar:

Tomemos las derivadas parciales de G respecto de a y b que son las incgnitas y las igualamos a cero; de esta forma se obtienen dos ecuaciones llamadas ecuaciones normales del modelo que pueden ser resueltas por cualquier mtodo ya sea igualacin o matrices para obtener los valores de a y b. Derivamos parcialmente la ecuacin respecto de a

Primera ecuacin normal

Derivamos parcialmente la ecuacin respecto de b

Segunda ecuacin normal

Los valores de a y b se obtienen resolviendo el sistema de ecuaciones resultante. Veamos el siguiente ejemplo:

EJEMPLO 1

Se toma una muestra aleatoria de 8 ciudades de una regin geogrfica de 13 departamentos y se determina por los datos del censo el porcentaje de graduados en educacin superior y la mediana del ingreso de cada ciudad, los resultados son los siguientes:

CIUDAD: 1 2 3 4 5 6 7 8

% de (X)

Graduados: 7.2 6.7 17.0 12.5 6.3 23.9 6.0 10.2

Ingreso (Y)

Mediana: 4.2 4.9 7.0 6.2 3.8 7.6 4.4 5.4 (0000)

Tenemos las ecuaciones normales

y = na + bx

xy = ax + bx

Debemos encontrar los trminos de las ecuaciones

y, x, xy, x Por tanto procedemos de la siguiente forma:

YXXYX

4.27.230.2451.84

4.96.732.8344.89

7.017.0119.00289.00

6.212.577.50156.25

3.86.323.9439.69

7.623.9181.64571.21

4.46.026.4036.00

5.410.255.08104.04

43.589.8546.631292.92

Sustituyendo en las ecuaciones los resultados obtenidos tenemos: 43.50 = 8a + 89.8b

546.63 = 89.8a + 1292.92b

multiplicamos la primera ecuacin por (-89.8) y la segunda por (8) as: 43.50 = 8a + 89.8b (-89.8) 546.63 = 89.8a + 1292.92b (8) -3906.30 = -718.4a - 8064.04b 4373.04 = 718.4a + 10343.36b

466.74 = -0- 2279.32b

Este valor de b lo reemplazamos en cualquiera de las ecuaciones para obtener a as:

Reemplazando b = 0.20477 en la primera ecuacin normal

43.5 = 8a + 89.8 (0.20477) 43.5 = 8a + 18.3880 43.5 - 18.3880 = 8a 25.1120 = 8a

Tenemos entonces que los coeficientes de regresin son: a = 3.139 y b = 0.20477. Por tanto la ecuacin de regresin nos queda:

Significa entonces que por cada incremento en una unidad en X el valor de se aumenta en 0.20477 Esta ecuacin permite estimar el valor de para cualquier valor de X, por ejemplo: Una ciudad que tiene un porcentaje de graduados a nivel superior del 28% la mediana de ingreso para la ciudad ser:

Los valores a y b tambin se pueden obtener de la siguiente forma: partiendo de las ecuaciones normales tenemos:

Si dividimos todos los trminos de la ecuacin (1) entre n nos queda:

Tenemos entonces que el primer termino es el segundo termino es la incgnita a y el tercer termino es la incgnita b multiplicada por por tanto nos queda:

entonces

Reemplazando a en la ecuacin (2) tenemos

a = 5.4375 0.20477 (11.2250) = 5.4375 2.2985 = 3.139

Se debe tener presente la diferencia entre el valor de obtenido con la ecuacin de regresin y el valor de Y observado. Mientras es una estimacin y su bondad en la estimacin depende de lo estrecha que sea la relacin entre las dos variables que se estudian; Y es el valor efectivo, verdadero obtenido mediante la observacin del investigador. En el ejemplo Y es el valor mediano del ingreso que obtuvo el investigador utilizando todos los ingresos observados en cada ciudad y es el valor estimado con base en el modelo lineal utilizado para obtener la ecuacin de regresin

Los valores estimados y observados pueden no ser iguales por ejemplo la primera ciudad tiene un ingreso mediano observado de Y = 4.2 al reemplazar en la ecuacin el porcentaje

de graduados obtenemos un estimado de

Grficamente lo anterior se puede mostrar as:

Claramente se observa en la grfica que hay una diferencia entre el valor efectivo de Y y el valor estimado; esta diferencia se conoce como error en la estimacin, este error se puede medir.

Regresin linealLas tcnicas de regresin permiten hacer predicciones sobre los valores de cierta variable Y (dependiente), a partir de los de otra X (independiente), entre las que intuimos que existe una relacin. Para ilustrarlo retomemos los ejemplos mencionados al principio del captulo. Si sobre un grupo de personas observamos los valores que toman las variables

no es necesario hacer grandes esfuerzos para intuir que la relacin que hay entre ambas es:

Obtener esta relacin es menos evidente cuando lo que medimos sobre el mismo grupo de personas es

La razn es que no es cierto que conocida la altura xi de un individuo, podamos determinar de modo exacto su peso yi (v.g. dos personas que miden 1,70 m pueden tener pesos de 60 y 65 kilos). Sin embargo, alguna relacin entre ellas debe existir, pues parece mucho ms probable que un individuo de 2 m pese ms que otro que mida 1,20 m. Es ms, nos puede parecer ms o menos aproximada una relacin entre ambas variables como la siguiente

A la deduccin, a partir de una serie de datos, de este tipo de relaciones entre variables, es lo que denominamos regresin.

Figura: Mediante las tcnicas de regresin de una variable Y sobre una variable X, buscamos una funcin que sea una buena aproximacin de una nube de puntos (xi,yi), mediante una curva del tipo . Para ello hemos de asegurarnos de que la diferencia entre los valores yi e sea tan pequea como sea posible.

Mediante las tcnicas de regresin inventamos una variable como funcin de otra variable X (o viceversa),

Esto es lo que denominamos relacin funcional. El criterio para construir , tal como citamos anteriormente, es que la diferencia entre Y e sea pequea.

El trmino que hemos denominado error debe ser tan pequeo como sea posible (El objetivo ser buscar la funcin (tambin denominada modelo de regresin) que lo minimice.

Figura: Diferentes nubes de puntos y modelos de regresin para ellas.

Propiedades de la regresin lineal

Una vez que ya tenemos perfectamente definida , (o bien ) nos preguntamos las relaciones que hay entre la media y la varianza de esta y la de Y (o la de X). La respuesta nos la ofrece la siguiente proposicin:

Proposicin

En los ajustes lineales se conservan las medias, es decir

En cuanto a la varianza, no necesariamente son las mismas para los verdaderos valores de las variables X e Y y sus aproximaciones y , pues slo se mantienen en un factor de r2, es decir,

Demostracin

Basta probar nuestra afirmacin para la variable Y, ya que para X es totalmente anlogo:

donde se ha utilizado la magnitud que denominamos coeficiente de correlacin, r, y que ya definimos anteriormente como

MODELO DE REGRESIN LINEAL CON EL USO DE MATRICES.

Al ajustar un modelo de regresin lineal mltiple, en particular cuando el nmero de variables pasa de dos, el conocimiento de la teora matricial puede facilitar las manipulaciones matemticas de forma considerable. Suponga que el experimentador tiene k variables independientes x1, x2,....,xk, y n observaciones y1, y2,...., yn, cada una de las cuales se pueden expresar por la ecuacin

yi = 0 + 1x1i + 2x2i +.+ kxki + iEste modelo en esencia representa n ecuaciones que describen cmo se generan los valores de respuesta en el proceso cientfico. Con el uso de la notacin matricial, podemos escribir la ecuacin

y=X +

donde

INCLUDEPICTURE "http://www.monografias.com/trabajos16/metodos-lineales/Image648.gif" \* MERGEFORMATINET

INCLUDEPICTURE "http://www.monografias.com/trabajos16/metodos-lineales/Image649.gif" \* MERGEFORMATINET Entonces la solucin de mnimos cuadrados para la estimacin de que se ilustra en la seccin Estimacin de coeficientes, "Regresin lineal mltiple" implica encontrar b para la que

SSE = (y - Xb)'(y - Xb)

se minimiza. Este proceso de minimizacin implica resolver para b en la ecuacin

No presentaremos los detalles relacionados con las soluciones de las ecuaciones anteriores. El resultado se reduce a la solucin de b en

(X'X)b = X'y

Ntese la naturaleza de la matriz X. Aparte del elemento inicial, el i-simo rengln representa los valores x que dan lugar a la respuesta yi. Al escribir

y Las ecuacio