Regresion lineal simple - Universidad de Sevilla · 2006. 2. 27. · 3.- Ecuación de regresión,...

40
1 Regresión lineal simple _______________________________________________________ 1.-Introducción 2.- Regresión simple. Gráficos 3.- Ecuación de regresión, bondad de ajuste y validez del modelo 4.- Estudio de los supuestos del modelo 4.1.- Linealidad 4.2- Normalidad 4.3- Homocedasticidad 5.- Datos alejados 6.- Otro tipo de ajustes no lineales 7.- El supuesto de independencia de los errores 7.1.- Estimación de parámetros por mínimos cuadrados ordinarios 7.2.- Modelo autorregresivo _____________________________________________________

Transcript of Regresion lineal simple - Universidad de Sevilla · 2006. 2. 27. · 3.- Ecuación de regresión,...

Page 1: Regresion lineal simple - Universidad de Sevilla · 2006. 2. 27. · 3.- Ecuación de regresión, bondad de ajuste y validez del modelo 4.- Estudio de los supuestos del modelo 4.1.-

1

Regresión lineal simple

_______________________________________________________ 1.-Introducción 2.- Regresión simple. Gráficos 3.- Ecuación de regresión, bondad de ajuste y validez del modelo 4.- Estudio de los supuestos del modelo 4.1.- Linealidad 4.2- Normalidad 4.3- Homocedasticidad 5.- Datos alejados 6.- Otro tipo de ajustes no lineales 7.- El supuesto de independencia de los errores 7.1.- Estimación de parámetros por mínimos cuadrados ordinarios 7.2.- Modelo autorregresivo

_____________________________________________________

Page 2: Regresion lineal simple - Universidad de Sevilla · 2006. 2. 27. · 3.- Ecuación de regresión, bondad de ajuste y validez del modelo 4.- Estudio de los supuestos del modelo 4.1.-

2

1.-Introducción

Como se sabe, la regresión lineal simple se aplica en aquellas investigaciones en las que deseamos conocer la posible relación (lineal) entre dos variables. Normalmente, ambas variables son cuantitativas, aunque se verá que este requisito puede ser salvado en lo que respecta a la variable independiente, que puede ser una variable cualitativa, con lo que el modelo de regresión puede extenderse a los contrastes de medias y análisis de la varianza, sin pérdida de generalidad.

Trabajaremos con varios archivos. El primero de ellos, denominado mundial.sav, y que hace referencia a distintos indicadores correspondientes a 26 países europeos tomados del anuario de EL PAIS 2000. Las variables consideradas son: PAÍS País SUPERFI Superficie POBLACIÓ Población DENSIDAD Densidad de población ESPERANZ Esperanza de vida TASA Tasa de fecundidad RENTA Renta per cápita EXPORTA Exportaciones IMPORTA Importaciones INFLACIO Inflación INGTURI Ingresos por turismo GASTOEDU Gasto en educación % GASTOSAL Gasto en salud % TELÉFONO Teléfonos por 1000 habitantes ORDENADO Ordenadores por 1000 habitantes ENERELEC Energía eléctrica per cápita en kw/h ENERGIA Energía per cápita en kilos

Figura 1.- Relación de variables

Page 3: Regresion lineal simple - Universidad de Sevilla · 2006. 2. 27. · 3.- Ecuación de regresión, bondad de ajuste y validez del modelo 4.- Estudio de los supuestos del modelo 4.1.-

3

Una imagen parcial de este fichero de datos aparece en el siguiente cuadro:

2.- Regresión simple. Gráficos

Los gráficos nos proporcionan la forma más sencilla e intuitiva de estudiar la relación entre dos variables. Nos ofrece una cierta idea de la naturaleza de la relación; si es lineal o no, su intensidad, así como el sentido (negativa o positiva). En el ejemplo que estamos tratando, además, como se conocen los sujetos de las observaciones –países- tendremos la facilidad de situar los mismos en relación a los restantes países. � Seleccionemos gráficos/dispersión. Obtendremos el cuadro de diálogo de la siguiente figura. A continuación elijamos Simple y Definir.

Page 4: Regresion lineal simple - Universidad de Sevilla · 2006. 2. 27. · 3.- Ecuación de regresión, bondad de ajuste y validez del modelo 4.- Estudio de los supuestos del modelo 4.1.-

4

Obtendremos el siguiente cuadro de diálogo:

Deseamos ver el efecto de la Renta per cápita sobre Ordenadores por 1000 habitantes. Además deseamos que lo puntos del diagrama de dispersión se identifiquen por el país correspondiente. Para ello, marcamos Opciones y dentro de este cuadro de diálogo, Mostrar el gráfico con las etiquetas de

caso:

Page 5: Regresion lineal simple - Universidad de Sevilla · 2006. 2. 27. · 3.- Ecuación de regresión, bondad de ajuste y validez del modelo 4.- Estudio de los supuestos del modelo 4.1.-

5

La salida será:

0,0 10000,0 20000,0 30000,0 40000,0

Renta per cápita

0,00

100,00

200,00

300,00

400,00

Ordenadores por 1000 habitantes

Alemania

Austria

Bélgica

Bulgaria

Croacia

Dinamarca

Eslovaquia

Eslovenia

España

Finlandia

Francia

Grecia

Holanda

Hungría

Irlanda

Italia

LituaniaMoldavia

Noruega

Polonia

Portugal

Reino Unido

R. Checa

Suecia

Suiza

Aparte de algunas superposiciones, se observa una relación lineal, positiva y de cierta intensidad. Si deseamos profundizar algo más en estos últimos aspectos, haremos doble clic sobre el gráfico obtenido, y obtendremos este otro gráfico:

Page 6: Regresion lineal simple - Universidad de Sevilla · 2006. 2. 27. · 3.- Ecuación de regresión, bondad de ajuste y validez del modelo 4.- Estudio de los supuestos del modelo 4.1.-

6

Llevando el cursor a cualquiera de los círculos que indican los países, y pulsando doble clic, se activa la pestaña que nos permitirá ajustar una línea:

Page 7: Regresion lineal simple - Universidad de Sevilla · 2006. 2. 27. · 3.- Ecuación de regresión, bondad de ajuste y validez del modelo 4.- Estudio de los supuestos del modelo 4.1.-

7

Marcamos, y nos encontramos con el siguiente cuadro de dialogo:

Page 8: Regresion lineal simple - Universidad de Sevilla · 2006. 2. 27. · 3.- Ecuación de regresión, bondad de ajuste y validez del modelo 4.- Estudio de los supuestos del modelo 4.1.-

8

Marcamos Lineal y Aplicar, obteniendo:

Page 9: Regresion lineal simple - Universidad de Sevilla · 2006. 2. 27. · 3.- Ecuación de regresión, bondad de ajuste y validez del modelo 4.- Estudio de los supuestos del modelo 4.1.-

9

0,0 10000,0 20000,0 30000,0 40000,0

Renta per cápita

0,00

100,00

200,00

300,00

400,00

Ordenadores por 1000 habitantes

Alemania

Austria

Bélgica

Bulgaria

Croacia

Dinamarca

Eslovaquia

Eslovenia

España

Finlandia

Francia

Grecia

Holanda

Hungría

Irlanda

Italia

LituaniaMoldavia

Noruega

Polonia

Portugal

Reino Unido

R. Checa

Suecia

Suiza

R2 lineal = 0,773

Podemos complicar algo estos resultados definiendo el intervalo de confianza al 95% alrededor de las puntuaciones medias. Resolvemos así problemas de predicción. En el cuadro de diálogo en Intervalo de confianza marcamos Media, y luego Aplicar:

Page 10: Regresion lineal simple - Universidad de Sevilla · 2006. 2. 27. · 3.- Ecuación de regresión, bondad de ajuste y validez del modelo 4.- Estudio de los supuestos del modelo 4.1.-

10

Obtendremos:

Page 11: Regresion lineal simple - Universidad de Sevilla · 2006. 2. 27. · 3.- Ecuación de regresión, bondad de ajuste y validez del modelo 4.- Estudio de los supuestos del modelo 4.1.-

11

0,0 10000,0 20000,0 30000,0 40000,0

Renta per cápita

0,00

100,00

200,00

300,00

400,00

Ordenadores por 1000 habitantes

Alemania

Austria

Bélgica

Bulgaria

Croacia

Dinamarca

Eslovaquia

Eslovenia

España

Finlandia

Francia

Grecia

Holanda

Hungría

Irlanda

Italia

LituaniaMoldavia

Noruega

Polonia

Portugal

Reino Unido

R. Checa

Suecia

Suiza

R2 lineal = 0,773

R2 lineal = 0,773

Algunos países quedan fuera, como Eslovaquia, con muchos ordenadores para su renta per cápita, o el caso de Italia, que ocurre al revés. Ya trataremos más adelante este aspecto, cuando tratemos los residuos. Por otro lado, vemos que la renta per cápita da cuenta del 77.29% de la variabilidad en la adquisición de ordenadores

Page 12: Regresion lineal simple - Universidad de Sevilla · 2006. 2. 27. · 3.- Ecuación de regresión, bondad de ajuste y validez del modelo 4.- Estudio de los supuestos del modelo 4.1.-

12

3.- Ecuación de regresión, bondad de ajuste y validez del modelo

Los procedimiento gráficos son convenientes para una primera aproximación, pero si queremos ser rigurosos hemos de recurrir a aspectos más formales A este respecto, entramos en el comando Regresión/lineal y rellenamos el cuadro de diálogo de las siguiente manera: En primer lugar se nos ofrece una información que ya conocíamos, pero algo más completada:

Resumen del modelo

,879a ,773 ,763 62,2186Modelo1

R R cuadradoR cuadradocorregida

Error típ. de laestimación

Variables predictoras: (Constante), Renta per cápitaa.

Page 13: Regresion lineal simple - Universidad de Sevilla · 2006. 2. 27. · 3.- Ecuación de regresión, bondad de ajuste y validez del modelo 4.- Estudio de los supuestos del modelo 4.1.-

13

La correlación es 0.879. Su cuadrado, 0.773, lo que nos indica una proporción de variación explicada de 77.3%. Para compensar los efectos del tamaño de la muestra sobre R cuadrado, se suele hacer un pequeño ajuste con lo que obtenemos un valor más aproximado de 0.763. Por otro lado, el error típico de la estimación no es más que la raíz cuadrada de la varianza residual, que veremos en la próxima tabla:

Se observa una F de 81.687, cuya probabilidad asociada según las expectativas de la Hipótesis nula es inferior a 0.0001. Altamente significativo, aunque no hay que olvidar que aquí estamos trabajando con colectivos -países- en lugar de individuos, lo que conlleva una R cuadrado sobrevalorada. En cuanto a la ecuación de regresión, sus valores son:

Coeficientesa

18,084 20,840 ,868 ,394

9,487E-03 ,001 ,879 9,038 ,000

(Constante)

Renta per cápita

Modelo1

B Error típ.

Coeficientes noestandarizados

Beta

Coeficientes

estandarizados

t Sig.

Variable dependiente: Ordenadores por 1000 habitantesa.

De aquí se deduce que la ecuación de regresión en directas es:

Prescindiendo de la ordenada en el origen, que aquí carece de significado puesto que no hay ningún país con cero dólares de renta per cápita, tenemos que por cada dólar per cápita hay 0.00948 ordenadores por cada mil habitantes, o mejor dicho, por cada incremento de mil dólares hay aproximadamente 9 ordenadores más cada mil habitantes. En estandarizadas, tendremos:

ANOVAb

316220,909 1 316220,909 81,687 ,000a

92907,657 24 3871,152

409128,566 25

Regresión

Residual

Total

Modelo1

Suma decuadrados gl

Mediacuadrática F Sig.

Variables predictoras: (Constante), Renta per cápitaa.

Variable dependiente: Ordenadores por 1000 habitantesb.

XY 00948.0084.18ˆ +=

xZZ 879.0ˆ =

Page 14: Regresion lineal simple - Universidad de Sevilla · 2006. 2. 27. · 3.- Ecuación de regresión, bondad de ajuste y validez del modelo 4.- Estudio de los supuestos del modelo 4.1.-

14

4.- Estudio de los supuestos del modelo

Como se sabe, el modelo de regresión lineal ha de cumplir una serie de supuestos que garanticen su correcta aplicación, a saber, a) linealidad, b) normalidad, c) homocedasticidad y d) independencia de errores. Una última condición de ausencia de multicolinealidad hace referencia a la regresión múltiple y será vista más adelante. Todos estos supuestos pueden ser estudiados mediante el recurso de las puntuaciones residuales, que indican la diferencia entre las puntuaciones observadas y predichas por el modelo. Aparte de ello, una simple ojeada a los gráficos nos permitirá grosso modo detectar algunas anomalías. Para un primer análisis de residuales entraremos en guardar y en el cuadro de diálogo correspondiente marcaremos en Valores pronosticados No tipificados y Residuos No tipificados

Generaremos con ello dos variables pre_1 y err_1. Con ellos procederemos a iniciar el estudio de los supuestos del modelo. 4.1.- Linealidad

El gráfico del diagrama de dispersión constituye una primera aproximación no muy rigurosa al estudio de la linealidad. Aparentemente lo es. Podemos completarlo mediante un gráfico en el que se comparan las puntuaciones residuales y predichas. Recurrimos a gráficos/dispersión y hacemos la siguiente selección:

Page 15: Regresion lineal simple - Universidad de Sevilla · 2006. 2. 27. · 3.- Ecuación de regresión, bondad de ajuste y validez del modelo 4.- Estudio de los supuestos del modelo 4.1.-

15

Obteniendo el siguiente resultado:

0,00000 100,00000 200,00000 300,00000 400,00000

Unstandardized Predicted Value

-100,00000

-50,00000

0,00000

50,00000

100,00000

150,00000

200,00000

Unstandardized Residual

Page 16: Regresion lineal simple - Universidad de Sevilla · 2006. 2. 27. · 3.- Ecuación de regresión, bondad de ajuste y validez del modelo 4.- Estudio de los supuestos del modelo 4.1.-

16

Si la relación o fuera lineal habría alguna configuración manifiesta. No lo parece, así que corroboramos la supuesta linealidad. Además esto mismo lo podemos hacer de una manera más directa recurriendo a gráficos dentro del comando Regresión. Aquí los resultados están en estandarizadas, que ofrece la ventaja de que todas las variables están en la misma escala. Así pues, en Regresión lineal/gráficos elijamos: Obteniendo:

-1 0 1 2

Regresión Valor pronosticado tipificado

-2

-1

0

1

2

3

4

Regresión Residuo tipificado

Variable dependiente: Ordenadores por 1000 habitantes

Gráfico de dispersión

Page 17: Regresion lineal simple - Universidad de Sevilla · 2006. 2. 27. · 3.- Ecuación de regresión, bondad de ajuste y validez del modelo 4.- Estudio de los supuestos del modelo 4.1.-

17

4.2- Normalidad

Para facilitar la estimación por intervalo del modelo de regresión es exigible la normalidad de la distribución de los errores. Aquí vamos a utilizar dos procedimientos, uno gráfico y otro analítico. El gráfico hace referencia simplemente al histograma de los residuales estandarizados (ZRESID) así como al gráfico P-P normal. En el subcuadro anterior añadimos las siguientes marcas en Histograma y Gráfico de probabilidad normal:

Los resultados en cuanto al histograma son: Y en relación al gráfico de probabilidad normal:

-2 -1 0 1 2 3 4

Regresión Residuo tipificado

0

2

4

6

8

10

Frecuencia

Mean = -4,35E-16Std. Dev. = 0,98N = 26

Variable dependiente: Ordenadores por 1000 habitantes

Histograma

Page 18: Regresion lineal simple - Universidad de Sevilla · 2006. 2. 27. · 3.- Ecuación de regresión, bondad de ajuste y validez del modelo 4.- Estudio de los supuestos del modelo 4.1.-

18

Se observa en ambos casos una buena aproximación a la normalidad. No obstante, si deseamos ser más rigurosos podemos recurrir a procedimiento analíticos. Aquí, como se sabe, disponemos de la prueba Kolmogorov-Smirnov para la normalidad. Así pues, como hemos generado la variable err_1, iremos a Pruebas no paramétricas y seleccionamos K-S de 1 muestra, tal como se indica en el siguiente cuadro de diálogo:

0,0 0,2 0,4 0,6 0,8 1,0

Prob acum observada

0,0

0,2

0,4

0,6

0,8

1,0

Prob acum esperada

Variable dependiente: Ordenadores por 1000 habitantes

Gráfico P-P normal de regresión Residuo tipificado

Page 19: Regresion lineal simple - Universidad de Sevilla · 2006. 2. 27. · 3.- Ecuación de regresión, bondad de ajuste y validez del modelo 4.- Estudio de los supuestos del modelo 4.1.-

19

El resultado será:

Obsérvese que la probabilidad asociada desde la perspectiva de la hipótesis nula (de normalidad) es 0.733. Es alta, luego aceptamos dicha hipótesis.

4.3- Homocedasticidad

El supuesto de homocedasticidad exige que para todo el recorrido de la variable X la varianza del error sea constante. Esto es importante de cara a la predicción de valores en los cuales la desviación tipo de los residuos forma parte del cálculo del intervalo de confianza. El recurso gráfico para comprobar la homocedasticidad es el ya conocido de Residuos frente a Valores predichos. Si queremos librarnos de la escala, ZRESID frente a ZPRED. Habrá heterocedasticidad si la configuración de la nube de puntos tiene forma de "embudo", bien a la derecha o a la izquierda, lo que es indicativo que la magnitud de los residuos varía en un sentido o en otro. Así, en el siguiente gráfico, ya conocido:

Prueba de Kolmogorov-Smirnov para una muestra

26

.0000000

60.96151476

.135

.135

-.076

.687

.733

N

Media

Desviación típica

Parámetros normales a,b

Absoluta

Positiva

Negativa

Diferencias másextremas

Z de Kolmogorov-Smirnov

Sig. asintót. (bilateral)

Unstandardized Residual

La distribución de contraste es la Normal.a.

Se han calculado a partir de los datos.b.

Page 20: Regresion lineal simple - Universidad de Sevilla · 2006. 2. 27. · 3.- Ecuación de regresión, bondad de ajuste y validez del modelo 4.- Estudio de los supuestos del modelo 4.1.-

20

Se observa que no hay una apariencia de un mayor grosor de la nube de puntos en una dirección u otra, aunque hay que decir que con tan pocos individuos no hay mucha fundamentación para afirmarlo. De todas formas, si queremos ser más rigurosos también aquí disponemos de recursos analíticos; calcularemos la correlación entre las puntuaciones residuales en valores absolutos y las puntuaciones predichas. Decimos en valores absolutos porque si no la correlación sería de cero. Para ello, previamente hemos de calcular los valores absolutos de la variable err_1. Vamos a Transformar/Calcular:

A continuación nos dirigimos a Correlaciones/bivariadas:

-1 0 1 2

Regresión Valor pronosticado tipificado

-2

-1

0

1

2

3

4

Regresión Residuo tipificado

Variable dependiente: Ordenadores por 1000 habitantes

Gráfico de dispersión

Page 21: Regresion lineal simple - Universidad de Sevilla · 2006. 2. 27. · 3.- Ecuación de regresión, bondad de ajuste y validez del modelo 4.- Estudio de los supuestos del modelo 4.1.-

21

Y obtendremos:

Con lo que se confirma que no hay ningún tipo de relación entre los residuos y los valores predichos.

Correlaciones

-,070

,732

26

Correlación de Pearson

Sig. (bilateral)

N

Correlación de Pearson

Sig. (bilateral)

N

UnstandardizedPredicted Value

ABSRES1

Unstandardized PredictedValue ABSRES1

Page 22: Regresion lineal simple - Universidad de Sevilla · 2006. 2. 27. · 3.- Ecuación de regresión, bondad de ajuste y validez del modelo 4.- Estudio de los supuestos del modelo 4.1.-

22

5.- Datos alejados

Frecuentemente se dan casos que parecen no conformarse con el modelo. Son valores especialmente distanciados de aquellos que predice el modelo, aquí la recta de regresión. Tienen especial interés porque de su consistencia/inconsistencia derivará nuestro comportamiento con el modelo, si interesa mantenerse en él o por el contrario merece ser modificado. La magnitud de la distancia de un caso determinado respecto al promedio de la variable independiente nos lo proporciona la distancia de Mahalanobis. Un valor alejado, además, puede ser especialmente influyente, en el sentido que su presencia modifique sustancialmente la ecuación de regresión. Para saber esto último existe la distancia de Cook que muestra la cuantía del cambio que se produciría en los residuales si el caso en cuestión fuera eliminado. También el denominado valor de influencia, cuyo valor oscila entre 0 y (n-1)/n, siendo n el número de observaciones, y que nos indica la importancia que tiene la variable dependiente de un determinado caso sobre la predicción del valor ajustado. Para detectar los caso alejados, una primera visual del diagrama del dispersión puede ser suficiente. En el ejemplo que estamos tratando, Eslovenia, con poco renta per cápita y muchos ordenadores es un caso de ellos. Si queremos profundizar un poco en ello y detectar la magnitud de la distancia e desviaciones típicas recurriremos al subcuadro de Estadísticos en Diagnóstico por caso. Elegimos todos los casos.

Page 23: Regresion lineal simple - Universidad de Sevilla · 2006. 2. 27. · 3.- Ecuación de regresión, bondad de ajuste y validez del modelo 4.- Estudio de los supuestos del modelo 4.1.-

23

Diagnósticos por caso a

Alemania -,126 255,50 263,3105 -7,8105

Austria -,998 210,70 272,7970 -62,0970

Bélgica -,379 235,30 258,8518 -23,5518

Bulgaria -,001 29,70 29,7528 -5,28E-02

Croacia -,626 22,00 60,9634 -38,9634

Dinamarca

,427 360,20 333,6054 26,5946

Eslovaquia

3,028 241,60 53,1844 188,4156

Eslovenia 1,257 188,90 110,6726 78,2274

España -,475 122,10 151,6543 -29,5543

Finlandia 1,027 310,70 246,8039 63,8961

Francia -1,290 174,40 254,6777 -80,2777

Grecia -1,347 44,80 128,6021 -83,8021

Holanda ,439 280,30 252,9702 27,3298

Hungría -,191 49,00 60,8685 -11,8685

Irlanda ,791 241,30 192,0668 49,2332

Italia -1,562 113,00 210,1860 -97,1860

Lituania -,558 6,50 41,2314 -34,7314

Moldavia -,292 3,80 21,9738 -18,1738

Noruega ,274 360,80 343,7560 17,0440

Polonia -,303 36,20 55,0817 -18,8817

Portugal -,725 74,40 119,4951 -45,0951

ReinoUnido

,342 242,40 221,0955 21,3045

R. Checa ,267 82,50 65,8963 16,6037

Rumania -,360 8,90 31,2706 -22,3706

Suecia 1,433 350,30 261,1286 89,1714

Suiza -,055 394,90 398,3034 -3,4034

Número de caso1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

PAÍS Residuo tip.

Ordenadorespor 1000habitantes

Valorpronosticado Residual

Variable dependiente: Ordenadores por 1000 habitantesa.

Se observa Eslovaquia, que se encuentra a más de 3 desviaciones típicas, con una dotación de 241 ordenadores por 1000 habitantes, cuando lo previsto son 53. Además podemos conocer algunos otros indicadores interesantes en diagnóstico por caso, tales como la distancia de Mahalanobis y la distancia de Cook (y algunos otros). Pero no todas las posibilidades de SPSS se consiguen a través de las distintas ventanas. Algunas veces, como ahora, habremos de recurrir a la sintaxis, que ya contiene toda la potencialidad del SPSS. Aquí para no complicarnos la vida seguiremos un procedimiento un tanto híbrido; por un lado, con la opción de pegar guardaremos en la sintaxis las distintas instrucciones, para ampliarlas posteriormente mediante teclado:

Page 24: Regresion lineal simple - Universidad de Sevilla · 2006. 2. 27. · 3.- Ecuación de regresión, bondad de ajuste y validez del modelo 4.- Estudio de los supuestos del modelo 4.1.-

24

REGRESSION /MISSING LISTWISE /STATISTICS COEFF OUTS R ANOVA /CRITERIA=PIN(.05) POUT(.10) /NOORIGIN /DEPENDENT ordenado /METHOD=ENTER pnb /RESIDUALS ID( país ) /CASEWISE PLOT(ZRESID) ALL PRED ADJPRED MAHAL COOK.

El resultado correspondiente a CASEWISE PLOT (el resto es conocido) será:

Diagnósticos por casoa

Alemania -,126 255,50 263,3105 263,8582 ,677 ,001

Austria -,998 210,70 272,7970 277,5698 ,823 ,041

Bélgica -,379 235,30 258,8518 260,4351 ,613 ,005

Bulgaria -,001 29,70 29,7528 29,7587 1,572 ,000

Croacia -,626 22,00 60,9634 64,1954 ,953 ,018

Dinamarca

,427 360,20 333,6054 329,8995 2,096 ,015

Eslovaquia

3,028 241,60 53,1844 36,3117 1,093 ,447

Eslovenia 1,257 188,90 110,6726 106,5653 ,286 ,044

España -,475 122,10 151,6543 152,8735 ,029 ,005

Finlandia 1,027 310,70 246,8039 242,9604 ,457 ,034

Francia -1,290 174,40 254,6777 259,8675 ,557 ,057

Grecia -1,347 44,80 128,6021 132,4671 ,141 ,044

Holanda ,439 280,30 252,9702 251,2311 ,534 ,007

Hungría -,191 49,00 60,8685 61,8539 ,955 ,002

Irlanda ,791 241,30 192,0668 190,0211 ,036 ,014

Italia -1,562 113,00 210,1860 214,5924 ,123 ,058

Lituania -,558 6,50 41,2314 44,7308 1,327 ,017

Moldavia -,292 3,80 21,9738 24,1853 1,751 ,006

Noruega ,274 360,80 343,7560 341,1395 2,366 ,007

Polonia -,303 36,20 55,0817 56,7413 1,058 ,004

Portugal -,725 74,40 119,4951 121,7081 ,208 ,014

ReinoUnido

,342 242,40 221,0955 220,0573 ,200 ,003

R. Checa ,267 82,50 65,8963 64,5841 ,870 ,003

Rumania -,360 8,90 31,2706 33,7564 1,539 ,008

Suecia 1,433 350,30 261,1286 255,0032 ,645 ,075

Suiza -,055 394,90 398,3034 399,1658 4,093 ,000

Número de caso1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

PAÍS Residuo tip.

Ordenadorespor 1000habitantes

Valorpronosticado

Valorpronosticadocorregido

Dist. deMahalanobis

Distanciade Cook

Variable dependiente: Ordenadores por 1000 habitantesa.

Page 25: Regresion lineal simple - Universidad de Sevilla · 2006. 2. 27. · 3.- Ecuación de regresión, bondad de ajuste y validez del modelo 4.- Estudio de los supuestos del modelo 4.1.-

25

Se observa que, por ejemplo, Eslovaquia es un valor muy alejado (más de 3 desviaciones tipo). Si este país no hubiera estado presente en la estimación de los parámetros del modelo su valor predicho hubiera sido de 36 ordenadores por 1000 habitantes. Su renta per cápita es bastante baja en relación a la media, luego la distancia de Mahalanobis es alta. Es además un valor bastante influyente, al ser su valor pronosticado muy diferente del real. Por el contra, un país como Noruega, que también estaba bastante alejado de la media de la variable independiente (esta vez por exceso), lo que implica una alta distancia de Mahalanobis, sin embargo, al ser su valor predicho muy próximo al real, su presencia no altera mucho la recta de regresión; la distancia de Cook será pequeña, y en consecuencia será poco influyente. Estas mismas variables que hemos expresado el listado anterior, pueden ser guardadas en el fichero de datos por si fuera necesario trabajar con ellas posteriormente. De esta forma, podemos seleccionar la opción de guardar:

Page 26: Regresion lineal simple - Universidad de Sevilla · 2006. 2. 27. · 3.- Ecuación de regresión, bondad de ajuste y validez del modelo 4.- Estudio de los supuestos del modelo 4.1.-

26

6.- Otro tipo de ajustes no lineales

Aunque estamos acostumbrados siempre que trabajamos con la regresión, a hacerlo con la regresión lineal, hay que decir que ésta es tan sólo un caso de los posibles. Aunque por razones de simplicidad el modelo lineal es muy conveniente no hay razones de peso para mantenerlo en exceso. Bien es cierto que podemos mantenerlo si linealizamos la relación mediante algunas transformaciones, aunque lo más conveniente es encontrar el modelo que realmente encaje con los datos en cuestión. Por ejemplo, si quisiéramos relacionar la renta per cápita con la esperanza de vida, tendríamos (opción gráficos/dispersión) la siguiente salida:

Renta per cápita

50000400003000020000100000-10000

Esperanza de vida

80

78

76

74

72

70

68

66 R² = 0,6546

SuizaSuecia

Rumania

R. Checa

Reino Unido

Portugal

Polonia

Noruega

Moldavia

Lituania

Italia

Irlanda

Hungría

HolandaGrecia Francia

Finlandia

España

Eslovenia

Eslovaquia

Dinamarca

Croacia

Bulgaria

BélgicaAustriaAlemania

Obsérvese que no hay un mal ajuste. Hay una proporción de variabilidad explicada de 65.46%, lo que es bastante. Sin embargo una visual al gráfico nos indica que las cosas quizás puedan ir mejor con otro tipo de ajuste. Vamos para ello a la opción de Regresión/estimación curvilínea. Después de algunos tanteos comprobamos que la función potencial es la que mejor se ajusta. Su ecuación es:

10

ˆ bXbY=

Page 27: Regresion lineal simple - Universidad de Sevilla · 2006. 2. 27. · 3.- Ecuación de regresión, bondad de ajuste y validez del modelo 4.- Estudio de los supuestos del modelo 4.1.-

27

Vamos al cuadro de diálogo correspondiente:

El resultado numérico es: Dependent variable.. ESPERANZ Method.. POWER Listwise Deletion of Missing Data Multiple R ,93539 R Square ,87496 Adjusted R Square ,86975 Standard Error ,01618 Analysis of Variance: DF Sum of Squares Mean Square Regression 1 ,04397012 ,04397012 Residuals 24 ,00628354 ,00026181 F = 167,94398 Signif F = ,0000 -------------------- Variables in the Equation -------------------- Variable B SE B Beta T Sig T PNB ,034646 ,002673 ,935395 12,959 ,0000 (Constant) 54,537758 1,354327 40,269 ,0000

Page 28: Regresion lineal simple - Universidad de Sevilla · 2006. 2. 27. · 3.- Ecuación de regresión, bondad de ajuste y validez del modelo 4.- Estudio de los supuestos del modelo 4.1.-

28

Cuya proporción de variabilidad explicada (0.8749) es muy superior a la del modelo lineal. Si queremos ver el gráfico:

Se observan los datos mucho mejor ajustados. Es razonable suponer que la renta per cápita mejora las condiciones sanitarias y por tanto la esperanza de vida, pero no siempre de forma lineal, proporcional a los recursos económicos. Lógicamente la naturaleza humana tiene un límite a partir del cual las condiciones económicas dejan de tener efecto.

Esperanza de vida

Renta per cápita

50000400003000020000100000-10000

80

78

76

74

72

70

68

66

Observada

Potencia

Page 29: Regresion lineal simple - Universidad de Sevilla · 2006. 2. 27. · 3.- Ecuación de regresión, bondad de ajuste y validez del modelo 4.- Estudio de los supuestos del modelo 4.1.-

29

7.- El supuesto de independencia de los errores

A los supuestos de linealidad, normalidad y homocedasticidad, tratados anteriormente, hay que añadir el de incorrelación de errores. Para datos transversales en las que se supone que las observaciones son independientes entre sí, probablemente no sucederá que éstas se encuentren relacionadas entre sí. Otra circunstancia sucede para datos longitudinales en los que la natural inercia de los acontecimientos da lugar a que hay aun resto que se mantiene en el tiempo .Cuando se realizan diferentes observaciones de una misma variable en el tiempo, cabe esperar que éstas presenten un cierto parecido, que haya una cierta inercia en el sistema que haga que los valores sucesivos no se alejen demasiado entre sí. No se cumple el supuesto de independencia de los errores, cuya expresión es: Vamos a trabajar con unos datos que hacen referencia al consumo de bebidas alcohólicas en Inglaterra durante el periodo comprendido entre 1870 y 1938. Estudiaremos al influencia que sobre este consumo ejercen los salarios y el precio de estas bebidas. Los datos (alcohol.sav) son lo siguientes:

0=jiee

r

Page 30: Regresion lineal simple - Universidad de Sevilla · 2006. 2. 27. · 3.- Ecuación de regresión, bondad de ajuste y validez del modelo 4.- Estudio de los supuestos del modelo 4.1.-

30

Cuyo gráfico es el siguiente:

Como en los otros supuestos, el supuesto de independencia de los errores podemos comprobarlo de forma gráfica o analítica. De forma gráfica, representaremos los errores a lo largo del tiempo y observaremos si su distribución refleja una cierta estructura o configuración o por el contrario si su distribución es aleatoria, y concluiremos así si están relacionados o no. Para ello, vayamos a gráficos/dispersión:

Fecha

1938

1934

1930

1926

1922

1918

1914

1910

1906

1902

1898

1894

1890

1886

1882

1878

1874

1870

CONSUMO

2.2

2.0

1.8

1.6

1.4

1.2

Page 31: Regresion lineal simple - Universidad de Sevilla · 2006. 2. 27. · 3.- Ecuación de regresión, bondad de ajuste y validez del modelo 4.- Estudio de los supuestos del modelo 4.1.-

31

Y obtendremos:

Obsérvese que los residuales suben progresivamente, descienden luego y se repite el mismo proceso a continuación, lo que es indicativo de su no distribución aleatoria.

YEAR, not periodic

194019301920191019001890188018701860

Unstandardized Residual

.2

.1

0.0

-.1

-.2

Page 32: Regresion lineal simple - Universidad de Sevilla · 2006. 2. 27. · 3.- Ecuación de regresión, bondad de ajuste y validez del modelo 4.- Estudio de los supuestos del modelo 4.1.-

32

De forma analítica el test de Durbin-Watson nos permite conocer si existe correlación entre residuos adyacentes. Su expresión es: donde

1−iieer hace referencia a la correlación entre residuales adyacentes (autocorrelación de orden uno).

Como puede comprobarse, el valor d oscila entre 0 y 4. Cuando la correlación es perfecta positiva, d=0 y cuando sea perfecta negativa, d=4. En ausencia de correlación, d=2. Podemos calcular la correlación entre residuales adyacentes recurriendo a autocorrelación en gráficos/serie temporal:

donde obtendremos el siguiente cuadro de diálogo:

( ) ( )1

122

21

−−≅

−=

∑∑ −

iiee

i

iir

e

eed

Page 33: Regresion lineal simple - Universidad de Sevilla · 2006. 2. 27. · 3.- Ecuación de regresión, bondad de ajuste y validez del modelo 4.- Estudio de los supuestos del modelo 4.1.-

33

Obteniendo:

Autocorrelations: RES_1 Unstandardized Residual Auto- Stand. Lag Corr. Err. -1 -.75 -.5 -.25 0 .25 .5 .75 1 Box-Ljung Prob. _FFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFF 1 .861 .118 . F****.************ 53.430 .000 2 .758 .117 . F****.********** 95.416 .000 3 .651 .116 . F****.******** 126.836 .000 4 .515 .115 . F****.***** 146.859 .000 5 .396 .114 . F****.*** 158.880 .000 6 .280 .113 . F****.* 164.961 .000 7 .139 .112 . F***. 166.482 .000 8 -.012 .112 . * . 166.494 .000 9 -.101 .111 . **F . 167.324 .000 10 -.221 .110 ****F . 171.387 .000 11 -.279 .109 **.***F . 177.984 .000 12 -.335 .108 ***.***F . 187.624 .000 13 -.417 .107 ****.***F . 202.859 .000 14 -.446 .106 *****.***F . 220.607 .000 15 -.437 .105 *****.***F . 237.948 .000 16 -.390 .104 ****.***F . 251.992 .000 Plot Symbols: Autocorrelations * Two Standard Error Limits . Total cases: 70 Computable first lags: 68 _

Se observa que la correlación entre residuales adyacentes es de 0.861 (lag=1). Cuando la distancia es de t=2, la correrlación disminuye hasta 0.758 ..etc. Para conocer el coeficiente de Durbin-Watson:

Page 34: Regresion lineal simple - Universidad de Sevilla · 2006. 2. 27. · 3.- Ecuación de regresión, bondad de ajuste y validez del modelo 4.- Estudio de los supuestos del modelo 4.1.-

34

7.1.- Estimación de parámetros por mínimos cuadrados ordinarios

Aunque más adelante veremos que mediante es procedimiento AREG pueden estimarse parámetros para datos secuenciales de forma adecuada, veremos por el momento, un procedimiento alternativo, más artesanal, pero que permitirá comprender mejor la lógica de la regresión. Se trata de transformar las variables de forma tal que el efecto de autocorrelación quede eliminado. Y con los nuevo datos, libres de autocorrelación, aplicaremos mínimos cuadrados ordinarios. A este respecto, tengamos el siguiente modelo de regresión:

Por otro lado, tengamos la siguiente ecuación de regresión entre residuales adyacentes: donde ρ hace referencia a la correlación entre errores adyacentes. Tengamos ahora: multipliquemos todo ello por ρ : Restándolo de (1): Se observa que el error de este nuevo modelo: es aleatorio. Así pues, definiendo las siguientes variables: obtendremos al siguiente ecuación con residuales aleatorios:

( ) 278.0)861.01(2121

=−=−=−iiee

rd

ttt eXY ++= βα

ttt ee ερ += −1

111 −−− ++= ttt eXY βα

111 −−− ++= ttt eXY ρρβραρ

)()()1( 111 −−− −+−+−=− tttttt eeXXYY ρρβραρ

)1(

1−−= ttt ee ρε

1*

1*

−=

−=

ttt

ttt

XXX

YYY

ρ

ρ

Page 35: Regresion lineal simple - Universidad de Sevilla · 2006. 2. 27. · 3.- Ecuación de regresión, bondad de ajuste y validez del modelo 4.- Estudio de los supuestos del modelo 4.1.-

35

A este respecto, hemos de generar dos nuevas variables (concorre y precorre), de la siguiente manera:

donde conmas1 es el consumo en el periodo t+1 y consumo, la variable consumo en el momento t. Esto es, la siguiente expresión: Lo mismo hacemos con la variable precio:

Esto es:

ttt XY εβρα ++−= ** )1(

1*

−−= ttt YYY ρ

Page 36: Regresion lineal simple - Universidad de Sevilla · 2006. 2. 27. · 3.- Ecuación de regresión, bondad de ajuste y validez del modelo 4.- Estudio de los supuestos del modelo 4.1.-

36

Como consecuencia de ello, calculamos la regresión entre estas variables transformadas:

Con los siguientes resultados: Regresión

Resumen del modelo

.883a .780 .777 .02664421Modelo1

R R cuadradoR cuadradocorregida

Error típ. dela estimación

Variables predictoras: (Constante), precio transformadaa.

1*

−−= ttt XXX ρ

Page 37: Regresion lineal simple - Universidad de Sevilla · 2006. 2. 27. · 3.- Ecuación de regresión, bondad de ajuste y validez del modelo 4.- Estudio de los supuestos del modelo 4.1.-

37

Coeficientesa

.573 .022 25.806 .000

-1.114 .073 -.883 -15.294 .000

(Constante)

precio transformada

Modelo1

B Error típ.

Coeficientes noestandarizados

Beta

Coeficientesestandarizad

os

t Sig.

Variable dependiente: consumo transformadaa.

Obsérvese que las estimaciones de los parámetros son las mismas que el modelo sin tratar la autocorrelación (insesgados) pero en este caso las estimaciones de las varianzas de estos estimadores son correctas. Véase el error tipo de precio cuyo valor es 0.073, muy diferente al caso anterior. En cuanto a los residuales, no se observa ninguna estructura particular en la configuración gráfica:

E igualmente carecen de autocorrelación: MODEL: MOD_2. Variable: RES_2 Missing cases: 2 Valid cases: 68 _ Autocorrelations: RES_2 Unstandardized Residual

YEAR, not periodic

194019301920191019001890188018701860

Unstandardized Residual

.1

0.0

-.1

-.2

Page 38: Regresion lineal simple - Universidad de Sevilla · 2006. 2. 27. · 3.- Ecuación de regresión, bondad de ajuste y validez del modelo 4.- Estudio de los supuestos del modelo 4.1.-

38

Auto- Stand. Lag Corr. Err. -1 -.75 -.5 -.25 0 .25 .5 .75 1 Box-Ljung Prob.

ùòòòòôòòòòôòòòòôòòòòôòòòòôòòòòôòòòòôòòòòú 1 .031 .119 . ó* . .066 .797 2 .145 .118 . ó*** . 1.580 .454 3 .218 .117 . ó****. 5.076 .166 4 .135 .116 . ó*** . 6.439 .169 5 .144 .115 . ó*** . 7.997 .156 6 .127 .114 . ó*** . 9.226 .161 7 .117 .113 . ó** . 10.296 .172 8 -.102 .112 . **ó . 11.125 .195 9 .170 .111 . ó***. 13.466 .143 10 -.249 .110 *.***ó . 18.569 .046 11 .028 .109 . ó* . 18.635 .068 12 .136 .108 . ó***. 20.201 .063 13 -.175 .107 ****ó . 22.861 .043 14 -.073 .107 . *ó . 23.331 .055 15 -.106 .106 . **ó . 24.338 .060 16 .051 .105 . ó* . 24.579 .078 Plot Symbols: Autocorrelations * Two Standard Error Limits . Total cases: 70 Computable first lags: 67 _

7.2.-.- Modelo autorregresivo

Hay que decir que existen procedimientos estadísticos adecuados para tratar series de datos cuando existe autocorrelación de orden 1 entre sus valores. Se trata de un caso especial de los modelos ARIMA. Se denomina AREG y se encuentra disponible en el SPSS. Así, para los datos que estamos tratando:

Page 39: Regresion lineal simple - Universidad de Sevilla · 2006. 2. 27. · 3.- Ecuación de regresión, bondad de ajuste y validez del modelo 4.- Estudio de los supuestos del modelo 4.1.-

39

Con el siguiente cuadro de diálogo:

Cuyo resultado es:

Page 40: Regresion lineal simple - Universidad de Sevilla · 2006. 2. 27. · 3.- Ecuación de regresión, bondad de ajuste y validez del modelo 4.- Estudio de los supuestos del modelo 4.1.-

40

Variables in the Model: B SEB T-RATIO APPROX. PROB. AR1 .9667144 .03364885 28.729495 .0000000 PRECIO -.9486926 .08535896 -11.114153 .0000000 CONSTANT 3.7388321 .19566689 19.108149 .0000000

Se observan valores parecidos a los estimados anteriormente.