Trabajo No1 Estadística II- Regresión Lineal Múltiple

25
8/12/2019 Trabajo No1 Estadística II- Regresión Lineal Múltiple http://slidepdf.com/reader/full/trabajo-no1-estadistica-ii-regresion-lineal-multiple 1/25  0 | Página REGRESION LINEAL MULTIPLE ALEXIS VARGAS MUÑOZ JILBER IBICA OVAJERO SANTIAGO BETANCUR RAIGOZA PROFESOR CARLOS MARIO LOPERA UNIVERSIDAD NACIONAL DE COLOMBIA SEDE MEDELLIN FACULTAD DE CIENCIAS ESTADISTICA II 2012

Transcript of Trabajo No1 Estadística II- Regresión Lineal Múltiple

Page 1: Trabajo No1 Estadística II- Regresión Lineal Múltiple

8/12/2019 Trabajo No1 Estadística II- Regresión Lineal Múltiple

http://slidepdf.com/reader/full/trabajo-no1-estadistica-ii-regresion-lineal-multiple 1/25

 

0 | P á g i n a  

REGRESION LINEAL MULTIPLE

ALEXIS VARGAS MUÑOZJILBER IBICA OVAJERO

SANTIAGO BETANCUR RAIGOZA

PROFESORCARLOS MARIO LOPERA

UNIVERSIDAD NACIONAL DE COLOMBIASEDE MEDELLIN

FACULTAD DE CIENCIASESTADISTICA II

2012

Page 2: Trabajo No1 Estadística II- Regresión Lineal Múltiple

8/12/2019 Trabajo No1 Estadística II- Regresión Lineal Múltiple

http://slidepdf.com/reader/full/trabajo-no1-estadistica-ii-regresion-lineal-multiple 2/25

 

1 | P á g i n a  

REGRESION LINEAL MULTIPLE

Objetivo: Usar de manera eficiente las herramientas del análisis de regresión para resolver unproblema práctico.

Presentación del problema. En un estudio a gran escala realizado en EE.UU sobre el númerototal de crímenes serios ocurridos en áreas metropolitanas se recogió información en 141 deestas áreas, durante los años 1976 y 1977. A continuación se analizará una muestra aleatoriade tamaño 60 de esa base:

Abreviatura y Nombre de la variable Descripción

ID: Número de identificaciónNúmero de Identificación de cada observación(hospital)

Y: Total de crímenes seriosNúmero total de crímenes serios en 1977

reportados por las agencias de la ley (en miles)X1: Área territorial En millas cuadradas (en cientos)

X2: Población totalPoblación estimada de 1977 (en cientos demiles)

X3: Porcentaje poblacional en ciudadescentrales

Porcentaje de la población de 1976 en la(s)ciudad(es) central(es)

X4: Porcentaje poblacional de adultos mayoresPorcentaje de la población de 1976 de 65 años omás

X5: Número de médicos activosNúmero de médicos profesionalmente activos adiciembre de 1977 (en miles)

X6: Número de camas de hospitalNúmero de camas y camillas durante 1977 (en

miles)X7: Porcentaje de graduados de bachillerato

Porcentaje de población adulta (25 años o más)que completó el bachillerato

X8: Fuerza civil laboralNúmero total de personas de 16 años o másempleadas o buscando trabajo en 1977 (encientos de miles)

X9: Ingreso total personalIngreso total recibido en 1976 por personal decualquier fuente (en cientos de millones dedólares)

1.  Estime un modelo de regresión lineal múltiple que explique el número total de crímenes

serios en términos de las variables predictoras X1 a X9. Analice la significancia del modeloy de los parámetros. Comente los resultados.

n=60 ; K= 9 ; P=K+1=10

Page 3: Trabajo No1 Estadística II- Regresión Lineal Múltiple

8/12/2019 Trabajo No1 Estadística II- Regresión Lineal Múltiple

http://slidepdf.com/reader/full/trabajo-no1-estadistica-ii-regresion-lineal-multiple 3/25

 

2 | P á g i n a  

Variable respuestaY: Total de crímenes serios

Variables predictoras o regresoras

X1: Área territorial X2: Población totalX3: Porcentaje poblacional en ciudades centrales X4: Porcentaje poblacional de adultos mayoresX5: Número de médicos activosX6: Número de camas de hospital X7: Porcentaje de graduados de bachillerato X8: Fuerza civil laboralX9: Ingreso total de personas

Planteamiento del modelo:

;

O en forma matricial podemos plantear el modelo como:

;

; ;

Los supuestos de dicho modelo son:

;

Ó

;

Ecuación ajustada del modelo

Page 4: Trabajo No1 Estadística II- Regresión Lineal Múltiple

8/12/2019 Trabajo No1 Estadística II- Regresión Lineal Múltiple

http://slidepdf.com/reader/full/trabajo-no1-estadistica-ii-regresion-lineal-multiple 4/25

 

3 | P á g i n a  

Se obtuvieron las siguientes salidas de SAS:

  Tabla 1.1. Tabla Anova

Análisis de la varianza

Suma de CuadradoFuente DF cuadrados de la media F-Valor Pr > FModel  9 470766 52307 374.85 <.0001Error  50 6977.05748 139.54115Total corregido  59 477743

Raíz MSE 11.81275 R-cuadrado 0.9854Media dependiente  61.84847 Adj R-Sq  0.9828Var Coef  19.09951

  Tabla 1.2. Estimación de parámetros.

Estimadores de parámetros

Estimador del ErrorVariable DF parámetro estándar Valor t Pr > |t|Intercept 1 -21.72154 15.20035 -1.43 0.1592X1 1 0.00406 0.05367 0.08 0.9399X2 1 11.95347 3.24053 3.69 0.0006X3 1 0.07691 0.10423 0.74 0.4640X4 1 0.34595 0.58672 0.59 0.5581X5 1 13.62941 3.13509 4.35 <.0001X6 1 -7.15788 1.08506 -6.60 <.0001X7 1 0.27342 0.23722 1.15 0.2546

X8 1 -6.27216 5.98679 -1.05 0.2998X9 1 -0.13631 0.30290 -0.45 0.6546

Ecuación ajustada del modelo (con valores):

Prueba de significancia del modelo.

Ahora se hace la prueba para analizar la significancia del modelo de RLM, se quiere probar lasiguiente hipótesis:

Page 5: Trabajo No1 Estadística II- Regresión Lineal Múltiple

8/12/2019 Trabajo No1 Estadística II- Regresión Lineal Múltiple

http://slidepdf.com/reader/full/trabajo-no1-estadistica-ii-regresion-lineal-multiple 5/25

 

4 | P á g i n a  

Estadístico de prueba:

Región de Rechazo: (Se toma α=0.05) 

Con un nivel de significancia de α=0,05 rechazamos Ho  a favor de  HA  y concluimos que laregresión si es significativa.

Si revisamos el valor P, , por tanto se

rechaza H0 en favor de HA, y decimos que la regresión es significativa.

Como se rechazó H0, esto quiere decir que al menos una predictora afecta significativamenteal número de crímenes serios.

Prueba de significancia individual de los parámetros:Estas pruebas se pueden hacer pos dos métodos, mediante las pruebas parciales t o losvalores P (Vp).

Pruebas t individual:Se quiere probar

VS  j=1, 2,…, 9 

Con siguiente estadístico de prueba

Región de rechazo:

Page 6: Trabajo No1 Estadística II- Regresión Lineal Múltiple

8/12/2019 Trabajo No1 Estadística II- Regresión Lineal Múltiple

http://slidepdf.com/reader/full/trabajo-no1-estadistica-ii-regresion-lineal-multiple 6/25

 

5 | P á g i n a  

De esta manera se puede determinar la significancia individual de los parámetros, hallando elestadístico de prueba para cada parámetro y comparándolo con su respectivo .En este caso por términos de simplicidad utilizaremos los Valores p, para determinar lasignificancia individual.

Para β1.

VS

Como Vp > 0.05 entonces NO  rechazamos Ho con un nivel de significancia del 0.05 yconcluimos que el área territorial no afecta significativamente al número de crímenes serios,en presencia de las demás variables.

Para β2.VS

Como Vp < 0.05 entonces rechazamos Ho con un nivel de significancia del 0.05 y concluimos que lapoblación total afecta significativamente al número de crímenes serios, en presencia de lasdemás variables.

Para β3.VS

Como Vp > 0.05 entonces NO rechazamos Ho con un nivel de significancia del 0.05 y concluimosque el porcentaje poblacional en ciudades centrales no afecta significativamente al número decrímenes serios, en presencia de las demás variables.

Para β4.

VS

Page 7: Trabajo No1 Estadística II- Regresión Lineal Múltiple

8/12/2019 Trabajo No1 Estadística II- Regresión Lineal Múltiple

http://slidepdf.com/reader/full/trabajo-no1-estadistica-ii-regresion-lineal-multiple 7/25

 

6 | P á g i n a  

Como Vp > 0.05 entonces NO rechazamos Ho con un nivel de significancia del 0.05 y concluimos

que el porcentaje poblacional de adultos mayores, no afecta significativamente al número decrímenes serios, en presencia de las demás variables.

Para β5.VS

Como Vp< 0.05 entonces rechazamos Ho con un nivel de significancia del 0.05 y concluimos que elnúmero de médicos activos, afectan significativamente al número de crímenes serios, enpresencia de las demás variables.

Para β6.

VS

Como Vp< 0.05 entonces rechazamos Ho con un nivel de significancia del 0.05 y concluimos que el

número de camas de hospital afecta significativamente al número de crímenes serios, enpresencia de las demás variables.

Para β7.

VS

Page 8: Trabajo No1 Estadística II- Regresión Lineal Múltiple

8/12/2019 Trabajo No1 Estadística II- Regresión Lineal Múltiple

http://slidepdf.com/reader/full/trabajo-no1-estadistica-ii-regresion-lineal-multiple 8/25

 

7 | P á g i n a  

Como Vp > 0.05 entonces NO rechazamos Ho con un nivel de significancia del 0.05 y concluimos

que el porcentaje de graduados de bachillerato, no afecta significativamente al número decrímenes serios, en presencia de las demás variables.

Para β8.

VS

Como Vp > 0.05 entonces NO rechazamos Ho con un nivel de significancia del 0.05 y concluimosque la fuerza civil laboral, no afecta significativamente al número de crímenes serios, enpresencia de las demás variables.

Para β9.VS

Como Vp > 0.05 entonces NO rechazamos Ho con un nivel de significancia del 0.05 y concluimosque el ingreso total de personas, no afecta significativamente al número de crímenes serios, en

presencia de las demás variables.

2. A partir de las cuatro variables predictoras con los valores p más pequeños (o con losvalores t más grandes), consideradas ahora como constitutivas de un modelo completo,aplique la técnica de selección paso a paso (Stepwise) registrando cada paso en forma

manual. Escriba la ecuación del modelo final y el R2. Nota: Utilice la salida de SAS de todaslas regresiones posibles.

  Variables predictoras con los valores p más pequeños:

X2: Población totalX5: Número de médicos activosX6: Número de camas de hospitalX7: Porcentaje de graduados de bachillerato

Page 9: Trabajo No1 Estadística II- Regresión Lineal Múltiple

8/12/2019 Trabajo No1 Estadística II- Regresión Lineal Múltiple

http://slidepdf.com/reader/full/trabajo-no1-estadistica-ii-regresion-lineal-multiple 9/25

 

8 | P á g i n a  

  Tabla 2.1. Tabla de todas las regresiones posibles

Número en R-cuadrado Variables enel modelo R-cuadrado ajustado C(p) MSE el modelo

1 0.9622 0.9615 78.4654 311.42636 X2

1 0.9547 0.9539 105.2736 373.51522 X51 0.8762 0.8740 384.3675 1019.90603 X61 0.0262 0.0094 3407.175 8020.82932 X7

--------------------------------------------------------------------------------------2 0.9779 0.9771 24.7173 185.51048 X2 X62 0.9682 0.9671 58.9482 266.18124 X2 X52 0.9660 0.9648 67.0874 285.36251 X2 X72 0.9549 0.9533 106.3078 377.79201 X5 X72 0.9548 0.9532 106.8852 379.15264 X5 X62 0.8861 0.8821 351.2343 955.00190 X6 X7

--------------------------------------------------------------------------------------3 0.9841 0.9832 4.6562 135.90395 X2 X5 X63 0.9795 0.9784 20.8312 174.70383 X2 X6 X73 0.9701 0.9685 54.2155 254.78425 X2 X5 X73 0.9550 0.9525 108.1754 384.22053 X5 X6 X7

--------------------------------------------------------------------------------------

4 0.9845 0.9834 5.0000 134.32996 X2 X5 X6 X7

Nuevo modelo completo:

;

Aplicación de la técnica de selección paso a paso (STEPWISE)

Partiendo del modelo anterior, procedemos de la siguiente manera:

Paso 0: Se inicia con el modelo sin variables.

El primer candidato a entrar será ya que tiene el menor MSE del modelo Y vs X j

Prueba de hipótesis:H0: vs HA:

Estadístico de prueba:

Región de rechazo:

Page 10: Trabajo No1 Estadística II- Regresión Lineal Múltiple

8/12/2019 Trabajo No1 Estadística II- Regresión Lineal Múltiple

http://slidepdf.com/reader/full/trabajo-no1-estadistica-ii-regresion-lineal-multiple 10/25

 

9 | P á g i n a  

Dado que entonces se rechaza H0 y por tanto X2 entra al modelo.

PASO 1:Este es nuestro nuevo modelo:

Ahora observamos en la tabla de todas las regresiones posibles el modelo con 2 variables quecontenga a X2 y cuyo MSE sea el menor para seleccionar una nueva candidata a entrar. En estecaso la candidata es X6. 

Prueba de hipótesis:H0: vs HA:

Estadístico de prueba:

Región de rechazo:= 4.010

Dado que entonces se rechaza H0 y por tanto X6entra al modelo.

  Ahora probemos: Veamos si X2 que ya estaba en el modelo es

significativa en presencia de X6 que acaba de entrar. Es decir, en este

nuevo modelo: 

Prueba de hipótesis:H0: vs HA:

Estadístico de prueba:

Page 11: Trabajo No1 Estadística II- Regresión Lineal Múltiple

8/12/2019 Trabajo No1 Estadística II- Regresión Lineal Múltiple

http://slidepdf.com/reader/full/trabajo-no1-estadistica-ii-regresion-lineal-multiple 11/25

 

10 | P á g i n a  

Región de rechazo:= 4.010

Dado que entonces se rechaza H0 y por tanto X2 no sale del modelo

ya que es significativa en presencia de la variable regresoraX6.

Actualizamos el modelo:

PASO 2:Ahora observamos el modelo con 3 variables que contenga a X2 y a X6 que su MSE sea mínimopara seleccionar una nueva candidata a entrar. En este caso la candidata es X5. 

Prueba de hipótesis:H0: vs HA:

Estadístico de prueba:

Región de rechazo:= 4.013

Dado que entonces se rechaza H0 y por tanto X5 entra al modelo.

  Ahora probemos: Veamos si X2  y X6 que ya estaban en el

modelo son significativas individualmente en presencia de X5 que acaba de

entrar. Es decir, en este nuevo modelo: 

Page 12: Trabajo No1 Estadística II- Regresión Lineal Múltiple

8/12/2019 Trabajo No1 Estadística II- Regresión Lineal Múltiple

http://slidepdf.com/reader/full/trabajo-no1-estadistica-ii-regresion-lineal-multiple 12/25

 

11 | P á g i n a  

Prueba de hipótesis 1:H0: vs HA:

Estadístico de prueba:

Región de rechazo:= 4.013

Dado que entonces se rechaza H0 y por tanto X2 no sale del modelo.

Prueba de hipótesis 2:H0: vs HA:

Estadístico de prueba:

Región de rechazo:

= 4.013

Dado que entonces se rechaza H0 y por tanto X6 no sale del modelo.

De este modo X2 y X6 no salen del modelo que ya contiene a X5

Page 13: Trabajo No1 Estadística II- Regresión Lineal Múltiple

8/12/2019 Trabajo No1 Estadística II- Regresión Lineal Múltiple

http://slidepdf.com/reader/full/trabajo-no1-estadistica-ii-regresion-lineal-multiple 13/25

 

12 | P á g i n a  

Actualizamos el modelo:

PASO 3:

Ahora observamos el modelo con 4 variables que contenga a X2, X6 y X5 que su MSE seamínimo para seleccionar una nueva candidata a entrar. En este caso la candidata es X7. 

Prueba de hipótesis:H0: vs HA:

Estadístico de prueba:

Región de rechazo:= 4.02

Dado que entonces NO se rechaza H0  y por tanto X7 noingresa al

modelo. Se finaliza el procedimiento STEPWISE dando como resultado el siguiente modelo consu respectivo R2:

R2 = 0.9841

3. Determine si existe o no, algún problema de multicolinealidad en el modelo seleccionadoen el punto 2. En el caso de existir tal problema, diga si éste es moderado o grave. También,realice una validación de los supuestos y examine si hay valores atípicos, de balanceo einfluénciales. ¿Qué puede decir acerca de la validez de éste modelo? Argumente.

Para verificar si existe o no multicolinealidad en el las variables del modelos empezaremos porrevisar la matriz de correlación.

Page 14: Trabajo No1 Estadística II- Regresión Lineal Múltiple

8/12/2019 Trabajo No1 Estadística II- Regresión Lineal Múltiple

http://slidepdf.com/reader/full/trabajo-no1-estadistica-ii-regresion-lineal-multiple 14/25

 

13 | P á g i n a  

  Tabla 3.1. Matriz de Correlación

Correlación

Variable X2 X5 X6 Y

X2 1.0000 0.9805 0.9798 0.9809X5 0.9805 1.0000 0.9610 0.9771X6 0.9798 0.9610 1.0000 0.9360Y 0.9809 0.9771 0.9360 1.0000 

Este criterio dice que si existe un (i ≠ j ), cercano a 1 ó -1 indica una relación lineal fuerte

(Directa o inversa, respectivamente) y de este modo ofrece indicios de la presencia demulticolinealidad.Si revisamos la matriz de correlación podemos observar que existe una dependencia lineal

fuerte entre X2 y X5, X2 y X6 e X5 y X6  pero aún no se puede afirmar nada por medio de estaprueba.

DIAGNÓSTICOS DE MULTICOLINEALIDAD

Factores de inflación de Varianza (VIF): A continuación procedemos a analizar el factor de

inflación de varianza denotado

Donde es el coeficiente de determinación obtenido de una RLM de X j  vs las demáspredictoras.

  Tabla 3.2. Parámetros estimados

Estimadores de parámetros

Estimador del Error Inflación deVariable DF parámetro estándar Valor t Pr > |t| la varianza

Intercept 1 1.15730 1.97967 0.58 0.5612 0X2 1 7.96551 0.78478 10.15 <.0001 49.49065X5 1 12.72976 2.72606 4.67 <.0001 25.87793X6 1 -6.87097 0.92114 -7.46 <.0001 24.99327

Page 15: Trabajo No1 Estadística II- Regresión Lineal Múltiple

8/12/2019 Trabajo No1 Estadística II- Regresión Lineal Múltiple

http://slidepdf.com/reader/full/trabajo-no1-estadistica-ii-regresion-lineal-multiple 15/25

 

14 | P á g i n a  

Criterio:

Como podemos ver en la tabla de parámetros estimados en la columna 7 (Inflación de lavarianza)  

Dónde:Por lo tanto este criterio nos indica la existencia de Multicolinealidad Fuerte.

Análisis de multicolinealidad en el modelo sin estandarizar

  Tabla 3.3. Análisis del eigensistema (X’X). Datos sin centrar 

Diagnósticos de colinealidad

Índice de ---------------Proporción de la variación---------------Número Autovalor la condición Intercept X2 X5 X6

1 3.40170 1.00000 0.02624 0.00108 0.00216 0.002072 0.56434 2.45514 0.86114 0.00108 0.00374 0.001433 0.02531 11.59320 0.10463 0.00032992 0.51109 0.496414 0.00865 19.83306 0.00799 0.99751 0.48301 0.50009

Número de condición:

Criterio:

Dado que esto nos da un indicio de que existe multicolinealidad moderada.

Índices de Condición: Para ver cuantas relaciones problemáticas hay en el modelo analicemos

los índices de condición:

Page 16: Trabajo No1 Estadística II- Regresión Lineal Múltiple

8/12/2019 Trabajo No1 Estadística II- Regresión Lineal Múltiple

http://slidepdf.com/reader/full/trabajo-no1-estadistica-ii-regresion-lineal-multiple 16/25

 

15 | P á g i n a  

Criterio:

De acuerdo al criterio de índices de condición existen dos indicios de multicolinealidad.

Para saber cuáles variables presentan multicolinealidad analicemos:

Proporciones de varianza: Se denota como y este análisis nos explica la proporción de

varianza de explicada por cada .

Criterio:Para 2 o más coeficientes de regresión asociadas al mismo valor propio es evidencia

de multicolinealidad, entre las correspondientes variables.

Ya que en la fila número 4 existen valores mayores que 0.5 para 2 o más coeficientes deregresión asociados al mismo valor propio, entonces este criterio nos da indicios demulticolinealidad.

Análisis de multicolinealidad en el modelo estandarizado

  Tabla 3.4. Análisis del eigensistema (X’X). Datos centrados 

Diagnósticos de Colinealidad (término independiente ajustado)

Índice de --------Proporción de la variación-------Número Autovalor la condición X2 X5 X6

1 2.94753 1.00000 0.00230 0.00435 0.004502 0.03903 8.69024 0.00008407 0.48587 0.521913 0.01344 14.80875 0.99761 0.50978 0.47359

Page 17: Trabajo No1 Estadística II- Regresión Lineal Múltiple

8/12/2019 Trabajo No1 Estadística II- Regresión Lineal Múltiple

http://slidepdf.com/reader/full/trabajo-no1-estadistica-ii-regresion-lineal-multiple 17/25

 

16 | P á g i n a  

Numero de condición:

Criterio:

Dado que esto nos indica que existe multicolinealidad moderada.

Índices de Condición: Para ver cuantas relaciones problemáticas hay en el modelo analicemos

los índices de condición:

Criterio:

De acuerdo al criterio de índices de condición hay multicolinealidad moderada.

Proporciones de varianza: Se denota como y este análisis nos explica la proporción de

varianza de explicada por cada .

Page 18: Trabajo No1 Estadística II- Regresión Lineal Múltiple

8/12/2019 Trabajo No1 Estadística II- Regresión Lineal Múltiple

http://slidepdf.com/reader/full/trabajo-no1-estadistica-ii-regresion-lineal-multiple 18/25

 

17 | P á g i n a  

Criterio: 

Para 2 o más coeficientes de regresión asociadas al mismo valor propio es evidencia

de multicolinealidad, entre las correspondientes variables.

Ya que en la fila número 3 existen valores mayores que 0.5 para 2 coeficientes de regresiónasociados al mismo valor propio, entonces este criterio nos da indicios de multicolinealidadfuerte entre las variables X2 y X5.

VALIDACIÓN DE LOS SUPUESTOS

Prueba de Significancia de la regresión:

Con esto se quiere probar que existe una regresión lineal múltiple entre Y y las variablespredictoras.

  Tabla 3.5. Tabla Anova

Análisis de la varianza

Suma de CuadradoFuente DF cuadrados de la media F-Valor Pr > F

Model 3 470133 156711 1153.10 <.0001Error 56 7610.62123 135.90395Total corregido 59 477743

Raíz MSE 11.65778 R-cuadrado 0.9841

Media dependiente 61.84847 Adj R-Sq 0.9832Var Coef 18.84895

Significancia del modelo 

Page 19: Trabajo No1 Estadística II- Regresión Lineal Múltiple

8/12/2019 Trabajo No1 Estadística II- Regresión Lineal Múltiple

http://slidepdf.com/reader/full/trabajo-no1-estadistica-ii-regresion-lineal-multiple 19/25

 

18 | P á g i n a  

Usando el valor p tenemos queVp < 0,0001 <0,05 por lo tanto rechazo H0 

Es decir que al menos una de las variables es significativa en el modelo, sin embargo, trashaber hecho el análisis de problemas de multicolinealidad, vemos que las variablespresentan problemas así que no podemos decir con certeza cuales son las variablessignificativas. 

Análisis de Normalidad:

Mediante la gráfica de residuales contra las probabilidades de la normal se debenobservar un patrón de puntos lineal con una pendiente de 45°.

Y = 1. 1 5 7 3 + 7 . 9 6 5 5 X 2 + 1 2 . 7 3 X 5 - 6 . 8 7 1 X 6

N

6 0

R s q

0 . 9 8 4 1

 Ad j Rs q

0 . 9 8 3 2

RMSE

1 1 . 6 5 8

   C   D   F

   d  e   R  e  s   i   d  u  a   l   d  e   S   t  u   d  e  n   t

0.0

0.2

0.4

0.6

0.8

1.0

Distribución acumulada normal

0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0

 De este gráfico podemos ver que los datos no se ajustan correctamente a una línea recta,por lo que procedemos a realizar la prueba analíticamente para corroborar estaafirmación.

Nuestro modelo seleccionado:

Se supone que los son incorrelacionados

Page 20: Trabajo No1 Estadística II- Regresión Lineal Múltiple

8/12/2019 Trabajo No1 Estadística II- Regresión Lineal Múltiple

http://slidepdf.com/reader/full/trabajo-no1-estadistica-ii-regresion-lineal-multiple 20/25

 

19 | P á g i n a  

Se usan varios estadísticos de prueba para probar la normalidad los cuales serán Shapiro-Wilks, Cramer-Von Mises, Kolmogorov-Smirnov y Anderson-Darling. Realizaremos lasiguiente prueba de hipótesis

  Tabla 3.6. Tests para normalidad

Tests para normalidad

Test -Estadístico-- -----P-valor------

Shapiro-Wilk W 0.926143 Pr < W 0.0014Kolmogorov-Smirnov D 0.141135 Pr > D <0.0100Cramer-von Mises W-Sq 0.236748 Pr > W-Sq <0.0050Anderson-Darling A-Sq 1.320036 Pr > A-Sq <0.0050

Podemos observar que el valor p arrojado por cada uno de los estadísticos de pruebautilizados es menor que el nivel de significancia (0,05) entonces podemos decir que serechaza H0por lo que se verifica que al igual que la prueba mediante gráficas el modelo nocumple el supuesto de normalidad.

Prueba de varianza constante:

Para hacer el diagnóstico de esta prueba se mira la dispersión de puntos .

Y = 1 . 1 5 7 3 +7 . 9 6 5 5 X 2 +1 2 . 7 3 X 5 - 6 . 8 7 1 X 6

N

6 0

R s q

0 . 9 8 4 1

 Ad j Rs q

0 . 9 8 3 2

RMSE

1 1 . 6 5 8

   R  e  s   i   d  u  a   l   d  e   S   t  u   d  e  n   t

-5

-4

-3

-2

-1

0

1

2

3

4

Valor predicho

0 50 100 150 200 250 300 350 400 450 500

 Podemos ver que este esquema está en contra del supuesto ya que lasobservaciones no se ajustan a ningún patrón.

Page 21: Trabajo No1 Estadística II- Regresión Lineal Múltiple

8/12/2019 Trabajo No1 Estadística II- Regresión Lineal Múltiple

http://slidepdf.com/reader/full/trabajo-no1-estadistica-ii-regresion-lineal-multiple 21/25

 

20 | P á g i n a  

PUNTOS ATÍPICOS, DE BALANCEO E INFLUYENTES

Sabemos que en un modelo de regresión se tiene preferencia porque la mayoría depuntos tuviesen la misma importancia a la hora de realizar a estimación, sinembargo esto a veces no sucede por eso comenzamos con detectar los puntosatípicos.

  Puntos Atípicos:

Son aquellos valores que están alejados de los demás datos, provocando residualesgrandes. Un punto es atípico si los residuales estudentizados para cada observación seencuentran entre -3 y 3.

Para nuestro modelo tenemos que los siguientes son puntos atípicos:Observación 2 con un r de -4,309Observación 3 con un r de 3,435

  Puntos de Balanceo:

Un punto de balanceo es una observación en el espacio de las x’s, alejada  del resto de lamuestra y que puede controlar ciertas propiedades del modelo ajustado. El criterio quevamos a usar para detectar dichos puntos es:

En este caso nuestros puntos de balanceo son los siguientes:1, 2, 3, 4, 6, 7, 8, 31 con un valor de hii de 0,4663, 0,3936, 0,4474, 0,3621, 0,3639, 0,1450,

0,1592, y 0,1407 respectivamente.Además si se quisiera definir un límite de un máximo para la predicción, no deben

tenerse en cuenta estos valores, ya que están alejados del conjunto de los demás datos ypodría llegarse a una extrapolación.

  Puntos Influyentes:

Page 22: Trabajo No1 Estadística II- Regresión Lineal Múltiple

8/12/2019 Trabajo No1 Estadística II- Regresión Lineal Múltiple

http://slidepdf.com/reader/full/trabajo-no1-estadistica-ii-regresion-lineal-multiple 22/25

 

21 | P á g i n a  

Se caracterizan por tener un valor moderadamente inusual tanto en las predictoras comoen la respuesta.Para su diagnóstico se utilizan dos criterios:

Distancia de Cook: Mide la influencia de la observación i sobre todos los valores ajustados

dela respuesta.Un punto es influyente según este criterio sí:DCook>1Observación 2- Distancia de Cook = 3,013Observación 3- Distancia de Cook = 2,389

DFFITS: Indica cuánto cambia en unidades estándar el valor ajustado si se omite la i –ésima observación. Un punto es influyente según este criterio si:

Para el modelo en mención tenemos los siguientes puntos influyentes 1, 2, 3, 6, 7, 12 conDFFITS de 1,7348, -4,2079, 3,4481, -1,6439, 0,5326, -0,5914 respectivamente.En conclusión los puntos influenciales son los obtenidos por la unión de los dos criterios yen nuestro caso son las observaciones 1, 2, 3, 6, 7 y 12

El tratamiento que se puede utilizar para resolver dichos problemas es quitar del modelola observación que me produce el problema, volver a correr los datos y mirar de nuevo elcomportamiento del MSE y el R2, si esta observación afecta el modelo en gran proporciónla debo quitar definitivamente, si no la dejo en el modelo.

  De lo anterior se puede decir que el modelo no es válido ya que no cumplió con lossupuestos de normalidad, varianza constante y además existen valores atípicosdentro de las observaciones

Page 23: Trabajo No1 Estadística II- Regresión Lineal Múltiple

8/12/2019 Trabajo No1 Estadística II- Regresión Lineal Múltiple

http://slidepdf.com/reader/full/trabajo-no1-estadistica-ii-regresion-lineal-multiple 23/25

 

22 | P á g i n a  

  Tabla 3.7.1. Estadísticos de salida

Page 24: Trabajo No1 Estadística II- Regresión Lineal Múltiple

8/12/2019 Trabajo No1 Estadística II- Regresión Lineal Múltiple

http://slidepdf.com/reader/full/trabajo-no1-estadistica-ii-regresion-lineal-multiple 24/25

 

23 | P á g i n a  

Estadísticos de salida

Variable Valor Error std Residual Residual DObserv dependiente predicho Media predicha Residual de error std de Student -2-1 0 1 2 de Cook RStude

1 499.8130 484.3399 7.9604 15.4731 8.517 1.817 | |*** | 0.721 1.85602 393.1620 432.2758 7.3141 -39.1138 9.078 -4.309 |******| | 3.013 -5.2226

3 294.4660 264.6953 7.7976 29.7707 8.666 3.435 | |******| 2.389 3.83214 255.1620 247.7526 7.0154 7.4094 9.311 0.796 | |* | 0.090 0.79325 162.9760 160.8425 2.6421 2.1335 11.354 0.188 | | | 0.000 0.18636 69.9890 89.5546 7.0328 -19.5656 9.298 -2.104 | ****| | 0.633 -2.17327 138.2140 124.3525 4.4386 13.8615 10.780 1.286 | |** | 0.070 1.29368 106.6460 94.2209 4.6514 12.4251 10.690 1.162 | |** | 0.064 1.16619 116.8610 102.2789 2.2829 14.5821 11.432 1.276 | |** | 0.016 1.282910 67.9650 66.3447 2.3301 1.6203 11.423 0.142 | | | 0.000 0.140611 99.2930 87.4304 2.6159 11.8626 11.361 1.044 | |** | 0.014 1.045112 76.5700 99.3852 3.1682 -22.8152 11.219 -2.034 | ****| | 0.082 -2.094213 69.2850 65.3090 2.2073 3.9760 11.447 0.347 | | | 0.001 0.344614 77.3160 77.7025 1.8249 -0.3865 11.514 -0.0336 | | | 0.000 -0.033315 54.8540 59.1811 1.7000 -4.3271 11.533 -0.375 | | | 0.001 -0.372316 45.6420 49.7694 1.5708 -4.1274 11.551 -0.357 | | | 0.001 -0.354517 52.0940 39.9385 2.3886 12.1555 11.410 1.065 | |** | 0.012 1.066618 68.1090 45.4386 1.7026 22.6704 11.533 1.966 | |*** | 0.021 2.019019 52.6060 44.5098 1.9728 8.0962 11.490 0.705 | |* | 0.004 0.701420 49.1110 63.1070 2.2688 -13.9960 11.435 -1.224 | **| | 0.015 -1.229621 30.7710 51.4058 1.5850 -20.6348 11.550 -1.787 | ***| | 0.015 -1.823322 34.9410 55.4014 2.1098 -20.4604 11.465 -1.785 | ***| | 0.027 -1.821123 44.5130 42.8409 1.6650 1.6721 11.538 0.145 | | | 0.000 0.143624 43.0100 36.3211 1.7112 6.6889 11.532 0.580 | |* | 0.002 0.576625 35.1060 39.5484 2.3879 -4.4424 11.411 -0.389 | | | 0.002 -0.386426 19.0900 35.1562 1.7513 -16.0662 11.525 -1.394 | **| | 0.011 -1.406127 32.1460 32.7416 1.7867 -0.5956 11.520 -0.0517 | | | 0.000 -0.051228 32.2710 27.6912 2.0744 4.5798 11.472 0.399 | | | 0.001 0.396229 30.6840 35.8855 2.0508 -5.2015 11.476 -0.453 | | | 0.002 -0.450030 31.3580 22.3686 1.8046 8.9894 11.517 0.781 | |* | 0.004 0.777831 24.2690 34.1632 4.3732 -9.8942 10.806 -0.916 | *| | 0.034 -0.914232 36.4180 32.8055 1.8326 3.6125 11.513 0.314 | | | 0.001 0.311233 29.9670 20.9461 1.7561 9.0209 11.525 0.783 | |* | 0.004 0.780034 38.2050 35.0334 2.0213 3.1716 11.481 0.276 | | | 0.001 0.274035 27.1610 33.5201 2.0915 -6.3591 11.469 -0.554 | *| | 0.003 -0.5510

36 31.5390 28.4463 1.9321 3.0927 11.497 0.269 | | | 0.001 0.266837 10.4250 19.4137 1.7646 -8.9887 11.523 -0.780 | *| | 0.004 -0.777338 15.9810 16.6025 1.7938 -0.6215 11.519 -0.0540 | | | 0.000 -0.053539 25.1490 21.6116 1.6645 3.5374 11.538 0.307 | | | 0.000 0.304140 25.0460 27.6322 1.8397 -2.5862 11.512 -0.225 | | | 0.000 -0.222741 28.3510 26.6115 2.1039 1.7395 11.466 0.152 | | | 0.000 0.150442 33.6870 25.5207 2.0401 8.1663 11.478 0.711 | |* | 0.004 0.708343 11.2730 26.1563 2.1934 -14.8833 11.450 -1.300 | **| | 0.016 -1.308144 20.4650 15.3147 1.7075 5.1503 11.532 0.447 | | | 0.001 0.443445 19.4100 13.0559 1.9541 6.3541 11.493 0.553 | |* | 0.002 0.549446 17.3790 18.7442 1.7300 -1.3652 11.529 -0.118 | | | 0.000 -0.117447 11.1610 14.1243 1.7236 -2.9633 11.530 -0.257 | | | 0.000 -0.254948 7.6990 17.3437 1.7204 -9.6447 11.530 -0.836 | *| | 0.004 -0.834249 15.8710 12.9631 2.3274 2.9079 11.423 0.255 | | | 0.001 0.252450 18.1730 19.8683 1.8816 -1.6953 11.505 -0.147 | | | 0.000 -0.146151 12.7870 9.5942 1.8457 3.1928 11.511 0.277 | | | 0.000 0.2751

52 19.3170 16.2232 1.7644 3.0938 11.523 0.268 | | | 0.000 0.266253 16.2260 14.0104 1.7341 2.2156 11.528 0.192 | | | 0.000 0.190554 13.2300 17.7038 1.8001 -4.4738 11.518 -0.388 | | | 0.001 -0.385555 29.2370 19.6335 2.3778 9.6035 11.413 0.841 | |* | 0.008 0.839356 29.0580 32.5450 1.6861 -3.4870 11.535 -0.302 | | | 0.000 -0.299857 14.4460 14.6684 1.7821 -0.2224 11.521 -0.0193 | | | 0.000 -0.019158 13.4740 16.1881 1.8949 -2.7141 11.503 -0.236 | | | 0.000 -0.234059 15.5960 20.2393 2.0369 -4.6433 11.478 -0.405 | | | 0.001 -0.401560 15.8840 12.4350 1.8444 3.4490 11.511 0.300 | | | 0.001 0.2972

Page 25: Trabajo No1 Estadística II- Regresión Lineal Múltiple

8/12/2019 Trabajo No1 Estadística II- Regresión Lineal Múltiple

http://slidepdf.com/reader/full/trabajo-no1-estadistica-ii-regresion-lineal-multiple 25/25

 

24 | P á i

  Tabla 3.7.2 Estadísticos de salida

Estadísticos de salida 

Diag de sombrero Ratio -------------------DFBETAS-------------------Observación H de cov DFFITS Intercept X2 X5 X6

1 0.4663 1.5793 1.7348 -0.3164 0.0358 0.7253 -0.49122 0.3936 0.3539 -4.2079 1.9843 -0.9923 1.2912 -0.67613 0.4474 0.7547 3.4481 -0.9589 2.8304 -2.8154 -0.86024 0.3621 1.6100 0.5976 0.1419 -0.1901 0.5086 -0.20285 0.0514 1.1301 0.0433 0.0017 0.0263 -0.0173 -0.01466 0.3639 1.2153 -1.6439 0.2967 0.7885 0.3312 -1.53797 0.1450 1.1149 0.5326 0.0543 -0.4486 0.3030 0.36678 0.1592 1.1593 0.5074 -0.0190 -0.3379 0.0450 0.46339 0.0383 0.9933 0.2562 0.1501 -0.0730 0.1743 -0.061010 0.0399 1.1178 0.0287 0.0061 -0.0085 -0.0071 0.020311 0.0503 1.0461 0.2406 0.0891 0.1948 -0.1170 -0.154512 0.0739 0.8538 -0.5914 -0.3371 -0.1455 -0.2510 0.455813 0.0359 1.1051 0.0664 0.0327 -0.0472 0.0312 0.036814 0.0245 1.1016 -0.0053 -0.0040 -0.0002 -0.0020 0.002215 0.0213 1.0871 -0.0549 -0.0407 0.0247 -0.0218 -0.012916 0.0182 1.0847 -0.0482 -0.0343 0.0064 0.0040 -0.012517 0.0420 1.0336 0.2233 0.0820 -0.1234 0.0017 0.1728

18 0.0213 0.8250 0.2981 0.1753 -0.0093 -0.0921 0.101219 0.0286 1.0677 0.1204 0.0585 0.0537 -0.0769 -0.001420 0.0379 1.0022 -0.2440 -0.1778 -0.0988 -0.0314 0.178621 0.0185 0.8659 -0.2502 -0.2228 -0.0071 -0.0382 0.057022 0.0328 0.8791 -0.3351 -0.2368 -0.1859 0.0496 0.225223 0.0204 1.0955 0.0207 0.0156 -0.0081 0.0034 0.007424 0.0215 1.0722 0.0856 0.0568 0.0151 -0.0351 0.010525 0.0420 1.1097 -0.0809 -0.0422 -0.0582 0.0481 0.037526 0.0226 0.9547 -0.2136 -0.1542 -0.0785 0.0897 0.032227 0.0235 1.1004 -0.0079 -0.0054 -0.0028 0.0037 0.000628 0.0317 1.0973 0.0716 0.0462 -0.0459 0.0208 0.041329 0.0309 1.0929 -0.0804 -0.0598 -0.0444 0.0233 0.044430 0.0240 1.0540 0.1219 0.0831 -0.0230 -0.0245 0.050431 0.1407 1.1775 -0.3700 -0.1789 0.3204 -0.3194 -0.124732 0.0247 1.0942 0.0495 0.0438 0.0159 -0.0032 -0.022933 0.0227 1.0523 0.1189 0.0878 -0.0193 -0.0210 0.0408

34 0.0301 1.1020 0.0482 0.0402 0.0200 -0.0030 -0.028635 0.0322 1.0863 -0.1005 -0.0787 -0.0512 0.0191 0.060136 0.0275 1.0994 0.0448 0.0361 0.0206 -0.0121 -0.020437 0.0229 1.0529 -0.1190 -0.0925 -0.0218 0.0422 -0.002538 0.0237 1.1006 -0.0083 -0.0061 -0.0003 0.0027 -0.001739 0.0204 1.0898 0.0439 0.0409 -0.0070 0.0036 0.002740 0.0249 1.0982 -0.0356 -0.0346 0.0038 -0.0120 0.009641 0.0326 1.1091 0.0276 0.0221 0.0136 -0.0056 -0.015842 0.0306 1.0691 0.1259 0.1026 0.0589 -0.0265 -0.066943 0.0354 0.9857 -0.2506 -0.1924 -0.1352 0.0612 0.149144 0.0215 1.0827 0.0657 0.0576 -0.0061 -0.0059 0.008745 0.0281 1.0819 0.0934 0.0746 -0.0503 0.0253 0.038946 0.0220 1.0978 -0.0176 -0.0172 0.0022 -0.0030 0.001647 0.0219 1.0936 -0.0381 -0.0344 0.0077 -0.0013 -0.006248 0.0218 1.0448 -0.1245 -0.1182 -0.0067 0.0032 0.018149 0.0399 1.1142 0.0514 0.0374 -0.0371 0.0263 0.022950 0.0261 1.1018 -0.0239 -0.0218 -0.0067 0.0018 0.009851 0.0251 1.0963 0.0441 0.0349 -0.0137 -0.0010 0.016752 0.0229 1.0943 0.0408 0.0384 0.0055 -0.0028 -0.009053 0.0221 1.0962 0.0287 0.0274 -0.0052 0.0036 0.001054 0.0238 1.0892 -0.0602 -0.0581 -0.0069 -0.0021 0.017755 0.0416 1.0657 0.1749 0.0728 -0.0742 -0.0280 0.128056 0.0209 1.0905 -0.0438 -0.0319 0.0103 0.0036 -0.016257 0.0234 1.1004 -0.0030 -0.0028 -0.0005 0.0003 0.000758 0.0264 1.0995 -0.0385 -0.0343 -0.0121 0.0064 0.014459 0.0305 1.0957 -0.0712 -0.0642 -0.0219 -0.0000 0.037660 0.0250 1.0953 0.0476 0.0420 0.0124 -0.0108 -0.0114