Post on 18-Feb-2021
Regresión Lineal Simple
Curso: Estadística
Fecha: 07/11/2017
Regresión Lineal Simple
LOGRO DE LA SESIÓN
Al finalizar la sesión, elestudiante explica laexistencia de relación entreuna variable dependiente conuna variable independiente deuna muestra de datos ydetermina el mejor modelo deregresión que permitapredecir el efecto de unavariable sobre la otra.
Sesión 11: Regresión Lineal Simple
CONTENIDO SABERES PREVIOS
1. Gráfico de dispersión.2. Modelo de regresión lineal
simple.3. Bondad de ajuste del
modelo.4. Predicción de valores de la
variable dependiente.
Variable independiente y variable dependiente.
Función lineal
¿Con qué variable se puede relacionar el peso de una persona?• La edad• La talla de la persona• El nivel de actividad física
DEFINICIÓN DE REGRESIÓN LINEAL SIMPLE
Consiste en analizar la relación entre dos variablescuantitativas con el objetivo de determinar una funciónY= f(x), llamado modelo de regresión o ecuación deregresión el cual se usará para predecir el efecto de lavariable X sobre la variable Y, donde:
X: variable independiente (explicativa, exógena)Y: variable dependiente (respuesta, endógena)
Ejemplos:
Estimar el peso de una persona a partir de su estatura.
Estimar el gasto en una familia en función de susingresos.
Estimar el precio de una PC en función de la velocidaddel procesador.
Predecir la calificación de una asignatura según elnúmero de horas de estudio a la semana.
Estimar el precio de una vivienda en función de susuperficie
Es la representación de pares de valores observados en el plano cartesiano,describe la relación existente entre las variables a partir de datosobservados en la muestra o población:
GRÁFICO DE DISPERSIÓN
Xi Yi
x1 y1
x2 y2
: :
xn yn
Datos: a b
c d
¿Cuál es el mejor ajuste a partir de los datos?
xˆˆŷ 10
En el gráfico se observa que la tendencia de los datos describenuna relación lineal directa, esto significa que ante un aumentode peso la presión arterial aumenta en la misma proporción
60
80
100
120
140
160
180
200
65 85 105 125 145
Pre
sió
n a
rte
rial
(m
m H
g)
Peso (kg)
EJEMPLO DE GRÁFICO DE DISPERSIÓN
Ecuación de regresión lineal
MODELO DE REGRESIÓN LINEAL SIMPLE
El modelo de regresión lineal simple se define:
iji10i exY
Donde:Yi: valor de la variable dependiente para la i-ésima observaciónXi: valor de la variable independiente para la i-ésima observacióneij: error aleatorio para la i-ésima observación que se asume normalβo : intercepto con el eje Yβ1 : mide el cambio de Y cuando varía X en 1 unidad, llamado
pendiente
Los parámetros βo y β1 deben ser estimados:
La recta de regresión estimada será:
Para estimar los parámetros del modelo de regresiónutilizaremos el método de mínimos cuadrados:
2
10
10
xxxy
xny
xˆˆŷ 10
xy 10
Obtenemos los coeficientes Bo y B1
21
XXn
YXXYn
Interpretación de los coeficientes de regresión lineal
• El coeficiente 1 indica el cambio promedio en la variablerespuesta (y), cuando la variable predictora (x) aumenta enuna unidad adicional.
• El intercepto 0 indica el valor promedio de la variablerespuesta (y), cuando la variable predictora (x) es igual acero. Sin embargo carece de interpretación práctica sidicho valor está fuera del rango del conjunto de valores X.
Y= 0 + 1 X o también Y= a + bX
La ecuación estimada:
El mejor ajuste de los datos es la ecuación:
xy 156.177.35ˆ
βo = 35.77 Es la intersección de la recta con el eje Y cuando X = 0
β1 = 1.156 Por cada kilo que aumenta en su peso la presión arterialaumenta en 1.156 mm/hg
y = 1.1558x + 35.777
60
80
100
120
140
160
180
200
65 85 105 125 145
Pre
sió
n a
rte
rial
(m
m H
g)
Peso (kg)
EJEMPLO MODELO DE REGRESIÓN
Interpretación de los coeficientes de regresión
Mide el grado de relación entre variables cuantitativas.El estadístico de correlación es el coeficiente de correlaciónde Pearson (R) cuyo valor está en el intervalo [-1,1], dadopor la fórmula:
2222 )()( YYnXXn
YXXYn
R
1. Coeficiente de correlación
BONDAD DE AJUSTE DEL MODELO DE REGRESIÓN
Interpretación del coeficiente de correlación de Pearson:
Correlación
negativa
muy fuerte
Correlación
negativa
fuerte
Correlación
negativa
moderada
Correlación
negativa
débil
Correlación
negativa
muy débil
Correlación
positiva muy
débil
Correlación
positiva
débil
Correlación
positiva
moderada
Correlación
positiva
fuerte
Correlación
positiva muy
fuerte
Muy alta Alta Moderada Baja Muy baja Muy baja Baja Moderada Alta Muy alta
-1 -0.8 -0.6 -0.4 -0.2 0 +0.2 +0.4 +0.6 +0.8 +1
Para una mejor interpretación de r, podemos agregar que :
• Valores de r cercanos a 1, se traduce en una alta relación directa.
• Valores de r cercanos a -1, se traduce en una alta relación inversa.
• Valores de r cercanos a 0, se traduce en una baja relación lineal entre las variables, la
cual será directa si r > 0, y será inversa si r < 0 .
INVERSA DIRECTA
R2 Ajuste del modelo0.00 < R2 ≤ 0.20 No tiene buen ajuste0.20 < R2 ≤ 0.40 No tiene buen ajuste0.40 < R2≤ 0.60 Ajuste moderado0.60 < R2≤ 0.80 Buen ajuste 0.80 < R2≤ 1.00 Buen ajuste
2. Coeficiente de Determinación
Mide el porcentaje de variabilidad en Y que explica a través delconocimiento de la variable independiente X para evaluarcapacidad de predicción. Se calcula con la siguiente fórmula:
2
2 2
2 2 2 2
i i
( x x )( y y )R r
x nx y ny
; 0 ≤ 𝑅2 ≤ 1
Ejemplo 2
Una empresa tiene 7 vendedores, y se quiere analizar las ventas mensuales (en miles de soles)
frente a los años de experiencia. Los datos están en la siguiente tabla.
a) ¿Se trata de una relación lineal? (analizar el diagrama de dispersión)
b) Si es una ecuación lineal hallar la ecuación de regresión determinando los coeficientes de
regresión.
c) ¿El modelo estimado tiene buen ajuste a los datos?
d) Predecir la venta de un empleado con 40 años de experiencia (Estimar Y para un valor X=40)
N° Experiencia (X) Ventas(miles)
1 13 26
2 16 33
3 30 36
4 2 16
5 8 26
6 6 19
7 31 38
Solución:
a) Diagrama de dispersión
En el diagrama de dispersión
se observa una existe una
relación lineal directa.
N° Experiencia (X) Ventas(miles)
1 13 26
2 16 33
3 30 36
4 2 16
5 8 26
6 6 19
7 31 38
b) Hallando los coeficientes de regresión
N°Experiencia
(X)
Ventas(miles)
(Y)XY X2 Y2
1 13 26 338 169 676
2 16 33 528 256 1089
3 30 36 1080 900 1296
4 2 16 32 4 256
5 8 26 208 64 676
6 6 19 114 36 361
7 31 38 1178 961 1444
∑X= 106 ∑Y=194 ∑XY=3478 ∑ X2=2390 ∑ Y2=5798
n 7 ; x 106
x 15.14n 7
; 194
y 27.717
0 1b y b x 27.71 (0.688 )15.14 17.29
22 2
1
1
1
2390 7(15.14)0.688
3478 7(15.14)(27.71)n
i
i
i
n
i i
x nx
x y nxyb
𝒏 = 𝟕
𝒙 = 𝒙
𝒏=𝟏𝟎𝟔
𝟕= 𝟏𝟓. 𝟏𝟒
𝒚 = 𝒚
𝒏=𝟏𝟗𝟒
𝟕= 𝟐𝟕. 𝟕𝟏
n 7 ; x 106
x 15.14n 7
; 194
y 27.717
0 1b y b x 27.71 (0.688 )15.14 17.29
22 2
1
1
1
2390 7(15.14)0.688
3478 7(15.14)(27.71)n
i
i
i
n
i i
x nx
x y nxyb
b.1 Ecuación de regresión
o = 17.29 Es el promedio de la ventas cuando un vendedor no tiene años de
experiencia (X =0) es de 1729 soles
1 = 0.668 El promedio de ventas aumenta en 668 soles por cada año de
experiencia que adquiera un vendedor (es el incremento en 0.668 de las
ventas cuando x aumenta en una unidad)
xˆˆŷ 10
La ecuación de regresión estimada es:
xy 668.029.17ˆ
Interpretación de los coeficientes de regresión:
c) Bondad de ajuste del modelo de regresión
d) Predicción para X=40
Un empleado con 40 años de experiencia en ventas, venderá aproximadamente S/.4482.6
1. Coeficiente de correlación: 𝑟 = 0.939Con un coeficiente de correlación de Pearson r = 0.939 nos indica que existe alta correlación
directa entre los años de experiencia y las ventas.
2. Coeficiente de determinación: 𝑅2 = 0.939 2 = 0.883
El 88.3% de las variaciones de las ventas (Y) son explicados por los años de experiencia. Existe
además un 100 − 88.3 % = 11.7% no es explicado por los años de experiencia.
826.44)40(668.029.17ˆˆˆ 10 xy
1. Webster, A. (2006). Estadística aplicada a los Negocios y la Economía. (3° ed.) Colombia; McGraw Hill.
2. Véliz Capuñay, Carlos, 2011, México. Estadística para la administración y los negocios, Primera Edición, 2011, Prentice Hall. Pearson.
3.
http://www.fisterra.com/mbe/investiga/var_cuantitativas/var_cuantitativas2.pdf Correlation en Wikipedia (inglés).
BIBLIOGRAFÍA
¡Muchas gracias!
“La verdadera sabiduría está en reconocer la propia
ignorancia”
Sócrates