2. ESTADÍSTICA DESCRIPTIVA BIVARIANTE€¦ · Tema 2: Estadística descriptiva bivariante 1. ......

39
Informática. Universidad Carlos III de Madrid 1 2. ESTADÍSTICA DESCRIPTIVA BIVARIANTE

Transcript of 2. ESTADÍSTICA DESCRIPTIVA BIVARIANTE€¦ · Tema 2: Estadística descriptiva bivariante 1. ......

Informática. Universidad Carlos III de Madrid 1

2. ESTADÍSTICA DESCRIPTIVA BIVARIANTE

Informática. Universidad Carlos III de Madrid 2

Tema 2: Estadística descriptiva bivariante

1. Introducción2. Tablas de frecuencias bivariantes.3. Gráficos de dispersión.4. Medidas de relación lineal5. La recta de regresión simple.

Informática. Universidad Carlos III de Madrid 3

Tema 2: Estadística descriptiva bivariante

1. Introducción2. Tablas de frecuencias bivariantes.3. Gráficos de dispersión.4. Medidas de relación lineal5. La recta de regresión simple.

Informática. Universidad Carlos III de Madrid 4

2.2. Tablas de frecuencias Tablas de frecuencias bivariantesbivariantes

Tablas Tablas bivariantesbivariantes

Si tenemos, para cada individuo, dos datos usamos una tabla de doble entrada

Ejemplo: para cada coche tenemos el número de cilindros y su año de fabricación (cardata.sf)

Informática. Universidad Carlos III de Madrid 5

Tablas Tablas bivariantesbivariantes

Si tenemos, para cada individuo, dos datos usamos una tabla de doble entrada

Ejemplo: para cada coche tenemos el número de cilindros y su año de fabricación (cardata.sf)

Cada celda: frecuencias conjuntas

2.2. Tablas de frecuencias Tablas de frecuencias bivariantesbivariantes

Informática. Universidad Carlos III de Madrid 6

Tablas Tablas bivariantesbivariantes

Si tenemos, para cada individuo, dos datos usamos una tabla de doble entrada

Ejemplo: para cada coche tenemos el número de cilindros y su año de fabricación (cardata.sf)

Las univariantes: frecuencias marginales

2.2. Tablas de frecuencias Tablas de frecuencias bivariantesbivariantes

Informática. Universidad Carlos III de Madrid 7

Tablas Tablas bivariantesbivariantes

Si tenemos, para cada individuo, dos datos usamos una tabla de doble entrada

Ejemplo: para cada coche tenemos el número de cilindros y su año de fabricación (cardata.sf)

Cada fila o columna: frecuencia condicionada (al valor de la fila o columna)

2.2. Tablas de frecuencias Tablas de frecuencias bivariantesbivariantes

Informática. Universidad Carlos III de Madrid 8

Tema 2: Estadística descriptiva bivariante

1. Introducción2. Tablas de frecuencias bivariantes.3. Gráficos de dispersión.4. Medidas de relación lineal5. La recta de regresión simple.

Informática. Universidad Carlos III de Madrid 9

GrGrááfico de dispersifico de dispersióónn

Para cada dato (individuo, elemento) tenemos información de dos variables: X e Y

Informática. Universidad Carlos III de Madrid 10

3.5 Gr3.5 Grááfico de dispersifico de dispersióónn

Pote

ncia

gen

erad

a po

r un

m

olin

o de

vie

nto

Para cada dato (individuo, elemento) tenemos información de dos variables: X e Y

Informática. Universidad Carlos III de Madrid 11

Tema 2: Estadística descriptiva bivariante

1. Introducción2. Tablas de frecuencias bivariantes.3. Gráficos de dispersión.4. Medidas de relación lineal5. La recta de regresión simple.

Informática. Universidad Carlos III de Madrid 12

Medidas de dependencia linealMedidas de dependencia lineal• Coeficiente de covarianza

• Coeficiente de correlación

Entre estas variables no hay relación lineal

Entre estas variables hay relación lineal

La línea roja podría ser un buen resumen de esa relación

Informática. Universidad Carlos III de Madrid 13

Para n individuos, tenemos datos de 2 variables

Individuo x y

1 x1 y1

2 x2 y2

: : :

n xn yn

Covarianza

Correlación

Covarianza y correlación positivas

Covarianza y correlación negativas

Una forma habitual de presentar la información es en forma de matrices (simétricas)

Matriz de covarianzas

Matriz de correlaciones

Medidas de dependencia linealMedidas de dependencia lineal• Coeficiente de covarianza

• Coeficiente de correlación

Informática. Universidad Carlos III de Madrid 15

• La covarianza tiene unidades (unidades_x)(unidades_y)• La correlación es adimensional. ES MÁS FÁCIL DE INTERPRETAR• Se puede demostrar que -1≤r≤1

r=1 r=0.06

r=-0.94 r=-0.83 r=-0.08

r=0.8

Informática. Universidad Carlos III de Madrid 16

Tema 2: Estadística descriptiva bivariante

1. Introducción2. Tablas de frecuencias bivariantes.3. Gráficos de dispersión.4. Medidas de relación lineal5. La recta de regresión simple.

Informática. Universidad Carlos III de Madrid 17

La recta de regresiLa recta de regresióónn

X

y

( , )i ix y

¿Cómo obtener la ecuación de esa recta

‘resumen’?

Informática. Universidad Carlos III de Madrid 18

La recta de regresiLa recta de regresióónn

X

yEcuación de la recta:

Y=a+bX

Si tiene que pasar por dos puntos: solución única

Informática. Universidad Carlos III de Madrid 19

La recta de regresiLa recta de regresióónn

X

y

( , )i ix y

Es imposible que una recta pase por todos

los puntos

¿Cómo elegir la que más nos interesa?

Informática. Universidad Carlos III de Madrid 20

La recta de regresiLa recta de regresióónn

X

y

( , )i ix y

Buscamos una recta muy concreta llamada

RECTA DE REGRESIÓN

(de regresión simple)

Es la recta que, dado el valor de X me da la

mejor predicción de Y

Informática. Universidad Carlos III de Madrid 21

X

y

( , )i ix y

a bx+

iy

ix

ˆiyValor observado

Valor previstopor la recta

valor observado

La recta de regresiLa recta de regresióónn Es la recta que, dado el valor de X me da la mejor predicción de Y

Error de prediccióno residuo:

ˆi i ie y y= −

ei

Informática. Universidad Carlos III de Madrid 22

X

y

( , )i ix y

a bx+

iy

ix

ˆiy

valor observado

La recta de regresiLa recta de regresióónn

ei

Buscamos la recta que minimiza los errores de predicción:

2

1min

N

ii

e=∑

(recta de mínimos cuadrados)

Informática. Universidad Carlos III de Madrid 23

La recta de regresiLa recta de regresióónn

X

y

( , )i ix y

a bx+

x

y

2

cov( , )

x

x ybs

=

a y bx= −

SOLUCIÓN

Informática. Universidad Carlos III de Madrid 24

Ejemplo La variable V1 tiene la velocidad del viento registrada en la localización 1, mientras que la variable V2 tiene las velocidades registradas en esos mismos instantes en la localización 2. Se tiene un total de 115 pares de medidas

En la localización 1 se va a establecer un sistema informático para la telemedida de la velocidad del viento, pero no para la localización 2. Se quiere calcular la recta de regresión que permita predecir la velocidad de la Localización 2 sabiendo la de la Localización 1

Loc.1:

media: 2.51

varianza: 1.91

Loc.2:

media: 3.28

varianza: 2.36

cov (V1,V2)=1.995

Informática. Universidad Carlos III de Madrid 25

Loc.1:

media: 2.51

varianza: 1.91

Loc.2:

media: 3.28

varianza: 2.36

cov (V1,V2)=1.995

3.28 1.045 2.51 0.657a y bx= − = − × =b=cov(x,y)/var(x)=1.995/1.91=1.045

2 1ˆ 0.657 1.045V V= + ×

Si, por ejemplo, en la Localización 1 se mide una velocidad de viento de 5 m/s, la predicción en la Localización 2 es de un viento de

0.657+1.045x5=5.88 m/s

Ejemplo La variable V1 tiene la velocidad del viento registrada en la localización 1, mientras que la variable V2 tiene las velocidades registradas en esos mismos instantes en la localización 2. Se tiene un total de 115 pares de medidas

Informática. Universidad Carlos III de Madrid 26

3.28 1.045 2.51 0.657a y bx= − = − × =b=cov(x,y)/var(x)=1.995/1.91=1.045

2 1ˆ 0.657 1.045V V= + ×

Ejemplo La variable V1 tiene la velocidad del viento registrada en la localización 1, mientras que la variable V2 tiene las velocidades registradas en esos mismos instantes en la localización 2. Se tiene un total de 115 pares de medidas

y=a+bxInterpretación de b: si x aumenta en una unidad, y aumenta en b

unidades

Si en la localización 1 aumenta la velocidad del viento en 1 m/s, en la localización 2 lo hará en 1.045 m/s

Informática. Universidad Carlos III de Madrid 27

3.28 1.045 2.51 0.657a y bx= − = − × =b=cov(x,y)/var(x)=1.995/1.91=1.045

2 1ˆ 0.657 1.045V V= + ×

Ejemplo La variable V1 tiene la velocidad del viento registrada en la localización 1, mientras que la variable V2 tiene las velocidades registradas en esos mismos instantes en la localización 2. Se tiene un total de 115 pares de medidas

y=a+bxInterpretación de a: si x vale 0, y toma el valor a

Si en la localización 1 no hay viento, en la localización 2 hay 0.657 m/s, que es muy pequeño

Informática. Universidad Carlos III de Madrid 28

EvaluaciEvaluacióón de la regresin de la regresióónn

La regresión para predecir y a partir de x será buena idea si:

1. La relación entre x e y es lineal2. La relación es fuerte (alta correlación)

GráficosCorrelación y Coeficiente de

determinación R2

Informática. Universidad Carlos III de Madrid 29

EvaluaciEvaluacióón de la regresin de la regresióónn

La regresión para predecir y a partir de x será buena idea si:

1.1 Gráfico xy1.2 Gráfico de predicciones vs observaciones1.3 Gráfico de residuos vs valores previstos

Este simple gráfico xy nos dice que no hay relación lineal. La regresión va a predecir mal

1.1 Gráfico xy

Datos: parqueeolico.sf3

1. La relación entre x e y es lineal

Informática. Universidad Carlos III de Madrid 30

EvaluaciEvaluacióón de la regresin de la regresióónn

La regresión para predecir y a partir de x será buena idea si:

1. La relación entre x e y es lineal

1.1 Gráfico xy1.2 Gráfico de predicciones vs observaciones1.3 Gráfico de residuos vs valores previstos

1.2 Gráfico de predicciones frente a observaciones

Cardata.sf: queremos explicar mpg(millas por galón) en función del peso

(weight)

Parqueeolico.sf3: queremos explicar la energía generada en función de la

velocidad del viento)

Hay linealidad

No hay linealidad

Informática. Universidad Carlos III de Madrid 31

EvaluaciEvaluacióón de la regresin de la regresióónn

1.3 Gráfico de residuos frente a valores previstos

Es la representación gráfica más importante para evaluar una regresión

Valores observados

Valores previstos

Informática. Universidad Carlos III de Madrid 32

EvaluaciEvaluacióón de la regresin de la regresióónn

1.3 Gráfico de residuos frente a valores previstos

Es la representación gráfica más importante para evaluar una regresión

Energia-PREDICCION

Valores previstos

Informática. Universidad Carlos III de Madrid 33

Energia-PREDICCION

Valores previstos

La no linealidad es muy clara. La regresión no es adecuada.

Informática. Universidad Carlos III de Madrid 34

2 1ˆ 0.657 1.045V V= + ×

Ejemplo La variable V1 tiene la velocidad del viento registrada en la localización 1, mientras que la variable V2 tiene las velocidades registradas en esos mismos instantes en la localización 2. Se tiene un total de 115 pares de medidas

Estos residuos no muestran ninguna

estructura evidente. Es señal de que el modelo

lineal es adecuado

Informática. Universidad Carlos III de Madrid 35

Estos gráficos de residuos SÍ son aceptables

Estos gráficos de residuos NO son aceptables

Informática. Universidad Carlos III de Madrid 36

Algunos tipos de no linealidades se pueden corregir transformando la variable

Esta curva es la que nos gustaría usar como

resumen de la relación…… Pero la técnica de regresión simple sólo nos proporciona

este tipo de soluciones

Buscamos otras variables y*=f(y) , x*=g(x) tales

que entre ellas haya relación lineal

x

Y

37

Buscamos una transformación que ‘enderece’ la nube

de puntos

Si c<1, los valores más grandes se comprimen más. En este caso, aplicado sobre

X ‘enderezamos’ la curvatura.

Si c>1, el efecto es el opuesto: los valores más grandes se

expanden más. En este caso, aplicado sobre Y también

‘enderezamos’ la curvatura.

y=a+bxc

yc=a+bx

y=a+bxc

c=0.9 insuficiente c=0.5 ¡perfecto! c=0.1 nos hemos pasado!!

y y y

x0.9 x0.5 x0.1

38

X

Y

•Cómo quedaría la nube de puntos si hacemos y2? (asumiendo que son positivos)

•Cómo quedaría la nube de puntos si hacemos x2? (asumiendo que son positivos)

•Cómo quedaría la nube de puntos si hacemos y0.5? (asumiendo que son positivos)

•Cómo quedaría la nube de puntos si hacemos log(y)? (asumiendo que son positivos)

Informática. Universidad Carlos III de Madrid 39

EvaluaciEvaluacióón de la regresin de la regresióónn

La regresión para predecir y a partir de x será buena idea si:

1. La relación entre x e y es lineal2. La relación es fuerte (alta correlación)

Gráficos

Correlación y Coeficiente de

determinación R2

• Entre 0 y 1

•El coeficiente de determinación nos dice qué proporción de la dispersión de la variable respuesta y viene explicada por la recta de la regresión