2. ESTADÍSTICA DESCRIPTIVA · PDF fileTema 2: Estadística descriptiva bivariante...
date post
21-Sep-2018Category
Documents
view
223download
0
Embed Size (px)
Transcript of 2. ESTADÍSTICA DESCRIPTIVA · PDF fileTema 2: Estadística descriptiva bivariante...
Informtica. Universidad Carlos III de Madrid 1
2. ESTADSTICA DESCRIPTIVA BIVARIANTE
Informtica. Universidad Carlos III de Madrid 2
Tema 2: Estadstica descriptiva bivariante
1. Introduccin2. Tablas de frecuencias bivariantes.3. Grficos de dispersin.4. Medidas de relacin lineal5. La recta de regresin simple.
Informtica. Universidad Carlos III de Madrid 3
Tema 2: Estadstica descriptiva bivariante
1. Introduccin2. Tablas de frecuencias bivariantes.3. Grficos de dispersin.4. Medidas de relacin lineal5. La recta de regresin simple.
Informtica. Universidad Carlos III de Madrid 4
2.2. Tablas de frecuencias Tablas de frecuencias bivariantesbivariantes
Tablas Tablas bivariantesbivariantes
Si tenemos, para cada individuo, dos datos usamos una tabla de doble entrada
Ejemplo: para cada coche tenemos el nmero de cilindros y su ao de fabricacin (cardata.sf)
Informtica. Universidad Carlos III de Madrid 5
Tablas Tablas bivariantesbivariantes
Si tenemos, para cada individuo, dos datos usamos una tabla de doble entrada
Ejemplo: para cada coche tenemos el nmero de cilindros y su ao de fabricacin (cardata.sf)
Cada celda: frecuencias conjuntas
2.2. Tablas de frecuencias Tablas de frecuencias bivariantesbivariantes
Informtica. Universidad Carlos III de Madrid 6
Tablas Tablas bivariantesbivariantes
Si tenemos, para cada individuo, dos datos usamos una tabla de doble entrada
Ejemplo: para cada coche tenemos el nmero de cilindros y su ao de fabricacin (cardata.sf)
Las univariantes: frecuencias marginales
2.2. Tablas de frecuencias Tablas de frecuencias bivariantesbivariantes
Informtica. Universidad Carlos III de Madrid 7
Tablas Tablas bivariantesbivariantes
Si tenemos, para cada individuo, dos datos usamos una tabla de doble entrada
Ejemplo: para cada coche tenemos el nmero de cilindros y su ao de fabricacin (cardata.sf)
Cada fila o columna: frecuencia condicionada (al valor de la fila o columna)
2.2. Tablas de frecuencias Tablas de frecuencias bivariantesbivariantes
Informtica. Universidad Carlos III de Madrid 8
Tema 2: Estadstica descriptiva bivariante
1. Introduccin2. Tablas de frecuencias bivariantes.3. Grficos de dispersin.4. Medidas de relacin lineal5. La recta de regresin simple.
Informtica. Universidad Carlos III de Madrid 9
GrGrfico de dispersifico de dispersinn
Para cada dato (individuo, elemento) tenemos informacin de dos variables: X e Y
Informtica. Universidad Carlos III de Madrid 10
3.5 Gr3.5 Grfico de dispersifico de dispersinn
Pote
ncia
gen
erad
a po
r un
m
olin
o de
vie
nto
Para cada dato (individuo, elemento) tenemos informacin de dos variables: X e Y
Informtica. Universidad Carlos III de Madrid 11
Tema 2: Estadstica descriptiva bivariante
1. Introduccin2. Tablas de frecuencias bivariantes.3. Grficos de dispersin.4. Medidas de relacin lineal5. La recta de regresin simple.
Informtica. Universidad Carlos III de Madrid 12
Medidas de dependencia linealMedidas de dependencia lineal Coeficiente de covarianza
Coeficiente de correlacin
Entre estas variables no hay relacin lineal
Entre estas variables hay relacin lineal
La lnea roja podra ser un buen resumen de esa relacin
Informtica. Universidad Carlos III de Madrid 13
Para n individuos, tenemos datos de 2 variables
Individuo x y
1 x1 y1
2 x2 y2
: : :
n xn yn
Covarianza
Correlacin
Covarianza y correlacin positivas
Covarianza y correlacin negativas
Una forma habitual de presentar la informacin es en forma de matrices (simtricas)
Matriz de covarianzas
Matriz de correlaciones
Medidas de dependencia linealMedidas de dependencia lineal Coeficiente de covarianza
Coeficiente de correlacin
Informtica. Universidad Carlos III de Madrid 15
La covarianza tiene unidades (unidades_x)(unidades_y) La correlacin es adimensional. ES MS FCIL DE INTERPRETAR Se puede demostrar que -1r1
r=1 r=0.06
r=-0.94 r=-0.83 r=-0.08
r=0.8
Informtica. Universidad Carlos III de Madrid 16
Tema 2: Estadstica descriptiva bivariante
1. Introduccin2. Tablas de frecuencias bivariantes.3. Grficos de dispersin.4. Medidas de relacin lineal5. La recta de regresin simple.
Informtica. Universidad Carlos III de Madrid 17
La recta de regresiLa recta de regresinn
X
y
( , )i ix y
Cmo obtener la ecuacin de esa recta
resumen?
Informtica. Universidad Carlos III de Madrid 18
La recta de regresiLa recta de regresinn
X
yEcuacin de la recta:
Y=a+bX
Si tiene que pasar por dos puntos: solucin nica
Informtica. Universidad Carlos III de Madrid 19
La recta de regresiLa recta de regresinn
X
y
( , )i ix y
Es imposible que una recta pase por todos
los puntos
Cmo elegir la que ms nos interesa?
Informtica. Universidad Carlos III de Madrid 20
La recta de regresiLa recta de regresinn
X
y
( , )i ix y
Buscamos una recta muy concreta llamada
RECTA DE REGRESIN
(de regresin simple)
Es la recta que, dado el valor de X me da la
mejor prediccin de Y
Informtica. Universidad Carlos III de Madrid 21X
y
( , )i ix y
a bx+
iy
ix
iyValor observado
Valor previstopor la recta
valor observado
La recta de regresiLa recta de regresinn Es la recta que, dado el valor de X me da la mejor prediccin de Y
Error de prediccino residuo:
i i ie y y=
ei
Informtica. Universidad Carlos III de Madrid 22
X
y
( , )i ix y
a bx+
iy
ix
iy
valor observado
La recta de regresiLa recta de regresinn
ei
Buscamos la recta que minimiza los errores de prediccin:
2
1min
N
ii
e=
(recta de mnimos cuadrados)
Informtica. Universidad Carlos III de Madrid 23
La recta de regresiLa recta de regresinn
X
y
( , )i ix y
a bx+
x
y
2
cov( , )
x
x ybs
=
a y bx=
SOLUCIN
Informtica. Universidad Carlos III de Madrid 24
Ejemplo La variable V1 tiene la velocidad del viento registrada en la localizacin 1, mientras que la variable V2 tiene las velocidades registradas en esos mismos instantes en la localizacin 2. Se tiene un total de 115 pares de medidas
En la localizacin 1 se va a establecer un sistema informtico para la telemedida de la velocidad del viento, pero no para la localizacin 2. Se quiere calcular la recta de regresin que permita predecir la velocidad de la Localizacin 2 sabiendo la de la Localizacin 1
Loc.1:
media: 2.51
varianza: 1.91
Loc.2:
media: 3.28
varianza: 2.36
cov (V1,V2)=1.995
Informtica. Universidad Carlos III de Madrid 25
Loc.1:
media: 2.51
varianza: 1.91
Loc.2:
media: 3.28
varianza: 2.36
cov (V1,V2)=1.995
3.28 1.045 2.51 0.657a y bx= = =b=cov(x,y)/var(x)=1.995/1.91=1.045
2 1 0.657 1.045V V= +
Si, por ejemplo, en la Localizacin 1 se mide una velocidad de viento de 5 m/s, la prediccin en la Localizacin 2 es de un viento de
0.657+1.045x5=5.88 m/s
Ejemplo La variable V1 tiene la velocidad del viento registrada en la localizacin 1, mientras que la variable V2 tiene las velocidades registradas en esos mismos instantes en la localizacin 2. Se tiene un total de 115 pares de medidas
Informtica. Universidad Carlos III de Madrid 26
3.28 1.045 2.51 0.657a y bx= = =b=cov(x,y)/var(x)=1.995/1.91=1.045
2 1 0.657 1.045V V= +
Ejemplo La variable V1 tiene la velocidad del viento registrada en la localizacin 1, mientras que la variable V2 tiene las velocidades registradas en esos mismos instantes en la localizacin 2. Se tiene un total de 115 pares de medidas
y=a+bxInterpretacin de b: si x aumenta en una unidad, y aumenta en b
unidades
Si en la localizacin 1 aumenta la velocidad del viento en 1 m/s, en la localizacin 2 lo har en 1.045 m/s
Informtica. Universidad Carlos III de Madrid 27
3.28 1.045 2.51 0.657a y bx= = =b=cov(x,y)/var(x)=1.995/1.91=1.045
2 1 0.657 1.045V V= +
Ejemplo La variable V1 tiene la velocidad del viento registrada en la localizacin 1, mientras que la variable V2 tiene las velocidades registradas en esos mismos instantes en la localizacin 2. Se tiene un total de 115 pares de medidas
y=a+bxInterpretacin de a: si x vale 0, y toma el valor a
Si en la localizacin 1 no hay viento, en la localizacin 2 hay 0.657 m/s, que es muy pequeo
Informtica. Universidad Carlos III de Madrid 28
EvaluaciEvaluacin de la regresin de la regresinn
La regresin para predecir y a partir de x ser buena idea si:
1. La relacin entre x e y es lineal2. La relacin es fuerte (alta correlacin)
GrficosCorrelacin y Coeficiente de
determinacin R2
Informtica. Universidad Carlos III de Madrid 29
EvaluaciEvaluacin de la regresin de la regresinn
La regresin para predecir y a partir de x ser buena idea si:
1.1 Grfico xy1.2 Grfico de predicciones vs observaciones1.3 Grfico de residuos vs valores previstos
Este simple grfico xy nos dice que no hay relacin lineal. La regresin va a predecir mal
1.1 Grfico xy
Datos: parq