2. ESTADÍSTICA DESCRIPTIVA · PDF fileTema 2: Estadística descriptiva bivariante...

Click here to load reader

  • date post

    21-Sep-2018
  • Category

    Documents

  • view

    223
  • download

    0

Embed Size (px)

Transcript of 2. ESTADÍSTICA DESCRIPTIVA · PDF fileTema 2: Estadística descriptiva bivariante...

  • Informtica. Universidad Carlos III de Madrid 1

    2. ESTADSTICA DESCRIPTIVA BIVARIANTE

  • Informtica. Universidad Carlos III de Madrid 2

    Tema 2: Estadstica descriptiva bivariante

    1. Introduccin2. Tablas de frecuencias bivariantes.3. Grficos de dispersin.4. Medidas de relacin lineal5. La recta de regresin simple.

  • Informtica. Universidad Carlos III de Madrid 3

    Tema 2: Estadstica descriptiva bivariante

    1. Introduccin2. Tablas de frecuencias bivariantes.3. Grficos de dispersin.4. Medidas de relacin lineal5. La recta de regresin simple.

  • Informtica. Universidad Carlos III de Madrid 4

    2.2. Tablas de frecuencias Tablas de frecuencias bivariantesbivariantes

    Tablas Tablas bivariantesbivariantes

    Si tenemos, para cada individuo, dos datos usamos una tabla de doble entrada

    Ejemplo: para cada coche tenemos el nmero de cilindros y su ao de fabricacin (cardata.sf)

  • Informtica. Universidad Carlos III de Madrid 5

    Tablas Tablas bivariantesbivariantes

    Si tenemos, para cada individuo, dos datos usamos una tabla de doble entrada

    Ejemplo: para cada coche tenemos el nmero de cilindros y su ao de fabricacin (cardata.sf)

    Cada celda: frecuencias conjuntas

    2.2. Tablas de frecuencias Tablas de frecuencias bivariantesbivariantes

  • Informtica. Universidad Carlos III de Madrid 6

    Tablas Tablas bivariantesbivariantes

    Si tenemos, para cada individuo, dos datos usamos una tabla de doble entrada

    Ejemplo: para cada coche tenemos el nmero de cilindros y su ao de fabricacin (cardata.sf)

    Las univariantes: frecuencias marginales

    2.2. Tablas de frecuencias Tablas de frecuencias bivariantesbivariantes

  • Informtica. Universidad Carlos III de Madrid 7

    Tablas Tablas bivariantesbivariantes

    Si tenemos, para cada individuo, dos datos usamos una tabla de doble entrada

    Ejemplo: para cada coche tenemos el nmero de cilindros y su ao de fabricacin (cardata.sf)

    Cada fila o columna: frecuencia condicionada (al valor de la fila o columna)

    2.2. Tablas de frecuencias Tablas de frecuencias bivariantesbivariantes

  • Informtica. Universidad Carlos III de Madrid 8

    Tema 2: Estadstica descriptiva bivariante

    1. Introduccin2. Tablas de frecuencias bivariantes.3. Grficos de dispersin.4. Medidas de relacin lineal5. La recta de regresin simple.

  • Informtica. Universidad Carlos III de Madrid 9

    GrGrfico de dispersifico de dispersinn

    Para cada dato (individuo, elemento) tenemos informacin de dos variables: X e Y

  • Informtica. Universidad Carlos III de Madrid 10

    3.5 Gr3.5 Grfico de dispersifico de dispersinn

    Pote

    ncia

    gen

    erad

    a po

    r un

    m

    olin

    o de

    vie

    nto

    Para cada dato (individuo, elemento) tenemos informacin de dos variables: X e Y

  • Informtica. Universidad Carlos III de Madrid 11

    Tema 2: Estadstica descriptiva bivariante

    1. Introduccin2. Tablas de frecuencias bivariantes.3. Grficos de dispersin.4. Medidas de relacin lineal5. La recta de regresin simple.

  • Informtica. Universidad Carlos III de Madrid 12

    Medidas de dependencia linealMedidas de dependencia lineal Coeficiente de covarianza

    Coeficiente de correlacin

    Entre estas variables no hay relacin lineal

    Entre estas variables hay relacin lineal

    La lnea roja podra ser un buen resumen de esa relacin

  • Informtica. Universidad Carlos III de Madrid 13

    Para n individuos, tenemos datos de 2 variables

    Individuo x y

    1 x1 y1

    2 x2 y2

    : : :

    n xn yn

    Covarianza

    Correlacin

    Covarianza y correlacin positivas

    Covarianza y correlacin negativas

  • Una forma habitual de presentar la informacin es en forma de matrices (simtricas)

    Matriz de covarianzas

    Matriz de correlaciones

    Medidas de dependencia linealMedidas de dependencia lineal Coeficiente de covarianza

    Coeficiente de correlacin

  • Informtica. Universidad Carlos III de Madrid 15

    La covarianza tiene unidades (unidades_x)(unidades_y) La correlacin es adimensional. ES MS FCIL DE INTERPRETAR Se puede demostrar que -1r1

    r=1 r=0.06

    r=-0.94 r=-0.83 r=-0.08

    r=0.8

  • Informtica. Universidad Carlos III de Madrid 16

    Tema 2: Estadstica descriptiva bivariante

    1. Introduccin2. Tablas de frecuencias bivariantes.3. Grficos de dispersin.4. Medidas de relacin lineal5. La recta de regresin simple.

  • Informtica. Universidad Carlos III de Madrid 17

    La recta de regresiLa recta de regresinn

    X

    y

    ( , )i ix y

    Cmo obtener la ecuacin de esa recta

    resumen?

  • Informtica. Universidad Carlos III de Madrid 18

    La recta de regresiLa recta de regresinn

    X

    yEcuacin de la recta:

    Y=a+bX

    Si tiene que pasar por dos puntos: solucin nica

  • Informtica. Universidad Carlos III de Madrid 19

    La recta de regresiLa recta de regresinn

    X

    y

    ( , )i ix y

    Es imposible que una recta pase por todos

    los puntos

    Cmo elegir la que ms nos interesa?

  • Informtica. Universidad Carlos III de Madrid 20

    La recta de regresiLa recta de regresinn

    X

    y

    ( , )i ix y

    Buscamos una recta muy concreta llamada

    RECTA DE REGRESIN

    (de regresin simple)

    Es la recta que, dado el valor de X me da la

    mejor prediccin de Y

  • Informtica. Universidad Carlos III de Madrid 21X

    y

    ( , )i ix y

    a bx+

    iy

    ix

    iyValor observado

    Valor previstopor la recta

    valor observado

    La recta de regresiLa recta de regresinn Es la recta que, dado el valor de X me da la mejor prediccin de Y

    Error de prediccino residuo:

    i i ie y y=

    ei

  • Informtica. Universidad Carlos III de Madrid 22

    X

    y

    ( , )i ix y

    a bx+

    iy

    ix

    iy

    valor observado

    La recta de regresiLa recta de regresinn

    ei

    Buscamos la recta que minimiza los errores de prediccin:

    2

    1min

    N

    ii

    e=

    (recta de mnimos cuadrados)

  • Informtica. Universidad Carlos III de Madrid 23

    La recta de regresiLa recta de regresinn

    X

    y

    ( , )i ix y

    a bx+

    x

    y

    2

    cov( , )

    x

    x ybs

    =

    a y bx=

    SOLUCIN

  • Informtica. Universidad Carlos III de Madrid 24

    Ejemplo La variable V1 tiene la velocidad del viento registrada en la localizacin 1, mientras que la variable V2 tiene las velocidades registradas en esos mismos instantes en la localizacin 2. Se tiene un total de 115 pares de medidas

    En la localizacin 1 se va a establecer un sistema informtico para la telemedida de la velocidad del viento, pero no para la localizacin 2. Se quiere calcular la recta de regresin que permita predecir la velocidad de la Localizacin 2 sabiendo la de la Localizacin 1

    Loc.1:

    media: 2.51

    varianza: 1.91

    Loc.2:

    media: 3.28

    varianza: 2.36

    cov (V1,V2)=1.995

  • Informtica. Universidad Carlos III de Madrid 25

    Loc.1:

    media: 2.51

    varianza: 1.91

    Loc.2:

    media: 3.28

    varianza: 2.36

    cov (V1,V2)=1.995

    3.28 1.045 2.51 0.657a y bx= = =b=cov(x,y)/var(x)=1.995/1.91=1.045

    2 1 0.657 1.045V V= +

    Si, por ejemplo, en la Localizacin 1 se mide una velocidad de viento de 5 m/s, la prediccin en la Localizacin 2 es de un viento de

    0.657+1.045x5=5.88 m/s

    Ejemplo La variable V1 tiene la velocidad del viento registrada en la localizacin 1, mientras que la variable V2 tiene las velocidades registradas en esos mismos instantes en la localizacin 2. Se tiene un total de 115 pares de medidas

  • Informtica. Universidad Carlos III de Madrid 26

    3.28 1.045 2.51 0.657a y bx= = =b=cov(x,y)/var(x)=1.995/1.91=1.045

    2 1 0.657 1.045V V= +

    Ejemplo La variable V1 tiene la velocidad del viento registrada en la localizacin 1, mientras que la variable V2 tiene las velocidades registradas en esos mismos instantes en la localizacin 2. Se tiene un total de 115 pares de medidas

    y=a+bxInterpretacin de b: si x aumenta en una unidad, y aumenta en b

    unidades

    Si en la localizacin 1 aumenta la velocidad del viento en 1 m/s, en la localizacin 2 lo har en 1.045 m/s

  • Informtica. Universidad Carlos III de Madrid 27

    3.28 1.045 2.51 0.657a y bx= = =b=cov(x,y)/var(x)=1.995/1.91=1.045

    2 1 0.657 1.045V V= +

    Ejemplo La variable V1 tiene la velocidad del viento registrada en la localizacin 1, mientras que la variable V2 tiene las velocidades registradas en esos mismos instantes en la localizacin 2. Se tiene un total de 115 pares de medidas

    y=a+bxInterpretacin de a: si x vale 0, y toma el valor a

    Si en la localizacin 1 no hay viento, en la localizacin 2 hay 0.657 m/s, que es muy pequeo

  • Informtica. Universidad Carlos III de Madrid 28

    EvaluaciEvaluacin de la regresin de la regresinn

    La regresin para predecir y a partir de x ser buena idea si:

    1. La relacin entre x e y es lineal2. La relacin es fuerte (alta correlacin)

    GrficosCorrelacin y Coeficiente de

    determinacin R2

  • Informtica. Universidad Carlos III de Madrid 29

    EvaluaciEvaluacin de la regresin de la regresinn

    La regresin para predecir y a partir de x ser buena idea si:

    1.1 Grfico xy1.2 Grfico de predicciones vs observaciones1.3 Grfico de residuos vs valores previstos

    Este simple grfico xy nos dice que no hay relacin lineal. La regresin va a predecir mal

    1.1 Grfico xy

    Datos: parq