Tema 1 Estadística descriptiva -...

69
Tema 1 Estad´ ıstica descriptiva Jos´ e R. Berrendero Departamento de Matem´ aticas Universidad Aut´onoma de Madrid

Transcript of Tema 1 Estadística descriptiva -...

Page 1: Tema 1 Estadística descriptiva - UAMverso.mat.uam.es/~joser.berrendero/cursos/bioest/est-tema1-17.pdf · 1;:::;x k que representan cada clase (generalmente los puntos medios de los

Tema 1Estadıstica descriptiva

Jose R. Berrendero

Departamento de MatematicasUniversidad Autonoma de Madrid

Page 2: Tema 1 Estadística descriptiva - UAMverso.mat.uam.es/~joser.berrendero/cursos/bioest/est-tema1-17.pdf · 1;:::;x k que representan cada clase (generalmente los puntos medios de los

Informacion de contacto

Jose Ramon Berrendero Dıaz

Correo electronico: [email protected]

Telefono: 91 497 66 90

Despacho: Modulo 08 - Despacho 210

Pagina web: http://www.uam.es/joser.berrendero

Page 3: Tema 1 Estadística descriptiva - UAMverso.mat.uam.es/~joser.berrendero/cursos/bioest/est-tema1-17.pdf · 1;:::;x k que representan cada clase (generalmente los puntos medios de los
Page 4: Tema 1 Estadística descriptiva - UAMverso.mat.uam.es/~joser.berrendero/cursos/bioest/est-tema1-17.pdf · 1;:::;x k que representan cada clase (generalmente los puntos medios de los
Page 5: Tema 1 Estadística descriptiva - UAMverso.mat.uam.es/~joser.berrendero/cursos/bioest/est-tema1-17.pdf · 1;:::;x k que representan cada clase (generalmente los puntos medios de los
Page 6: Tema 1 Estadística descriptiva - UAMverso.mat.uam.es/~joser.berrendero/cursos/bioest/est-tema1-17.pdf · 1;:::;x k que representan cada clase (generalmente los puntos medios de los

Ejemplo: contaminacion por mercurio en el pescado

I El agua de los rıos contiene pequenas concentraciones demercurio que se pueden ir acumulando en los tejidos de lospeces.

I Se ha realizado un estudio en los rıos Wacamaw y Lumber enCarolina del Norte (EE.UU.), analizando la cantidad demercurio que contenıan 171 ejemplares capturados de unacierta especie de peces.

I Los datos obtenidos se encuentran en el ficheromercurio.txt (formato texto) o en el fichero mercurio.sav

(formato SPSS).

Page 7: Tema 1 Estadística descriptiva - UAMverso.mat.uam.es/~joser.berrendero/cursos/bioest/est-tema1-17.pdf · 1;:::;x k que representan cada clase (generalmente los puntos medios de los

Variables

Nombre variable Descripcion

RIO Codigo del rıo (0=Lumber, 1=Wacamaw)ESTACION Codigo de la estacion (de 0 a 16)LONG Longitud (en cm) del pezPESO Peso (en g) del pezCONC Concentracion (en ppm) de mercurio

Page 8: Tema 1 Estadística descriptiva - UAMverso.mat.uam.es/~joser.berrendero/cursos/bioest/est-tema1-17.pdf · 1;:::;x k que representan cada clase (generalmente los puntos medios de los
Page 9: Tema 1 Estadística descriptiva - UAMverso.mat.uam.es/~joser.berrendero/cursos/bioest/est-tema1-17.pdf · 1;:::;x k que representan cada clase (generalmente los puntos medios de los

Problemas de interes relacionados con estos datos

I Resumir la informacion que contienen con unas pocas cifras ograficos.

I ¿Que valores toma cada variable? ¿Cuales son los masfrecuentes? ¿Hay grandes diferencias entre ellos?

I ¿Existe algun modelo que permita saber la proporcion de lapoblacion de peces que tiene una concentracion de mercuriosuperior a 3 ppm?

I ¿Es significativamente mas alta la concentracion de mercurioen un rıo que en otro?

I ¿Existe relacion entre la concentracion de mercurio y lalongitud o el peso del pez?

Page 10: Tema 1 Estadística descriptiva - UAMverso.mat.uam.es/~joser.berrendero/cursos/bioest/est-tema1-17.pdf · 1;:::;x k que representan cada clase (generalmente los puntos medios de los

Temario

1. Descripcion de datos

2. Modelos de probabilidad.

3. Estimacion puntual.

4. Intervalos de confianza.

5. Contrastes de hipotesis.

Page 11: Tema 1 Estadística descriptiva - UAMverso.mat.uam.es/~joser.berrendero/cursos/bioest/est-tema1-17.pdf · 1;:::;x k que representan cada clase (generalmente los puntos medios de los

Bibliografıa

I DE LA HORRA, J. Estadıstica Aplicada (3a ed). EdicionesDıaz de Santos, 2003.

I MOORE, D. S. Estadıstica aplicada basica. Antoni Bosch,1999.

I MILTON, S. Estadıstica para Biologıa y Ciencias de la Salud(3a ed. ampliada). McGraw-Hill, 2007.

I SAMUELS, M., WITMER, J. y SCHAFFNER, A. Statistics forthe life sciences. (4a ed.). Pearson, 2011.

I TOWNEND, J. Practical Statistics for Environmental andBiological Scientists. Wiley, 2002.

Page 12: Tema 1 Estadística descriptiva - UAMverso.mat.uam.es/~joser.berrendero/cursos/bioest/est-tema1-17.pdf · 1;:::;x k que representan cada clase (generalmente los puntos medios de los

Estructura del Tema 1

I Tipos de variables.

I Distribucion de una variable.

I Representacion grafica de la distribucion.

I Medidas numericas para resumir la distribucion.

I Covarianza y correlacion. Recta de regresion.

Page 13: Tema 1 Estadística descriptiva - UAMverso.mat.uam.es/~joser.berrendero/cursos/bioest/est-tema1-17.pdf · 1;:::;x k que representan cada clase (generalmente los puntos medios de los

Introduccion

La estadıstica tiene por objetivo extraer conocimiento a partir deinformacion (principalmente) numerica.

La estadıstica descriptiva tiene por objetivo identificar lasprincipales caracterısticas de un conjunto de datos mediante unnumero reducido de graficos y/o numeros.

Los conjuntos de datos que vamos a considerar proceden de mediruna o mas variables en un conjunto de individuos.

Para describir un conjunto de datos se comienza con un analisisindividual de cada variable y posteriormente se estudian lasrelaciones entre variables.

Se suele comenzar con representaciones graficas y posteriormentese calculan resumenes numericos.

Page 14: Tema 1 Estadística descriptiva - UAMverso.mat.uam.es/~joser.berrendero/cursos/bioest/est-tema1-17.pdf · 1;:::;x k que representan cada clase (generalmente los puntos medios de los

Tipos de variables

1. Variables cualitativas: Describen cualidades o atributos (ej.color del pelo).

2. Variables cuantitativas discretas: Toman un numeropequeno de valores, normalmente enteros (ej. numero dehijos).

3. Variables cuantitativas continuas: Toman valores en unintervalo (ej. tiempo hasta que llega un autobus).

En los datos sobre contenido de mercurio, ¿de que tipo es cadauna de las variables?

En general, la tecnica estadıstica adecuada para analizar unavariable depende de su tipo.

Page 15: Tema 1 Estadística descriptiva - UAMverso.mat.uam.es/~joser.berrendero/cursos/bioest/est-tema1-17.pdf · 1;:::;x k que representan cada clase (generalmente los puntos medios de los

Distribucion de una variable

La distribucion de una variable viene determinada por los valoresque toma esa variable y la frecuencia con la que los toma.

La frecuencia absoluta de un valor (o de un intervalo) es el numerode individuos para los que la variable toma ese valor (o pertenece aese intervalo).

La frecuencia relativa es igual a la frecuencia absoluta dividida porel numero de datos n. Siempre es un numero entre 0 y 1.

En ocasiones nos encontraremos con datos agrupados en intervaloso clases A1, . . . ,Ak . Los valores x1, . . . , xk que representan cadaclase (generalmente los puntos medios de los intervalos) se llamanmarcas de clase.

Page 16: Tema 1 Estadística descriptiva - UAMverso.mat.uam.es/~joser.berrendero/cursos/bioest/est-tema1-17.pdf · 1;:::;x k que representan cada clase (generalmente los puntos medios de los

Aspectos interesantes de una distribucion

I Su posicion: en torno a que valor central toma valores lavariable.

I Su dispersion: el grado de concentracion de los valores quetoma la variable alrededor de su posicion central.

I Su forma: por ejemplo, la simetrıa, es decir, si los valores sereparten de la misma forma a uno y otro lado del centro.

Piensa en dos conjuntos de 5 datos que tengan:

(a) La misma posicion y distinta dispersion.

(b) La misma dispersion y distinta posicion.

Page 17: Tema 1 Estadística descriptiva - UAMverso.mat.uam.es/~joser.berrendero/cursos/bioest/est-tema1-17.pdf · 1;:::;x k que representan cada clase (generalmente los puntos medios de los

Sectores o barras (solo variables cualitativas o discretas)

1

0

50

100

150

Número de observaciones en cada río

factor(RIO)

0

1

0

5

10

15

20

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15Estacion

Frec

uenc

ias

Page 18: Tema 1 Estadística descriptiva - UAMverso.mat.uam.es/~joser.berrendero/cursos/bioest/est-tema1-17.pdf · 1;:::;x k que representan cada clase (generalmente los puntos medios de los

Histogramas (solo variables continuas)

I Se divide el rango de los datos en un numero adecuado deintervalos.

I Sobre cada intervalo se dibuja un rectangulo cuya area esproporcional a la frecuencia (relativa o absoluta) de datos enel intervalo.

0

10

20

30

40

50

0 1 2 3 4Concentración de mercurio

Frec

uenc

ias

Page 19: Tema 1 Estadística descriptiva - UAMverso.mat.uam.es/~joser.berrendero/cursos/bioest/est-tema1-17.pdf · 1;:::;x k que representan cada clase (generalmente los puntos medios de los

Aspectos a tener en cuenta para interpretar un histograma

I Si la base de todos los rectangulos es la misma la altura esproporcional a la frecuencia.

I ¿Cuantas modas hay?

I ¿Hay algun dato atıpico en relacion al resto?

I ¿Es simetrica la distribucion?

I En caso de asimetrıa, ¿es asimetrica a la izquierda o a laderecha

I ¿En torno a que valor aproximado estan centrados los datos?

I ¿Estan muy dispersos los datos en torno a este centro?

Page 20: Tema 1 Estadística descriptiva - UAMverso.mat.uam.es/~joser.berrendero/cursos/bioest/est-tema1-17.pdf · 1;:::;x k que representan cada clase (generalmente los puntos medios de los

Tipos de simetrıa

0

10

20

30

40

50

Distribución simétrica unimodal0

10

20

30

40

Distribución simétrica bimodal

0

20

40

60

80

100

Distribución asimétrica a la derecha0

20

40

60

80

100

Distribución asimétrica a la izquierda

Page 21: Tema 1 Estadística descriptiva - UAMverso.mat.uam.es/~joser.berrendero/cursos/bioest/est-tema1-17.pdf · 1;:::;x k que representan cada clase (generalmente los puntos medios de los

La forma depende del numero de intervalos

Concentracion

Frec

uenc

ia

0 1 2 3 4

0.0

0.1

0.2

0.3

0.4

Concentracion

Frec

uenc

ia0 1 2 3 4

0.0

0.2

0.4

0.6

Concentracion

Frec

uenc

ia

0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5

0.0

0.2

0.4

0.6

0.8

Concentracion

Frec

uenc

ia

0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5

0.0

0.2

0.4

0.6

0.8

1.0

Concentracion

Frec

uenc

ia

0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5

0.0

0.2

0.4

0.6

0.8

1.0

Concentracion

Frec

uenc

ia0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5

0.0

0.2

0.4

0.6

0.8

1.0

1.2

Page 22: Tema 1 Estadística descriptiva - UAMverso.mat.uam.es/~joser.berrendero/cursos/bioest/est-tema1-17.pdf · 1;:::;x k que representan cada clase (generalmente los puntos medios de los

Medidas numericas de posicion: la media aritmetica

x =x1 + · · ·+ xn

n=

1

n

n∑i=1

xi .

Algunas propiedades:

I La suma de las desviaciones a la media siempre es igual a cero:

(x1 − x) + (x2 − x) + · · ·+ (xn − x) = 0.

I Si la distribucion es muy asimetrica, la media puededistorsionar nuestra percepcion de como son los datos.

I La media es muy sensible a la existencia de datos atıpicos enlos datos.

Para datos agrupados, si x1, . . . , xk son las marcas de clase yf1, . . . , fk son las frecuencias relativas

x = x1f1 + · · ·+ xk fk .

Page 23: Tema 1 Estadística descriptiva - UAMverso.mat.uam.es/~joser.berrendero/cursos/bioest/est-tema1-17.pdf · 1;:::;x k que representan cada clase (generalmente los puntos medios de los

Posicion de la media en un histograma

Page 24: Tema 1 Estadística descriptiva - UAMverso.mat.uam.es/~joser.berrendero/cursos/bioest/est-tema1-17.pdf · 1;:::;x k que representan cada clase (generalmente los puntos medios de los

Medidas numericas de posicion: la mediana

Una medida alternativa de posicion es la mediana. Para calcularla mediana:

I Se ordenan los datos de menor a mayor.

I Si el numero de datos es impar, la mediana es el dato queocupa la posicion central.

I Si el numero de datos es par, la mediana es la media de losdos datos centrales.

La mediana es mas robusta que la media pero hace un uso menoseficiente de la informacion contenida en los datos.

Relacion entre la simetrıa de una distribucion y la posicion relativaentre la media y la mediana.

Mediana para datos agrupados.

Page 25: Tema 1 Estadística descriptiva - UAMverso.mat.uam.es/~joser.berrendero/cursos/bioest/est-tema1-17.pdf · 1;:::;x k que representan cada clase (generalmente los puntos medios de los

Media y mediana

Page 26: Tema 1 Estadística descriptiva - UAMverso.mat.uam.es/~joser.berrendero/cursos/bioest/est-tema1-17.pdf · 1;:::;x k que representan cada clase (generalmente los puntos medios de los

Media y mediana

Page 27: Tema 1 Estadística descriptiva - UAMverso.mat.uam.es/~joser.berrendero/cursos/bioest/est-tema1-17.pdf · 1;:::;x k que representan cada clase (generalmente los puntos medios de los

Medidas de dispersion: rango intercuartılico

Una medida de dispersion muy sencilla es el rango o recorrido delos datos: el valor maximo menos el mınimo.

El rango solo depende de los datos extremos por lo que no es muyconveniente.

Mejores propiedades tienen los cuartiles y el rango intercuartılico:

I El primer cuartil, Q1, es la mediana de los datos menores quela mediana.

I El tercer cuartil, Q3, es la mediana de los datos mayores quela mediana.

I El rango, recorrido o amplitud intercuartılica es ladiferencia entre los dos cuartiles anteriores: Q3 − Q1.

Page 28: Tema 1 Estadística descriptiva - UAMverso.mat.uam.es/~joser.berrendero/cursos/bioest/est-tema1-17.pdf · 1;:::;x k que representan cada clase (generalmente los puntos medios de los

De acuerdo con las anteriores definiciones, responde a lassiguientes cuestiones:

¿Que porcentaje de datos hay...

(a) ... entre Q1 y Q3?

(b) ... a la izquierda de Q1?

(c) ... a la derecha de Q3?

(d) ... entre el mınimo y Q3?

Una descripcion util de un conjunto de datos viene dada por loscinco numeros siguientes:

Mınimo, Q1, Mediana, Q3, Maximo

Percentil p: Deja a su izquierda una proporcion p de los datos.

Page 29: Tema 1 Estadística descriptiva - UAMverso.mat.uam.es/~joser.berrendero/cursos/bioest/est-tema1-17.pdf · 1;:::;x k que representan cada clase (generalmente los puntos medios de los

Ejemplo: salarios en Espana

Page 30: Tema 1 Estadística descriptiva - UAMverso.mat.uam.es/~joser.berrendero/cursos/bioest/est-tema1-17.pdf · 1;:::;x k que representan cada clase (generalmente los puntos medios de los

Cuestiones

I La media y la mediana de los salarios en Espana en 2006fueron ... y ...

I ¿Cual es la forma de la distribucion de salarios?

I ¿Cuanto vale el rango intercuartılico?

I Un 10% de las mujeres ganaba mas de ...

I Un 80% de los hombres ganaba entre ... y ...

I Un ... % de las mujeres ganaba mas de 6258.13 euros.

Page 31: Tema 1 Estadística descriptiva - UAMverso.mat.uam.es/~joser.berrendero/cursos/bioest/est-tema1-17.pdf · 1;:::;x k que representan cada clase (generalmente los puntos medios de los

Medidas de dispersion: la (cuasi)varianza y la(cuasi)desviacion tıpica

Son las medidas de dispersion mas utilizadas.

La varianza es el promedio de las desviaciones al cuadrado de losdatos a su media.

Datos x1, . . . , xnDesviaciones x1 − x , . . . , xn − x

Desviaciones al cuadrado (x1 − x)2, . . . , (xn − x)2

La varianza es el promedio de las desviaciones al cuadrado:

vx =(x1 − x)2 + . . .+ (xn − x)2

n

Page 32: Tema 1 Estadística descriptiva - UAMverso.mat.uam.es/~joser.berrendero/cursos/bioest/est-tema1-17.pdf · 1;:::;x k que representan cada clase (generalmente los puntos medios de los

La cuasivarianza

Como(x1 − x) + (x2 − x) + · · ·+ (xn − x) = 0,

dadas n − 1 desviaciones, podemos despejar la restante.

En realidad solo disponemos de n − 1 desviaciones independientes.

Como consecuencia, es mas correcto dividir por n − 1 que por n.

La cuasivarianza muestral es

S2 =(x1 − x)2 + . . .+ (xn − x)2

n − 1.

Page 33: Tema 1 Estadística descriptiva - UAMverso.mat.uam.es/~joser.berrendero/cursos/bioest/est-tema1-17.pdf · 1;:::;x k que representan cada clase (generalmente los puntos medios de los

Formulas alternativas

La varianza se puede escribir como la media de los datos alcuadrado, menos el cuadrado de la media de los datos.

Por lo tanto,

vx =x2

1 + · · ·+ x2n

n− x2

S2 =n

n − 1

(x2

1 + · · ·+ x2n

n− x2

)

Estas formulas suelen ser mas rapidas para calcular vx y S2.

Page 34: Tema 1 Estadística descriptiva - UAMverso.mat.uam.es/~joser.berrendero/cursos/bioest/est-tema1-17.pdf · 1;:::;x k que representan cada clase (generalmente los puntos medios de los

Cuasidesviacion tıpica

La cuasidesviacion tıpica es la raız cuadrada de S2:

S =

√(x1 − x)2 + . . .+ (xn − x)2

n − 1

S se usa mas que S2 porque mide la dispersion en la misma escalaque los datos originales.

Una medida adimensional relacionada es el coeficiente devariacion:

CV =S

|X |

Page 35: Tema 1 Estadística descriptiva - UAMverso.mat.uam.es/~joser.berrendero/cursos/bioest/est-tema1-17.pdf · 1;:::;x k que representan cada clase (generalmente los puntos medios de los

Cuestiones

1. Siempre S2 ≥ 0. Da un ejemplo de un conjunto de datos tal queS2 = 0.

2. Dado un conjunto de observaciones medidas en kg, supongamos quecambiamos las unidades y las pasamos a gramos (es decir,multiplicamos por mil). Determina si son verdaderas o falsas lassiguientes afirmaciones:

I Tanto la media como la mediana de los nuevos datos semultiplican tambien por mil.

I La varianza se multiplica tambien por mil.

¿Como cambiarıa la desviacion tıpica?

3. Ahora sumamos 100 a todos los datos. Determina si son verdaderaso falsas las siguientes afirmaciones:

I Los cuartiles no cambian.I El rango intercuartılico no cambia.I La desviacion tıpica no cambia.

4. ¿Cual es la formula de la varianza para datos agrupados?

Page 36: Tema 1 Estadística descriptiva - UAMverso.mat.uam.es/~joser.berrendero/cursos/bioest/est-tema1-17.pdf · 1;:::;x k que representan cada clase (generalmente los puntos medios de los

Descripcion numerica

CONCPESOLONGVálidos

Perdidos

Media

Error típ. de la media

Mediana

Desv. típ.

Varianza

Rango

Mínimo

Máximo

25

50

75

N

Percentiles

1,60001455,000046,2000

,9300873,000039,0000

,5900491,000033,3000

3,604511,0065,00

,11203,0025,20

3,494308,0039,80

,580766555,86972,542

,76166875,531768,51715

,9300873,000039,0000

,0582566,95359,65132

1,19181147,912339,9708

000

171171171

Estadísticos

Página 1

Page 37: Tema 1 Estadística descriptiva - UAMverso.mat.uam.es/~joser.berrendero/cursos/bioest/est-tema1-17.pdf · 1;:::;x k que representan cada clase (generalmente los puntos medios de los

Cuestiones

I Comparando los valores de la media y la mediana, ¿quepodemos decir sobre la simetrıa de las distribuciones?

I Verdadero o falso: Al menos para 100 peces, la concentracionde mercurio es superior a 0.93 ppm.

I Verdadero o falso: La longitud de aproximadamente 42 peceses mayor que 25.20 cm y menor que 33.3 cm.

I ¿Cual es el rango intercuartılico de la variable que mide elpeso de los peces?

Page 38: Tema 1 Estadística descriptiva - UAMverso.mat.uam.es/~joser.berrendero/cursos/bioest/est-tema1-17.pdf · 1;:::;x k que representan cada clase (generalmente los puntos medios de los

Estandarizacion o tipificacion

Consiste en restarle a cada observacion la media de todos los datosy dividir por la desviacion tıpica:

zi =xi − x

S

Representa la distancia de xi a la media expresada en desviacionestıpicas (el signo indica si el dato es mayor o menor que la media).

Utilidad de la tipificacion

I Eliminar los efectos de las unidades de medida.

I Detectar posibles valores atıpicos en los datos.

I Realizar comparaciones de los valores de una variable endiferentes poblaciones.

¿Cuanto vale la media y la desviacion tıpica de los datosestandarizados?

Page 39: Tema 1 Estadística descriptiva - UAMverso.mat.uam.es/~joser.berrendero/cursos/bioest/est-tema1-17.pdf · 1;:::;x k que representan cada clase (generalmente los puntos medios de los

Ejemplo

En un examen la nota media de los alumnos fue de 50 puntos y lacuasidesviacion tıpica fue de 10.

I Estandariza las notas siguientes: 60, 45, 75.

I Si la nota estandarizada de un alumno fue -2, el alumnoobtuvo ... en el examen.

I Una nota de 60 en este examen equivale despues deestandarizar a otra de ... en otro examen cuya media fue 40 ycuya cuasidesviacion tıpica fue 5.

Page 40: Tema 1 Estadística descriptiva - UAMverso.mat.uam.es/~joser.berrendero/cursos/bioest/est-tema1-17.pdf · 1;:::;x k que representan cada clase (generalmente los puntos medios de los

Efecto de estandarizar un conjunto de datos

−4 −2 0 2 4 6 8

Datos originales

−4 −2 0 2 4 6 8

Datos centrados (media cero)

−4 −2 0 2 4 6 8

Datos estandarizados (media cero y varianza uno)

Page 41: Tema 1 Estadística descriptiva - UAMverso.mat.uam.es/~joser.berrendero/cursos/bioest/est-tema1-17.pdf · 1;:::;x k que representan cada clase (generalmente los puntos medios de los

Diagrama de cajas

Page 42: Tema 1 Estadística descriptiva - UAMverso.mat.uam.es/~joser.berrendero/cursos/bioest/est-tema1-17.pdf · 1;:::;x k que representan cada clase (generalmente los puntos medios de los

¿Para que sirven?

Los diagramas de cajas son especialmente utiles para compararvarios conjuntos de datos.

Ademas, proporcionan informacion sobre:

I La posicion (mediana) y la dispersion (rango intercuartılico)de los datos.

I La simetrıa de la distribucion (comparamos el tamano de lascajas).

I La existencia de datos que se desvıan del patron general(datos atıpicos).

Page 43: Tema 1 Estadística descriptiva - UAMverso.mat.uam.es/~joser.berrendero/cursos/bioest/est-tema1-17.pdf · 1;:::;x k que representan cada clase (generalmente los puntos medios de los

Concentracion de mercurio y rıo

1,00,00

RIO

4,00

2,00

0,00

CONC

16270

66

Page 44: Tema 1 Estadística descriptiva - UAMverso.mat.uam.es/~joser.berrendero/cursos/bioest/est-tema1-17.pdf · 1;:::;x k que representan cada clase (generalmente los puntos medios de los

Concentracion de mercurio y estacion

15,0014,0013,0012,0011,0010,009,008,007,006,005,004,003,002,001,00,00

ESTACION

4,00

2,00

0,00

CONC

76

82

24

25

66

138

75

123

Page 45: Tema 1 Estadística descriptiva - UAMverso.mat.uam.es/~joser.berrendero/cursos/bioest/est-tema1-17.pdf · 1;:::;x k que representan cada clase (generalmente los puntos medios de los

Relaciona cada histograma con su diagrama de cajas0

1020

3040

010

2030

40

010

2030

05

1015

● ● ●● ●●● ●● ● ●

Page 46: Tema 1 Estadística descriptiva - UAMverso.mat.uam.es/~joser.berrendero/cursos/bioest/est-tema1-17.pdf · 1;:::;x k que representan cada clase (generalmente los puntos medios de los

Diagrama de dispersion: Concentracion frente a peso

4000,002000,000,00

PESO

4,00

2,00

0,00

CONC

Page 47: Tema 1 Estadística descriptiva - UAMverso.mat.uam.es/~joser.berrendero/cursos/bioest/est-tema1-17.pdf · 1;:::;x k que representan cada clase (generalmente los puntos medios de los

Interpretacion de un diagrama de dispersion

I Es importante fijarse en las unidades de cada eje

I ¿Se observa alguna asociacion entre las variables?

I ¿Como es de estrecha la asociacion entre las variables?

I ¿Cual es la “direccion” de la asociacion entre las variables?

I ¿Hay algun punto o coleccion de puntos que no siga el patrongeneral del resto?

I Si hay una tercera variable cualitativa, resulta convenienteutilizar sımbolos o colores diferentes para cada valor de estatercera variable.

Page 48: Tema 1 Estadística descriptiva - UAMverso.mat.uam.es/~joser.berrendero/cursos/bioest/est-tema1-17.pdf · 1;:::;x k que representan cada clase (generalmente los puntos medios de los

Concentracion frente a longitud (color segun rıo)

60,00

50,00

40,00

30,00

LONG

1,00,00

RIO

Page 49: Tema 1 Estadística descriptiva - UAMverso.mat.uam.es/~joser.berrendero/cursos/bioest/est-tema1-17.pdf · 1;:::;x k que representan cada clase (generalmente los puntos medios de los

Matriz de diagramas de dispersion

CONCPESOLONG

CONC

PESO

LONG

1,00,00

RIO

Page 50: Tema 1 Estadística descriptiva - UAMverso.mat.uam.es/~joser.berrendero/cursos/bioest/est-tema1-17.pdf · 1;:::;x k que representan cada clase (generalmente los puntos medios de los

Covarianza

Se dispone de un conjunto de n pares de observaciones

(x1, y1), . . . , (xn, yn).

La covarianza entre x e y es una medida numerica para cuantificarel grado de asociacion lineal entre x e y :

xi yi xi − x yi − y (xi − x)(yi − y)

x1 y1 x1 − x y1 − y (x1 − x)(y1 − y)...

......

......

xn yn xn − x yn − y (xn − x)(yn − y)

Sxy =1

n − 1[(x1 − x)(y1 − y) + · · ·+ (xn − x)(yn − y)]

Page 51: Tema 1 Estadística descriptiva - UAMverso.mat.uam.es/~joser.berrendero/cursos/bioest/est-tema1-17.pdf · 1;:::;x k que representan cada clase (generalmente los puntos medios de los

Interpretacion de la covarianza

● ●

●●

● ●

●●

●●

●●

● ●

●●

● ●

●●

●●

●●

●●

●●

●●

●●

●●

●●

● ●●

●●

●●

● ●

●●

●●

●●

● ●

●●

● ●

●●

●●

● ●

●●

●●

●●

● ●

●●

●●

●●

●●

●●

●●

●●

●●

● ●

●●

●●

● ●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

−2 −1 0 1 2

−4−2

02

4

Covarianza positiva

y ●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

● ●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

● ●

●●

● ●

●●●

●●●

●●●

●●

●●

●●

●●

● ●

● ●

●●

●●

●● ●

● ●

● ●

●●

●●

●●

●●

●●

●●

●●

●● ●

●●

● ●

●●

●●

●●

●●

●●

−2 −1 0 1 2

−4−2

02

4

Covarianza negativa

y

●●

●●

●●

●●

●●

●●

● ●

● ●

●● ●

●●●

●●

●●

●●

●●

● ●

●●

● ●

●●●

●●

● ●

●●

● ●

●●

●●

●●

●●

●●

●●

● ●●

●●

●●

● ●

●●

●●

● ●

●●

●●

● ●

●●

● ●

●●

● ●

●●

−2 −1 0 1 2

−2−1

01

2

Covarianza aprox. cero

y ●

●●

●●

●●

● ●

●●

●●

●●

●●●

●●

● ●

●●

●●

●●●

●●

● ●

●●

● ●

● ●

●●

● ●

●●

●●

●●

●●

●●

●●

● ●

●●

● ●

● ●●

●●

●●

● ●

●●

● ●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

● ●●

●●

● ●

●●

●●

● ●

●●

●●

●●

●●

●●

●●

−2 −1 0 1 2

−20

24

6

Covarianza aprox. cero

y

Page 52: Tema 1 Estadística descriptiva - UAMverso.mat.uam.es/~joser.berrendero/cursos/bioest/est-tema1-17.pdf · 1;:::;x k que representan cada clase (generalmente los puntos medios de los

Covarianza

Formula alternativa:

Sxy =1

n − 1

n∑i=1

(xi − x)(yi − y) =n

n − 1

(1

n

n∑i=1

xiyi − x y

)

Propiedades:

I Sxy = Syx .

I Sxx es la cuasivarianza de x .

I Sxy depende de las unidades en que se midan x e y .

I Tambien a veces se define la covarianza dividiendo por n enlugar de n − 1. En este caso, Sxx = vx .

Page 53: Tema 1 Estadística descriptiva - UAMverso.mat.uam.es/~joser.berrendero/cursos/bioest/est-tema1-17.pdf · 1;:::;x k que representan cada clase (generalmente los puntos medios de los

Coeficiente de correlacion

Resulta conveniente disponer de una medida de relacion lineal queno dependa de las unidades. Para ello, se normaliza Sxy dividiendopor el producto de desviaciones tıpicas, lo que lleva al coeficientede correlacion:

rxy =SxySxSy

.

Propiedades del coeficiente de correlacion:

I No depende de las unidades.

I ¿Cuanto vale rxx?

I Siempre toma valores entre -1 y 1. Solo vale 1 o -1 cuando lospuntos estan perfectamente alineados.

I Su signo se interpreta igual que el de la covarianza.

Page 54: Tema 1 Estadística descriptiva - UAMverso.mat.uam.es/~joser.berrendero/cursos/bioest/est-tema1-17.pdf · 1;:::;x k que representan cada clase (generalmente los puntos medios de los

Ejemplos de correlaciones

●●

●●

● ●

●●

●●

●●

● ●

●●

●●

●●

● ●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

● ●

●●

●●

r = 0.1

●●

●●

●●

●●

● ●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

● ●●

●●

●●

●●

● ●

●●

r = −0.1

●●

●●

● ●

● ●

●●●

●●

●●

●●

● ●

●●

●●

● ●

●●

●●

●●

●●

● ●

●●

●●

●●

●●

●●

●●

● ●

● ●

●●

●●

●●

●●

●●

● ●

●●

●●

●●

● ●

●●

●●

●●

r = 0.3

● ●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

r = −0.3

●●

●●

●● ●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

● ●

●●

●●

● ●

●●

● ●

●●

●●

●●

●●

●●●

●●

● ●

●●

●●

●●

●●

r = 0.7

●●

●●

●●

●●

● ●

●●

● ●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●● ●

●●

●●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

● ●

● ●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

r = −0.7

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

● ●●

●●

●●

●● ●

●●

● ●

●●

●●

●●

● ●

● ●

●●

● ●

●●

●●

●●

●●

●●

●●

●● ●

● ●

●●

●● ●●

●●

●●

●●

r = 0.9

●●

●●

●●

●●●

●●

● ●

● ●

●●

●●

●●

● ●

●●

●●

●●

●●

● ●

●●

●●

●●

●●

●●

●●

●●

● ●

● ●

●●

●●

●●

●●

●●

●●●

●●

●●

● ●

●●

● ●

● ●

●●

●●

r = −0.9

Page 55: Tema 1 Estadística descriptiva - UAMverso.mat.uam.es/~joser.berrendero/cursos/bioest/est-tema1-17.pdf · 1;:::;x k que representan cada clase (generalmente los puntos medios de los

Covarianzas y correlaciones de los datos

Correlaciones

1 ,900 ,650,000 ,000

12332,114 1141004 716,835

72,542 6711,790 4,217171 171 171,900 1 ,554,000 ,000

1141004 1E+008 62786,546

6711,790 766555,9 369,333171 171 171,650 ,554 1,000 ,000

716,835 62786,546 98,622

4,217 369,333 ,580171 171 171

Correlación de PearsonSig. (bilateral)Suma de cuadrados yproductos cruzadosCovarianzaNCorrelación de PearsonSig. (bilateral)Suma de cuadrados yproductos cruzadosCovarianzaNCorrelación de PearsonSig. (bilateral)Suma de cuadrados yproductos cruzadosCovarianzaN

LONG

PESO

CONC

LONG PESO CONC

Page 56: Tema 1 Estadística descriptiva - UAMverso.mat.uam.es/~joser.berrendero/cursos/bioest/est-tema1-17.pdf · 1;:::;x k que representan cada clase (generalmente los puntos medios de los

Cuestiones

I ¿Cuanto vale la cuasivarianza de la longitud?

I Verdadero o falso: si multiplicamos por -1 una de lasvariables, la correlacion no cambia.

I Verdadero o falso: Si r = 0, no hay relacion entre las dosvariables.

I En los siguientes conjuntos de puntos determina, si es posible,el valor c de forma que r = 1. Si no es posible explica porque:

I Conjunto 1: (1, 1), (2, 3), (2, 3), (4, c).I Conjunto 2: (1, 1), (2, 3), (3, 4), (4, c)

Page 57: Tema 1 Estadística descriptiva - UAMverso.mat.uam.es/~joser.berrendero/cursos/bioest/est-tema1-17.pdf · 1;:::;x k que representan cada clase (generalmente los puntos medios de los

Recta de regresion

Resulta muy util determinar una recta que refleje como la variabley depende de la variable x en un diagrama de dispersion.

Asociacion positiva Asociacion negativa

3 4 5 6 7

3

4

5

6

7

3 4 5 6 7

3

4

5

6

7

Page 58: Tema 1 Estadística descriptiva - UAMverso.mat.uam.es/~joser.berrendero/cursos/bioest/est-tema1-17.pdf · 1;:::;x k que representan cada clase (generalmente los puntos medios de los

Recta de regresion

Resulta muy util determinar una recta que refleje como la variabley depende de la variable x en un diagrama de dispersion.

Asociacion positiva Asociacion negativa

3 4 5 6 7

3

4

5

6

7

3 4 5 6 7

3

4

5

6

7

Page 59: Tema 1 Estadística descriptiva - UAMverso.mat.uam.es/~joser.berrendero/cursos/bioest/est-tema1-17.pdf · 1;:::;x k que representan cada clase (generalmente los puntos medios de los

Ejemplo: consumo de vino y dolencias cardıacas

Consideramos dos variables (fichero vino.sav):

I x : Consumo anual de vino en litros por habitante

I y : Numero de muertes por enfermedad cardıaca, por cada100.000 habitantes

¿Que podemos decir sobre la relacion entre las dos variables?

¿Podemos afirmar que valores altos en consumo de vino estanasociados con valores bajos en numero de muertes por enfermedadcardıaca?

¿Podemos predecir aproximadamente el valor de la variable y sisabemos el valor de x?

Page 60: Tema 1 Estadística descriptiva - UAMverso.mat.uam.es/~joser.berrendero/cursos/bioest/est-tema1-17.pdf · 1;:::;x k que representan cada clase (generalmente los puntos medios de los

Frecuencias

[Conjunto_de_datos1] C:\Documents and Settings\usuario\Mis documentos\joser\docencia\estap\datos\vino.sav

Estadísticos

19 19

0 0

3,026 191,05

2,5097 68,396

Válidos

Perdidos

N

Media

Desv. típ.

Vino Card

Página 1

10,08,06,04,02,00,0

Vino

300

250

200

150

100

50

Ca

rd

Irlanda

Francia

Correlaciones

1 -,843

,000

19 19

-,843 1

,000

19 19

Correlación de Pearson

Sig. (bilateral)

N

Correlación de Pearson

Sig. (bilateral)

N

Vino

Card

Vino Card

Página 1

10,08,06,04,02,00,0

Vino

300

250

200

150

100

50

Ca

rd

Irlanda

Francia

Correlaciones

1 -,843

,000

19 19

-,843 1

,000

19 19

Correlación de Pearson

Sig. (bilateral)

N

Correlación de Pearson

Sig. (bilateral)

N

Vino

Card

Vino Card

Página 1

Page 61: Tema 1 Estadística descriptiva - UAMverso.mat.uam.es/~joser.berrendero/cursos/bioest/est-tema1-17.pdf · 1;:::;x k que representan cada clase (generalmente los puntos medios de los

Problema de regresion

Observamos dos variables, x e y , el objetivo es analizar la relacionexistente entre ambas de forma que podamos predecir o aproximarel valor de la variable y a partir del valor de la variable x .

I La variable y se llama variable respuesta o dependiente.

I La variable x se llama variable regresora o independiente.

En un problema de regresion (a diferencia de cuando calculamos elcoeficiente de correlacion) el papel de las dos variables no essimetrico.

Page 62: Tema 1 Estadística descriptiva - UAMverso.mat.uam.es/~joser.berrendero/cursos/bioest/est-tema1-17.pdf · 1;:::;x k que representan cada clase (generalmente los puntos medios de los

Recta de regresion

El objetivo es calcular la ecuacion de una recta y = β0 + β1x talque

yi ≈ β0 + β1xi , i = 1, . . . , n.

I β1 es la pendiente de la recta. Indica como cambia lavariable respuesta cuando ∆x = 1

I β0 es el termino independiente de la recta. Indica el valorde y cuando x = 0

Para calcular β0 y β1 nos tenemos que basar en los datos (xi , yi ),i = 1, . . . , n.

Page 63: Tema 1 Estadística descriptiva - UAMverso.mat.uam.es/~joser.berrendero/cursos/bioest/est-tema1-17.pdf · 1;:::;x k que representan cada clase (generalmente los puntos medios de los

La recta de mınimos cuadrados

Unos valores adecuados de β0 y β1 son tales que los errores deprediccion

yi − (β0 + β1xi )

sean pequenos (sin tener en cuenta su signo).

La recta de regresion de mınimos cuadrados viene dada por losvalores β0 y β1 para los que se minimiza:

n∑i=1

[yi − (β0 + β1xi )]2

Page 64: Tema 1 Estadística descriptiva - UAMverso.mat.uam.es/~joser.berrendero/cursos/bioest/est-tema1-17.pdf · 1;:::;x k que representan cada clase (generalmente los puntos medios de los

−2 −1 0 1 2

−1

01

23

x

y

−2 −1 0 1 2

−1

01

23

x

y

Page 65: Tema 1 Estadística descriptiva - UAMverso.mat.uam.es/~joser.berrendero/cursos/bioest/est-tema1-17.pdf · 1;:::;x k que representan cada clase (generalmente los puntos medios de los

La ecuacion de la recta de mınimos cuadrados

Pendiente

β1 = rSySx

=SxyS2x

Termino independiente

La recta pasa por (x , y): β0 = y − β1x

Ecuacion de la recta de mınimos cuadrados

y − y = rSySx

(x − x)

Page 66: Tema 1 Estadística descriptiva - UAMverso.mat.uam.es/~joser.berrendero/cursos/bioest/est-tema1-17.pdf · 1;:::;x k que representan cada clase (generalmente los puntos medios de los

Ejemplo: consumo de vino

Parametros de la recta:

β1 = rSySx

= −0.84368.396

2.5097= −22.974

β0 = y − β1x = 191.05− (−22.974)× 3.026 = 260.57

Ecuacion de la recta:

y = 260.57− 22.974x

Prediccion de y0 para x0 = 4:

y0 = 260.57− 22.974× 4 = 168.674

Page 67: Tema 1 Estadística descriptiva - UAMverso.mat.uam.es/~joser.berrendero/cursos/bioest/est-tema1-17.pdf · 1;:::;x k que representan cada clase (generalmente los puntos medios de los

Resultados con SPSS

Resumen del modelob

,843a ,710 ,693 37,879

Modelo1

R R cuadradoR cuadradocorregida

Error típ. de laestimación

Variables predictoras: (Constante), Vinoa.

Variable dependiente: Cardb.

Coeficientesa

260,563 13,835 18,833 ,000

-22,969 3,557 -,843 -6,457 ,000

(Constante)

Vino

Modelo1

B Error típ.

Coeficientes noestandarizados

Beta

Coeficientesestandarizado

s

t Sig.

Variable dependiente: Carda.

Página 1

Page 68: Tema 1 Estadística descriptiva - UAMverso.mat.uam.es/~joser.berrendero/cursos/bioest/est-tema1-17.pdf · 1;:::;x k que representan cada clase (generalmente los puntos medios de los

Diagrama de dispersion y recta estimada

Regresión lineal

2,0 4,0 6,0 8,0

Vino

100

200

300

Ca

rd

A

A

A

A

A

A

A

A

A

A

A

A

A

A

A

A

A

A

A

1Card = 260,56 + -22,97 * Vino

R-cuadrado = 0,71

Página 1

Page 69: Tema 1 Estadística descriptiva - UAMverso.mat.uam.es/~joser.berrendero/cursos/bioest/est-tema1-17.pdf · 1;:::;x k que representan cada clase (generalmente los puntos medios de los

Observaciones finales

I Los residuos son los errores:

ei = Yi − Yi = Yi − (β0 + β1xi ).

Puede demostrarse que la suma de los residuos de la recta demınimos cuadrados siempre vale cero.

I La recta para predecir y en funcion de x no es la misma quela recta para predecir x en funcion de y .

I Como medida de lo bien que se ajusta la recta a los datos, sesuele utilizar el coeficiente de determinacion (que es elcuadrado del coeficiente de correlacion, r2).

I No es aconsejable realizar predicciones con la recta deregresion fuera del rango de valores observados.