1. ESTADÍSTICA...

94
Informática. Universidad Carlos III de Madrid 1 1. ESTADÍSTICA DESCRIPTIVA

Transcript of 1. ESTADÍSTICA...

Page 1: 1. ESTADÍSTICA DESCRIPTIVAhalweb.uc3m.es/.../ismael/.../Temario/Descriptiva/Pres_EstDescriptiv… · Tema 1: Estadística descriptiva 1. Introducción. El propósito de la estadística

Informática. Universidad Carlos III de Madrid 1

1. ESTADÍSTICA DESCRIPTIVA

Page 2: 1. ESTADÍSTICA DESCRIPTIVAhalweb.uc3m.es/.../ismael/.../Temario/Descriptiva/Pres_EstDescriptiv… · Tema 1: Estadística descriptiva 1. Introducción. El propósito de la estadística

Informática. Universidad Carlos III de Madrid 2

Tema 1: Estadística descriptiva

1. Introducción. El propósito de la estadística2. Tipos de datos3. Descripción de datos mediante tablas4. Descripción de datos mediante gráficos5. Medidas características de una variable6. Transformaciones lineales y su efecto en las medidas

características7. Transformaciones no lineales que mejoran la simetría8. Relación entre dos variables. La recta de regresión

Page 3: 1. ESTADÍSTICA DESCRIPTIVAhalweb.uc3m.es/.../ismael/.../Temario/Descriptiva/Pres_EstDescriptiv… · Tema 1: Estadística descriptiva 1. Introducción. El propósito de la estadística

Informática. Universidad Carlos III de Madrid 3

1. Introducción. El propósito de la estadística

¿Qué es la estadística?¿Por qué estudiamos estadística?

aprender de la observación

A partir de un número reducido de datos, sacar conclusiones que sean generales

Fenómeno real

Datos observados

Análisis estadístico

Aprendizaje sobre el fenómeno

Page 4: 1. ESTADÍSTICA DESCRIPTIVAhalweb.uc3m.es/.../ismael/.../Temario/Descriptiva/Pres_EstDescriptiv… · Tema 1: Estadística descriptiva 1. Introducción. El propósito de la estadística

Informática. Universidad Carlos III de Madrid 4

Dos formas alternativas de acceder al conocimiento del mundo

• Leyes físicas

• Reglas matemáticas• Propiedades de los materiales

ideales

A partir de teorías

A partir de los modelos teóricos DEDUCIMOS la realidad

DEDUCIR= Sacar consecuencias de un principio, proposición o supuesto.

• Datos

• Estadística

A partir de la observación

A partir de los datos INDUCIMOS o INFERIMOS un modelo (empírico)

INDUCIR= Extraer, a partir de determinadas observaciones o experiencias particulares, el principio general que en ellas está implícito.

Page 5: 1. ESTADÍSTICA DESCRIPTIVAhalweb.uc3m.es/.../ismael/.../Temario/Descriptiva/Pres_EstDescriptiv… · Tema 1: Estadística descriptiva 1. Introducción. El propósito de la estadística

Informática. Universidad Carlos III de Madrid 5

En la realidad... una combinación de INDUCCIÓN y DEDUCCIÓN

Modelo que explica la realidad

Realidad

Error del modelo= diferencia entre lo observado y lo que prevé el modelo

DEDUCCIÓNDEDUCCIÓN

Con el modelo se predice la realidad

Análisis del error. Reformulación del modelo

INDUCCIÓNINDUCCIÓN

Page 6: 1. ESTADÍSTICA DESCRIPTIVAhalweb.uc3m.es/.../ismael/.../Temario/Descriptiva/Pres_EstDescriptiv… · Tema 1: Estadística descriptiva 1. Introducción. El propósito de la estadística

Informática. Universidad Carlos III de Madrid 6

1. Después de lanzar varias veces un dado, un jugador piensa que el dado está trucado.

2. En el piso de enfrente no debe vivir nadie, pues nunca he visto las luces encendidas.

3. Como este procesador es más rápido, tardará menos en ejecutar elprograma.

4. La energía cinética de un cuerpo de masa 10 Kg y velocidad 5 m/s es de E=1/2mv²=25 (julios).

Indica cuáles de los siguientes razonamientos son inductivos y cuáles deductivos

CuestionesCuestiones

Page 7: 1. ESTADÍSTICA DESCRIPTIVAhalweb.uc3m.es/.../ismael/.../Temario/Descriptiva/Pres_EstDescriptiv… · Tema 1: Estadística descriptiva 1. Introducción. El propósito de la estadística

Informática. Universidad Carlos III de Madrid 7

Tema 1: Estadística descriptivaTema 1: Estadística descriptiva

1. Introducción. El propósito de la estadística2. Tipos de datos3. Descripción de datos mediante tablas4. Descripción de datos mediante gráficos5. Medidas características de una variable6. Transformaciones lineales y su efecto en las medidas

características7. Transformaciones no lineales que mejoran la simetría8. Relación entre dos variables. La recta de regresión

Page 8: 1. ESTADÍSTICA DESCRIPTIVAhalweb.uc3m.es/.../ismael/.../Temario/Descriptiva/Pres_EstDescriptiv… · Tema 1: Estadística descriptiva 1. Introducción. El propósito de la estadística

Informática. Universidad Carlos III de Madrid 8

2. 2. Tipos de datosTipos de datos

Individuos: Elementos sobre los que se toma información. Pueden ser personas, o simplemente objetos.

Variable: Característica de interés de un individuo. Una variable puede tomar valores diferentes en cada individuo. En caso contrario noserá una variable, sino una constante.

EjemplosEjemplos

Variables

• resistencia a la rotura

Individuos

• diferentes piezas

• calificación de una asignatura

• alumnos

• tiempo de acceso a una red

• ordenadores que intentan conectarse

Page 9: 1. ESTADÍSTICA DESCRIPTIVAhalweb.uc3m.es/.../ismael/.../Temario/Descriptiva/Pres_EstDescriptiv… · Tema 1: Estadística descriptiva 1. Introducción. El propósito de la estadística

Informática. Universidad Carlos III de Madrid 9

2. 2. Tipos de datosTipos de datos

Valor observado de una variable al medir a un individuo.

Realización

varios criterios de clasificación de los datos (de interés en estadística)

de una variable.

1. POR SU NATURALEZA

• Cuantitativos

•Continuos: longitudes, pesos, tiempos...•Discretos: número de veces que sucede algo, ...

• Cualitativos: color, tipo de tecnología, ...

Dato=

Page 10: 1. ESTADÍSTICA DESCRIPTIVAhalweb.uc3m.es/.../ismael/.../Temario/Descriptiva/Pres_EstDescriptiv… · Tema 1: Estadística descriptiva 1. Introducción. El propósito de la estadística

Informática. Universidad Carlos III de Madrid 10

2. POR SU REPRESENTATIVIDAD

• Población: conjunto de todos los datos posibles• Muestra: sólo un subconjunto de la población

Ejemplo: Aula con 50 alumnos. Variable: estatura

Población las 50 estaturas

Muestra las estaturas de algunos alumnos

2.2. Tipos de datosTipos de datos

Ejemplo: Dado. Variable: resultado de su lanzamiento

¿Población? ?

Page 11: 1. ESTADÍSTICA DESCRIPTIVAhalweb.uc3m.es/.../ismael/.../Temario/Descriptiva/Pres_EstDescriptiv… · Tema 1: Estadística descriptiva 1. Introducción. El propósito de la estadística

Informática. Universidad Carlos III de Madrid 11

Necesitamos definir mejor qué es población

POBLACIÓN: conjunto de datos que se obtienen al repetir un experimento todas las veces posibles

Si obtenemos un nuevo dato manteniendo constantes las condiciones de experimentación estamos REPITIENDO el experimento

medir otras piezas similares, cronometrar repeticiones de la misma tarea, ver si varias conexiones similares se bloquean..

EXPERIMENTO: Cualquier procedimiento de obtención de un dato, dadas unas condiciones de experimentación

medir la longitud de un tipo de pieza, cronometrar el tiempo de una tarea, ver si ciertas conexiones se realizan o se bloquean...

Page 12: 1. ESTADÍSTICA DESCRIPTIVAhalweb.uc3m.es/.../ismael/.../Temario/Descriptiva/Pres_EstDescriptiv… · Tema 1: Estadística descriptiva 1. Introducción. El propósito de la estadística

Informática. Universidad Carlos III de Madrid 12

POBLACIÓN: conjunto de datos que se obtienen al repetir un experimento todas las veces posibles

Ejemplo: Aula con 50 alumnos. Variable: estaturaCondiciones de experimentación: alumnos del aula seleccionados sin reposición

Población las 50 estaturas

Muestra las estaturas de algunos alumnos

Si analizamos a los individuos sin reposición, la población son el conjunto de valores de la variable en todos los individuos.

Hay poblaciones infinitas que sólo existen conceptualmente

Dado. Variable: resultado de su lanzamientoCondiciones de experimentación: siempre el mismo dado

Ejemplo:

Población infinitos valores discretos repetidos 1,2,...,6

Programa informático. Variable: tiempo de ejecuciónCondiciones de experimentación: mismo programa, mismo ordenador

Ejemplo:

Población infinitos valores continuos, tal vez todos distintos

Depende del experimento que nos intereseDepende del experimento que nos interese

Page 13: 1. ESTADÍSTICA DESCRIPTIVAhalweb.uc3m.es/.../ismael/.../Temario/Descriptiva/Pres_EstDescriptiv… · Tema 1: Estadística descriptiva 1. Introducción. El propósito de la estadística

Informática. Universidad Carlos III de Madrid 13

El objetivo de la estadística es entender cómo es la población a partir de una muestra

Población de características desconocidas

finita o infinita

Análisis estadístico

Conclusiones sobre la

POBLACIÓN

muestra

Repetimos un experimento, y obtenemos así un conjunto de datos

Page 14: 1. ESTADÍSTICA DESCRIPTIVAhalweb.uc3m.es/.../ismael/.../Temario/Descriptiva/Pres_EstDescriptiv… · Tema 1: Estadística descriptiva 1. Introducción. El propósito de la estadística

Informática. Universidad Carlos III de Madrid 14

¿Cómo aprendemos de la realidad usando la estadística?

1- Seleccionamos la/s variable/s de interés

2- Definimos el experimento que nos interesa ejecutar para conseguir datos de la población de dicha variable

3- Repetimos el experimento un número de veces para obtener una muestra de datos

4- Analizamos la muestra de datos

5- Las conclusiones se extienden, con un determinado grado de precisión, al resto de la población. Es decir, al resto de los hipotéticos valores que se obtendrían repitiendo el experimento todas las veces posibles.

Page 15: 1. ESTADÍSTICA DESCRIPTIVAhalweb.uc3m.es/.../ismael/.../Temario/Descriptiva/Pres_EstDescriptiv… · Tema 1: Estadística descriptiva 1. Introducción. El propósito de la estadística

Informática. Universidad Carlos III de Madrid 15

2. 2. Tipos de datosTipos de datos

3. POR SU PROCEDIMIENTO DE OBTENCIÓN

• Datos observacionales

• Datos experimentales

• su valor se recoge de forma pasiva• no se ejerce control sobre la variable• Ejemplo: estatura de los alumnos

• su valor lo determina el analista• configuran las condiciones de experimentación

• Ejemplo: elegimos el aula cuyos alumnos queremos medir

Page 16: 1. ESTADÍSTICA DESCRIPTIVAhalweb.uc3m.es/.../ismael/.../Temario/Descriptiva/Pres_EstDescriptiv… · Tema 1: Estadística descriptiva 1. Introducción. El propósito de la estadística

Informática. Universidad Carlos III de Madrid 16

2. 2. Tipos de datosTipos de datos

• Datos observacionales

• Datos experimentales

En un experimento, intervienen ambos tipos de datos

• Variable de interés (variable respuesta): siempre datos observacionales

• Otras variables que puedan afectar a la variable de interés (factores): unas proporcionarán datos experimentales (condiciones de experimentación) y otras datos observacionales

3. POR SU PROCEDIMIENTO DE OBTENCIÓN

Page 17: 1. ESTADÍSTICA DESCRIPTIVAhalweb.uc3m.es/.../ismael/.../Temario/Descriptiva/Pres_EstDescriptiv… · Tema 1: Estadística descriptiva 1. Introducción. El propósito de la estadística

Informática. Universidad Carlos III de Madrid 17

Observación Aula Estatura Sexo Nº de hermanos

1 1 175 v 0

2 1 163 m 1

3 1 181 v 0

4 2 166 m 2

5 2 170 v 1

6 2 169 v 1

Ejemplo:

Se eligen al azar 3 alumnos del aula 1 y otros 3 del aula 2, y se toman algunos datos de ellos: estatura, sexo, y número de hermanos.

• ¿Cuántos experimentos se han hecho?¿Cuántas repeticiones de cada uno?

• Clasifica los datos según su naturaleza (cualitativa, cuantitativa...)

• Clasifica los datos según su representatividad (población, muestra)

• Clasifica los datos según su procedimiento de obtención (experimental, observacional)

Page 18: 1. ESTADÍSTICA DESCRIPTIVAhalweb.uc3m.es/.../ismael/.../Temario/Descriptiva/Pres_EstDescriptiv… · Tema 1: Estadística descriptiva 1. Introducción. El propósito de la estadística

Informática. Universidad Carlos III de Madrid 18

ExperimentoVariable de interésdato observacional

X1 X2 X3 Xk

...Factores controladosFactores controladosgeneran datos experimentales

Factores no controladosFactores no controladossu valor lo determina el entorno : azar

generan datos observacionales

Z1 Z2 Z3 Zp...

2. 2. Tipos de datosTipos de datos

Al observar cómo cambia la variable respuesta al manipular los factores,

puedo establecer relaciones CAUSA-EFECTO

Page 19: 1. ESTADÍSTICA DESCRIPTIVAhalweb.uc3m.es/.../ismael/.../Temario/Descriptiva/Pres_EstDescriptiv… · Tema 1: Estadística descriptiva 1. Introducción. El propósito de la estadística

Informática. Universidad Carlos III de Madrid 19

Ejemplo: Un analista quiere saber la influencia de la temperatura de una CPU en su velocidad. Para ello ejecuta una serie de programas y contabiliza su tiempo de ejecución. Repite dicha tarea 30 veces,10 en cada una de las temperaturas T₁, T₂, y T₃.

Experimento Temperatura Tiempo

1 T1 342 T1 13: : :

11 T2 4512 T2 36: : :

30 T3 26

tiempo

TT1 T2 T3

datos experimentales

dat

os

obse

rvac

ional

es

Page 20: 1. ESTADÍSTICA DESCRIPTIVAhalweb.uc3m.es/.../ismael/.../Temario/Descriptiva/Pres_EstDescriptiv… · Tema 1: Estadística descriptiva 1. Introducción. El propósito de la estadística

Informática. Universidad Carlos III de Madrid 20

Tema 1: Estadística descriptiva

1. Introducción. El propósito de la estadística2. Tipos de datos3. Descripción de datos mediante tablas4. Descripción de datos mediante gráficos5. Medidas características de una variable6. Transformaciones lineales y su efecto en las medidas

características7. Transformaciones no lineales que mejoran la simetría8. Relación entre dos variables. La recta de regresión

Page 21: 1. ESTADÍSTICA DESCRIPTIVAhalweb.uc3m.es/.../ismael/.../Temario/Descriptiva/Pres_EstDescriptiv… · Tema 1: Estadística descriptiva 1. Introducción. El propósito de la estadística

Informática. Universidad Carlos III de Madrid 21

3.3. Descripción de datos mediante tablasDescripción de datos mediante tablas

Objetivo: resumir la información para facilitar su análisis

Tablas Tablas univariantesunivariantes

Ejemplo 1: número de cilindros de 155 vehículos (fichero cardata.sf)

Muestran la frecuencia de cada valor observado

Page 22: 1. ESTADÍSTICA DESCRIPTIVAhalweb.uc3m.es/.../ismael/.../Temario/Descriptiva/Pres_EstDescriptiv… · Tema 1: Estadística descriptiva 1. Introducción. El propósito de la estadística

Informática. Universidad Carlos III de Madrid 22

3.3. Descripción de datos mediante tablasDescripción de datos mediante tablas

Tablas Tablas univariantesunivariantes

Ejemplo 2: mes de nacimiento de 95 estudiantes de primer curso

Page 23: 1. ESTADÍSTICA DESCRIPTIVAhalweb.uc3m.es/.../ismael/.../Temario/Descriptiva/Pres_EstDescriptiv… · Tema 1: Estadística descriptiva 1. Introducción. El propósito de la estadística

Informática. Universidad Carlos III de Madrid 23

3.3. Descripción de datos mediante tablasDescripción de datos mediante tablas

Tablas Tablas univariantesunivariantes

Si hay muchos valores distintos: se agrupan en intervalos –clases-

Ejemplo: precio de 155 vehículos (fichero cardata.sf)

Número de clases? n

Page 24: 1. ESTADÍSTICA DESCRIPTIVAhalweb.uc3m.es/.../ismael/.../Temario/Descriptiva/Pres_EstDescriptiv… · Tema 1: Estadística descriptiva 1. Introducción. El propósito de la estadística

Informática. Universidad Carlos III de Madrid 24

3.3. Descripción de datos mediante tablasDescripción de datos mediante tablas

Tablas Tablas bivariantesbivariantes

Si tenemos, para cada individuo, dos datos usamos una tabla de doble entrada

Ejemplo: para cada coche tenemos el número de cilindros y su año de fabricación (cardata.sf)

Page 25: 1. ESTADÍSTICA DESCRIPTIVAhalweb.uc3m.es/.../ismael/.../Temario/Descriptiva/Pres_EstDescriptiv… · Tema 1: Estadística descriptiva 1. Introducción. El propósito de la estadística

Informática. Universidad Carlos III de Madrid 25

3.3. Descripción de datos mediante tablasDescripción de datos mediante tablas

Tablas Tablas bivariantesbivariantes

Si tenemos, para cada individuo, dos datos usamos una tabla de doble entrada

Ejemplo: para cada coche tenemos el número de cilindros y su año de fabricación (cardata.sf)

Cada celda: frecuencias conjuntas

Page 26: 1. ESTADÍSTICA DESCRIPTIVAhalweb.uc3m.es/.../ismael/.../Temario/Descriptiva/Pres_EstDescriptiv… · Tema 1: Estadística descriptiva 1. Introducción. El propósito de la estadística

Informática. Universidad Carlos III de Madrid 26

3.3. Descripción de datos mediante tablasDescripción de datos mediante tablas

Tablas Tablas bivariantesbivariantes

Si tenemos, para cada individuo, dos datos usamos una tabla de doble entrada

Ejemplo: para cada coche tenemos el número de cilindros y su año de fabricación (cardata.sf)

Las univariantes: frecuencias marginales

Page 27: 1. ESTADÍSTICA DESCRIPTIVAhalweb.uc3m.es/.../ismael/.../Temario/Descriptiva/Pres_EstDescriptiv… · Tema 1: Estadística descriptiva 1. Introducción. El propósito de la estadística

Informática. Universidad Carlos III de Madrid 27

3.3. Descripción de datos mediante tablasDescripción de datos mediante tablas

Tablas Tablas bivariantesbivariantes

Si tenemos, para cada individuo, dos datos usamos una tabla de doble entrada

Ejemplo: para cada coche tenemos el número de cilindros y su año de fabricación (cardata.sf)

Cada fila o columna: frecuencia condicionada (al valor de la fila o columna)

Page 28: 1. ESTADÍSTICA DESCRIPTIVAhalweb.uc3m.es/.../ismael/.../Temario/Descriptiva/Pres_EstDescriptiv… · Tema 1: Estadística descriptiva 1. Introducción. El propósito de la estadística

Informática. Universidad Carlos III de Madrid 28

1. ¿Las frecuencias absolutas se expresan en porcentajes?

2. ¿La suma de las frecuencias absolutas es el tamaño de la muestra?

3. En una tabla de doble entrada, la suma de las frecuencias marginales relativas de ambas variables es....

4. La suma de las frecuencias marginales absolutas de una de las variables es...

5. Las frecuencias condicionadas son las que se obtienen sumando las frecuencias por filas o por columnas

CuestionesCuestiones

Page 29: 1. ESTADÍSTICA DESCRIPTIVAhalweb.uc3m.es/.../ismael/.../Temario/Descriptiva/Pres_EstDescriptiv… · Tema 1: Estadística descriptiva 1. Introducción. El propósito de la estadística

Informática. Universidad Carlos III de Madrid 29

Tema 1: Estadística descriptivaTema 1: Estadística descriptiva

1. Introducción. El propósito de la estadística2. Tipos de datos3. Descripción de datos mediante tablas4. Descripción de datos mediante gráficos5. Medidas características de una variable6. Transformaciones lineales y su efecto en las medidas

características7. Transformaciones no lineales que mejoran la simetría8. Relación entre dos variables. La recta de regresión

Page 30: 1. ESTADÍSTICA DESCRIPTIVAhalweb.uc3m.es/.../ismael/.../Temario/Descriptiva/Pres_EstDescriptiv… · Tema 1: Estadística descriptiva 1. Introducción. El propósito de la estadística

Informática. Universidad Carlos III de Madrid 30

4.4. Descripción de datos mediante gráficosDescripción de datos mediante gráficos

4.1 Diagrama de barras

4.2 Histograma y polígono de frecuencias

4.3 Diagrama de tartas

4.4 Series temporales

4.5 Gráficos de dispersión

Page 31: 1. ESTADÍSTICA DESCRIPTIVAhalweb.uc3m.es/.../ismael/.../Temario/Descriptiva/Pres_EstDescriptiv… · Tema 1: Estadística descriptiva 1. Introducción. El propósito de la estadística

Informática. Universidad Carlos III de Madrid 31

4.1 Diagrama de barras4.1 Diagrama de barras

Es la representación gráfica de una tabla de frecuencias sin agrupar en intervalos

Ejemplo: número de cilindros de 155 vehículos (fichero cardata.sf)Frecuencia de cada valor observado

Page 32: 1. ESTADÍSTICA DESCRIPTIVAhalweb.uc3m.es/.../ismael/.../Temario/Descriptiva/Pres_EstDescriptiv… · Tema 1: Estadística descriptiva 1. Introducción. El propósito de la estadística

Informática. Universidad Carlos III de Madrid 32

4.2 Histograma y polígono de frecuencias4.2 Histograma y polígono de frecuencias

Es la representación gráfica de una tabla de frecuencias con datos agrupados

Ejemplo: precio de 155 vehículos (fichero cardata.sf)

El histograma es una de las herramientas gráficas más útiles para resumir información

Page 33: 1. ESTADÍSTICA DESCRIPTIVAhalweb.uc3m.es/.../ismael/.../Temario/Descriptiva/Pres_EstDescriptiv… · Tema 1: Estadística descriptiva 1. Introducción. El propósito de la estadística

Informática. Universidad Carlos III de Madrid 33

4.2 Histograma y polígono de frecuencias4.2 Histograma y polígono de frecuencias

Es la representación gráfica de una tabla de frecuencias con datos agrupados

Ejemplo: precio de 155 vehículos (fichero cardata.sf)

El histograma sirve para resumir la siguiente información:

• Concentraciones

• Asimetrías

• Huecos

• Atípicos

Page 34: 1. ESTADÍSTICA DESCRIPTIVAhalweb.uc3m.es/.../ismael/.../Temario/Descriptiva/Pres_EstDescriptiv… · Tema 1: Estadística descriptiva 1. Introducción. El propósito de la estadística

Informática. Universidad Carlos III de Madrid 34

4.2 Histograma y polígono de frecuencias4.2 Histograma y polígono de frecuencias

Es la representación gráfica de una tabla de frecuencias con datos agrupados

Page 35: 1. ESTADÍSTICA DESCRIPTIVAhalweb.uc3m.es/.../ismael/.../Temario/Descriptiva/Pres_EstDescriptiv… · Tema 1: Estadística descriptiva 1. Introducción. El propósito de la estadística

Informática. Universidad Carlos III de Madrid 35

Ejemplo: Longitudes de 100 clavos del mismo tipo, medidos por dos personas, 50 clavos cada una, que usaron calibres diferentes.

Las dos concentraciones parecen deberse a los dos calibres

¿Qué calibre es mejor?

Page 36: 1. ESTADÍSTICA DESCRIPTIVAhalweb.uc3m.es/.../ismael/.../Temario/Descriptiva/Pres_EstDescriptiv… · Tema 1: Estadística descriptiva 1. Introducción. El propósito de la estadística

Informática. Universidad Carlos III de Madrid 36

Ejemplo: Valores de velocidad de viento (m/s) registrados en un parque eólico durante varios meses. Cada dato es la velocidad media registrada durante una hora, y se tienen 14000 datos

¿hay una concentración alrededor de 2.5 m/s?

(a 2.5 m/s los aerogeneradores no producen energía)

Potencia generada por un aerogenerador en función de la velocidad del viento

Page 37: 1. ESTADÍSTICA DESCRIPTIVAhalweb.uc3m.es/.../ismael/.../Temario/Descriptiva/Pres_EstDescriptiv… · Tema 1: Estadística descriptiva 1. Introducción. El propósito de la estadística

Informática. Universidad Carlos III de Madrid 37

Ejemplo: Valores de velocidad de viento (m/s) registrados en un parque eólico durante varios meses. Cada dato es la velocidad media registrada durante una hora, y se tienen 14000 datos

¿hay una concentración alrededor de 2.5 m/s?

(a 2.5 m/s los aerogeneradores no producen energía)

Page 38: 1. ESTADÍSTICA DESCRIPTIVAhalweb.uc3m.es/.../ismael/.../Temario/Descriptiva/Pres_EstDescriptiv… · Tema 1: Estadística descriptiva 1. Introducción. El propósito de la estadística

Informática. Universidad Carlos III de Madrid 38

Ejemplo: Tiempo que un ordenador tarda en escribir un fichero de 300 Mb en su disco duro. Se hacen dos experimentos; uno en el que el discoduro está desfragmentado, y otro en el que el disco duro tiene una fragmentación del 40%. Cada experimento se repite 79 veces

Page 39: 1. ESTADÍSTICA DESCRIPTIVAhalweb.uc3m.es/.../ismael/.../Temario/Descriptiva/Pres_EstDescriptiv… · Tema 1: Estadística descriptiva 1. Introducción. El propósito de la estadística

Informática. Universidad Carlos III de Madrid 39

4.2 Histograma y polígono de frecuencias4.2 Histograma y polígono de frecuencias

Es la representación gráfica de una tabla de frecuencias con datos agrupados

Ejemplo: precio de 155 vehículos (fichero cardata.sf)

El polígono de frecuencias se consigue uniendo con líneas los puntos centrales de la parte superior del histograma.

Page 40: 1. ESTADÍSTICA DESCRIPTIVAhalweb.uc3m.es/.../ismael/.../Temario/Descriptiva/Pres_EstDescriptiv… · Tema 1: Estadística descriptiva 1. Introducción. El propósito de la estadística

Informática. Universidad Carlos III de Madrid 40

4.3 Diagrama de tartas4.3 Diagrama de tartas

Es un círculo dividido en porciones proporcionales a las frecuencias relativasEjemplo: número de cilindros de 155 vehículos (fichero cardata.sf)

Page 41: 1. ESTADÍSTICA DESCRIPTIVAhalweb.uc3m.es/.../ismael/.../Temario/Descriptiva/Pres_EstDescriptiv… · Tema 1: Estadística descriptiva 1. Introducción. El propósito de la estadística

Informática. Universidad Carlos III de Madrid 41

4.4 Series temporales4.4 Series temporales

El eje X es el tiempo. Representa la evolución temporal de la variable

Page 42: 1. ESTADÍSTICA DESCRIPTIVAhalweb.uc3m.es/.../ismael/.../Temario/Descriptiva/Pres_EstDescriptiv… · Tema 1: Estadística descriptiva 1. Introducción. El propósito de la estadística

Informática. Universidad Carlos III de Madrid 42

4.4 Series temporales4.4 Series temporales

El eje X es el tiempo. Representa la evolución temporal de la variable

Page 43: 1. ESTADÍSTICA DESCRIPTIVAhalweb.uc3m.es/.../ismael/.../Temario/Descriptiva/Pres_EstDescriptiv… · Tema 1: Estadística descriptiva 1. Introducción. El propósito de la estadística

Informática. Universidad Carlos III de Madrid 43

4.5 Gráfico de dispersión4.5 Gráfico de dispersión

Para cada individuo tenemos dos datos: X e Y

Page 44: 1. ESTADÍSTICA DESCRIPTIVAhalweb.uc3m.es/.../ismael/.../Temario/Descriptiva/Pres_EstDescriptiv… · Tema 1: Estadística descriptiva 1. Introducción. El propósito de la estadística

Informática. Universidad Carlos III de Madrid 44

4.5 Gráfico de dispersión4.5 Gráfico de dispersión

Para cada individuo tenemos dos datos: X e YPo

tenci

a gen

erad

a por

un

molin

o d

e vi

ento

Page 45: 1. ESTADÍSTICA DESCRIPTIVAhalweb.uc3m.es/.../ismael/.../Temario/Descriptiva/Pres_EstDescriptiv… · Tema 1: Estadística descriptiva 1. Introducción. El propósito de la estadística

Informática. Universidad Carlos III de Madrid 45

Tema 1: Estadística descriptivaTema 1: Estadística descriptiva

1. Introducción. El propósito de la estadística2. Tipos de datos3. Descripción de datos mediante tablas4. Descripción de datos mediante gráficos5. Medidas características de una variable6. Transformaciones lineales y su efecto en las medidas

características7. Transformaciones no lineales que mejoran la simetría8. Relación entre dos variables. La recta de regresión

Page 46: 1. ESTADÍSTICA DESCRIPTIVAhalweb.uc3m.es/.../ismael/.../Temario/Descriptiva/Pres_EstDescriptiv… · Tema 1: Estadística descriptiva 1. Introducción. El propósito de la estadística

Informática. Universidad Carlos III de Madrid 46

5.5. Medidas características de un conjunto de datosMedidas características de un conjunto de datos

Objetivo: buscamos resumir las características más importantes de los datos en un conjunto reducido de números.

Cada característica un número

5.1 5.1 Medidas de centralizaciónMedidas de centralización

¿Cuál es el centro de los datos?

Hay muchas medidas alternativas.

Las más importantes son

• Media aritmética

• Mediana

• Moda

Page 47: 1. ESTADÍSTICA DESCRIPTIVAhalweb.uc3m.es/.../ismael/.../Temario/Descriptiva/Pres_EstDescriptiv… · Tema 1: Estadística descriptiva 1. Introducción. El propósito de la estadística

Informática. Universidad Carlos III de Madrid 47

5.1 5.1 Medidas de centralizaciónMedidas de centralización

• Media aritmética

Sea un conjunto de observaciones x1, x2,...,xn

Si hay J valores diferentes que se repiten:

X1, se repite n1 veces

X2, se repite n2 veces

...

xJ, se repite nJ veces

Donde fr(xj) es la frecuencia relativa del valor xj

Page 48: 1. ESTADÍSTICA DESCRIPTIVAhalweb.uc3m.es/.../ismael/.../Temario/Descriptiva/Pres_EstDescriptiv… · Tema 1: Estadística descriptiva 1. Introducción. El propósito de la estadística

Informática. Universidad Carlos III de Madrid 48

5.1 5.1 Medidas de centralizaciónMedidas de centralización

• Media aritmética

Ejemplo: x={1,2,3,3,5,5,5,6,6}

1 2 3 3 5 5 5 6 6 49

x + + + + + + + += =

O bien:

1 1 2 3 11 2 3 5 6 49 9 9 9 9

x = × + × + × + × + × =

Page 49: 1. ESTADÍSTICA DESCRIPTIVAhalweb.uc3m.es/.../ismael/.../Temario/Descriptiva/Pres_EstDescriptiv… · Tema 1: Estadística descriptiva 1. Introducción. El propósito de la estadística

Informática. Universidad Carlos III de Madrid 49

5.1 5.1 Medidas de centralizaciónMedidas de centralización

• Media aritmética

Puede interpretarse como el centro de gravedad de los datos.

Por ejemplo, en un histograma, es el punto de apoyo para que esté en equilibrio

Page 50: 1. ESTADÍSTICA DESCRIPTIVAhalweb.uc3m.es/.../ismael/.../Temario/Descriptiva/Pres_EstDescriptiv… · Tema 1: Estadística descriptiva 1. Introducción. El propósito de la estadística

Informática. Universidad Carlos III de Madrid 50

• Media aritmética

Cuanto más asimétrica sea más se desplaza la media hacia la cola

Media

Media

Page 51: 1. ESTADÍSTICA DESCRIPTIVAhalweb.uc3m.es/.../ismael/.../Temario/Descriptiva/Pres_EstDescriptiv… · Tema 1: Estadística descriptiva 1. Introducción. El propósito de la estadística

Informática. Universidad Carlos III de Madrid 51

• Media aritmética

Es muy sensible a valores atípicos

Media

Media

Un solo dato puede desplazar la media hasta hacerla poco

representativa del centro de los datos

Page 52: 1. ESTADÍSTICA DESCRIPTIVAhalweb.uc3m.es/.../ismael/.../Temario/Descriptiva/Pres_EstDescriptiv… · Tema 1: Estadística descriptiva 1. Introducción. El propósito de la estadística

Informática. Universidad Carlos III de Madrid 52

• Mediana

Es el valor que deja a cada lado el 50% de los datos.

Es poco sensible a asimetrías

Es insensible a valores atípicos

Con un número impar de datos: el dato en posición central

1 2 5 8 11 13 24 28 31 9 datos

Mediana=11

1 2 3 5 8 11 13 24 28 31 10 datos

Mediana=(8+11)/2=9,5

Con un número par de datos: la media de los dos centrales

Page 53: 1. ESTADÍSTICA DESCRIPTIVAhalweb.uc3m.es/.../ismael/.../Temario/Descriptiva/Pres_EstDescriptiv… · Tema 1: Estadística descriptiva 1. Introducción. El propósito de la estadística

Informática. Universidad Carlos III de Madrid 53

• Mediana

Es el valor que deja a cada lado el 50% de los datos.

Es poco sensible a asimetrías

Es insensible a valores atípicos

Media=mediana

50% 50%

Media

50% 50%

Mediana

La mediana no varía, pero la media se desplaza

Page 54: 1. ESTADÍSTICA DESCRIPTIVAhalweb.uc3m.es/.../ismael/.../Temario/Descriptiva/Pres_EstDescriptiv… · Tema 1: Estadística descriptiva 1. Introducción. El propósito de la estadística

Informática. Universidad Carlos III de Madrid 54

• Mediana

Es el valor que deja a cada lado el 50% de los datos.

Es poco sensible a asimetrías

Es insensible a valores atípicos

Media=mediana

50% 50%

Page 55: 1. ESTADÍSTICA DESCRIPTIVAhalweb.uc3m.es/.../ismael/.../Temario/Descriptiva/Pres_EstDescriptiv… · Tema 1: Estadística descriptiva 1. Introducción. El propósito de la estadística

Informática. Universidad Carlos III de Madrid 55

• Mediana

Es el valor que deja a cada lado el 50% de los datos.

Es poco sensible a asimetrías

Es insensible a valores atípicos

Mediana

50% 50%

Media

Los valores atípicos no alteran las posición de la mediana

Con valores atípicos y asimetrías fuertes, la mediana es una medida de centralización más útil que la media

Page 56: 1. ESTADÍSTICA DESCRIPTIVAhalweb.uc3m.es/.../ismael/.../Temario/Descriptiva/Pres_EstDescriptiv… · Tema 1: Estadística descriptiva 1. Introducción. El propósito de la estadística

Informática. Universidad Carlos III de Madrid 56

• Moda

Es el valor más frecuente

1 2 2 2 2 5 5 5 8 8 11 13

Moda=2

Con datos agrupados, es la clase más frecuente. Puede haber varias, sugiriendo la posible existencia de varios grupos

Distribución unimodal Distribución trimodal

Page 57: 1. ESTADÍSTICA DESCRIPTIVAhalweb.uc3m.es/.../ismael/.../Temario/Descriptiva/Pres_EstDescriptiv… · Tema 1: Estadística descriptiva 1. Introducción. El propósito de la estadística

Informática. Universidad Carlos III de Madrid 57

5.1 5.1 Medidas de centralizaciónMedidas de centralización media, mediana, moda

5.2 5.2 Medidas de dispersiónMedidas de dispersión

• Varianza (desviación típica)

• Meda

• Rango

• Cuartiles

• Diagrama de caja (box-plot)

• Varianza

Promedio de desviaciones a la media, al cuadrado

Desviación típica Coeficiente de variación

Page 58: 1. ESTADÍSTICA DESCRIPTIVAhalweb.uc3m.es/.../ismael/.../Temario/Descriptiva/Pres_EstDescriptiv… · Tema 1: Estadística descriptiva 1. Introducción. El propósito de la estadística

Informática. Universidad Carlos III de Madrid 58

• Varianza

Promedio de desviaciones a la media, al cuadrado

media

media

Poca dispersiónBaja varianza

Baja desviación típicaBajo CV

Mucha dispersión

Mucha varianza

Mucha desviación típica

Alto CV

Page 59: 1. ESTADÍSTICA DESCRIPTIVAhalweb.uc3m.es/.../ismael/.../Temario/Descriptiva/Pres_EstDescriptiv… · Tema 1: Estadística descriptiva 1. Introducción. El propósito de la estadística

Informática. Universidad Carlos III de Madrid 59

Ejemplo: Longitudes de 100 clavos del mismo tipo, medidos por dos personas, 50 clavos cada una, que usaron calibres diferentes.

¿Qué calibre es mejor?

Varianza Calibre 1: 7.25 mm²

Varianza Calibre 2: 21.47 mm²

Page 60: 1. ESTADÍSTICA DESCRIPTIVAhalweb.uc3m.es/.../ismael/.../Temario/Descriptiva/Pres_EstDescriptiv… · Tema 1: Estadística descriptiva 1. Introducción. El propósito de la estadística

Informática. Universidad Carlos III de Madrid 60

• MEDA

Mediana de desviaciones absolutas a la mediana

x1, x2, x3, ..., xnDatos

Mediana xm

Desviaciones absolutas a la mediana |x1- xm|, |x2- xm|, |x3- xm|, ..., |xn- xm|

Mediana de los valores anteriores MEDA

Menos sensible a atípicos y asimetrías que la varianza

¿Por qué?

Page 61: 1. ESTADÍSTICA DESCRIPTIVAhalweb.uc3m.es/.../ismael/.../Temario/Descriptiva/Pres_EstDescriptiv… · Tema 1: Estadística descriptiva 1. Introducción. El propósito de la estadística

Informática. Universidad Carlos III de Madrid 61

• Rango o recorrido

Valor máximo menos valor mínimo

X: 1 2 5 8 11 13 24 28 31

Rango: 31-1=30

A mayor rango mayor dispersión

Page 62: 1. ESTADÍSTICA DESCRIPTIVAhalweb.uc3m.es/.../ismael/.../Temario/Descriptiva/Pres_EstDescriptiv… · Tema 1: Estadística descriptiva 1. Introducción. El propósito de la estadística

Informática. Universidad Carlos III de Madrid 62

• Cuartiles Q1, Q2, Q3

Son los valores que dividen la muestra en 4 grupos, cada uno con el 25% de los datos (aproximadamente)

Entre el mínimo y Q1

Entre Q1 y Q2

Entre Q2 y Q3

Entre Q3 y el máximo

25% de los datos

25% de los datos

25% de los datos

25% de los datos

50%

50%

Q2 = medianaQ3-Q2=Rango Intercuartílico (R.I.)

min maxQ2Q1 Q3

25% 25% 25% 25%

Hay varios métodos para calcular Q1 y Q3. Con pocos datos pueden dar valores diferentes

Page 63: 1. ESTADÍSTICA DESCRIPTIVAhalweb.uc3m.es/.../ismael/.../Temario/Descriptiva/Pres_EstDescriptiv… · Tema 1: Estadística descriptiva 1. Introducción. El propósito de la estadística

Informática. Universidad Carlos III de Madrid 63

• Cuartiles Q1, Q2, Q3

Método sencillo para calcular cuartiles

x:{1,1,3,3,5,9,11,14,15}

1º: Obtenemos la mediana Q2 5

2º: Excluimos ese valor y nos quedamos con dos grupos de datos, uno a cada lado de la mediana

izda.: {1,1,3,3,}

dcha.: {9,11,14,15}

3º: Q1 es la mediana del grupo que queda a la izquierda

Q1=(1+3)/2=2

4º: Q3 es la mediana del grupo que queda a la derecha

Q3=(11+14)/2=12.5

Page 64: 1. ESTADÍSTICA DESCRIPTIVAhalweb.uc3m.es/.../ismael/.../Temario/Descriptiva/Pres_EstDescriptiv… · Tema 1: Estadística descriptiva 1. Introducción. El propósito de la estadística

Informática. Universidad Carlos III de Madrid 64

• Diagrama de caja (box-plot)

Es la representación gráfica de los cuartiles

min maxQ2Q1 Q3

25% 25% 25% 25%

Page 65: 1. ESTADÍSTICA DESCRIPTIVAhalweb.uc3m.es/.../ismael/.../Temario/Descriptiva/Pres_EstDescriptiv… · Tema 1: Estadística descriptiva 1. Introducción. El propósito de la estadística

Informática. Universidad Carlos III de Madrid 65

Los gráficos Box-plot son muy útiles para:

• Comparar grupos

• Ver asimetrías

• Detectar atípicos **

Page 66: 1. ESTADÍSTICA DESCRIPTIVAhalweb.uc3m.es/.../ismael/.../Temario/Descriptiva/Pres_EstDescriptiv… · Tema 1: Estadística descriptiva 1. Introducción. El propósito de la estadística

Informática. Universidad Carlos III de Madrid 66

Datos extremos (o ‘atípicos’)

Page 67: 1. ESTADÍSTICA DESCRIPTIVAhalweb.uc3m.es/.../ismael/.../Temario/Descriptiva/Pres_EstDescriptiv… · Tema 1: Estadística descriptiva 1. Introducción. El propósito de la estadística

Informática. Universidad Carlos III de Madrid 67

Primer paso

Para construir un Box-plot con marcas de atípicos

Page 68: 1. ESTADÍSTICA DESCRIPTIVAhalweb.uc3m.es/.../ismael/.../Temario/Descriptiva/Pres_EstDescriptiv… · Tema 1: Estadística descriptiva 1. Introducción. El propósito de la estadística

Informática. Universidad Carlos III de Madrid 68

Segundo paso

Page 69: 1. ESTADÍSTICA DESCRIPTIVAhalweb.uc3m.es/.../ismael/.../Temario/Descriptiva/Pres_EstDescriptiv… · Tema 1: Estadística descriptiva 1. Introducción. El propósito de la estadística

Informática. Universidad Carlos III de Madrid 69

Tercer paso

Los puntos que caigan en estas zonas se marcanLos puntos que caigan en estas zonas se marcan

Page 70: 1. ESTADÍSTICA DESCRIPTIVAhalweb.uc3m.es/.../ismael/.../Temario/Descriptiva/Pres_EstDescriptiv… · Tema 1: Estadística descriptiva 1. Introducción. El propósito de la estadística

Informática. Universidad Carlos III de Madrid 70

Tercer paso

Las líneas laterales se extienden sólo Las líneas laterales se extienden sólo hasta el último puntohasta el último puntodentro de la barrera internadentro de la barrera interna

Page 71: 1. ESTADÍSTICA DESCRIPTIVAhalweb.uc3m.es/.../ismael/.../Temario/Descriptiva/Pres_EstDescriptiv… · Tema 1: Estadística descriptiva 1. Introducción. El propósito de la estadística

Informática. Universidad Carlos III de Madrid 71

Ojo!! Cuando hay asimetrías, un dato extremo no debe

necesariamente catalogarse como atípico

Dato atípico: dato que se sale del patrón general de los datos

La asimetría indica que al final de la cola habrá cada

vez menos datos.

No es atípico. Es compatible con el patrón de los datos

Sí es atípico

Page 72: 1. ESTADÍSTICA DESCRIPTIVAhalweb.uc3m.es/.../ismael/.../Temario/Descriptiva/Pres_EstDescriptiv… · Tema 1: Estadística descriptiva 1. Introducción. El propósito de la estadística

Informática. Universidad Carlos III de Madrid 72

Es compatible con la asimetría positiva

Page 73: 1. ESTADÍSTICA DESCRIPTIVAhalweb.uc3m.es/.../ismael/.../Temario/Descriptiva/Pres_EstDescriptiv… · Tema 1: Estadística descriptiva 1. Introducción. El propósito de la estadística

Informática. Universidad Carlos III de Madrid 73

5.1 5.1 Medidas de centralizaciónMedidas de centralización media, mediana, moda

5.2 5.2 Medidas de dispersiónMedidas de dispersiónvarianza, desv. típica, coeficiente de variación, meda, rango, cuartiles,

box-plot

5.3 5.3 Otras medidas de formaOtras medidas de forma

• Medidas de asimetría

• Medidas de apuntamiento

• Medidas de asimetría

Coeficiente de asimetría

•CA = 0; si la distribución es perfectamente simétrica•CA > 0; si hay asimetría positiva•CA < 0: si hay asimetría negativa

Page 74: 1. ESTADÍSTICA DESCRIPTIVAhalweb.uc3m.es/.../ismael/.../Temario/Descriptiva/Pres_EstDescriptiv… · Tema 1: Estadística descriptiva 1. Introducción. El propósito de la estadística

Informática. Universidad Carlos III de Madrid 74

• Medidas de asimetríaCoeficiente de

asimetría

•CA = 0; si la distribución es perfectamente simétrica•CA > 0; si hay asimetría positiva•CA < 0: si hay asimetría negativa

Page 75: 1. ESTADÍSTICA DESCRIPTIVAhalweb.uc3m.es/.../ismael/.../Temario/Descriptiva/Pres_EstDescriptiv… · Tema 1: Estadística descriptiva 1. Introducción. El propósito de la estadística

Informática. Universidad Carlos III de Madrid 75

• Medidas de apuntamiento

Coeficiente de apuntamiento o

Curtosis

•CAp = 3; distribución con forma de campana•CAp>3; distribución más picuda que una campana•CAp<3; distribución menos picuda que una campana

CAp=3CAp<3CAp>3

Muchos programas de Estadística definen Curstosis como CAp-3

Page 76: 1. ESTADÍSTICA DESCRIPTIVAhalweb.uc3m.es/.../ismael/.../Temario/Descriptiva/Pres_EstDescriptiv… · Tema 1: Estadística descriptiva 1. Introducción. El propósito de la estadística

Informática. Universidad Carlos III de Madrid 76

Tema 1: Estadística descriptivaTema 1: Estadística descriptiva

1. Introducción. El propósito de la estadística2. Tipos de datos3. Descripción de datos mediante tablas4. Descripción de datos mediante gráficos5. Medidas características de una variable6. Transformaciones lineales y su efecto en las medidas

características7. Transformaciones no lineales que mejoran la simetría8. Relación entre dos variables. La recta de regresión

Page 77: 1. ESTADÍSTICA DESCRIPTIVAhalweb.uc3m.es/.../ismael/.../Temario/Descriptiva/Pres_EstDescriptiv… · Tema 1: Estadística descriptiva 1. Introducción. El propósito de la estadística

Informática. Universidad Carlos III de Madrid 77

6.6. Transformaciones lineales y su efecto en las medidas Transformaciones lineales y su efecto en las medidas característicascaracterísticas

Sea y una transformación lineal de x

y=a+b x

dados un conjunto de datos x1, x2, x3, ..., xn

Medidas características de x

¿Medidas características de y?

Medidas de localización

Medida_loc (y)=a+b Medida_loc(x)

La transformación lineal no cambia el orden relativo ym=a+b xm

La transformación lineal no cambia la frecuencia de aparición de cada valor

Moda(y)=a+b Moda(x)

Page 78: 1. ESTADÍSTICA DESCRIPTIVAhalweb.uc3m.es/.../ismael/.../Temario/Descriptiva/Pres_EstDescriptiv… · Tema 1: Estadística descriptiva 1. Introducción. El propósito de la estadística

Informática. Universidad Carlos III de Madrid 78

6.6. Transformaciones lineales y su efecto en las medidas Transformaciones lineales y su efecto en las medidas característicascaracterísticas

Medidas de dispersión

La constante a no influye

y=a+b x

Page 79: 1. ESTADÍSTICA DESCRIPTIVAhalweb.uc3m.es/.../ismael/.../Temario/Descriptiva/Pres_EstDescriptiv… · Tema 1: Estadística descriptiva 1. Introducción. El propósito de la estadística

Informática. Universidad Carlos III de Madrid 79

Tema 1: Estadística descriptivaTema 1: Estadística descriptiva

1. Introducción. El propósito de la estadística2. Tipos de datos3. Descripción de datos mediante tablas4. Descripción de datos mediante gráficos5. Medidas características de una variable6. Transformaciones lineales y su efecto en las medidas

características7. Transformaciones no lineales que mejoran la simetría8. Relación entre dos variables. La recta de regresión

Page 80: 1. ESTADÍSTICA DESCRIPTIVAhalweb.uc3m.es/.../ismael/.../Temario/Descriptiva/Pres_EstDescriptiv… · Tema 1: Estadística descriptiva 1. Introducción. El propósito de la estadística

Informática. Universidad Carlos III de Madrid 80

7.7. Transformaciones no lineales que mejoran la simetríaTransformaciones no lineales que mejoran la simetría

Dados un conjunto de datos x1, x2, x3, ..., xncon distribución asimétrica

Buscamos una transformación y=h(x) tal que y sea más simétrica

Asimetrías positivas (muy frecuentes)

• Transformaciones del tipo y=xc ,c<1

• y=ln(x)

• Estas transformaciones son no lineales pues comprimen mucho a los datos grandes y poco a los pequeños

x

x ln( )x

• ln(x) puede interpretarse como el límite de la transformación y=xc cuando c→0

• Cuanto mayor sea la asimetría, necesitamos un c menor

Page 81: 1. ESTADÍSTICA DESCRIPTIVAhalweb.uc3m.es/.../ismael/.../Temario/Descriptiva/Pres_EstDescriptiv… · Tema 1: Estadística descriptiva 1. Introducción. El propósito de la estadística

Informática. Universidad Carlos III de Madrid 81

7.7. Transformaciones no lineales que mejoran la simetríaTransformaciones no lineales que mejoran la simetría

Dados un conjunto de datos x1, x2, x3, ..., xncon distribución asimétrica

Buscamos una transformación y=h(x) tal que y sea más simétrica

Asimetrías negativas

• Transformaciones del tipo y=xc ,c>1

• Estas transformaciones son no lineales pues expanden mucho a los datos grandes y poco a los pequeños

x

Cuanto mayor sea la asimetría, necesitamos un c mayor

x1,5 x2

Page 82: 1. ESTADÍSTICA DESCRIPTIVAhalweb.uc3m.es/.../ismael/.../Temario/Descriptiva/Pres_EstDescriptiv… · Tema 1: Estadística descriptiva 1. Introducción. El propósito de la estadística

Informática. Universidad Carlos III de Madrid 82

Tema 1: Estadística descriptivaTema 1: Estadística descriptiva

1. Introducción. El propósito de la estadística2. Tipos de datos3. Descripción de datos mediante tablas4. Descripción de datos mediante gráficos5. Medidas características de una variable6. Transformaciones lineales y su efecto en las medidas

características7. Transformaciones no lineales que mejoran la simetría8. Relación entre dos variables. La recta de regresión

Page 83: 1. ESTADÍSTICA DESCRIPTIVAhalweb.uc3m.es/.../ismael/.../Temario/Descriptiva/Pres_EstDescriptiv… · Tema 1: Estadística descriptiva 1. Introducción. El propósito de la estadística

Informática. Universidad Carlos III de Madrid 83

Medidas de dependencia linealMedidas de dependencia lineal• Coeficiente de covarianza

• Coeficiente de correlación

Entre estas variables no hay relación lineal

Entre estas variables hay relación lineal

La línea roja podría ser un buen resumen de esa relación

Page 84: 1. ESTADÍSTICA DESCRIPTIVAhalweb.uc3m.es/.../ismael/.../Temario/Descriptiva/Pres_EstDescriptiv… · Tema 1: Estadística descriptiva 1. Introducción. El propósito de la estadística

Informática. Universidad Carlos III de Madrid 84

Para n individuos, tenemos datos de 2 variables

Individuo x y

1

2

:

n

x1 y1

x2 y2

: :

xn yn

Covarianza

Correlación

Covarianza y correlación positivas

Covarianza y correlación negativas

Page 85: 1. ESTADÍSTICA DESCRIPTIVAhalweb.uc3m.es/.../ismael/.../Temario/Descriptiva/Pres_EstDescriptiv… · Tema 1: Estadística descriptiva 1. Introducción. El propósito de la estadística

Informática. Universidad Carlos III de Madrid 85

• La covarianza tiene unidades (unidades_x)(unidades_y)

• La correlación es adimensional. ES MÁS FÁCIL DE INTERPRETAR• Se puede demostrar que -1≤r≤1

r=1 r=0.06

r=-0.94 r=-0.83 r=-0.08

r=0.8

Page 86: 1. ESTADÍSTICA DESCRIPTIVAhalweb.uc3m.es/.../ismael/.../Temario/Descriptiva/Pres_EstDescriptiv… · Tema 1: Estadística descriptiva 1. Introducción. El propósito de la estadística

Informática. Universidad Carlos III de Madrid 86

La recta de regresiónLa recta de regresión

X

y

( , )i ix y

¿Cómo obtener la ecuación de esa recta

‘resumen’?

Page 87: 1. ESTADÍSTICA DESCRIPTIVAhalweb.uc3m.es/.../ismael/.../Temario/Descriptiva/Pres_EstDescriptiv… · Tema 1: Estadística descriptiva 1. Introducción. El propósito de la estadística

Informática. Universidad Carlos III de Madrid 87

La recta de regresiónLa recta de regresión

X

yEcuación de la recta:

Y=a+bX

Si tiene que pasar por dos puntos: solución única

Page 88: 1. ESTADÍSTICA DESCRIPTIVAhalweb.uc3m.es/.../ismael/.../Temario/Descriptiva/Pres_EstDescriptiv… · Tema 1: Estadística descriptiva 1. Introducción. El propósito de la estadística

Informática. Universidad Carlos III de Madrid 88

La recta de regresiónLa recta de regresión

X

y

( , )i ix y

Es imposible que una recta pase por todos

los puntos

¿Cómo elegir la que más nos interesa?

Page 89: 1. ESTADÍSTICA DESCRIPTIVAhalweb.uc3m.es/.../ismael/.../Temario/Descriptiva/Pres_EstDescriptiv… · Tema 1: Estadística descriptiva 1. Introducción. El propósito de la estadística

Informática. Universidad Carlos III de Madrid 89

La recta de regresiónLa recta de regresión

X

y

( , )i ix y

Buscamos una recta muy concreta llamada

RECTA DE REGRESIÓN

(de regresión simple)

Es la recta que, dado el valor de X me da la

mejor predicción de Y

Page 90: 1. ESTADÍSTICA DESCRIPTIVAhalweb.uc3m.es/.../ismael/.../Temario/Descriptiva/Pres_EstDescriptiv… · Tema 1: Estadística descriptiva 1. Introducción. El propósito de la estadística

Informática. Universidad Carlos III de Madrid 90

X

y

( , )i ix y

a bx+

iy

ix

ˆiyValor observado

Valor previstopor la recta

valor observado

La recta de regresiónLa recta de regresión Es la recta que, dado el valor de X me da la mejor predicción de Y

Error de predicción: ˆi i ie y y= −

ei

Page 91: 1. ESTADÍSTICA DESCRIPTIVAhalweb.uc3m.es/.../ismael/.../Temario/Descriptiva/Pres_EstDescriptiv… · Tema 1: Estadística descriptiva 1. Introducción. El propósito de la estadística

Informática. Universidad Carlos III de Madrid 91

X

y

( , )i ix y

a bx+

iy

ix

ˆiy

valor observado

La recta de regresiónLa recta de regresión

ei

Buscamos la recta que minimiza los errores de predicción:

2

1min

N

ii

e=∑

(recta de mínimos cuadrados)

Page 92: 1. ESTADÍSTICA DESCRIPTIVAhalweb.uc3m.es/.../ismael/.../Temario/Descriptiva/Pres_EstDescriptiv… · Tema 1: Estadística descriptiva 1. Introducción. El propósito de la estadística

Informática. Universidad Carlos III de Madrid 92

La recta de regresiónLa recta de regresión

X

y

( , )i ix y

a bx+

x

y

2

cov( , )

x

x ybs

=

a y bx= −

SOLUCIÓN

Page 93: 1. ESTADÍSTICA DESCRIPTIVAhalweb.uc3m.es/.../ismael/.../Temario/Descriptiva/Pres_EstDescriptiv… · Tema 1: Estadística descriptiva 1. Introducción. El propósito de la estadística

Informática. Universidad Carlos III de Madrid 93

Ejemplo La variable V1 tiene la velocidad del viento registrada en la localización 1, mientras que la variable V2 tiene las velocidades registradas en esos mismos instantes en la localización 2. Se tiene un total de 115 pares de medidas

En la localización 1 se va a establecer un sistema informático para la telemedida de la velocidad del viento, pero no para la localización 2. Se quiere calcular la recta de regresión que permita predecir la velocidad de la Localización 2 sabiendo la de la Localización 1

Loc.1:

media: 2.51

varianza: 1.91

Loc.2:

media: 3.28

varianza: 2.36

cov (V1,V2)=1.995

Page 94: 1. ESTADÍSTICA DESCRIPTIVAhalweb.uc3m.es/.../ismael/.../Temario/Descriptiva/Pres_EstDescriptiv… · Tema 1: Estadística descriptiva 1. Introducción. El propósito de la estadística

Informática. Universidad Carlos III de Madrid 94

Loc.1:

media: 2.51

varianza: 1.91

Loc.2:

media: 3.28

varianza: 2.36

cov (V1,V2)=1.995

3.28 1.045 2.51 0.657a y bx= − = − × =b=cov(x,y)/var(x)=1.995/1.91=1.045

2 1ˆ 0.657 1.045V V= + ×

Si, por ejemplo, en la Localización 1 se mide una velocidad de viento de 5 m/s, la predicción en la Localización 2 es de un viento de

0.657+1.045x5=5.88 m/s

Ejemplo La variable V1 tiene la velocidad del viento registrada en la localización 1, mientras que la variable V2 tiene las velocidades registradas en esos mismos instantes en la localización 2. Se tiene un total de 115 pares de medidas