Tema 2: Introducci´on a la Estad´ıstica Descriptiva · 2011. 3. 14. · Estad´ıstica I. ECO/...

24
1 Tema 2: Introducci´on a la Estad´ ıstica Descriptiva Contenidos ¿Qu´ e es la Estad´ ıstica? - Definici´ on. Palabras clave: poblaci´ on, par´ ametro, muestra, estad´ ıstico, tama˜ no poblacional, tama˜ no muestral, individuos, objetos. Tipos de variables: categ´ orica (ordinal, nominal) y num´ erica (discreta, continua). ¿Por qu´ e una muestra? Definici´ on de muestra aleatoria simple. Frecuencias y distribuci´ on/tabla de frecuencias: absoluta, absoluta acumulada, relativa, relativa acumulada. Propiedades. Estad´ ıstica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 2 2 Contenidos Gr´ aficas para datoscateg´oricos (diagrama de barras, diagrama de sectores). Gr´ aficas para datos num´ ericos (histograma, pol´ ıgono de frecuencias, diagrama de cajas). Medidas num´ ericas para describir: tendencia central (media, mediana, moda) variaci´ on (varianza, desviaci´ on t´ ıpica, cuasi-varianza y cuasi-desviaci´ on ıpica, rango, RIC, coeficiente de variaci´ on) otros (cuartiles, percentiles) Estad´ ıstica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 2

Transcript of Tema 2: Introducci´on a la Estad´ıstica Descriptiva · 2011. 3. 14. · Estad´ıstica I. ECO/...

Page 1: Tema 2: Introducci´on a la Estad´ıstica Descriptiva · 2011. 3. 14. · Estad´ıstica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 2 4 Definicio´n de Estad´ıstica

1

Tema 2: Introduccion a la Estadıstica Descriptiva

Contenidos

◮ ¿Que es la Estadıstica? - Definicion.

◮ Palabras clave: poblacion, parametro, muestra, estadıstico, tamanopoblacional, tamano muestral, individuos, objetos.

◮ Tipos de variables: categorica (ordinal, nominal) y numerica (discreta,continua).

◮ ¿Por que una muestra? Definicion de muestra aleatoria simple.

◮ Frecuencias y distribucion/tabla de frecuencias: absoluta, absolutaacumulada, relativa, relativa acumulada. Propiedades.

Estadıstica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 2

2

Contenidos

◮ Graficas para datos categoricos (diagrama de barras, diagrama desectores).

◮ Graficas para datos numericos (histograma, polıgono de frecuencias,diagrama de cajas).

◮ Medidas numericas para describir:◮ tendencia central (media, mediana, moda)◮ variacion (varianza, desviacion tıpica, cuasi-varianza y cuasi-desviacion

tıpica, rango, RIC, coeficiente de variacion)◮ otros (cuartiles, percentiles)

Estadıstica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 2

Page 2: Tema 2: Introducci´on a la Estad´ıstica Descriptiva · 2011. 3. 14. · Estad´ıstica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 2 4 Definicio´n de Estad´ıstica

3

Lecturas recomendadas◮ Pena, D., Romo, J., Introduccion a la Estadıstica para las Ciencias

Sociales.◮ Capıtulos 1, 2, 3, 4, 5.

◮ Newbold, P. Estadıstica para los Negocios y la Economıa (2009).◮ Capıtulo 1◮ Capıtulo 2.

Estadıstica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 2

4

Definicion de Estadıstica

Definicion. La Estadıstica es la ciencia que trata de:

◮ recoger, organizar, resumir, presentar, interpretar y procesar datos paraconvertir los datos en informacion

⇐ Estadıstica Descriptiva

◮ predicciones, pronosticos, estimacion

⇐ Inferencia Estadıstica

• ¿En que ocasiones escuchaste/viste la palabra estadıstica?◦ Resumenes de partidos de futbol/tenis◦ Tasas de desempleo, numero de heridos en accidentes de coche• ¡La estadıstica es mucho mas que porcentajes y numeros!

Estadıstica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 2

Page 3: Tema 2: Introducci´on a la Estad´ıstica Descriptiva · 2011. 3. 14. · Estad´ıstica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 2 4 Definicio´n de Estad´ıstica

5

Palabras clave

◮ Una poblacion es la coleccion completa de todos losıtems/individuos/objetos/sujetos de interes, o bajo investigacion.

N representa el tamano poblacional

◮ Una muestra es un subconjunto de la poblacion, elegida habitualmentepara investigar las propiedades de la poblacion subyacente.n representa el tamano muestral

◮ Un parametro es una caracterıstica especıfica de una poblacion (fija).

◮ Un estadıstico es una caracterıstica especıfica de una muestra (varıa demuestra en muestra).

◮ Una variable es una caracterıstica de un individuo.

Estadıstica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 2

6

Ejemplos

◮ Pob todos los estudiantes de la UC3M. Variable: altura ∈ (0,∞)

Param: Altura media de todos los estudiantes. Estadıstico: Altura media delos estudiantes muestreados.

◮ Pob: todos los peces de un lago. Variable: tamano ∈ {G ,M,P}Param: Numero de peces pequenos en todo el lago. Estadıstico: Numero depeces pequenos capturados.

◮ Pob: todos los pacientes del Hospital de Getafe. Variable: grupo sanguıneo ∈{A, B, AB, O}Param: Porcentaje de grupo sanguıneo AB entre todos los pacientes.

Estadıstico: porcentaje de grupo sanguıneo AB entre los pacientesmuestreados.

◮ Pob: todas las bombillas de la marca Acme. Variable: tiempo de vida en dıas∈ {0, 1, 2, . . .}.Param: Variacion en el tiempo de vida de todas las bombillas. Estadıstico:Variacion en el tiempo de vida de las bombillas muestreadas.

Estadıstica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 2

Page 4: Tema 2: Introducci´on a la Estad´ıstica Descriptiva · 2011. 3. 14. · Estad´ıstica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 2 4 Definicio´n de Estad´ıstica

7

Tipos de datos

Datos (Variables)

ւ ցCategoricos (Cualitativos) Numericos (Cuantitativos)

ւ ց ւ ցOrdinales Nominales Discretos Continuosclases ordenables sin orden natural entero no enteroEjemplo Ejemplo Ejemplo Ejemplo

Talla de ropa: Grupo sanguıneo: no de hijos: Altura:G>M>P A,B,AB,O 0,1,2,. . . 1.55cm, 1.71cm

Notacion: Se usan en general las letras X ,Y ,Z . Ejemplo:

X = altura en cm (letras mayusculas en definicion)

x = 1.55 (letras minusculas para valores especıficos)

x1 = 1,55, x2 = 1,71 (con mas de uno, se anaden subındices)

Estadıstica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 2

8

¿Por que se usa una muestra?

En la practica no estudiamos la poblacion porque:

◮ Podemos destruir la poblacion (ej. tiempo de vida de una bombilla).

◮ La poblacion puede existir como concepto pero no en la realidad (ej.poblacion de ıtems defectuosos).

◮ Imposible de realizar (ej. poblacion de todos los peces del mar).

◮ Demasiado caro.

◮ Tiempo de ejecucion excesivo.

Estadıstica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 2

Page 5: Tema 2: Introducci´on a la Estad´ıstica Descriptiva · 2011. 3. 14. · Estad´ıstica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 2 4 Definicio´n de Estad´ıstica

9

Definicion de muestra aleatoria simple (m.a.s.)

Definicion. Una muestra aleatoria simple es una parte de la poblacion obtenidade forma que,

◮ cada miembro de la poblacion se elige estrictamente al azar,

◮ cada miembro tiene la misma probabilidad de ser elegido, y

◮ cada posible muestra de n objetos es igualmente probable de ser elegida.

Notacion: Una muestra de tamano n obtenida de una variable X significa que:

◮ Tenemos n individuos seleccionados aleatoriamente de una poblacion.

◮ Para cada uno de los individuos conocemos el valor de la variable X .

◮ Si X es categorica o discreta, es conveniente escribir los diferentes valoresmuestrales que toma X como x1, x2, . . . , xk , k ≤ n (ordenados desde elmenor al mayor, salvo que X sea nominal).

Estadıstica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 2

10

Frecuencias y distribuciones de frecuencias

Definicion. Una distribucion de frecuencias es

◮ una lista o una tabla . . .

◮ conteniendo agrupaciones de clases (categorıas o intervalos donde tomanvalor los datos) . . .

◮ y las correspondientes frecuencias mediante las cuales los datos tomanvalor dentro de cada clase o categorıa.

Frecuencias:

◮ frecuencia absoluta es el (numero de veces que el valor aparece en lamuestra).

◮ frecuencia relativa es el (proporcion de veces que el valor aparece en lamuestra).

Estadıstica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 2

Page 6: Tema 2: Introducci´on a la Estad´ıstica Descriptiva · 2011. 3. 14. · Estad´ıstica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 2 4 Definicio´n de Estad´ıstica

11

¿Por que usar distribuciones de frecuencias?

◮ Una distribucion de frecuencias es una forma de resumir los datos.

◮ La distribucion condensa los datos primarios en una forma mas util . . .

◮ y permite una interpretacion visual rapida de los datos.

Estadıstica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 2

12

Agrupaciones por clases: datos categoricos y discretos

Frec. Frec.Frec. Frec. Absol. Relat.

Clase, xi Absol., ni Relat., fi Acumul., Ni Acumul., Fi

x1 n1 f1 =n1n

N1 = n1 F1 = f1x2 n2 f2 =

n2n

N2 = N1 + n2 F2 = F1 + f2...

......

......

xk nk fk = nkn

Nk = n Fk = 1Total n 1 vacıo vacıo

Nota:

◮ ni = numero de xi en la muestra, fi =numero de xi

n

◮ Ni = Ni−1 + ni , Fi = Fi−1 + fi

◮ 0 ≤ fi ,Fi ≤ 1

◮ Fi y Ni no tienen sentido para variables categoricas nominales

Estadıstica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 2

Page 7: Tema 2: Introducci´on a la Estad´ıstica Descriptiva · 2011. 3. 14. · Estad´ıstica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 2 4 Definicio´n de Estad´ıstica

13

Agrupaciones por clases

Ejemplo 1: Los datos inferiores muestran el grupo sanguıneo al quepertenecen los 40 individuos de una muestra.

AB , A, B , O, A, A, A, B , O, AB ,B , O, B , B , B , A, A, A, AB , B ,

O, A, A, A, AB , AB ,O, B , B , AB ,O, B , O, O, A, A, O, B , AB , AB

◮ ¿Que tipo de variable es grupo sanguıneo? Obten la distribucion defrecuencias de los datos.

◮ ¿Que porcentaje de la gente de la muestra pertenece al grupo sanguıneoA?

◮ ¿Que porcentaje de la gente de la muestra pertenece a un gruposanguıneo diferente de O?

Estadıstica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 2

14

Agrupaciones por clases

Ejemplo 1 cont.:

◮ Categorica, nominal con 4 clases diferentes. La distribucion de frecuenciases:

Frecuencia FrecuenciaClase Absoluta Relativa

A 12 0.300B 11 0.275

AB 8 0.200O 9 0.225

Total 40 1

◮ 30%

◮ 100%− 22,5% = 77,5%

Estadıstica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 2

Page 8: Tema 2: Introducci´on a la Estad´ıstica Descriptiva · 2011. 3. 14. · Estad´ıstica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 2 4 Definicio´n de Estad´ıstica

15

Agrupaciones por clases

Ejemplo 2: La tabla inferior muestra diferentes niveles de satisfaccion(I=insatisfecho, M=muy, S=satisfecho) en relacion a 901 empleados.

FrecuenciaClase Absoluta

MI 62I 108S 319

MS 412Total 901

◮ ¿Que tipo de variable se esta estudiando? Obten la distribucion defrecuencias de los datos.

◮ ¿Que porcentaje de la gente muestreada esta satisfecha?

◮ ¿Cuantos individuos estan insatisfechos o peor? ¿En%?

◮ ¿Cuantos individuos estan al menos satisfechos? ¿En%?

Estadıstica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 2

16

Agrupaciones por clases

Ejemplo 2 cont.:

◮ Categorica, ordinal con 4 clases diferentes. La distribucion de frecuenciases:

Frecuencia FrecuenciaFrecuencia Frecuencia Absoluta Relativa

Clase Absoluta Relativa Acumulada AcumuladaMI 62 0.07 62 0.07I 108 0.12 170 0.19S 319 0.35 489 0.54

MS 412 0.46 901 1Total 901 1

◮ 35%

◮ 170, 19%

◮ 319 + 412 = 731 o 901− 170 = 731, 35% + 46% = 81%o 100%− 19% = 81%

Estadıstica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 2

Page 9: Tema 2: Introducci´on a la Estad´ıstica Descriptiva · 2011. 3. 14. · Estad´ıstica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 2 4 Definicio´n de Estad´ıstica

17

Agrupaciones por clasesEjemplo 3: De entre las plantas que han sido tratadas con un nuevo pesticida,se seleccionaron 50 para evaluar el comportamiento del nuevo pesticida. Encada una de las plantas muestreadas se conto el numero de hojas atacadas porun hongo. El resultado se muestra a continuacion.

Frecuenciaxi Absoluta0 61 102 123 84 55 46 38 1

10 1Total 50

Estadıstica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 2

18

Agrupaciones por clases

Ejemplo 3 cont.:

◮ ¿Que puedes decir acerca de la variable en estudio? Obten su distribucionde frecuencias.

◮ ¿Que porcentaje de las plantas muestreadas tuvo solo 3 hojas atacadas?

◮ ¿Cuantas plantas muestreadas tuvieron no mas de 3 hojas atacadas?

◮ ¿Cuantas plantas muestreadas tuvieron al menos 6 hojas atacadas?

◮ ¿Que porcentaje de las plantas muestreadas tuvo entre 3 y 5 hojasatacadas?

◮ ¿Que porcentaje de las plantas muestreadas tuvo al menos 8 hojasatacadas?

◮ ¿Que porcentaje de las plantas muestreadas tuvo a lo sumo 2 hojasatacadas?

Estadıstica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 2

Page 10: Tema 2: Introducci´on a la Estad´ıstica Descriptiva · 2011. 3. 14. · Estad´ıstica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 2 4 Definicio´n de Estad´ıstica

19

Agrupaciones por clases

Ejemplo 3 cont.:

◮ Numerica, discreta con 9 valores diferentes. La distribucion de frecuenciases:

Frecuencia FrecuenciaFrecuencia Frecuencia Absoluta Relativa

xi Absoluta Relativa Acumulada Acumulada0 6 0.12 6 0.121 10 0.20 16 0.322 12 0.24 28 0.563 8 0.16 36 0.724 5 0.10 41 0.825 4 0.08 45 0.906 3 0.06 48 0.968 1 0.02 49 0.98

10 1 0.02 50 1Total 50 1

Estadıstica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 2

20

Agrupaciones por clases

Ejemplo 3 cont.:

◮ 16%

◮ 36

◮ 3 + 1 + 1 o 50− 45 = 5

◮ 16% + 10% + 8% = 34% o (8 + 5 + 4)/50 = 34%

◮ 2% + 2% = 4% o 100%− 96% = 4%

◮ 56%

Estadıstica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 2

Page 11: Tema 2: Introducci´on a la Estad´ıstica Descriptiva · 2011. 3. 14. · Estad´ıstica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 2 4 Definicio´n de Estad´ıstica

21

Agrupaciones por clases que son intervalos: datoscontinuos (y discretos)

Intervalo Marca de clase

[li−1, li ) xi =li+li−1

2 ni fi Ni Fi

[l0, l1) x1 n1 f1 N1 F1

[l1, l2) x2 n2 f2 N2 F2

......

......

......

[lk−1, lk) xk nk fk n 1Total n 1 vacıo vacıo

Nota:

◮ Se incluye el extremo izquierdo, pero se excluye el extremo derecho(convencion tıpica).

◮ Es posible aplicar la convencion en sentido opuesto - verifica su definicionen el software.

◮ Util para tabular datos discretos si X toma muchos valores diferentes.

Estadıstica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 2

22

Agrupaciones por clases que son intervalos: datoscontinuos (y discretos)

◮ Muy frecuentemente los intervalos tomados como clases poseen la mismaamplitud.

◮ Determinar la amplitud a para cada intervalo mediante

a =numero mayor - numero menor

numero de intervalos deseados

◮ ¿Cuantos intervalos? Aproximadamente entre 5 y 20. Mas concretamente:◮ k ≈ √n si n es pequeno.◮ k ≈ 1 + 3,22 log(n) si n es grande.

◮ Los intervalos nunca se solapan.

◮ Redondea la amplitud del intervalo para obtener los extremos de losintervalos deseados.

Estadıstica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 2

Page 12: Tema 2: Introducci´on a la Estad´ıstica Descriptiva · 2011. 3. 14. · Estad´ıstica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 2 4 Definicio´n de Estad´ıstica

23

Agrupaciones por clases que son intervalos: datoscontinuos (y discretos)Ejemplo 4: Un fabricante de aislantes selecciona al azar 20 dıas de invierno yanota la temperatura mas elevada del dıa (en grados Fahrenheit)

24, 35, 17, 21, 24, 37, 26, 46, 58, 30,32, 13, 12, 38, 41, 43, 44, 27, 53, 27

Obten la distribucion de frecuencias de los datos.

◮ Se ordenan los datos primarios en orden ascendente: 12, 13, 17, 21, 24, 24,26, 27, 27, 30, 32, 35, 37, 38, 41, 43, 44, 46, 53, 58

◮ Se obtiene el rango (valor mayor – valor menor): 58− 12 = 46

◮ Se selecciona el numero de clases: es decir k = 5

◮ Se calcula la amplitud de los intervalos: 10 (46/5⇒ redondeo).

◮ Se determinan los extremos: 10 pero menor que 20, 20 pero menor que30, etc.

◮ Se cuentan las observaciones que corresponden a cada clase.

Estadıstica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 2

24

Agrupaciones por clases que son intervalos: datoscontinuos (y discretos)Ejemplo 4 cont.:

Intervalo Marca de clase ni fi Ni Fi

[10, 20) 15 3 0,15 3 0,15[20, 30) 25 6 0,30 9 0,45[30, 40) 35 5 0,25 14 0,70[40, 50) 45 4 0,20 18 0,90[50, 60) 55 2 0,10 20 1Total 20 1

◮ ¿En cuantos dıas la temperatura se encontraba por debajo de 30oF?¿En%?(3 + 6 = 9, que es el 45%)

◮ ¿En cuantos dıas la temperatura se encontraba en al menos 45oF? ¿En%?(2 + 4 45−40

50−40 = 4, que es el 20%)

Estadıstica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 2

Page 13: Tema 2: Introducci´on a la Estad´ıstica Descriptiva · 2011. 3. 14. · Estad´ıstica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 2 4 Definicio´n de Estad´ıstica

25

Representacion grafica de datos

Una vez obtenida la distribucion de frecuencias de los datos, se puedendeterminar las siguientes representaciones graficas:

Categorico Numerico

⇓ ⇓• diagrama de sectores • histograma• diagrama de barras • polıgono de frecuencias

• diagrama de caja

Estadıstica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 2

26

Graficos para datos cualitativos: diagrama de sectores

Ejemplo 1: La siguiente tabla de frecuencias corresponde a los datos degrupos sanguıneos obtenidos de una muestra de 40 individuos.

Frecuencia FrecuenciaClase Absoluta Relativa

A 12 0.300B 11 0.275

AB 8 0.200O 9 0.225

Total 40 1

Estadıstica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 2

Page 14: Tema 2: Introducci´on a la Estad´ıstica Descriptiva · 2011. 3. 14. · Estad´ıstica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 2 4 Definicio´n de Estad´ıstica

27

Diagrama de sectoresEjemplo 1 cont.:

◮ Cada sector es una fraccion del total del cırculo.

◮ Los sectores estan etiquetados con los nombres de las clases.

◮ Muchos programas ordenan las clases en orden alfabetico.

◮ Aunque es vistoso, es mas complejo de leer que el diagrama de barras.

◮ Evitar los diagramas de sectores en 3D, ya que los sectores traserostienden a parecer menores que los sectores delanteros.

Estadıstica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 2

28

Graficos para datos cualitativos: diagrama de barras

Ejemplo 2: La tabla inferior muestra diferentes niveles de satisfaccion enrelacion a 901 empleados.

Frecuencia FrecuenciaFrecuencia Frecuencia Absoluta Relativa

Clase Absoluta Relativa Acumulada AcumuladaMI 62 0.07 62 0.07I 108 0.12 170 0.19S 319 0.35 489 0.54

MS 412 0.46 901 1Total 901 1

Estadıstica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 2

Page 15: Tema 2: Introducci´on a la Estad´ıstica Descriptiva · 2011. 3. 14. · Estad´ıstica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 2 4 Definicio´n de Estad´ıstica

29

Diagrama de barrasEjemplo 2 cont.:

◮ Las barras tienen la misma amplitud y son equidistantes, con alturascorrespondientes a las frecuencias (absolutas).

◮ Existen huecos entre las barras.

◮ Las barras estan etiquetadas con los nombres de las clases.

◮ Muchos programas ordenan las clases en orden alfabetico.

.

Estadıstica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 2

30

Diagrama de barras◮ Los diagramas de barras pueden construirse tambien para datos discretos

si no existen demasiados valores diferentes.◮ Este es el diagrama de barras para el Ejemplo 3 del Tema 1, donde se

consideraba el numero de hojas infectadas por un hongo en una muestrade 50 plantas.

0 1 2 3 4 5 6 7 8 9 10

FR

EC

UE

NC

IAS

02

46

810

12

Estadıstica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 2

Page 16: Tema 2: Introducci´on a la Estad´ıstica Descriptiva · 2011. 3. 14. · Estad´ıstica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 2 4 Definicio´n de Estad´ıstica

31

Graficos para datos cuantitativos: histograma y polıgonode frecuencias

Ejemplo 4: La distribucion de frecuencias de la temperatura mas alta del dıa(en grados oF) tomada en 20 dıas de invierno es como sigue:

Intervalo Marca de clase ni fi Ni Fi

[10, 20) 15 3 0,15 3 0,15[20, 30) 25 6 0,30 9 0,45[30, 40) 35 5 0,25 14 0,70[40, 50) 45 4 0,20 18 0,90[50, 60) 15 2 0,10 20 1Total 20 1

Estadıstica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 2

32

Histograma y polıgono de frecuencias◮ No hay huecos entre las barras/cajas.◮ Amplitud de cajas ≡ amplitud de intervalos (identicos) y los lımites de las

clases se marcan en el eje horizontal.◮ Alturas de cajas ≡ frecuencias (aquı, absoluta).◮ Las areas de cajas son proporcionales a las frecuencias.

Estadıstica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 2

Page 17: Tema 2: Introducci´on a la Estad´ıstica Descriptiva · 2011. 3. 14. · Estad´ıstica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 2 4 Definicio´n de Estad´ıstica

33

Histogramas de area 1 (sobre una escala de densidad)◮ Amplitud de cajas ≡ amplitud de intervalos (no necesariamente identicos).

◮ alturas de cajas = fili−li−1

◮ areas de cajas = fi

Estadıstica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 2

34

Descripcion numerica de datos

Centro Variacion Otros

⇓ ⇓ ⇓• media • rango • cuartiles• mediana • rango intercuartılico • percentiles• moda • varianza

• desviacion tıpica• coef. de variacion

Nueva notacion:n∑

i=1

xi = x1 + x2 + . . .+ xn

(∑

: suma, i = 1: el lımite inferior, n: el lımite superior, xi : ejemplo de formuladependiente de i)Ejemplo:

3∑

i=−1

i2 = (−1)2 + 02 + 12 + 22 + 32 = 15

Estadıstica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 2

Page 18: Tema 2: Introducci´on a la Estad´ıstica Descriptiva · 2011. 3. 14. · Estad´ıstica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 2 4 Definicio´n de Estad´ıstica

35

Tendencia central: media (aritmetica)

◮ La medida de tendencia central mas comun.

◮ Media poblacional.

µ =

∑N

i=1 xi

N=

x1 + . . .+ xN

N

◮ Media muestral

x =

∑n

i=1 xi

n=

x1 + . . .+ xn

n

◮ Si a, b (b 6= 0) son numeros reales e y = a+ bx , se tiene

y = a+ bx

◮ Afectado por valores extremos (observaciones atıpicas (outliers)).

Ejemplo: X : 3, 1, 5, 4, 2, Y : 3, 1, 5, 4, 200

x =3 + 1 + 5 + 4 + 2

5= 3 y =

3 + 1 + 5 + 4 + 200

5= 42,6!

Estadıstica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 2

36

Tendencia central: mediana◮ En la lista de observaciones ordenada, la mediana M es el numero que esta en la

mitad de la lista.

M =

{x((n+1)/2) si n impar (numero en la mitad)x(n/2)+x(n/2+1)

2if n par (promedio de los dos numeros en la mitad)

(x(1), x(2), . . . , x(n) significa que las observaciones estan ordenadas en ordencreciente, ej. x(1) = xmın, x(n) = xmax)

◮ No afectado por observaciones atıpicas (outliers)

Ejemplo: Dadas las observaciones 3, 1, 5, 4, 2 (n = 5), ordenar los datos 1,2, 3 ,4,5, eidentificar el/los numeros situados en la mitad de la lista

M = x((5+1)/2) =

3o menor︷︸︸︷x(3) = 3

Ejemplo: Dadas las observaciones 3, 1, 5, 4, 2, 0 (n = 6), ordenar los datos

0,1, 2,3 ,4,5, e identificar el/los numeros en la mitad de la lista

M =x(6/2) + x(6/2+1)

2=

el promedio del 3o y el 4o︷ ︸︸ ︷

x(3) + x(4)

2=

2 + 3

2= 2,5

Estadıstica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 2

Page 19: Tema 2: Introducci´on a la Estad´ıstica Descriptiva · 2011. 3. 14. · Estad´ıstica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 2 4 Definicio´n de Estad´ıstica

37

Tendencia central: moda

◮ El valor que aparece mas a menudo.

◮ No afectado por valores atıpicos=outliers.

◮ Utilizado tanto para datos numericos como categoricos.

◮ Puede no haber moda o puede haber mas de una moda.

Ejemplo: Dadas las observaciones 3, 1, 5, 4, 2, no hay moda

Ejemplo: Dadas las observaciones 3, 1, 5, 4, 2, 1, la moda es 1

Estadıstica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 2

38

Forma: comparacion de la media y la mediana

Tres tipos de distribuciones:

◮ Asimetrica a la izquierda Media < Mediana.

◮ Simetrica Media = Mediana.

◮ Asimetrica a la derecha Mediana < Media.LEFT−SKEWED

x <<< MSYMMETRIC

x === MRIGHT−SKEWED

M <<< x

Asimétrica Izquierda Simétrica Asimétrica Derecha

Nota: La distribucion en que esta en el centro se conoce como normal oacampanada (ver figuras)

Estadıstica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 2

Page 20: Tema 2: Introducci´on a la Estad´ıstica Descriptiva · 2011. 3. 14. · Estad´ıstica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 2 4 Definicio´n de Estad´ıstica

39

Cuartiles y percentiles

◮ Los cuartiles dividen los datos ordenados en cuatro segmentos que recogen lamisma cantidad de observaciones.

◮ El primer cuartil Q1 ocupa la posicion 14(n + 1).

◮ El segundo cuartil Q2 (= mediana) ocupa la posicion 12(n + 1).

◮ El tercer cuartil Q3 ocupa la posicion 34(n + 1).

Ejemplo: Dadas las observaciones 22, 18, 17, 16, 16, 13, 12, 21, 11 (n = 9), se ordenan

los datos 11, 12, 13 , 16, 16 , 17, 18, 21 , 22, a continuacion de identifican lasposiciones

Q1 = x(2,5) = 12,5 Q3 = 16 Q3 = x(7,5) = 19,5

◮ El p% de los datos (0 < p < 100) se encuentran por debajo o sobre el p-esimopercentil.

Ejemplo cont.: 33-esimo percentil = 13

Estadıstica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 2

40

Variacion: rango y rango intercuartılico (RIC)

◮ El rango es la medida de variacion mas simple

R = xmax − xmın

◮ Ignora la manera en que se distribuyen los datos.

◮ Sensible a observaciones atıpicas (outliers).

Ejemplo: Dadas las observaciones 3, 1, 5, 4, 2, R = 5− 1 = 4Ejemplo: Dadas las observaciones 3, 1, 5, 4, 100, R = 100− 1 = 99

◮ El rango intercuartılico (RIC) puede eliminar ciertos problemas con losdatos atıpicos (outliers). Se eliminan las observaciones de mayor valor ylas de menor valor y se calcula el rango de los 50% de los datos que seencuentran en la mitad.

RIC = 3er cuartil− 1er cuartil = Q3 − Q1

Estadıstica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 2

Page 21: Tema 2: Introducci´on a la Estad´ıstica Descriptiva · 2011. 3. 14. · Estad´ıstica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 2 4 Definicio´n de Estad´ıstica

41

Variacion: Rango intercuartılico y diagrama de cajas◮ Las observaciones atıpicas (outliers) se encuentran

◮ por debajo de Q1 − 1,5 · RIC◮ por encima de Q3 + 1,5 · RIC

◮ Para observaciones atıpicas (outliers) extremos, reemplazar 1.5 por 3 en ladefinicion anterior

25% 25% 25% 25%

12 24 31 42 58

xmin Q1 ((Q2))MEDIANA

Q3 xmax

RI=18

Estadıstica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 2

42

Medida de variacion: varianza◮ Promedio de cuadrados de las desviaciones de valores a la media.

◮ Varianza poblacional.

σ2 =

∑N

i=1 (xi − µ)2

N◮ Varianza muestral

σ2 =

∑n

i=1 (xi − x)2

n=

mas rapido de calcular︷ ︸︸ ︷∑n

i=1 x2i − n(x)2

n⇐ dividido por n

◮ Cuasi-varianza muestral (varianza muestral corregida)

s2 =

∑n

i=1 (xi − x)2

n − 1=

∑n

i=1 x2i − n(x)2

n − 1⇐ dividido por n − 1

◮ σ2 es sesgado, mientras s2 es insesgado (Tema 5). Su relacion es

σ2 =

n − 1

ns2

◮ Si a, b (b 6= 0) son numeros reales e y = a+ bx , se tiene s2y = b2s2x

Estadıstica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 2

Page 22: Tema 2: Introducci´on a la Estad´ıstica Descriptiva · 2011. 3. 14. · Estad´ıstica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 2 4 Definicio´n de Estad´ıstica

43

Medida de variacion: desviacion tıpica (DT)

◮ La medida de dispersion mas comunmente utilizada.

◮ La desviacion tıpica poblacional, la desviacion tıpica muestral y lacuasi-desviacion tıpica muestral son respectivamente

σ =√σ2 σ =

√σ2 s =

√s2

◮ Muestra la variacion sobre la media.

◮ Posee las misma unidades que los datos, mientras que para la varianza setienen unidades2

◮ Varianza y DT se encuentran ambos afectados por observaciones atıpicas(outliers).

Estadıstica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 2

44

Calculo de la varianza y la desviacion tıpicaEjemplo: X : 11, 12, 13, 16, 16, 17, 18, 21, Y : 14, 15, 15, 15, 16, 16, 16, 17,Z : 11, 11, 11, 12, 19, 20, 20, 20

x =124

8= 15,5 y =

124

8= 15,5 z =

124

8= 15,5

n∑

i=1

x2i = 112 + 122 + . . .+ 212 = 2000

n∑

i=1

y2i = 142 + 152 + . . .+ 172 = 1928

n∑

i=1

z2i = 112 + 112 + . . .+ 202 = 2068

s2x =

∑n

i=1 x2i − n(x)2

n − 1=

2000− 8(15,5)2

8− 1=

78

7= 11,1429 ⇒ sx = 3,3381

s2y =

1928− 8(15,5)2

8− 1=

6

7= 0,8571 ⇒ sy = 0,9258

s2z =

2068− 8(15,5)2

8− 1=

146

7= 20,8571 ⇒ sz = 4,5670

Estadıstica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 2

Page 23: Tema 2: Introducci´on a la Estad´ıstica Descriptiva · 2011. 3. 14. · Estad´ıstica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 2 4 Definicio´n de Estad´ıstica

45

Comparacion de desviaciones tıpicasEjemplo cont.: X : 11, 12, 13, 16, 16, 17, 18, 21,Y : 14, 15, 15, 15, 16, 16, 16, 17, Z : 11, 11, 11, 12, 19, 20, 20, 20

● ● ●

● ●

● ● ● ●

● ● ●

11 12 13 14 15 16 17 18 19 20 21

11 12 13 14 15 16 17 18 19 20 21

11 12 13 14 15 16 17 18 19 20 21

z == 15.5 sz == 4.6

y == 15.5 sy == 0.9

x == 15.5 sx == 3.3

Estadıstica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 2

46

Regla empırica

Si la distribucion de los datos es acampanada (normal), es decir, simetrica ycon colas suaves, se verifica:

◮ 68% de los datos en (x − 1s, x + 1s)

◮ 95% de los datos en (x − 2s, x + 2s)

◮ 99.7% de los datos en (x − 3s, x + 3s)

Nota: Esta regla se conoce tambien como la regla del 68-95-99.7

Ejemplo: Sabemos que para una muestra de 100 observaciones, la media es 40y la cuasi-desviacion tıpica es 5. Asumiendo que los datos poseen distribucionacampanada, proporciona los lımites del intervalo que captura el 95% de lasobservaciones.

95% de xi ’s estan en: (x ± 2s) = (40± 2(5)) = (30, 50)

Estadıstica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 2

Page 24: Tema 2: Introducci´on a la Estad´ıstica Descriptiva · 2011. 3. 14. · Estad´ıstica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 2 4 Definicio´n de Estad´ıstica

47

Medidas de variacion: coeficiente de variacion (CV)

◮ Es una medida relativa de variacion que se define como

CV =s

|x |

◮ Es un numero sin unidad (se expresa a veces en%’s).

◮ Muestra la variacion con respecto a la media.

Ejemplo: Stock A: Precio promedio el ano anterior = 50, Desviacion tıpica = 5Stock B: Precio promedio el ano anterior = 100, Desviacion tıpica = 5

CVA =5

50= 0,10 CVB =

5

100= 0,05

Ambos stocks poseen la misma DT, pero el stock B es menos variable en relacion a

la media de su precio.

Estadıstica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 2