Capítulo 33 - crodzmate3026.files.wordpress.com · –la moda 3-2 . La media aritmética de una...

49
Capítulo Resumir datos numéricamente © 2010 Pearson Prentice Hall. All rights reserved 3 3

Transcript of Capítulo 33 - crodzmate3026.files.wordpress.com · –la moda 3-2 . La media aritmética de una...

Capítulo

Resumir datos

numéricamente

© 2010 Pearson Prentice Hall. All rights reserved

3 3

Medidas de tendencia central

• Una medida de tendencia central

describe numéricamente el valor promedio

o dato típico de un conjunto de datos.

• Es un dato representativo de un grupo de

datos.

• Discutimos las medidas de tendencia

central más ampliamente utilizados:

– la media

– la mediana

– la moda 3-2

La media aritmética de una variable se calcula

sumando todos los valores de la variable en el

conjunto de datos y dividiendo la suma entre el

número total de observaciones.

3-3 © 2010 Pearson Prentice Hall. All rights reserved

La media aritmética de la población se calcula

utilizando todos los individuos de la población.

La media aritmética de la población es un parámetro.

La media aritmética de la población se denota 𝜇 (se

pronunica miu).

3-4 © 2010 Pearson Prentice Hall. All rights reserved

La media aritmética de la muestra se computa

utilizando los datos de la muestra.

La media aritmética de la muestra es una estadística.

La media aritmética de la muestra se denota

𝑥 . (𝑠𝑒 𝑙𝑒𝑒 𝑥 𝑏𝑎𝑟𝑟𝑎)

Si x1, x2, …, xN son las N observaciones de una

variable de la población, entonces la media de la

población, µ, esta dada por

1 2 Nx x x

N

3-5 © 2010 Pearson Prentice Hall. All rights reserved

Si x1, x2, …, xn son las n observaciones de la muestra,

entonces la media de la muestra, 𝑥 , esta dada por

1 2 nx x x

xn

ó

ó 𝑥 = 𝑥𝑖𝑛

ACTIVIDAD Calcular la media de una población y la media de

varias muestras.

Los siguientes datos representan la duración del viaje al

trabajo (en minutos) para los diez empleados de una

empresa.

23, 36, 23, 18, 5, 26, 43, 45, 65, 75

(a) Calcule la 𝜇 para estos datos.

(b)Tome una muestra aleatoria simple de n = 3

empleados. Calcule 𝑥 .

(c) Tome una segunda muestra aleatoria simple de n = 3

empleados. Calcule 𝑥 para esta segunda muestra.

3-6 © 2010 Pearson Prentice Hall. All rights reserved

ACTIVIDAD Calcular la media de una población y la

media de varias muestras.

(a)

3-7 © 2010 Pearson Prentice Hall. All rights reserved

EXAMPLE Computing a Population Mean and a Sample

Mean

(b) Tome una muestra aleatoria simple de n = 3 empleados.

Calcule 𝑥 . Tome una segunda muestra aleatoria simple de n =

3 empleados. Calcule 𝑥 para esta segunda muestra.

3-8

EXAMPLE Computing a Population Mean and a Sample

Mean

b) Tome una segunda muestra aleatoria simple de n = 3

empleados. Calcule 𝑥 para esta segunda muestra. Haga lo

mismo para una segunda muestra aleatoria simple de n = 3.

3-9

𝑥 = 𝑥𝑖𝑛

La mediana de una variable es el valor que se

encuentra en el medio de los datos cuando éstos

se han ordenado de forma ascendente.

Utilizamos M para representar a la mediana.

3-10 © 2010 Pearson Prentice Hall. All rights reserved

3-11 © 2010 Pearson Prentice Hall. All rights reserved

Pasos para determinar la mediana de un

conjunto de datos

Paso 1: Organizar los datos en orden ascendente.

Paso 2: Determinar el número de observaciones, n.

Paso 3: Determinar la observación en el centro del

conjunto de datos.

• Si el número de observaciones es impar, la mediana

es el valor que está exactamente en el medio del

conjunto.

Valor que se encuentra en la posición 𝑛+1

2

• Si el número de observaciones es par, entonces la

mediana es la media de la

dos observaciones intermedias del conjunto.

Hallar la media de los valores en posiciones

𝑛

2 𝑦

𝑛

2+ 1

EJEMPLO Calcular la mediana de un conjunto de datos

con número impar de observaciones

Los siguientes datos representan los pulsos (latidos por

minuto) de nueve estudiantes matriculados en una

sección de Estadística de alguna universidad.

76, 60, 60, 81, 72, 89, 89, 68, 73

Determine la mediana del conjunto.

3-12

EJEMPLO Calcular la mediana de un conjunto de datos

con número par de observaciones

Supongamos que llega un estudiante tarde a la clase. El

pulso de este estudiante es 80. Determine la mediana

del conjunto “nuevo”.

76, 60, 60, 81, 72, 89, 89, 68, 73, 80

EJEMPLO Medidas resistentes o robustas

Los siguientes datos representan la duración del viaje al trabajo

(en minutos) para los diez empleados de una empresa.

5, 18, 23, 23, 26, 36, 43, 45, 65, 75

Supongamos que se contrata a un nuevo empleado y este tiene

que hacer un viaje de 180 minutos. ¿Cuál es el impacto

sobre el valor de la media y la mediana de este nuevo

conjunto?

Media antes: 35.9 minutos

Mediana antes: 31 minutos

Media después:

Mediana después: 3-14

A numerical summary of data is said to be resistant if

extreme values (very large or small) relative to the data do

not affect its value substantially.

Un resumen numérico de un conjunto de datos se dice que

es resistente si los valores extremos (muy grandes o muy

pequeños) relativos a los datos, no afecta, sustancialmente, a

su valor.

La mediana es una medida más robusta o resistente que

la media.

Cuando los datos son asimétricos (sesgados hacia izquierda o

derecha) debemos usar la mediana como medida de

tendencia central

3-15 © 2010 Pearson Prentice Hall. All rights reserved

Medidas resistentes o robustas

3-16 © 2010 Pearson Prentice Hall. All rights reserved

Relación entre la media, mediana y la forma de la distribución de

frecuencias

Sesgado hacia la izquierda

(sesgo negativo)

La media es sustancialmente menor

que la mediana

Simétrica

La media es aproximadamente igual

a la mediana

Sesgado hacia la izquierda

(sesgo negativo)

La media es sustancialmente mayor

que la mediana

EJEMPLO Describir la forma de una distribución

Los siguientes datos representan los precios de venta de

casas en Lincoln, New Hampshire.

Source: http://www.homeseekers.com

79,995 128,950 149,900 189,900

99,899 130,950 151,350 203,950

105,200 131,800 154,900 217,500

111,000 132,300 159,900 260,000

120,000 134,950 163,300 284,900

121,700 135,500 165,000 299,900

125,950 138,500 174,850 309,900

126,900 147,500 180,000 349,900

3-17 © 2010 Pearson Prentice Hall. All rights reserved

1. Encuentre la media y la mediana de los datos sobre precios

de venta de casas.

3-18

EJEMPLO Describir la forma de una distribución (cont.)

1. Encuentre la media y la mediana de los datos sobre

precios de venta de casas.

EJEMPLO Describir la forma de una distribución (cont.)

3-20 © 2010 Pearson Prentice Hall. All rights reserved

1. Encuentre la media y la mediana de los datos sobre precios

de venta de casas.

2. Utilice la media y la mediana para identificar la forma de

la distribución.

3. Verifique el resultado dibujando un histograma de los datos.

3-21

1. Usaremos 10 clases.

2. Ancho de clase

Verifique el resultado dibujando un

histograma de los datos. (cont)

3-22 © 2010 Pearson Prentice Hall. All rights reserved

Una tercera medida de tendencia central es la moda.

La moda de una variable es la observación que se produce

con mayor frecuencia.

Si no hay ninguna observación que se produce con la mayor

frecuencia, o si más de dos observaciones se producen con

la misma frecuencia decimos que el conjunto de datos NO

tiene moda.

El conjunto de datos puede tener más de un modo. En este

caso, decimos que el conjunto es bimodal.

3-23 © 2010 Pearson Prentice Hall. All rights reserved

Medidas de tendencia central (cont.)

EJEMPLO Identificar la Moda de un conjunto de datos

Los datos que siguen muestran los gobernadores

electos de Puerto Rico y el pueblo donde nacieron.

Identificar la moda.

3-24

# Nombre Pueblo de nacimiento

1 Luis Muñoz Marín San Juan

2 Roberto Sánchez Vilella Mayaguez

3 Luis A. Ferré Ponce

4 Rafael Hernández Colón Ponce

5 Carlos Romero Barceló Santurce

6 Pedro Rosselló González San Juan

7 Sila M. Calderón San Juan

8 Aníbal Acevedo Vilá Hato Rey

9 Luis Fortuño Santurce

10 Alejandro Garcia Padilla Coamo

3-25 © 2010 Pearson Prentice Hall. All rights reserved

Benjamin es dueño de una pequeña empresa de

Internet. Además de sí mismo, se emplea a otras nueve

personas. Los salarios que reciben por los empleados

se ofrecen a continuación en miles de dólares (el salario

de Benjamin es el más grande, por supuesto):

Determine la moda, la media y la mediana.

30, 60,30, 75, 50, 60, 50, 55, 45, 50, 55, 30, 70

Solución:

EJEMPLO Identificar la moda, media y mediana

3-26

30, 30,30, 45, 50, 50, 50, 55, 55, 60, 60, 70, 75

Moda:

Mediana:

Media:

EJEMPLO cont.

Medidas de dispersión

3-27 © 2010 Pearson Prentice Hall. All rights reserved

• La variación entre los valores de un conjunto de

datos se conoce como dispersión

• Cuando la dispersión es grande, los valores se

dispersan ampliamente; cuando es pequeña, están

agrupados estrechamente.

• Hay varias medidas de dispersión, entre ellas el

rango, la varianza y la desviación estándar.

• Estas medidas indican hasta qué punto las

observaciones individuales de un conjunto de datos

se dispersan o son "repartidos" en torno a su media.

Se presentan datos que describen el tiempo de espera

(en minutos) en una fila, de una muestra aleatoria

simple de 30 clientes, en dos restaurantes de comida

rápida durante la hora del almuerzo.

Para cada muestra, responda a las siguientes

preguntas.

a) ¿Cuál es la media del tiempo de espera?

b) Construya un histograma de los tiempos de espera

de cada restaurante.

c) ¿Cuál conjunto aparenta estar más disperso? ¿En

cuál fila preferirías esperar? ¿Por qué?

3-28 © 2010 Pearson Prentice Hall. All rights reserved

Exploración

1.50 0.79 1.01 1.66 0.94 0.67

2.53 1.20 1.46 0.89 0.95 0.90

1.88 2.94 1.40 1.33 1.20 0.84

3.99 1.90 1.00 1.54 0.99 0.35

0.90 1.23 0.92 1.09 1.72 2.00

3.50 0.00 0.38 0.43 1.82 3.04

0.00 0.26 0.14 0.60 2.33 2.54

1.97 0.71 2.22 4.54 0.80 0.50

0.00 0.28 0.44 1.38 0.92 1.17

3.08 2.75 0.36 3.10 2.19 0.23

Tiempo de espera en Wendy’s

Tiempo de espera en McDonald’s

3-29 © 2010 Pearson Prentice Hall. All rights reserved

3-30 © 2010 Pearson Prentice Hall. All rights reserved

Exploración (cont.)

¿Cuál conjunto aparenta estar más disperso? ¿En cuál

fila preferirías esperar? ¿Por qué?

El rango, R, de una variable es la diferencia

entre el valor máximo y mínimo de los datos.

Es decir:

Rango = R = Valor máximo – Valor mínimo

3-31 © 2010 Pearson Prentice Hall. All rights reserved

Medidas de dispersión (cont.)

EJEMPLO Determinar el rango de un conjunto de

datos

Los siguientes datos representan los tiempos de viaje (en

minutos) hacia el trabajo para siete empleados de una

empresa de desarrollo para la Web.

23, 36, 23, 18, 5, 26, 43

Determinar el rango.

3-32 © 2010 Pearson Prentice Hall. All rights reserved

La varianza poblacional de una variable es la suma de

desviaciones cuadráticas de la población alrededor de la

media poblacional, 𝜇, dividida entre el número de

observaciones en la población, N.

3-33

Medidas de dispersión (cont.)

La varianza poblacional se representa simbólicamente

por una letra minúscula del alfabeto griego, sigma, σ2

Nota: Cuando utilices la fórmula anterior, no debe redondear hasta el

último cómputo. Utilice tantos decimales como lo permite su calculadora

para evitar errores redondea.

EJEMPLO Calcular la varianza poblacional

mediante fórmula

Los siguientes datos representan los tiempos de viaje (en

minutos) hacia el trabajo para siete empleados de una empresa

de desarrollo para la Web.

23, 36, 23, 18, 5, 26, 43

Calcular la varianza poblacional para estos datos usando

Solución:

3-34 © 2010 Pearson Prentice Hall. All rights reserved

xi μ xi – μ (xi – μ)2

23 24.85714

36 24.85714

23 24.85714

18 24.85714

5 24.85714

26 24.85714

43 24.85714

3-35 © 2010 Pearson Prentice Hall. All rights reserved

EJEMPLO Calcular la varianza poblacional

mediante fórmula (cont)

• Calculemos las desviaciones y sus cuadrados

Fórmulas para varianza

3-36 © 2010 Pearson Prentice Hall. All rights reserved

EJEMPLO Calcular la varianza poblacional

mediante otra fórmula

Los siguientes datos representan los tiempos de viaje

(en minutos) hacia el trabajo para siete empleados de

una empresa de desarrollo para la Web.

23, 36, 23, 18, 5, 26, 43

Calcular la varianza poblacional para estos datos

usando la fórmula

3-37 © 2010 Pearson Prentice Hall. All rights reserved

23, 36, 23, 18, 5, 26, 43

3-38 © 2010 Pearson Prentice Hall. All rights reserved

𝑁 = 7

EJEMPLO Calcular la varianza poblacional

mediante otra fórmula (cont.)

La varianza muestral se calcula determinando la suma

de los cuadrados de las desviaciones de las

observaciones alrededor de la media muestral y

dividiendola entre n – 1.

La varianza muestral se denota s2

3-39 © 2010 Pearson Prentice Hall. All rights reserved

Varianza muestral

Nota: Siempre que una estadística sobreestima o subestima

consistentemente a un parámetro, el estadístico se conoce como

sesgado.

Para obtener una estimación sin sesgo de la varianza

poblacional, dividimos la suma de las desviaciones cuadradas

alrededor de la media entre n - 1.

3-40 © 2010 Pearson Prentice Hall. All rights reserved

EJEMPLO calcular la varianza muestral

Supongamos que hemos obtenido una muestra

aleatoria simple de los datos sobre tiempo de traslado

de los empleados del ejemplo anterior: 5, 36, 26.

Calcular la varianza muestral del tiempo de traslado.

3-41 © 2010 Pearson Prentice Hall. All rights reserved

Solución:

EJEMPLO calcular la varianza muestral (cont)

Tiempo

de

traslado,

xi

Media

muestral,

Deviación, Deviaciones

cuadradas

5 22.333

36 22.333

26 22.333

xix x

2

ix x

La desviación estándar poblacional se denota .

Se obtiene tomando la raíz cuadrada de la varianza

poblacional, de manera que

La desviación estándar muestral se denota s .

Se obtiene tomando la raíz cuadrada de la varianza

muestral, de manera que

2s s

3-43 © 2010 Pearson Prentice Hall. All rights reserved

Desviación estándar

EJEMPLO Calcular la desviación estándar

poblacional

Los siguientes datos representan los tiempos de traslado (en

minutos) hacia el trabajo para siete empleados de una empresa de

desarrollo para la Web.

23, 36, 23, 18, 5, 26, 43

Calcular la desviación estándar de la población.

3-44 © 2010 Pearson Prentice Hall. All rights reserved

EJEMPLO Calcular la desviación estándar

muestral

Use este resultado para determinar la desviación estándar

muestral.

3-45 © 2010 Pearson Prentice Hall. All rights reserved

Para la muestra aleatoria simple de los datos sobre

tiempo de traslado : 5, 36, 26, se calculó que la

varianza muestral es

𝑠2 = 250.333 minutos2

Determinar la deviación estándar para el

tiempo de espera en las filas de Wendy’s y

McDonald’s. ¿Cuál es mayor? ¿Por qué?

3-46 © 2010 Pearson Prentice Hall. All rights reserved

EJEMPLO Comparar desviación estándar de

dos conjuntos (cont.)

1. Encuentre la desviación estándar de los datos sobre

tiempo de espera .

3-47

EJEMPLO Comparar desviación estándar de

dos conjuntos (cont.)

a

1.50 0.79 1.01 1.66 0.94 0.67

2.53 1.20 1.46 0.89 0.95 0.90

1.88 2.94 1.40 1.33 1.20 0.84

3.99 1.90 1.00 1.54 0.99 0.35

0.90 1.23 0.92 1.09 1.72 2.00

3.50 0.00 0.38 0.43 1.82 3.04

0.00 0.26 0.14 0.60 2.33 2.54

1.97 0.71 2.22 4.54 0.80 0.50

0.00 0.28 0.44 1.38 0.92 1.17

3.08 2.75 0.36 3.10 2.19 0.23

Tiempo de espera en Wendy’s

Tiempo de espera en McDonald’s

3-48 © 2010 Pearson Prentice Hall. All rights reserved

Deviación estándar para el tiempo de espera

en las filas de Wendy’s y McDonald’s

Desviación estándar muestral para Wendy’s:

Desviación estándar muestral para McDonald’s:

3-49 © 2010 Pearson Prentice Hall. All rights reserved

EJEMPLO Comparar desviación estándar de

dos conjuntos (cont.)