Sesion (2013) Medidas de TC
Transcript of Sesion (2013) Medidas de TC
ESTADISTICA PARA LA INGENIERIA
Tendencia Central
Media
Mediana
Moda
Cuartiles
Media Ponderada
Medidas para resumen
numérico de los datos
Variación
Varianza
Desviación Estándar
Coeficiente de
Variación Rango
Tendencia Central
Cuartiles
Varianza
Chap 3-1 © 2013 Ing. José Luis Tupac Yupanqui A. 30/04/2013
“No comeré la media, ni la mediana, ni siquiera el primer decil.”
Chap 3-2 © 2013 Ing. José Luis Tupac Yupanqui A. 30/04/2013
Los métodos de representación gráfica proporcionan un punto de partida para el análisis de los datos. Sin
embargo, también es necesario estar familiarizado con medidas descriptivas que proveen un resumen sencillo de
un conjunto de datos.
30/04/2013 © 2013 Ing. José Luis Tupac Yupanqui A. Chap 3-3
INTRODUCCION
En este capitulo analizaremos los métodos para representar los datos con un solo valor numérico.
30/04/2013 © 2013 Ing. José Luis Tupac Yupanqui A. Chap 3-4
OBJETIVOS
El objetivo en este capitulo es: •Describir los datos a través de medidas de tendencia central y de dispersión. •Utilizar la computadora para obtener una representación grafica de los datos con un diagrama de caja.
30/04/2013 © 2013 Ing. José Luis Tupac Yupanqui A. Chap 3-5
INDICE
•Medidas de tendencia central. •Cuartiles. •Medidas de Variación - Variación
Existen 2 grandes categorías de medidas que
resumen numéricamente los datos:
Las medidas de tendencia central o de
posición
Las medidas de variabilidad o de dispersión.
Chap 3-6 © 2013 Ing. José Luis Tupac Yupanqui A. 30/04/2013
Las medidas de tendencia central describen la localización central de un conjunto de observaciones numéricas
Chap 3-7 © 2013 Ing. José Luis Tupac Yupanqui A. 30/04/2013
Las medidas de variación describen la dispersión o el grado de homogeneidad/heterogeneidad de un conjunto de datos
Chap 3-8 © 2013 Ing. José Luis Tupac Yupanqui A. 30/04/2013
Tendencia Central
Media
Mediana
Moda
Cuartiles
Media
Ponderada
Medidas para resumen
numérico de los datos
Variación
Varianza
Desviación Estándar
Coeficiente
de Variación Rango
Chap 3-9 © 2013 Ing. José Luis Tupac Yupanqui A. 30/04/2013
Medidas de Tendencia Central
n
x
x
n
i
i 1
Tendencia Central
Media Mediana Moda
Media Ponderada
Chap 3-10 © 2013 Ing. José Luis Tupac Yupanqui A. 30/04/2013
30/04/2013 © 2013 Ing. José Luis Tupac Yupanqui A. Chap 3-11
Medidas de Tendencia Central
Son aquellas que determinan los valores centrales de los datos de un experimento. Existen varios tipos de medidas de tendencia central, aquí estudiaremos la media, la mediana y la moda.
Fuente: Matus, R.; Hernández, Martha; García, E.. Estadística.
México: Instituto Politécnico Nacional, 2010. p 2. Copyright © 2010. Instituto Politécnico Nacional. All rights reserved.
Media (Media Aritmética)
La media aritmética es el valor que se obtiene al dividir
la suma total entre el número de datos.
Para n valores x1, x2,..., xn, la media es:
1 1 2
n
i
i n
XX X X
Xn n
Chap 3-12 © 2013 Ing. José Luis Tupac Yupanqui A. 30/04/2013
Media (Media Aritmética)
Es la medida de tendencia central mas utilizada
Afectada por valores extremos (Outliers)
0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 12 14
Media = 5 Media = 6
Chap 3-13 © 2013 Ing. José Luis Tupac Yupanqui A. 30/04/2013
Mediana
Es una medida robusta de la tendencia central No es afectada por valores extremos
En un conjunto de datos ordenado, la mediana es: El valor central, si n es impar El promedio de los 2 valores centrales, si n es par
0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 12 14
Mediana = 5 Mediana = 5
Chap 3-14 © 2013 Ing. José Luis Tupac Yupanqui A. 30/04/2013
Moda
Es una medida de tendencia central
Es el valor que ocurre con mayor frecuencia
No es afectado por valores extremos
Es utilizado tanto para datos numéricos como datos categóricos
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14
Moda = 9
0 1 2 3 4 5 6
Sin Moda Chap 3-15 © 2013 Ing. José Luis Tupac Yupanqui A. 30/04/2013
Moda
La moda puede no existir (ejemplo anterior) o pueden existir varias modas:
Chap 3-16 © 2013 Ing. José Luis Tupac Yupanqui A. 30/04/2013
Media Ponderada
En ciertas circunstancias no todas las observaciones tienen igual peso. En general si se tienen observaciones con valores diferentes x1, x2, …, xn con sus respectivos pesos w1, w2, …,wn, la media ponderada se calcula:
Chap 3-17 © 2013 Ing. José Luis Tupac Yupanqui A. 30/04/2013
Media Ponderada
Ejemplo: Notas MCI: 16, 18, 17, 14
50% nota prueba, 30% nota trabajo, 10% nota practica
1, 10% nota práctica 2
Promedio final:
= (5x16 + 3x18 + 17x1 + 14x1)/10
= (80 + 54 + 17 + 14)/10 = 16.5
WX
Chap 3-18 © 2013 Ing. José Luis Tupac Yupanqui A.
La Forma de la Distribución
Determina las posiciones relativas de la media, la mediana, y la moda para un conjunto de valores de datos.
Chap 3-19 © 2013 Ing. José Luis Tupac Yupanqui A.
O Distribución Positivamente
Sesgada
O Distribución Negativamente
Sesgada
El Sesgo
Es la tendencia de la distribución a acumularse a la derecha o a la izquierda .
Chap 3-20 © 2013 Ing. José Luis Tupac Yupanqui A.
Distribuciones
Chap 3-21 © 2013 Ing. José Luis Tupac Yupanqui A.
Distribución simétrica
Distribución positivamente sesgada
Distribución negativamente sesgada
© 2013 Ing. José Luis Tupac Yupanqui A. Chap 3-22
© 2013 Ing. José Luis Tupac Yupanqui A. Chap 3-23
¿Cuánto es la Moda:?
© 2013 Ing. José Luis Tupac Yupanqui A. Chap 3-24
¿Cuánto es la Moda:?
© 2013 Ing. José Luis Tupac Yupanqui A. Chap 3-25
Fuente: BCRP, SBS, Reuters y Datatec.
Elaboración: Gerencia de Información y Análisis Económico - Subgerencia de Estadísticas Macroeconómicas.
© 2013 Ing. José Luis Tupac Yupanqui A. Chap 3-26
Fuente: BCRP, SBS, Reuters y Datatec.
Elaboración: Gerencia de Información y Análisis Económico - Subgerencia de Estadísticas Macroeconómicas.
Calcular: La moda, media y mediana del Tipo de Cambio tanto en la compra y venta para el año de su elección.
Divide a los datos ordenados en 4 cuartos
Posición del i-ésimo cuartil
El segundo cuartil es la mediana de los datos.
25% 25% 25% 25%
1Q 2Q 3Q
1
4i
i nQ
Chap 3-27 © 2013 Ing. José Luis Tupac Yupanqui A. 30/04/2013
Cuartiles
Ejemplo: Determinar el primer cuartil del siguiente
conjunto de nueve datos ordenados
5.132
1512
5.24
)19(1
1
1
Q
QdePosición
11 12 15 16 16 17 18 21 22
Chap 3-28 © 2013 Ing. José Luis Tupac Yupanqui A.
Cuartiles
© 2013 Ing. José Luis Tupac Yupanqui A. Chap 3-29
Medidas de Variación
La variabilidad es inherente y estará siempre presente en todo:
• Entre productos,
• personas,
• servicios,
• procesos,
• naturaleza,
• etc.
Lo importante es intentar descubrir:
¿Qué indica esta variabilidad sobre los procesos?
¿Cuáles son las fuentes de variabilidad?
¿Cuál es la comprensión que se tiene sobre los conceptos de probabilidad y estadística para entender, estudiar y controlar la variabilidad?
Chap 3-30 © 2013 Ing. José Luis Tupac Yupanqui A.
Medidas de Variación
Sin entender la variabilidad puede suceder:
• Dificultad en separar causas comunes de causas especiales
• La comprensión del proceso es difícil
• El gerenciamiento del proceso es ineficaz
• La mejoría de la calidad es lenta
• No hay como reducir ni dimensionar las pérdidas
• El aprendizaje es lento
Sin medición no hay observación y ni posibilidad de evaluar el desempeño de los procesos en relación a:
• Exigencias de los clientes
• No se percibe donde están las oportunidades y amenazas
• No existen datos
Sin datos todos creen saber lo que está sucediendo, no hay análisis estadístico y la mejora no acontece
Chap 3-31 © 2013 Ing. José Luis Tupac Yupanqui A.
© 2013 Ing. José Luis Tupac Yupanqui A. Chap 3-32
8 14 11 9 10 12 13 Onzas
A C
B
Peso declarado en el equipaje
Media de B = Media de C
[Dispersión de B]>[Dispersión de C] Frecuencia
12 onz
Medidas de Variación
Medidas de Variación
Varianza Desviación
Estándar
Coeficiente de
Variación
Rango
Rango Intercuartil
Chap 3-33 © 2013 Ing. José Luis Tupac Yupanqui A. 30/04/2013
Medidas de Variación o Dispersión
Chap 3-34 © 2013 Ing. José Luis Tupac Yupanqui A. 30/04/2013
Una medida de ubicación, como la media o la mediana, sólo describe el centro de la información. Desde este punto de vista, es valiosa, pero no nos indica nada acerca de la extensión de los datos. Por ejemplo, si en la guía del lugar dice que el río que está más adelante tiene una profundidad promedio de 3 pies, ¿estaría dispuesto a cruzarlo a pie sin contar con información adicional? Tal vez no. Seguramente querrá saber algo acerca de la variación en la profundidad. ¿La profundidad máxima del río es 3.25 pies y la mínima es 2.75 pies? Si es así, tal vez se aventure a cruzarlo. ¿Qué sucedería si supiera que la profundidad del río varía entre 0.50 y 5.5 pies? Quizá su decisión sería no cruzar. Antes de tomar una decisión sobre cruzar el río o no, querrá información sobre la profundidad típica y la dispersión en la profundidad del río.
Medidas de Variación o Dispersión
Chap 3-35 © 2013 Ing. José Luis Tupac Yupanqui A. 30/04/2013
•Un valor menor para una medida de dispersión indica que los datos están agrupados de manera estrecha, digamos, alrededor de la media aritmética. Por tanto, la media se considera representativa de la información. •Por el contrario, una medida de dispersión alta indica que la media no es confiable. •Vea la siguiente grafica:
Medidas de Variación o Dispersión
Chap 3-36 © 2013 Ing. José Luis Tupac Yupanqui A. 30/04/2013
Los 100 empleados de Hammond Iron Works, Inc., una compañía fabricante de acero, está organizada en un histograma basado en el número de años de trabajar para la compañía. La media es 4.9 años, pero la extensión de los datos es de 6 meses a 16.8 años. La media de 4.9 años no es muy representativa de todos los empleados.
Medidas de Variación o Dispersión
Chap 3-37 © 2013 Ing. José Luis Tupac Yupanqui A. 30/04/2013
•Una segunda razón para estudiar la dispersión de un conjunto de datos es comparar la extensión en dos o más distribuciones. •Por ejemplo, supongamos que la nueva computadora PDM/3 está armada en Baton Rouge y también en Tucson. •La producción media aritmética por hora tanto en la planta de Baton Rouge como en la de Tucson es 50. •Con base en las dos medias, podríamos llegar a la conclusión de que las distribuciones de las producciones por hora son idénticas. •Sin embargo, los registros de producción durante 9 horas en ambas plantas revelan que esta conclusión no es correcta (vea la siguiente gráfica). •La producción de Baton Rouge varía de 48 a 52 ensamblajes por hora. La producción en la planta de Tucson es más errática, pues va de 40 a 60 por hora. Por tanto, la producción por hora para Baton Rouge se agrupa cerca de la media de 50; la producción por hora para Tucson es más dispersa.
Medidas de Variación o Dispersión
Chap 3-38 © 2013 Ing. José Luis Tupac Yupanqui A. 30/04/2013
Producción de computadoras por hora en las plantas de Baton Rouge y Tucson
Rango
Chap 3-39 © 2013 Ing. José Luis Tupac Yupanqui A. 30/04/2013
La medida de dispersión más sencilla es el rango. Éste es la diferencia entre los valores más alto y más bajo en el conjunto de datos. En la forma de una ecuación:
El rango se utiliza con mucha frecuencia en las aplicaciones de control de procesos estadísticos (CPE) porque es muy fácil de calcular y entender.
Consulte la Gráfica Anterior. Encuentre el rango en el número de computadoras que se producen cada hora en las plantas de Baton Rouge y Tucson. Interprete los dos rangos.
Rango
Chap 3-40 © 2013 Ing. José Luis Tupac Yupanqui A. 30/04/2013
Producción de computadoras por hora en las plantas de Baton Rouge y Tucson
El rango de la producción de computadoras por hora en la planta de Baton Rouge es 4, calculado por la diferencia entre la producción por hora más alta de 52 y la más baja de 48. El rango en la producción por hora para la planta de Tucson es 20 computadoras, calculado al restar 60 - 40. Por tanto, llegamos a la conclusión de que: (1) hay menos dispersión en la producción por hora en la planta de Baton Rouge que en la de Tucson porque el rango de 4 computadoras es menor que el rango de 20 computadoras y (2) la producción se agrupa de manera más estrecha alrededor de la media de 50 en la planta de Baton Rouge que en la de Tucson
Rango
Medida de variación
Diferencia entre el valor máximo y mínimo de un
conjunto de datos
7 8 9 10 11 12
Rango = 12 - 7 = 5
7 8 9 10 11 12
Rango = 12 - 7 = 5
Rango = Xmax - Xmin
Chap 3-41 © 2013 Ing. José Luis Tupac Yupanqui A. 30/04/2013
Rango
Ventajas:
Es fácil de calcular y sus unidades son las mismas que las de la variable.
Desventajas:
No utiliza todas las observaciones (sólo dos de ellas)
Se puede ver muy afectada por alguna observación extrema
El rango aumenta con el número de observaciones, o bien se queda igual. En cualquier caso nunca disminuye.
Ignora como los datos están distribuidos
Chap 3-42 © 2013 Ing. José Luis Tupac Yupanqui A. 30/04/2013
Rango Intercuartil
Medida de variación
Diferencia entre el tercer y primer cuartil
No es afectado por valores extremos
Ejemplo:
Pos. Q1= (11+1)/4=3
Pos. Q3= 3(11+1)/4=9
RIC = Q3 – Q1
Datos ordenados: 11 12 13 16 16 16 17 17 17 18 20
RIC = Q3 – Q1=17-13= 4
Q1 Q3
Chap 3-43 © 2013 Ing. José Luis Tupac Yupanqui A. 30/04/2013
Desviación Media
Chap 3-44 © 2013 Ing. José Luis Tupac Yupanqui A. 30/04/2013
•Un defecto del rango es que se basa sólo en dos valores, el más alto y el más bajo; no toma en cuenta todos los valores. •La desviación media sí lo hace. Mide la cantidad media por la cual los valores en una población o muestra varían de su media. •En términos de una definición:
DESVIACIÓN MEDIA. La media aritmética de los valores absolutos de las desviaciones de la media aritmética.
Desviación Media
Chap 3-45 © 2013 Ing. José Luis Tupac Yupanqui A. 30/04/2013
En términos de una fórmula: la desviación media, abreviada MD, se calcula para una muestra como sigue:
DESVIACIÓN MEDIA
donde: es el valor de cada observación. es la media aritmética de los valores. es el número de observaciones en la muestra. indica el valor absoluto.
n
xxDM
Ejemplo
Desviación Media
Chap 3-46 © 2013 Ing. José Luis Tupac Yupanqui A. 30/04/2013
Determine la desviación media e interprete los resultados. La desviación media es la media de las cantidades donde las observaciones individuales difieren de la media aritmética. Para calcular la desviación media de un conjunto de datos, empezamos por encontrar la media aritmética.
El número medio de capuchinos vendidos es 1Ó2, calculado así: (103 + 97-+ 101 + 106 + 103)/5.
A continuación, encontramos la cantidad en la cual cada observación difiere de la media.
El número de capuchinos vendidos en la tienda Starbucks del aeropuerto de Orange County entre las 4 y las 7 P . M . en una muestra de 5 días el año pasado fue: 103, 97, 101, 106 y 103.
30/04/2013 © 2013 Ing. José Luis Tupac Yupanqui A. Chap 3-47
Luego, sumamos estas diferencias, ignorando los signos y dividimos la suma entre el número de observaciones. El resultado es la cantidad media en que las observaciones difieren de la media. Un valor bajo para la desviación media indica que los datos están agrupados cerca de la media, mientras que un valor alto para la desviación media indica una mayor dispersión en la información. Éstos son los detalles de los cálculos realizados con la fórmula:
n
xxDM
30/04/2013 © 2013 Ing. José Luis Tupac Yupanqui A. Chap 3-48
n
xxDM
Varianza
Medida importante de la variación
Muestra la variabilidad de los datos alrededor de la
media
La varianza de n datos x1 x2 … xn es:
1
)(1
2
2
n
xx
S
n
i
i
Chap 3-49 © 2013 Ing. José Luis Tupac Yupanqui A. 30/04/2013
N
xn
i
i
1
2
2
)(
Varianza para una Muestra Varianza para una Población
Chap 3-50 © 2013 Ing. José Luis Tupac Yupanqui A. 30/04/2013
Ejemplo
Varianza
Desviación Estándar
Chap 3-51 © 2013 Ing. José Luis Tupac Yupanqui A. 30/04/2013
•Por lo general, la desviación estándar se utiliza como una medida para comparar la extensión en dos o más grupos de observaciones. •Por ejemplo, la desviación estándar de las cantidades quincenales invertidas en el plan de reparto de utilidades de Dupree Paint Company se calcula en $7.51. •Supongamos que estos empleados se encuentran en Georgia. Si la desviación estándar para un grupo de empleados en Texas es $10.47, y las medias son casi iguales, quiere decir que las cantidades invertidas por los empleados de Georgia no son tan dispersas como aquellas que se invierten en Texas (porque $7.51 < $10.47). •Ya que las cantidades invertidas por los empleados de Georgia se agrupan de manera más estrecha alrededor de la media, la media para los empleados de Georgia es una medida más confiable que aquella para el grupo de Texas.
Desviación Estándar
Es la medida de variabilidad mas importante
Muestra la variación alrededor de la media
Se expresa en las mismas unidades de los datos
originales
Chap 3-52 © 2013 Ing. José Luis Tupac Yupanqui A. 30/04/2013
Varianza para una Muestra Varianza para una Población
2Ss 2
Datos 3, 3, 4, 4, 5 (metros)
Chap 3-53 © 2013 Ing. José Luis Tupac Yupanqui A. 30/04/2013
Eje
rcic
io 1
30/04/2013 © 2013 Ing. José Luis Tupac Yupanqui A. Chap 3-54
Eje
rcic
io 2
30/04/2013 © 2013 Ing. José Luis Tupac Yupanqui A. Chap 3-55
Eje
rcic
io 2
30/04/2013 © 2013 Ing. José Luis Tupac Yupanqui A. Chap 3-56
Eje
rcic
io 3
Los pesos de los contenedores enviados a Irlanda son (en miles de libras):
95 103 105 110 104 105 112 90 a) ¿Cuál es el rango de los pesos? b) Calcule el peso medio aritmético. c) Calcule la desviación media de los pesos.
1) Durante la venta del fin de semana pasado en Electronic Super Store, estuvieron trabajan do cinco representantes de servicios al cliente. Los números de HDTV que vendieron estos representantes son: 5, 8, 4, 10 y 3.
2) El Departamento de Estadística de Western State University ofrece ocho secciones de es tadística básica. Los siguientes son los números de estudiantes inscritos en estas seccio nes: 34, 46, 52, 29, 41, 38, 36 y 28.
3) Dave's Automatic Door instala puertas automáticas en las cocheras. La siguiente lista indi ca el número de minutos que se necesitan para instalar una muestra de 10 puertas: 28, 32, 24, 46, 44, 40, 54, 38, 32 y 42.
4) Una muestra de ocho compañías en la industria aeroespacial participaron en una encuesta sobre la recuperación de la inversión que tuvieron el año pasado. Los resultados son (en porcentajes): 10.6, 12.6, 14.8, 18.2, 12.0, 14.8, 12.2 y 15.6.
5) Diez expertos calificaron el sabor de una pizza sushi recién creada preparada con atún, arroz y algas marinas, en una escala de 1 a 50. Las calificaciones fueron: 34, 35, 41, 28, 26, 29, 32, 36, 38 y 40.
6) Una muestra de los archivos de personal de ocho empleados de Acmé Carpet Cleaners, Inc., reveló que durante un periodo de seis meses, perdieron los siguientes días debido a enfermedades: 2, 0, 6, 3, 10, 4, 1 y 2.
Para los siguientes ejercicios calcule: (a) el rango de los pesos, (b) la media aritmética y (c) la desviación media, e interprete el rango y la desviación media.
30/04/2013 © 2013 Ing. José Luis Tupac Yupanqui A. Chap 3-57
Pro
pu
esto
s
30/04/2013 © 2013 Ing. José Luis Tupac Yupanqui A. Chap 3-58
Eje
rcic
io 4
30/04/2013 © 2013 Ing. José Luis Tupac Yupanqui A. Chap 3-59
Eje
rcic
io 5
La oficina en Filadelfia de Price Waterhouse Coopers LLP contrató cinco aprendices de contador en este año. Sus salarios mensuales iniciales fueron: $3 536, $3 173, $3 448, $3 121 y $3 622. (a) Calcule la media de la población. (b) Calcule la varianza de la población. (c) Calcule la desviación estándar de la población. (d) La oficina en Pittsburgh contrató a seis aprendices. El salario
mensual medio fue de $3 550, y la desviación estándar $250. Compare ambos grupos.
30/04/2013 © 2013 Ing. José Luis Tupac Yupanqui A. Chap 3-60
Pro
pu
esto
s
1) Considere estos cinco valores como una población: 8, 3, 7, 3 y 4. a. Determine la media de la población. b. Determine la varianza.
2) Considere estos seis valores como una población: 13, 3, 8, 10, 8 y 6. a. Determine la media de la población. b. Determine la varianza.
3) El informe anual de Dennis Industries menciona estas ganancias primarias por acción co mún durante los últimos 5 años: $2.68, $1.03, $2.26, $4.30 y $3.58. Si suponemos que és tos son los valores poblacionales, a. ¿Cuáles son las ganancias medias aritméticas primarias por
acción común? b. ¿Cuál es la varianza?
4) Haciendo referencia al Ejercicio 39, el informe anual de Denis Industries también presenta estas ganancias sobre el capital accionario durante el mismo periodo de cinco años (en por centajes): 13.2, 5.0, 10.2, 17.5 y 12.9.
a. ¿Cuál es la ganancia media aritmética? b. ¿Cuál es la varianza?
De
svia
ció
n E
stá
nd
ar d
e la
Po
bla
ció
n
30/04/2013 © 2013 Ing. José Luis Tupac Yupanqui A. Chap 3-61
Pro
pu
esto
s
5) Plywood, Inc., reportó estas ganancias sobre el capital accionario durante los últimos 5 años: 4.3, 4.9, 7.2, 6.7 y 11.6. Considere éstos como valores poblacionales.
a. Calcule el rango, la media aritmética, la varianza y la desviación estándar. b. Compare las ganancias sobre el capital accionario de Plywood, Inc. con aquellas de Den nis Industries que mencionamos en el Ejercicio 40.
6) Los ingresos anuales de los cinco vicepresidentes de TMV Industries son: $125 000; $128 000; $122 000; $133 000, y $140 000. Considere este grupo como una población. a. ¿Cuál es el rango? b. ¿Cuál es el ingreso medio aritmético? c. ¿Cuál es la varianza de la población? ¿La desviación
estándar? d. También se estudiaron los ingresos anuales de los
funcionarios de otra empresa similar a TMV Industries. La media fue $129 000 y la desviación estándar $8 612. Compare las medias y las dispersiones de ambas compañías.
De
svia
ció
n E
stá
nd
ar d
e la
Po
bla
ció
n
Coeficiente de Variación
Medida relativa de variación
Se expresa en porcentaje (%)
Muestra la variación en unidades de media
Se utiliza para comparar 2 ó mas conjuntos de datos
medidos en métricas diferentes o diferentes unidades de
medida.
100%S
CVX
Chap 3-62 © 2013 Ing. José Luis Tupac Yupanqui A. 30/04/2013
Ejemplo (cotización del dólar)
Año Mes
Perú
(soles)
Chile
(pesos)
Enero 3.401 524
Febrero 3.289 526
Marzo 3.335 529
Abril 3.334 517
Mayo 3.280 521
Junio 3.261 542
Julio 3.244 541
Agosto 3.231 539
Septiembre 3.242 539
Octubre 3.236 531
Noviembre 3.218 528
2006
Diciembre 3.209 528
Enero 3.193 541 2007
Febrero 3.192 547
Chap 3-63 © 2013 Ing. José Luis Tupac Yupanqui A. 30/04/2013
Ejemplo (cotización del dólar)
Año Mes
Perú
(soles)
Chile
(pesos)
Enero 3.401 524
Febrero 3.289 526
Marzo 3.335 529
Abril 3.334 517
Mayo 3.280 521
Junio 3.261 542
Julio 3.244 541
Agosto 3.231 539
Septiembre 3.242 539
Octubre 3.236 531
Noviembre 3.218 528
2006
Diciembre 3.209 528
Enero 3.193 541 2007
Febrero 3.192 547
PerúX =3.26soles
S Peru = 0.061soles
CVPerú = (0.061/3.262)x 100= 1.9%
=532.29 pesos
SChile = 9.044 pesos
CVChile= (9.044/532.288)x 100= 1.7%
ChileX
Chap 3-64 © 2013 Ing. José Luis Tupac Yupanqui A.
© 2013 Ing. José Luis Tupac Yupanqui A. Chap 3-65
Ejemplo de Variación
A. RESIDUOS SÓLIDOS
5.1 MUNICIPALIDADES QUE INFORMARON SOBRE LA CANTIDAD PROMEDIO DIARIO DE BASURA RECOLECTADA,
SEGÚN DEPARTAMENTO, 2010
(Toneladas métricas)
Departamento
Munici-
palidades
informantes
Total 1,834
Amazonas 84
Áncash 166
Apurímac 80
Arequipa 109
Ayacucho 111
Cajamarca 127
Callao 1/ 6
Cusco 108
Huancavelica 94
Huánuco 76
Ica 43
Junín 123
La Libertad 83
Lambayeque 38
Lima 171
Loreto 51
Madre de Dios 11
Moquegua 20
Pasco 28
Piura 64
Puno 109
San Martín 77
Tacna 27
Tumbes 13
Ucayali 15
Lima Metropolitana 2/ 49
Región Lima 3/ 128
© 2013 Ing. José Luis Tupac Yupanqui A. Chap 3-66
Medidas de Variación
Varianza Desviación
Estándar
Coeficiente de
Variación
Rango
Rango Intercuartil
Ejemplo de Variación
© 2013 Ing. José Luis Tupac Yupanqui A. Chap 3-67
Medidas de Variación
Varianza Desviación
Estándar
Coeficiente de
Variación
Rango
Rango Intercuartil
Ejemplo de Variación
© 2013 Ing. José Luis Tupac Yupanqui A. Chap 3-68
Medidas de Variación
Varianza Desviación
Estándar
Coeficiente de
Variación
Rango
Rango Intercuartil
Ejemplo de Variación
© 2013 Ing. José Luis Tupac Yupanqui A. Chap 3-69
Medidas de Variación
Varianza Desviación
Estándar
Coeficiente de
Variación
Rango
Rango Intercuartil
Ejemplo de Variación
© 2013 Ing. José Luis Tupac Yupanqui A. Chap 3-70
Medidas de Variación
Varianza Desviación
Estándar
Coeficiente de
Variación
Rango
Rango Intercuartil
Ejemplo de Variación
Relación entre Media, Mediana y Moda
Media = Mediana =Moda Media < Mediana < Moda Moda < Mediana < Media
Asimétrica a la derecha
Asimétrica a la
izquierda Simétrica
En general, para la mayoría de las distribuciones se cumple:
Chap 3-71 © 2013 Ing. José Luis Tupac Yupanqui A. 30/04/2013
30/04/2013 © 2013 Ing. José Luis Tupac Yupanqui A. Chap 3-72
TEOREMA DE CHEBYSHEV
•En las secciones anteriores hemos estudiado medidas de tendencia central (media, moda y mediana), y medidas de dispersión (varianza y desviación estándar). •También estudiamos el grado de asimetría (sesgo) de una distribución y su curtosis (altura). •Es decir, ya podemos describir, en términos generales, el comportamiento de un conjunto de valores que estemos estudiando.
30/04/2013 © 2013 Ing. José Luis Tupac Yupanqui A. Chap 3-73
TEOREMA DE CHEBYSHEV
•Retomando el concepto de desviación estándar, diremos que una de las aplicaciones que tiene es que podemos utilizarlo para conocer aproximadamente cuántas de las puntuaciones se agrupan en ciertos intervalos de la serie formados por la suma y la resta de una, dos o tres veces el valor de la desviación estándar con respecto al valor medio. •Para esto es que estudiaremos el Teorema de Tchebyshev.
30/04/2013 © 2013 Ing. José Luis Tupac Yupanqui A. Chap 3-74
TEOREMA DE CHEBYSHEV
Ya señalamos que una desviación estándar baja para un conjunto de valores indica que éstos se localizan cerca de la media. Por el contrario, una desviación estándar muy alta revela que las observaciones se encuentran dispersas en relación con la media. El matemático ruso P. L. Chebyshev (1821 -1894) desarrolló un teorema que nos permite determinar la proporción mínima de los valores que se encuentran en un número específico de desviaciones estándar de la media. Por ejemplo, según el teorema de Chebyshev, por lo menos tres de cuatro valores, o 75%, deben estar entre la media más dos desviaciones estándar y la media menos dos desviaciones estándar. Esta relación se aplica sin importar la forma de la distribución.
Además, por lo menos ocho de nueve valores, u 88.9%, estarán entre más tres desviaciones estándar y menos tres desviaciones estándar de la media. Por lo menos 24 de 25 valores, o 96%, estarán entre más y menos cinco desviaciones estándar de la media. El teorema de Chebyshev establece:
30/04/2013 © 2013 Ing. José Luis Tupac Yupanqui A. Chap 3-75
Para cualquier grupo de observaciones (muestra o
población), la proporción de los valores que se encuentra dentro de k desviaciones estándar de la media es por lo menos donde k es cualquier
constante mayor que 1.
30/04/2013 © 2013 Ing. José Luis Tupac Yupanqui A. Chap 3-76
TEOREMA DE CHEBYSHEV
Aunque el Teorema de Tchebyshev es de naturaleza general y se puede aplicar a cualquier clase de distribución de valores, si los datos fueran simétricos y acampañados, es decir, de tipo normal, exactamente 68.26% de todas las observaciones estarían contenidas dentro de distancias de ±1 desviación estándar alrededor de la media, mientras que 95.44, 99.73 y 99.99% de las observaciones estarían incluidas, respectivamente, dentro de distancias de ±2, ±3, ±4 desviaciones estándar alrededor de la media; gráficamente se ve de la siguiente forma:
30/04/2013 © 2013 Ing. José Luis Tupac Yupanqui A. Chap 3-77
Los resultados del porcentaje de puntuaciones que se concentran en torno a la media, para cualquier tipo de distribución y para distribuciones de tipo normal los podemos resumir en la siguiente tabla:
30/04/2013 © 2013 Ing. José Luis Tupac Yupanqui A. Chap 3-78
30/04/2013 © 2013 Ing. José Luis Tupac Yupanqui A. Chap 3-79
Ejercicio 1
30/04/2013 © 2013 Ing. José Luis Tupac Yupanqui A. Chap 3-80
TEOREMA DE CHEBYSHEV
La cantidad media aritmética quincenal con la que contribuyen los empleados de Dupree Paint al plan de participación de utilidades de la compañía fue $51.54 y la desviación estándar es $7.51. ¿Qué porcentaje de las contribuciones se encuentra entre más 3.5 desviaciones estándar y menos 3.5 desviaciones estándar de la media?
1001
12
xR
=
Alrededor de 92%
30/04/2013 © 2013 Ing. José Luis Tupac Yupanqui A. Chap 3-81
30/04/2013 © 2013 Ing. José Luis Tupac Yupanqui A. Chap 3-82
Estado Viviendas Estado Viviendas Estado Viviendas Estado Viviendas Estado Viviendas
AL 17,2 HI 7,3 MA 39,2 NM 11,8 SD 2,5
AK 4,0 ID 4,3 MI 37,6 NY 61,9 TN 38,1
AZ 71,8 IL 38,7 MN 28,6 NC 70,7 TX 143,1
AR 9,9 IN 23,0 MS 8,8 ND 2,6 UT 16,5
CA 271,4 IA 5,2 MO 27,2 OH 33,0 VT 4,1
CO 32,8 KS 13,3 MT 2,0 OK 10,7 VA 64,1
CT 24,5 KY 13,8 NE 5,0 OR 11,3 WA 35,5
DE 4,6 LA 18,8 NV 14,0 PA 43,6 WV 1,5
FL 202,6 ME 8,1 NH 17,8 RI 5,4 WI 20,2
GA 73,1 MD 42,1 NJ 55,0 SC 32,8 WY 1,2
(a) Datos básicos (Viviendas comenzadas a construir, en miles)
30/04/2013 © 2013 Ing. José Luis Tupac Yupanqui A. Chap 3-83
(a) Datos básicos (Viviendas comenzadas a construir, en miles)
30/04/2013 © 2013 Ing. José Luis Tupac Yupanqui A. Chap 3-84
(a) Datos básicos (Viviendas comenzadas a construir, en miles)
•Con el Teorema de ChebyShev encontramos el porcentaje de valores que debe caer dentro de R=2 y R=3 desviaciones estándar de la media.
•Por Ejemplo, si R=2, este porcentaje debe ser 75%, expresado de otro modo, debemos encontrar que al menos el 75% de los estados tienen una cantidad de viviendas comenzadas a construir que cae en el intervalo descrito como 34.9+-2(49.3).
30/04/2013 © 2013 Ing. José Luis Tupac Yupanqui A. Chap 3-85
El Teorema de ChebyShev afirma que al menos [1-(1/k2)]*100% de los valores de los datos caerán dentro de K desviaciones estándar de la media (Cuando K es mayor que 1 y para cualquier forma de la Distribución). Para los datos de vivienda s comenzadas a construir en 50 estados , el porcentaje de estados dentro de cada intervalo excede por mucho el porcentaje mínimo especificado por el teorema.
30/04/2013 © 2013 Ing. José Luis Tupac Yupanqui A. Chap 3-86
Diagrama de Caja
Para su construcción se usan 5 estadísticas: Mínimo, Máximo, Q1, Q2 = Mediana y Q3
4 6 8 10 12
X max X
min 1Q 3Q2Q
Chap 3-87 © 2013 Ing. José Luis Tupac Yupanqui A. 30/04/2013
Forma de la Distribución y Diagrama de Caja
Asimétrica a la derecha Asimétrica a la izquierda Simétrica
1Q 1Q 1Q2Q 2Q 2Q3Q3Q3Q
Chap 3-88 © 2013 Ing. José Luis Tupac Yupanqui A. 30/04/2013
Cuidados en el análisis descriptivo de los datos y problemas éticos
El análisis de los datos es objetivo
Por lo tanto deben reportarse las medidas resumen que mejor
reflejen las características de los datos
La interpretación es Subjetiva
Ella debe ser hecha de una manera clara, imparcial y simple
Problemas éticos
Deben documentarse tanto los resultados buenos como los malos
La presentación debe ser imparcial, objetiva y clara
Los resultados no deben utilizarse inadecuadamente,
distorsionando los hechos
Chap 3-89 © 2013 Ing. José Luis Tupac Yupanqui A. 30/04/2013
30/04/2013 © 2013 Ing. José Luis Tupac Yupanqui A. Chap 3-90
PERU: TASAS DE CRECIMIENTO GEOMETRICO MEDIO ANUAL SEGUN DEPARTAMENTOS, 1995-2015
Fuente: http://www.inei.gob.pe/biblioineipub/bancopub/Est/Lib0005/CAP-52.htm
Resumen
Además de resumirse mediante tablas de distribución de
frecuencias y representarse gráficamente, los datos
originales se pueden describir en forma estadística a
través de medidas de tendencia central y de dispersión.
Chap 3-91 © 2013 Ing. José Luis Tupac Yupanqui A. 30/04/2013
Control de Lectura Nº 02
Copias. Pág. 70 a la Pág. 90 Introducción a la Estadística para Negocios
Quinta Edición, Ronald M. Weiers
Chap 3-92 © 2013 Ing. José Luis Tupac Yupanqui A. 30/04/2013