Medidas de Tendencia Central y Dispersión
Describiendo distribuciones con números
Por: Gerardo Álvarez Hernández PhD
Medidas de tendencia central
• Son medidas que resumen, agrupan,
describen y muestran la distribución de
una variable cuantitativa continua
• Una medida única para identificar
características comunes a un gran
número de datos
• Las medidas de tendencia central son la
media, la mediana y la moda
Media
• Promedio aritmético de
todos los datos
• Corresponde al valor que
tendría cada sujeto de la
población o muestra, si todos
tuvieran el mismo valor
X =x1 + x2 + x3 +...+ xn
n
X =1
nxiå
Media
• Ejemplo
• Aquí está el número de puntos anotados por Michael Jordan en
sus últimas 6 temporadas en la NBA:
• 404, 1850, 1892, 1893, 1324, 1527
• La media de puntos anotados por este jugador en un año es:
• X = 1/6 (404+ 1850+ 1892+ 1893+1324+1527) = 8890/6 = 1481.6
• La media no es una medida resistente a valores extremos
Media para series agrupadas
• Donde:
K = Total de intervalos de clase
mi = Punto medio de cada intervalo de clase
fi = Frecuencia de cada intervalo de clase
k
i
k
i
fi
mifi
X
1
1
Σi = 1
k
fi = Σ del total de observaciones (n)
Media para series agrupadas
Grupo de edad mi fi mifi % % acumulado
26 a 30 28 6 168 9 9
31 a 35 33 24 792 36 45
36 a 40 38 27 1026 40 85
41 a 46 43.5 10 435 15 100
Total [Σ] 142.5 67 2421 100
1. mi es el punto medio de clase, y deja por debajo y por arriba de él, al 50% de los
valores del intervalo
2. fi es el número de observaciones que contiene cada intervalo
3. mifi es el producto del punto medio de clase y el número de observaciones en
cada intervalo
Media para series agrupadas
13.3667
2421X
k
i
k
i
fi
mifi
X
1
1
Pros y contras de la media
Pros
• Centro matemático de una
distribución
• Buena medida para intervalos y
razones
• No ignora ninguna información
• La inferencia estadística está
basada en las propiedades
matemáticas de la media
Contras
• Influenciada por los valores extremos y las
distribuciones sesgadas
• Puede no existir en los datos
• No es adecuada para tasas medias de
crecimiento o cambio
Media geométrica
• Es un concepto matemático útil para calcular medias de porcentajes, puntuaciones o índices
• Puede usarse para mostrar los cambios porcentuales en una serie de números positivos
• Permite calcular el crecimiento porcentual promedio a través del tiempo
• De un conjunto de números estrictamente positivos (X1, X2,…,XN), es la raíz N-ésima del
producto de los N elementos
• Se calcula transformando todos los valores a sus logaritmos, luego obteniendo la media de esos
logaritmos y estimando el antilogaritmo de esa media
• No puede ser obtenida con valores ‘0’ o negativos
Media geométrica
Porcentaje de ovitrampas positivas, según municipio
Hermosillo 32.6
Cajeme 53.5
Guaymas 28.9
Nogales 48.2
Navojoa 67.4
MG = 532.6 × 53.5 × 28.9 × 48.2 × 67.4
MG = 5163748059 MG = 43.93
¿Cuál es la media aritmética?
Media = 46.12
Media geométricaTemperatura (°C) de 12 individuos
37.0
36.0
37.1
37.1
36.2
37.3
36.8
37.0
36.3
36.9
36.7
36.8
MG = 1237.0 × 36.0…× 36.8
MG = 126.0977𝑒18
MG = 36.76≈ 36.8
Obtenga la media aritmética de esta serie
X = 36.76 ¿Qué pasó?!
La temperatura 0.0°C no significa que no hay “temperatura”. ‘0’ es posible, luego noPuede obtenerse una MG
Media armónica
• No es usualmente usada en ciencias biológicas
• No puede ser estimada si cualquiera de los valores es cero o negativo
• Es el recíproco o inverso de la media aritmética
• Se transforma cada valor a su recíproco, luego se obtiene la media aritmética de esos recíprocos
• Se recomienda para promediar velocidades
• Siempre es menor o igual a la media aritmética
Mediana
• En una serie ordenada de datos, es el valor que deja por
arriba y por debajo de él, al 50% de los valores de Xi.
• Regla para su cálculo:
1. Ordenar todos los datos
2. La ubicación de la Md se encuentra con la fórmula
(n+1)/2
3. La fórmula NO nos dice el valor de Md, sólo la posición en
que se encuentra
Mediana
Ejemplo con números impares:
Aquí está la lista ordenada del número de jonrones conectados por
Babe Ruth cuando jugó con lo Yanquis de Nueva York:
22, 25, 34, 35, 41, 41, 46, 46, 46, 47, 49, 54, 54, 59, 60
La mediana es el valor 46, la octava observación en la lista
ordenada. Puede ser encontrada a simple vista – hay siete
observaciones a la izquierda y siete a la derecha – o a través de la
fórmula (n+1)/2 = (15+1)/2 = 16/2 = 8.
La fórmula sólo nos indica la ubicación de la mediana, en nuestro
ejemplo, la mediana es 46, no 8.
Mediana
Ejemplo con números pares:
Enseguida está la lista ordenada de jonrones conectados por Roger
Maris:
8, 13, 14, 16, 23, 26, 28, 33, 39, 61
Porque n = 10, hay un par de valores en el centro de la serie de
datos (23 y 26) más que un único valor – cuatro valores a la
derecha de 26 y cuatro a la izquierda de 23 – ese par de valores son
señalados en letra roja. La mediana entonces es el promedio de
esos dos valores:
Md = 23 + 26 / 2 = 49/2 = 24.5
Mediana para series agrupadas
• Donde:
L.5 = Límite inferior del intervalo de clase donde
se ubica la mediana
Fp = Frecuencia acumulada en el intervalo de
clase anterior al que se ubica la mediana
F.5 = Frecuencia de clase (No. de observaciones)
del intervalo donde se ubica la mediana
C = amplitud del intervalo donde se ubica la
mediana
CF
Fn
LMdp
5.
52
)1(
.
Mediana para series agrupadas
Grupo de edad
mi fi
Fp
(Frecuencia acumulada)
% % acumulado
26 a 30 28 6 6 9 9
31 a 35 33 24 30 36 45
36 a 40 38 27 57 40 85
41 a 46 43.5 10 67 15 100
Total 142.5 67 100
• Md = 36 + [(67+1)/2] – 30
275
= 36 + [(4/27) 5] = 36 + [(0.1481) 5] = 36 + 0.74= 36.74 ≈ 37
I.C donde se ubica la medianaL.5 = 36n = 67Fp = 30F.5 = 27C = 5
• Donde:
L.5 = Límite inferior del intervalo de clase donde se ubica la mediana
Fp = Frecuencia acumulada en el intervalo de clase anterior al que se
ubica la mediana
F.5 = Frecuencia de clase (No. de observaciones) del intervalo donde
se ubica la mediana
C = amplitud del intervalo donde se ubica la mediana
CF
Fn
LMdp
5.
52
)1(
.
Pros y contras de la mediana
Pros
• No influenciada por valores
extremos o distribuciones sesgadas
• Buena para datos ordinales
• Más fácil de calcular que la media
Contras
• Puede no existir en los datos reales
• No toma en cuenta valores reales sino ubicación
de las observaciones
Moda
• Una medida poco empleada
• Es el valor que se presenta con mayor frecuencia en una serie de
observaciones.
• Debe buscarse en cada evento que describa.
• La moda (Mo) puede presentarse más de una vez en una serie de datos, es
decir, no es una medida única como la media o la mediana.
• ¿Cuál fue la moda en nuestro ejemplo de los jonrones de Babe Ruth? ¿Cuál en
el caso de Roger Maris?
Moda para series agrupadas
• Donde:
Lm = Límite inferior de la clase modal
Δ1 = valor absoluto de la diferencia de frecuencias entre la clase modal y la clase inmediata anterior a ésta
Δ2 = valor absoluto de la diferencia de frecuencias entre la clase modal y la clase inmediata superior a ésta
C = amplitud de la clase modal
CLMo m
21
1
Moda para series agrupadas
Grupo de edad mi fi Fp % % acumulado
26 a 30 28 6 6 9 9
31 a 35 33 24 30 36 45
36 a 40 38 27 57 40 85
41 a 46 43.5 10 67 15 100
Total 142.5 67 100
• Mo = 36 + [27-24]
3 + (27-10)5
= 36 + [(3/20) 5] = 36 + [(0.15) 5] = 36 + 0.75= 36.75 ≈ 37
Clase modal Lm = 36Δ1 = 27 – 24 = 3Δ2 = 27 – 10 = 17C = 5
• Donde:
Lm = Límite inferior de la clase modal
Δ1 = valor absoluto de la diferencia de frecuencias entre la clase modal y la clase inmediata anterior a ésta
Δ2 = valor absoluto de la diferencia de frecuencias entre la clase modal y la clase inmediata superior a ésta
C = amplitud de la clase modal
CLMo m
21
1
Pros y contras de la moda
Pros
• Buena para datos nominales
• Buena cuando hay al menos dos
valores “típicos”
• Fácil de calcular y entender
• El valor procede del grupo de datos
Contras
• Ignora la mayoría de información
en una distribución
• Muestras pequeñas pueden no
tener moda
Tarea para próxima sesión
• Tomando como valor a la edad de 67 sujetos, obtenga la media, mediana y moda.
Use las fórmulas para series agrupadas para resolverlas
• Elabore un cuadro para agrupar a la serie de datos en 4 intervalos de clase,
iniciando en 26 y terminando en 46. Los valores son los siguientes:
• 40, 36, 34, 32, 45, 35, 33, 33, 34, 32, 42, 29, 28, 38, 31, 40, 28, 39, 39, 26, 38, 44,
34, 36, 34, 38, 38, 35, 38, 36, 38, 39, 31, 42, 36, 40, 42, 40, 38, 40, 42, 39, 42, 31,
33, 31, 42, 36, 32, 32, 37, 41, 31, 40, 31, 34, 38, 38, 35, 35, 37, 29, 32, 38, 33, 30,
46
Resumen
• Medida de tendencia central: el valor simple que mejor
describe el centro de una distribución de valores
• Media
• La suma de todos los valores de las observaciones
dividida por el número de observaciones
• Mediana
• El valor que divide la distribución en dos partes iguales
que están ordenadas
• Moda
• El valor que más se repite en la serie de observaciones
Medidas de Dispersión
• Son también medidas de resumen
• Nos permiten conocer qué tan lejos o cerca se
encuentran los valores respecto al centro de
la distribución
• Reflejan la variabilidad existente entre las
observaciones
• A mayor variabilidad de los datos existe
también mayor dispersión
Medidas de Dispersión
• Relación entre las medidas de tendencia central y las medidas dedispersión
Tendencia Central Dispersión o variabilidad
Media Desviación estándar y varianza
Mediana Cuartil y Rango Intercuartil
Moda Rango
Medidas de Dispersión
La media y la desviación estándar deben emplearse únicamente en una distribución simétrica y
normal.
¿Cómo sabemos esto?
Despliéguense gráficas de la distribución
Gráfica de Stemplot
Regresemos a nuestro ejemplo acerca de los jonrones de Babe Ruth. Los valores son los siguientes:
54, 59, 35, 41, 46, 25, 47, 60, 54, 46, 49, 46, 41, 34, 22
1. Procedamos a elaborar nuestra gráfica con estos datos: Escriba los tallos
2
3
4
5
6
Medidas de Dispersión
2. Coloque las “hojas” en el “tallo” apropiado
3. Ordenemos las “hojas” de cada “tallo”
En esta imagen podemos apreciar un comportamientoaproximadamente normal de la distribución
2 5 2
3 5 4
4 1 6 7 6 9 6 1
5 4 9 4
6 0
2 2 5
3 4 5
4 1 1 6 6 6 7 9
5 4 4 9
6 0
1f | 4445551s | 66666667777777777771. | 888888888899999999999999992* | 0000000000000000001111111111112t | 222222222222233333333333332f | 44444444444445555555555555552s | 666666667772. | 88888888899999993* | 0000000111113t | 2222223333f | 4553s | 663. | 4* | 4t | 4f | 5
14 18 20 22 25 28 33
14 18 20 22 25 28 33
14 18 20 22 25 28 33
15 18 20 22 25 28 34
15 18 20 23 25 28 35
15 19 20 23 25 29 35
16 19 20 23 25 29 36
16 19 20 23 25 29 36
16 19 20 23 25 29 45
16 19 21 23 25 29
16 19 21 23 25 29
16 19 21 23 25 29
16 19 21 23 25 30
17 19 21 23 25 30
17 19 21 23 25 30
17 19 21 23 26 30
17 19 21 23 26 30
17 19 21 24 26 30
17 19 21 24 26 30
17 19 21 24 26 31
17 19 21 24 26 31
17 20 22 24 26 31
17 20 22 24 26 31
17 20 22 24 27 31
17 20 22 24 27 32
18 20 22 24 27 32
18 20 22 24 28 32
18 20 22 24 28 32
18 20 22 24 28 32
18 20 22 24 28 32
Hojas y tallos
Stem Leaves1F | 445S | 666666777777777. | 88888899999999999
2* | 00000000000001111111111111T | 22222222222222233333333333F | 44444444444444555555555S | 6666666666666677777777777777777
| 8888888888999999993* | 00000000000011111111111T | 222222222222333333333333F | 444444445555555S | 666666677777777. | 888888888999999
4* | 000011T | 223F | 445S | 6
Hojas y tallos
• La edad de 264 mujeres
con MM
Media = 27.7
Medidas de Dispersión
Histograma:
Es una gráfica que despliega el comportamiento de variables cuantitativas
continuas
En el eje de las “x” existen valores posibles en cada uno de los puntos
Es necesario crear categorías
Ejemplo:Grupo de
edad
Frecuencia
20 a 29 2
30 a 39 2
40 a 49 7
50 a 59 3
60 y más 1
Medidas de Dispersión
Histograma
0
1
2
3
4
5
6
7
8
20 a 29 30 a 39 40 a 49 50 a 59 60 y más
Categoría
Fre
cue
nci
a
Recordatorio: Las distribuciones normales
Estrategia general:
1. Siempre grafique sus datos. Usualmente un stemplot o un histograma
2. Observe el patrón general de la distribución y busque intencionadamente desviaciones
llamativas, tales como los “outliers”
3. Calcule una medida numérica de resumen para describir brevemente el centro y dispersión de la
distribución
Ahora, agreguemos un nuevo paso a esta estrategia general
1. En ocasiones, el patrón general de una serie con un gran número de observaciones es tan
regular que podemos describirla como una curva suave. Como la que se muestra a continuación
Las distribuciones normales
• La curva normal es un modelo matemático de una distribución
• Definida por Gauss (1809) al analizar fenómenos astronómicos
• Puede ser obtenida a través de un histograma
Las distribuciones normales
• La curva normal es una distribución de probabilidad,
con un área máxima de 1 debajo de ella
• Representa el comportamiento de ciertos fenómenos
caracterizados por variables cuantitativas continuas
que se distribuyen alrededor de una media
• Nos sirve para hacer estimaciones acerca del
comportamiento de cierta clase de fenómenos que
siguen un patrón “normal”
Las distribuciones normales
• Una clase importante de curvas de densidad son las simétricas,
unimodales y con una bien delimitada figura como de “campana”
• Esas curvas son llamadas curvas normales y describen distribuciones
normales
• Todas las distribuciones normales tienen la misma figura general
• La curva normal es especificada por su media (μ) y su desviación
estándar (σ); la media, así como la mediana, están siempre en el centro
de la curva simétrica
Las distribuciones normales
• La desviación estándar controla la dispersión de la curva normal
• En las siguientes figuras mostraremos dos curvas normales con diferentes valores
de S (σ)
μ
σ
Las distribuciones normales
μ
σ
• ¿ Cuál de las dos curvas está más dispersa?
• ¿Las dos son curvas normales?
Desviación estándar y varianza
Desviación estándar y varianza
• La desviación estándar (s) mide la dispersión de la
distribución, es decir, qué tan lejos están las
observaciones de su media.
• La varianza (s2) es el promedio de los cuadrados de las
desviaciones de las observaciones de su media.
• La varianza de ‘n’ observaciones X1, X2,...,Xn, es: [1]
• La desviación estándar (S) es la raíz cuadrada de la
varianza (S2) es: [2]
1
)()()( 22
2
2
12
n
XXXXXXS n
2)(1
1XX
nS i
La varianza:
La desviación estándar
Desviación estándar y varianza
• La idea que está detrás de S y S2 como medidas de
dispersión es que las desviaciones
despliegan la dispersión de los valores Xi
respecto a su media
• Algunas de esas desviaciones serán negativas y otras
serán positivas, porque algunas observaciones
caerán a cada lado de la media
• La desviación estándar, es la medida natural de la
dispersión de las distribuciones normales
http://primed.info/hbgs/practical_biostatistics.gif
2xxi
Propiedades de la desviación estándar
1. Debe ser usada únicamente cuando la media es la MTC
2. La desviación estándar (S) = 0 solamente cuando no hay dispersión. Esto
ocurre cuando todas las observaciones tienen el mismo valor, de lo
contrario S > 0
3. En tanto las observaciones se alejen más de su media, la desviación
estándar (S) se hace más grande
4. La suma de las desviaciones estándar de en una serie de
datos es = 0
5. La desviación estándar (S), como la , no es una medida resistente.
xxi
x
Medidas de Dispersión
• Ejemplo
• Edad de 10 sujetos incluidos en un estudio de seguimiento para valorar el efecto de un
consumo excesivo de grasas saturadas.
• 20, 8, 6, 21, 10, 7, 13, 5, 26, 12
1) Estimemos la media de la distribución
• X = 1/n Σ Xi = 128/10 = 12.8
2) Hagamos una serie ordenada de los valores, comprobemos que la suma de las
desviaciones es cero y estimemos las desviaciones cuadradas,
Medidas de Dispersión
Xi (Xi – X) (Xi – X)2
5 - 7.8 60.84
6 - 6.8 46.24
7 - 5.8 33.64
8 - 4.8 23.04
10 - 2.8 7.84
12 - 0.8 0.64
13 0.2 0.04
20 7.2 51.84
21 8.2 67.24
26 13.2 174.24
128 0 465.6∑
Medidas de Dispersión
3) Estimemos la varianza:
• S2 = 1/n-1 Σ (Xi – X)2 = 465.6/9 = 51.73 ≈ 51.7
4) La desviación estándar
• S = √1/n-1 Σ (Xi – X)2 = √51.73 = 7.19 ≈ 7.2
5) Veamos la imagen que desplegarían la media y la desviación de dos
de nuestras observaciones del ejemplo
5.0 7.5 10.0 12.5 15.0 17.5 20.0 22.5 25.0 27.5
X = 12.8X2 = 6
Desviación = -6.8
X9 = 21
Desviación = 8.2
Tarea para siguiente sesión
• Tarifas por día de hoteles en Las Vegas
196, 52, 100, 472, 136, 205, 750, 150, 76, 257, 264, 280, 282, 422, 480, 402, 303, 313,
264, 317, 325, 373, 384, 791, 400, 417, 643, 186, 317, 693, 283, 749, 891, 732, 384
• Haga una lista ordenada de valores
• Estime la media de la distribución
• Compruebe que la suma de las desviaciones es cero
• Calcule las desviaciones cuadradas
• Estime la varianza y la desviación estándar
Varianza y desviación estándar para series agrupadas
n
i
k
i
fi
fiXmi
S
1
1
2
2
1
*)(
n
i
k
i
fi
fiXmi
S
1
1
2
1
*)(
Varianza para series agrupadas: expresión matemática
Desviación estándar para series agrupadas: expresión matemática
Varianza y desviación estándar para series agrupadas
Grupo de edad
mi fi mifi mi - Xmedia (mi – Xmedia)2 (mi – Xmedia)2 fi
10 a 14 12 5 60 - 10 100 500
15 a 19 17 10 170 - 5 25 250
20 a 24 22 28 616 0 0 0
25 a 29 27 20 540 5 25 500
Σ 78 63 1386 150 1250
2263
1386
fi
mifiX
• Lo esencial para este tipo de ejercicios es el agrupamiento en una tabla de
distribución de frecuencias
Varianza y desviación estándar para series agrupadas
n
i
k
i
fi
fiXmi
S
1
1
2
2
1
*)(
Varianza para series agrupadas: expresión matemática
S2 =1250
63 - 1= 20.16
La desviación estándar:
S =1250
63 - 1= 20.16 = 4.49
Varianza y desviación estándar para series agrupadas: fórmulas cortas
1
2
2
2
fin
mififimi
S
1
2
2
2
fin
mififimi
S
Varianza para series agrupadas: fórmula corta
Desviación estándar para series agrupadas: fórmula corta
Varianza y desviación estándar para series agrupadas: fórmulas cortas
Grupo de edad
mi fi mifi mi - Xmedia (mi – Xmedia)2 (mi – Xmedia)2 fi mi2 mi2fi
10 a 14 12 5 60 - 10 100 500 144 720
15 a 19 17 10 170 - 5 25 250 289 2890
20 a 24 22 28 616 0 0 0 484 13552
25 a 29 27 20 540 5 25 500 729 14580
Σ 78 63 1386 150 1250 31742
Varianza y desviación estándar para series agrupadas: fórmulas cortas
1
2
2
2
fin
mififimi
S
Grupo de edad
mi fi mifimi -
Xmedia
(mi –Xmedia)2
(mi – Xmedia)2
fimi2 mi2fi
10 a 14 12 5 60 - 10 100 500 144 720
15 a 19 17 10 170 - 5 25 250 289 2890
20 a 24 22 28 616 0 0 0 484 13552
25 a 29 27 20 540 5 25 500 729 14580
Σ 78 63 1386 150 1250 31742
Varianza para series agrupadas: fórmula corta
S2 =31742
_(1386)2
63
63 -1
=31742
_ 1920996
63
62
=31742 - 30492
62=
1250
62= 20.16
S = 20.16 = 4.49
Rango
• Resultado de la diferencia entre los valores extremos de la
distribución,
• (Xmax.+1) – Xmin.
• Donde Xmax. corresponde a la observación de mayor valor y Xmin. a la
más pequeña (amplitud del rango)
• El rango de los jonrones de Babe Ruth se expresa así: Rango = 22 a
60. La amplitud del rango es: (60+1) – 22 = 39
Pros y contras del rango
Pros
• Muy simple de calcular
• Los valores existen en el grupo de
datos
Contras
• Los valores dependen solamente
de dos observaciones
• Muy sensible a los “outliers”
• Influenciado por el tamaño de la
muestra (a mayor tamaño, mayor
el rango)
Ejercicio: rango
• Tarifas de hotel en Las Vegas
205, 76, 186, 196, 750, 52, 150, 257, 264, 264, 693, 280, 891, 282, 313, 400, 472,
317, 317, 325, 373, 384, 283, 303, 384, 417, 100, 422, 480, 643, 402, 732, 749,
791, 136
• ¿Cuál es el rango? =
• Calcule la amplitud del rango:
76 a 891
892-76 = 816
Cuartiles
• Medidas de localización que dividen a la distribución de frecuencias en
cuatro partes iguales
• Los identificaremos con la notación Q
• Q1 = cuartil 1 o percentil 25, es el valor que deja por arriba de él al 75% de
los valores y por debajo de él al restante 25%
• Q1 = (n+1)/4
Cuartiles
• Q2 = mediana o percentil 50
• Q3 o percentil 75, es el valor que tiene por arriba de él al 25% de los
valores de la serie ordenada y 75% por debajo de él
• Q3 = [3 (n+1)]/4
• Igual que con la Md, la fórmula sólo nos indica la posición, NO el valor del
cuartil
Cuartiles
Cuartiles para series agrupadas
• Para cuartil 1 o Q1:
CF
Fn
LQp
25.
25.14
1
• Donde:
L.25 = Límite inferior del intervalo que contiene Q1 ó percentil 25
n = número de observaciones
Fp = Frecuencia absoluta acumulada del intervalo de clase anterior al que contiene Q1
F.25 = Frecuencia absoluta del intervalo que contiene a Q1
C = Amplitud del intervalo que contiene a Q1
Cuartiles para series agrupadas
Grupo de edadFrecuencia absoluta
Fp % % Acumulado
0 a 4 10 10 12.9 12.9
5 a 9 15 25 19.5 32.4
10 a 14 32 57 41.6 74.0
15 a 19 20 77 26.0 100.0
Total 77 100.0
L.25 = 5 n = 77 Fp = 10 F.25 = 15 C = 5
Q1 = 5
77 + 1
410_
+ 5
15
= 5 + [(0.63) 5] = 5 + 3.16 = 8.16 ≈ 8
* Interpretación: El 25% de los valores se encuentra por debajode 8.16
Cuartiles para series agrupadas
• Para cuartil 3 o Q3:
CF
Fn
LQp
75.
75.34
)1(3
• Donde:
L.75 = Límite inferior del intervalo que contiene Q3 ó percentil 75
n = número de observaciones
Fp = Frecuencia absoluta acumulada del intervalo de clase anterior al que contiene Q3
F.75 = Frecuencia absoluta del intervalo que contiene a Q3
C = Amplitud del intervalo que contiene a Q3
Cuartiles para series agrupadas
Grupo de edadFrecuencia absoluta
Fp % % Acumulado
0 a 4 10 10 12.9 12.9
5 a 9 15 25 19.5 32.4
10 a 14 32 57 41.6 74.0
15 a 19 20 77 26.0 100.0
Total 77 100.0
L.75 = 15 n = 77 Fp = 57 F.75 = 20 C = 5
Q3 = 15
3 (78)
457_
+ 5
20
= 15 + [(0.075) 5] = 15 + 0.375 = 15.375 ≈ 15
* Interpretación: El 75% de los valores se encuentra por debajode 15.375
Rango intercuartil
Rango Intercuartil (RIQ)
• Es la distancia existente entre los cuartiles Q1 y Q3
• Da el rango cubierto por la mitad de los datos
• Es decir, RIQ contiene al 50% de los valores centrales de una distribución
Q1 Q3Q2
Rango IQ50% de los valores
Rango intercuartil
• La expresión matemática:
• RIQ = Q3 – Q1
• Los cuartiles y el RIQ no son afectados por cambios en los extremos de la
distribución, por lo tanto, son medidas resistentes a los valores atípicos (“outliers”)
• Con una sencilla regla podemos identificar esos valores extremos: 1.5 x RIQ
• Llamaremos “outliers” a aquellos valores que caigan más de 1.5 x RIQ arriba de Q3
o por debajo de Q1.
Rango intercuartil
• Ejemplo:
• Supongamos que en una serie de datos acerca del costo de un medicamento en
distintas farmacias, observamos que el RIQ = 70 - 55 = 15
• Apliquemos nuestra regla: 1.5 x RIQ, 1.5 x 15 = $22.5
• Esto nos indica que cualquier valor por abajo de 32.5 ($55 - $22.5) o por arriba de
$92.5 ($70 + $22.5) son posibles “outliers”
Percentiles
• Son valores de localización que dividen a la
distribución en 100 partes iguales
• Sólo determinan posición, NO el valor del percentil
• Pk = (k/100)n
• Donde Pk significa el percentil deseado (P10, P30,
P50, etc.) y ‘n’ corresponde al número de
observaciones de la serie
Percentiles
• Ejemplo:
• Busquemos el percentil 10 de una serie de 67 sujetos en los que se está estudiando la edad :
• P10 = (10/100) 67 = 6.7
• Como 6.7 sólo nos indica la ubicación en que se ubica el percentil 10 podemos inferir que tal valor se encuentra entre las posiciones 6 y 7. Supongamos que tales posiciones están ocupadas por los valores 30 y 31 (edad de esos dos sujetos), ¿cuál es el valor que corresponde a la posición 6.7?, lo obtenemos de la siguiente manera:
• P10 = 30 + 1 (0.7) = 30.7
• Si esos valores cambiaran y fueran 30 y 38, nuestra estimación sería la siguiente:
• P10 = 30 + 8 (0.7) = 35.6
Valor de la posición 6
Distancia recorrida entre los valores 30 y 31
La fracción del valor 6.7
Categoría de peso Rango de percentil
Por debajo del peso Menos del percentil 5
Sano Entre el percentil 5 hasta menos del 85%
En riesgo de sobrepeso 85 hasta menos del percentil 95
Sobrepeso y obesidad Igual o mayor al percentil 95%
Percentiles para series agrupadas
CF
Fnk
LPkk
p
k
.
.100
)1(
• Donde:
P.k = El valor del percentil que se quiere calcular
L.k = Límite inferior del intervalo que contiene al percentil que se busca
Fp = Frecuencia absoluta acumulada del intervalo de clase anterior al que contiene Pk
F.k = Frecuencia absoluta del intervalo que contiene a Pk
C = Amplitud del intervalo que contiene a Pk
Percentiles para series agrupadas
Grupo de edadFrecuencia absoluta
Fp % % Acumulado
0 a 4 10 10 12.9 12.9
5 a 9 15 25 19.5 32.4
10 a 14 32 57 41.6 74.0
15 a 19 20 77 26.0 100.0
Total 77 100.0
• Calculemos P19 (valor que debajo por debajo de él al 19% de las observaciones
L.19 = 5 n = 77 Fp = 10 F.19 = 15 C = 5
P19 = 5
19 (78)
10010_
+ 5
15
= 5 + [(0.32) 5] = 5 + 1.6 = 6.6 ≈ 7
* Interpretación: El 19% de los valores se encuentra por debajo de 6.6
Tarea para próxima sesión
Grupo de edadFrecuencia absoluta
Fp % % Acumulado
0 a 4 10 10 12.9 12.9
5 a 9 15 25 19.5 32.4
10 a 14 32 57 41.6 74.0
15 a 19 20 77 26.0 100.0
Total 77 100.0
• Usando los datos de la tabla previa:
1. Calcule P40 (valor que debajo por debajo de él al 40% de las observaciones)
2. Estime P80 (valor que deja por debajo de él al 80% de las observaciones)
Mínimo y máximo
• Valores que señalan la dispersión total
de la distribución
• Corresponden a los valores más
extremos en la serie de datos
• Complementan la descripción de las
MTC y de dispersión
Recordatorio: resumen de los cinco números
• El grupo de observaciones que incluyen al mínimo, Q1, Md, Q3 y al máximo se denominan “el
resumen de los cinco números”
• En nuestro ej. de Babe Ruth, tales valores serían:
• 22, 35, 46, 54, 60
• Este resumen numérico nos lleva a una representación visual conocida como “boxplot”.
0
20
40
60
Md = 46
Q1 = 35
Q3 = 54
Máximo = 60
Mínimo = 22
Summary Section of EDAD
Standard Standard
Count Mean Deviation Error Minimum Maximum Range
264 27.67602 7.106908 0.4374 14.03 46.03 32
Counts Section of EDAD
Sum of Missing Distinct Total Adjusted
Rows Frequencies Values Values Sum Sum Squares Sum
Squares
266 264 2 174 7306.47 215497.7 13283.64
Means Section of EDAD
Geometric Harmonic
Parameter Mean Median Mean Mean Sum Mode
Value 27.67602 27.055 26.75986 25.84622 7306.47 24.1
Std Error 0.4374 115.4736
95% LCL 26.81477 26.05 25.92168 25.02943 7079.1
95% UCL 28.53727 28.07 27.62515 26.71813 7533.84
T-Value 63.27395
Prob Level 0
Count 264 264 264 5
Variation Section of EDAD
Standard Unbiased Std Error Interquartile
Parameter Variance Deviation Std Dev of Mean Range Range
Value 50.50814 7.106908 7.113667 0.4374 11.0125 32
Std Error 3.510223 0.3492521 0.02149498
95% LCL 42.87611 6.547985 0.4030006
95% UCL 60.38786 7.770962 0.4782697
Sesgo
• Una distribución es simétrica cuando
las observaciones están
uniformemente cercanas a la Md y a la
media
• Una distribución está sesgada cuando
es asimétrica hacia uno de los lados
• Existen en este sentido, dos
posibilidades: sesgo a la derecha y
sesgo a la izquierda
Sesgo a la derecha
0 α
α y
x
Mo Md Xmedia
La Xmedia > Md > Mo
Sesgo a la izquierda
0 α
α y
x
MoMdXmedia
La Xmedia < Md < Mo
Coeficiente de sesgo de Pearson (Índice de asimetría de Pearson)
• Los fenómenos biológicos se distribuyen aleatoria y
normalmente (de acuerdo a curva normal)
• Para probar si esto es cierto, podemos usar el
coeficiente de sesgo de Pearson
• Cuando la distribución no está sesgada, el CSP
tiende a cero
• Si CSP es negativo, la distribución está sesgada a la
izquierda
• Si CSP es positivo, la distribución está sesgada a la
derecha
S
MdXCSPóSKP
)(3
Coeficiente de sesgo de Pearson (Índice de asimetría de Pearson)
S
MdXCSPóSKP
)(3
Skewness and Kurtosis Section of EDADCoefficient Coefficient
Parameter Skewness Kurtosis Fisher's g1 Fisher's g2 of Variation of DispersionValue 0.2798641 2.275119 0.2814659 -0.7157232 0.2567894 0.2183669Std Error 0.09751143 0.1428113 0.008838272
¿Hay sesgo? ¿Hacia dónde se encuentra?
Curtosis
• Es una medida de la agudeza de la distribución (‘que tan picuda es la curva’)
• Hace referencia al apuntamiento de la distribución en relación a un estándar, que es
la distribución normal
• Mide pues, la dispersión de una curva
• Su expresión matemática:
3
*)(4
4
s
nxxK
i
Curtosis
• Donde
• x: media aritmética de la variable x
s: desviación estándar de la variable x
n: frecuencia absoluta
3
*)(4
4
s
nxxK
i
Si K>0 la curva es leptocúrtica (más elevada que la curva normal)
Si K=0 la curva es mesocúrtica (igual de elevada que la curva normal)
Si K<0 la curva es platicúrtica (menos elevada que la curva normal)
Curtosis
Kurtosis = 2.275119
Edad de 264 mujeres con MM
¿Qué tipo de curva es?
Curtosis
• Distribución leptocúrtica: K índice superior a 0
http://www.scielo.org.co/img/revistas/eg/v22n100/n100a05f2.jpg
Curtosis
• Distribución platicúrtica: K índice inferior a 0
http://www.efdeportes.com/efd87/motric02.gif
Curtosis
• Distribución mesocúrtica: K ~ 0
http://www.aulafacil.com/CursoEstadistica/Lecc-9-est.htm
Ejercicio
• ¿Es normal la distribución de esta serie de datos correspondientes las semanas de
edad gestacional, según sexo del recién nacido, en un estudio de sífilis congénita?
• Si no es así, cómo espera que se encuentre la distribución, ¿hay algún sesgo?, ¿hacía
dónde? Justifique su respuesta
• Estime el coeficiente de sesgo de Pearson para los RN hombres y las mujeres
Statistical Summary Report
Page/Date/Time 1 03/03/2010 03:42:00 p.m.
Database J:\RESPALDO MI LAPTOP\STUDEN ... ATABASE SIFILIS MAR012010.S0
Table of Counts, Means, Medians, Standard Deviations, Minimums, Maximums, Standard Errors
SEX
Variables Male Female Unknown Total
SDG 136 151 5 292
34.47573 34.59007 34.46 34.53459
37.1 37 34.1 37
5.902736 5.982784 3.917652 5.901576
22 22 30 22
42 42 40.2 42
0.5061555 0.486872 1.752027 0.3453636
Ejercicio
0.0
13.3
26.7
40.0
20.0 28.3 36.7 45.0
Histogram
SDG (SEX=1)
Co
un
t
En los hombres hay un sesgo a la izquierda, la Md es > que la media
0.0
13.3
26.7
40.0
20.0 28.3 36.7 45.0
Histogram
SDG (SEX=2)
Co
un
t
Ejercicio
En las mujeres hay un sesgo a la izquierda, la Md es > que la media
Ejercicio
En los hombres hay un sesgo a la izquierda, la Md es > que la media
33.1902736.5
87281.7
902736.5
)1.3747573.34(3
)(3
S
MdXCSPóSKP
Ejercicio
En las mujeres hay un sesgo a la izquierda, la Md es > que la media
20.1982784.5
22979.7
982784.5
)3759007.34(3
)(3
S
MdXCSPóSKP
Top Related