Download - Medidas de Tendencia Central y Dispersión€¦ · Medidas de tendencia central •Son medidas que resumen, agrupan, describen y muestran la distribución de una variable cuantitativa

Medidas de Tendencia Central y Dispersión

Describiendo distribuciones con números

Por: Gerardo Álvarez Hernández PhD

Medidas de tendencia central

• Son medidas que resumen, agrupan,

describen y muestran la distribución de

una variable cuantitativa continua

• Una medida única para identificar

características comunes a un gran

número de datos

• Las medidas de tendencia central son la

media, la mediana y la moda

Media

• Promedio aritmético de

todos los datos

• Corresponde al valor que

tendría cada sujeto de la

población o muestra, si todos

tuvieran el mismo valor

X =x1 + x2 + x3 +...+ xn

n

X =1

nxiå

Media

• Ejemplo

• Aquí está el número de puntos anotados por Michael Jordan en

sus últimas 6 temporadas en la NBA:

• 404, 1850, 1892, 1893, 1324, 1527

• La media de puntos anotados por este jugador en un año es:

• X = 1/6 (404+ 1850+ 1892+ 1893+1324+1527) = 8890/6 = 1481.6

• La media no es una medida resistente a valores extremos

Media para series agrupadas

• Donde:

K = Total de intervalos de clase

mi = Punto medio de cada intervalo de clase

fi = Frecuencia de cada intervalo de clase

k

i

k

i

fi

mifi

X

1

1

Σi = 1

k

fi = Σ del total de observaciones (n)


Grupo de edad mi fi mifi % % acumulado

26 a 30 28 6 168 9 9

31 a 35 33 24 792 36 45

36 a 40 38 27 1026 40 85

41 a 46 43.5 10 435 15 100

Total [Σ] 142.5 67 2421 100

1. mi es el punto medio de clase, y deja por debajo y por arriba de él, al 50% de los

valores del intervalo

2. fi es el número de observaciones que contiene cada intervalo

3. mifi es el producto del punto medio de clase y el número de observaciones en

cada intervalo


13.3667

2421X

k

i

k

i

fi

mifi

X

1

1

Pros y contras de la media

Pros

• Centro matemático de una

distribución

• Buena medida para intervalos y

razones

• No ignora ninguna información

• La inferencia estadística está

basada en las propiedades

matemáticas de la media

Contras

• Influenciada por los valores extremos y las

distribuciones sesgadas

• Puede no existir en los datos

• No es adecuada para tasas medias de

crecimiento o cambio

Media geométrica

• Es un concepto matemático útil para calcular medias de porcentajes, puntuaciones o índices

• Puede usarse para mostrar los cambios porcentuales en una serie de números positivos

• Permite calcular el crecimiento porcentual promedio a través del tiempo

• De un conjunto de números estrictamente positivos (X1, X2,…,XN), es la raíz N-ésima del

producto de los N elementos

• Se calcula transformando todos los valores a sus logaritmos, luego obteniendo la media de esos

logaritmos y estimando el antilogaritmo de esa media

• No puede ser obtenida con valores ‘0’ o negativos

Media geométrica

Porcentaje de ovitrampas positivas, según municipio

Hermosillo 32.6

Cajeme 53.5

Guaymas 28.9

Nogales 48.2

Navojoa 67.4

MG = 532.6 × 53.5 × 28.9 × 48.2 × 67.4

MG = 5163748059 MG = 43.93

¿Cuál es la media aritmética?

Media = 46.12

Media geométricaTemperatura (°C) de 12 individuos

37.0

36.0

37.1

37.1

36.2

37.3

36.8

37.0

36.3

36.9

36.7

36.8

MG = 1237.0 × 36.0…× 36.8

MG = 126.0977𝑒18

MG = 36.76≈ 36.8

Obtenga la media aritmética de esta serie

X = 36.76 ¿Qué pasó?!

La temperatura 0.0°C no significa que no hay “temperatura”. ‘0’ es posible, luego noPuede obtenerse una MG

Media armónica

• No es usualmente usada en ciencias biológicas

• No puede ser estimada si cualquiera de los valores es cero o negativo

• Es el recíproco o inverso de la media aritmética

• Se transforma cada valor a su recíproco, luego se obtiene la media aritmética de esos recíprocos

• Se recomienda para promediar velocidades

• Siempre es menor o igual a la media aritmética

Mediana

• En una serie ordenada de datos, es el valor que deja por

arriba y por debajo de él, al 50% de los valores de Xi.

• Regla para su cálculo:

1. Ordenar todos los datos

2. La ubicación de la Md se encuentra con la fórmula

(n+1)/2

3. La fórmula NO nos dice el valor de Md, sólo la posición en

que se encuentra

Mediana

Ejemplo con números impares:

Aquí está la lista ordenada del número de jonrones conectados por

Babe Ruth cuando jugó con lo Yanquis de Nueva York:

22, 25, 34, 35, 41, 41, 46, 46, 46, 47, 49, 54, 54, 59, 60

La mediana es el valor 46, la octava observación en la lista

ordenada. Puede ser encontrada a simple vista – hay siete

observaciones a la izquierda y siete a la derecha – o a través de la

fórmula (n+1)/2 = (15+1)/2 = 16/2 = 8.

La fórmula sólo nos indica la ubicación de la mediana, en nuestro

ejemplo, la mediana es 46, no 8.

Mediana

Ejemplo con números pares:

Enseguida está la lista ordenada de jonrones conectados por Roger

Maris:

8, 13, 14, 16, 23, 26, 28, 33, 39, 61

Porque n = 10, hay un par de valores en el centro de la serie de

datos (23 y 26) más que un único valor – cuatro valores a la

derecha de 26 y cuatro a la izquierda de 23 – ese par de valores son

señalados en letra roja. La mediana entonces es el promedio de

esos dos valores:

Md = 23 + 26 / 2 = 49/2 = 24.5

Mediana para series agrupadas

• Donde:

L.5 = Límite inferior del intervalo de clase donde

se ubica la mediana

Fp = Frecuencia acumulada en el intervalo de

clase anterior al que se ubica la mediana

F.5 = Frecuencia de clase (No. de observaciones)

del intervalo donde se ubica la mediana

C = amplitud del intervalo donde se ubica la

mediana

CF

Fn

LMdp

5.

52

)1(

.

Mediana para series agrupadas

Grupo de edad

mi fi

Fp

(Frecuencia acumulada)

% % acumulado

26 a 30 28 6 6 9 9

31 a 35 33 24 30 36 45

36 a 40 38 27 57 40 85

41 a 46 43.5 10 67 15 100

Total 142.5 67 100

• Md = 36 + [(67+1)/2] – 30

275

= 36 + [(4/27) 5] = 36 + [(0.1481) 5] = 36 + 0.74= 36.74 ≈ 37

I.C donde se ubica la medianaL.5 = 36n = 67Fp = 30F.5 = 27C = 5

• Donde:

L.5 = Límite inferior del intervalo de clase donde se ubica la mediana

Fp = Frecuencia acumulada en el intervalo de clase anterior al que se

ubica la mediana

F.5 = Frecuencia de clase (No. de observaciones) del intervalo donde

se ubica la mediana

C = amplitud del intervalo donde se ubica la mediana

CF

Fn

LMdp

5.

52

)1(

.

Pros y contras de la mediana

Pros

• No influenciada por valores

extremos o distribuciones sesgadas

• Buena para datos ordinales

• Más fácil de calcular que la media

Contras

• Puede no existir en los datos reales

• No toma en cuenta valores reales sino ubicación

de las observaciones

Moda

• Una medida poco empleada

• Es el valor que se presenta con mayor frecuencia en una serie de

observaciones.

• Debe buscarse en cada evento que describa.

• La moda (Mo) puede presentarse más de una vez en una serie de datos, es

decir, no es una medida única como la media o la mediana.

• ¿Cuál fue la moda en nuestro ejemplo de los jonrones de Babe Ruth? ¿Cuál en

el caso de Roger Maris?

Moda para series agrupadas

• Donde:

Lm = Límite inferior de la clase modal

Δ1 = valor absoluto de la diferencia de frecuencias entre la clase modal y la clase inmediata anterior a ésta

Δ2 = valor absoluto de la diferencia de frecuencias entre la clase modal y la clase inmediata superior a ésta

C = amplitud de la clase modal

CLMo m

21

1

Moda para series agrupadas

Grupo de edad mi fi Fp % % acumulado

26 a 30 28 6 6 9 9

31 a 35 33 24 30 36 45

36 a 40 38 27 57 40 85

41 a 46 43.5 10 67 15 100

Total 142.5 67 100

• Mo = 36 + [27-24]

3 + (27-10)5

= 36 + [(3/20) 5] = 36 + [(0.15) 5] = 36 + 0.75= 36.75 ≈ 37

Clase modal Lm = 36Δ1 = 27 – 24 = 3Δ2 = 27 – 10 = 17C = 5

• Donde:

Lm = Límite inferior de la clase modal

Δ1 = valor absoluto de la diferencia de frecuencias entre la clase modal y la clase inmediata anterior a ésta

Δ2 = valor absoluto de la diferencia de frecuencias entre la clase modal y la clase inmediata superior a ésta

C = amplitud de la clase modal

CLMo m

21

1

Pros y contras de la moda

Pros

• Buena para datos nominales

• Buena cuando hay al menos dos

valores “típicos”

• Fácil de calcular y entender

• El valor procede del grupo de datos

Contras

• Ignora la mayoría de información

en una distribución

• Muestras pequeñas pueden no

tener moda

Tarea para próxima sesión

• Tomando como valor a la edad de 67 sujetos, obtenga la media, mediana y moda.

Use las fórmulas para series agrupadas para resolverlas

• Elabore un cuadro para agrupar a la serie de datos en 4 intervalos de clase,

iniciando en 26 y terminando en 46. Los valores son los siguientes:

• 40, 36, 34, 32, 45, 35, 33, 33, 34, 32, 42, 29, 28, 38, 31, 40, 28, 39, 39, 26, 38, 44,

34, 36, 34, 38, 38, 35, 38, 36, 38, 39, 31, 42, 36, 40, 42, 40, 38, 40, 42, 39, 42, 31,

33, 31, 42, 36, 32, 32, 37, 41, 31, 40, 31, 34, 38, 38, 35, 35, 37, 29, 32, 38, 33, 30,

46

Resumen

• Medida de tendencia central: el valor simple que mejor

describe el centro de una distribución de valores

• Media

• La suma de todos los valores de las observaciones

dividida por el número de observaciones

• Mediana

• El valor que divide la distribución en dos partes iguales

que están ordenadas

• Moda

• El valor que más se repite en la serie de observaciones

Medidas de Dispersión

• Son también medidas de resumen

• Nos permiten conocer qué tan lejos o cerca se

encuentran los valores respecto al centro de

la distribución

• Reflejan la variabilidad existente entre las

observaciones

• A mayor variabilidad de los datos existe

también mayor dispersión


• Relación entre las medidas de tendencia central y las medidas dedispersión

Tendencia Central Dispersión o variabilidad

Media Desviación estándar y varianza

Mediana Cuartil y Rango Intercuartil

Moda Rango


La media y la desviación estándar deben emplearse únicamente en una distribución simétrica y

normal.

¿Cómo sabemos esto?

Despliéguense gráficas de la distribución

Gráfica de Stemplot

Regresemos a nuestro ejemplo acerca de los jonrones de Babe Ruth. Los valores son los siguientes:

54, 59, 35, 41, 46, 25, 47, 60, 54, 46, 49, 46, 41, 34, 22

1. Procedamos a elaborar nuestra gráfica con estos datos: Escriba los tallos

2

3

4

5

6


2. Coloque las “hojas” en el “tallo” apropiado

3. Ordenemos las “hojas” de cada “tallo”

En esta imagen podemos apreciar un comportamientoaproximadamente normal de la distribución

2 5 2

3 5 4

4 1 6 7 6 9 6 1

5 4 9 4

6 0

2 2 5

3 4 5

4 1 1 6 6 6 7 9

5 4 4 9

6 0

1f | 4445551s | 66666667777777777771. | 888888888899999999999999992* | 0000000000000000001111111111112t | 222222222222233333333333332f | 44444444444445555555555555552s | 666666667772. | 88888888899999993* | 0000000111113t | 2222223333f | 4553s | 663. | 4* | 4t | 4f | 5

14 18 20 22 25 28 33

14 18 20 22 25 28 33

14 18 20 22 25 28 33

15 18 20 22 25 28 34

15 18 20 23 25 28 35

15 19 20 23 25 29 35

16 19 20 23 25 29 36

16 19 20 23 25 29 36

16 19 20 23 25 29 45

16 19 21 23 25 29

16 19 21 23 25 29

16 19 21 23 25 29

16 19 21 23 25 30

17 19 21 23 25 30

17 19 21 23 25 30

17 19 21 23 26 30

17 19 21 23 26 30

17 19 21 24 26 30

17 19 21 24 26 30

17 19 21 24 26 31

17 19 21 24 26 31

17 20 22 24 26 31

17 20 22 24 26 31

17 20 22 24 27 31

17 20 22 24 27 32

18 20 22 24 27 32

18 20 22 24 28 32

18 20 22 24 28 32

18 20 22 24 28 32

18 20 22 24 28 32

Hojas y tallos

Stem Leaves1F | 445S | 666666777777777. | 88888899999999999

2* | 00000000000001111111111111T | 22222222222222233333333333F | 44444444444444555555555S | 6666666666666677777777777777777

| 8888888888999999993* | 00000000000011111111111T | 222222222222333333333333F | 444444445555555S | 666666677777777. | 888888888999999

4* | 000011T | 223F | 445S | 6

Hojas y tallos

• La edad de 264 mujeres

con MM

Media = 27.7


Histograma:

Es una gráfica que despliega el comportamiento de variables cuantitativas

continuas

En el eje de las “x” existen valores posibles en cada uno de los puntos

Es necesario crear categorías

Ejemplo:Grupo de

edad

Frecuencia

20 a 29 2

30 a 39 2

40 a 49 7

50 a 59 3

60 y más 1


Histograma

0

1

2

3

4

5

6

7

8

20 a 29 30 a 39 40 a 49 50 a 59 60 y más

Categoría

Fre

cue

nci

a

Recordatorio: Las distribuciones normales

Estrategia general:

1. Siempre grafique sus datos. Usualmente un stemplot o un histograma

2. Observe el patrón general de la distribución y busque intencionadamente desviaciones

llamativas, tales como los “outliers”

3. Calcule una medida numérica de resumen para describir brevemente el centro y dispersión de la

distribución

Ahora, agreguemos un nuevo paso a esta estrategia general

1. En ocasiones, el patrón general de una serie con un gran número de observaciones es tan

regular que podemos describirla como una curva suave. Como la que se muestra a continuación

Las distribuciones normales

• La curva normal es un modelo matemático de una distribución

• Definida por Gauss (1809) al analizar fenómenos astronómicos

• Puede ser obtenida a través de un histograma


• La curva normal es una distribución de probabilidad,

con un área máxima de 1 debajo de ella

• Representa el comportamiento de ciertos fenómenos

caracterizados por variables cuantitativas continuas

que se distribuyen alrededor de una media

• Nos sirve para hacer estimaciones acerca del

comportamiento de cierta clase de fenómenos que

siguen un patrón “normal”


• Una clase importante de curvas de densidad son las simétricas,

unimodales y con una bien delimitada figura como de “campana”

• Esas curvas son llamadas curvas normales y describen distribuciones

normales

• Todas las distribuciones normales tienen la misma figura general

• La curva normal es especificada por su media (μ) y su desviación

estándar (σ); la media, así como la mediana, están siempre en el centro

de la curva simétrica


• La desviación estándar controla la dispersión de la curva normal

• En las siguientes figuras mostraremos dos curvas normales con diferentes valores

de S (σ)

μ

σ


μ

σ

• ¿ Cuál de las dos curvas está más dispersa?

• ¿Las dos son curvas normales?

Desviación estándar y varianza


• La desviación estándar (s) mide la dispersión de la

distribución, es decir, qué tan lejos están las

observaciones de su media.

• La varianza (s2) es el promedio de los cuadrados de las

desviaciones de las observaciones de su media.

• La varianza de ‘n’ observaciones X1, X2,...,Xn, es: [1]

• La desviación estándar (S) es la raíz cuadrada de la

varianza (S2) es: [2]

1

)()()( 22

2

2

12

n

XXXXXXS n

2)(1

1XX

nS i

La varianza:

La desviación estándar


• La idea que está detrás de S y S2 como medidas de

dispersión es que las desviaciones

despliegan la dispersión de los valores Xi

respecto a su media

• Algunas de esas desviaciones serán negativas y otras

serán positivas, porque algunas observaciones

caerán a cada lado de la media

• La desviación estándar, es la medida natural de la

dispersión de las distribuciones normales

http://primed.info/hbgs/practical_biostatistics.gif

2xxi

Propiedades de la desviación estándar

1. Debe ser usada únicamente cuando la media es la MTC

2. La desviación estándar (S) = 0 solamente cuando no hay dispersión. Esto

ocurre cuando todas las observaciones tienen el mismo valor, de lo

contrario S > 0

3. En tanto las observaciones se alejen más de su media, la desviación

estándar (S) se hace más grande

4. La suma de las desviaciones estándar de en una serie de

datos es = 0

5. La desviación estándar (S), como la , no es una medida resistente.

xxi

x


• Ejemplo

• Edad de 10 sujetos incluidos en un estudio de seguimiento para valorar el efecto de un

consumo excesivo de grasas saturadas.

• 20, 8, 6, 21, 10, 7, 13, 5, 26, 12

1) Estimemos la media de la distribución

• X = 1/n Σ Xi = 128/10 = 12.8

2) Hagamos una serie ordenada de los valores, comprobemos que la suma de las

desviaciones es cero y estimemos las desviaciones cuadradas,


Xi (Xi – X) (Xi – X)2

5 - 7.8 60.84

6 - 6.8 46.24

7 - 5.8 33.64

8 - 4.8 23.04

10 - 2.8 7.84

12 - 0.8 0.64

13 0.2 0.04

20 7.2 51.84

21 8.2 67.24

26 13.2 174.24

128 0 465.6∑


3) Estimemos la varianza:

• S2 = 1/n-1 Σ (Xi – X)2 = 465.6/9 = 51.73 ≈ 51.7

4) La desviación estándar

• S = √1/n-1 Σ (Xi – X)2 = √51.73 = 7.19 ≈ 7.2

5) Veamos la imagen que desplegarían la media y la desviación de dos

de nuestras observaciones del ejemplo

5.0 7.5 10.0 12.5 15.0 17.5 20.0 22.5 25.0 27.5

X = 12.8X2 = 6

Desviación = -6.8

X9 = 21

Desviación = 8.2

Tarea para siguiente sesión

• Tarifas por día de hoteles en Las Vegas

196, 52, 100, 472, 136, 205, 750, 150, 76, 257, 264, 280, 282, 422, 480, 402, 303, 313,

264, 317, 325, 373, 384, 791, 400, 417, 643, 186, 317, 693, 283, 749, 891, 732, 384

• Haga una lista ordenada de valores

• Estime la media de la distribución

• Compruebe que la suma de las desviaciones es cero

• Calcule las desviaciones cuadradas

• Estime la varianza y la desviación estándar

Varianza y desviación estándar para series agrupadas

n

i

k

i

fi

fiXmi

S

1

1

2

2

1

*)(

n

i

k

i

fi

fiXmi

S

1

1

2

1

*)(

Varianza para series agrupadas: expresión matemática

Desviación estándar para series agrupadas: expresión matemática


Grupo de edad

mi fi mifi mi - Xmedia (mi – Xmedia)2 (mi – Xmedia)2 fi

10 a 14 12 5 60 - 10 100 500

15 a 19 17 10 170 - 5 25 250

20 a 24 22 28 616 0 0 0

25 a 29 27 20 540 5 25 500

Σ 78 63 1386 150 1250

2263

1386

fi

mifiX

• Lo esencial para este tipo de ejercicios es el agrupamiento en una tabla de

distribución de frecuencias


n

i

k

i

fi

fiXmi

S

1

1

2

2

1

*)(

Varianza para series agrupadas: expresión matemática

S2 =1250

63 - 1= 20.16

La desviación estándar:

S =1250

63 - 1= 20.16 = 4.49

Varianza y desviación estándar para series agrupadas: fórmulas cortas

1

2

2

2

fin

mififimi

S

1

2

2

2

fin

mififimi

S

Varianza para series agrupadas: fórmula corta

Desviación estándar para series agrupadas: fórmula corta


Grupo de edad

mi fi mifi mi - Xmedia (mi – Xmedia)2 (mi – Xmedia)2 fi mi2 mi2fi

10 a 14 12 5 60 - 10 100 500 144 720

15 a 19 17 10 170 - 5 25 250 289 2890

20 a 24 22 28 616 0 0 0 484 13552

25 a 29 27 20 540 5 25 500 729 14580

Σ 78 63 1386 150 1250 31742


1

2

2

2

fin

mififimi

S

Grupo de edad

mi fi mifimi -

Xmedia

(mi –Xmedia)2

(mi – Xmedia)2

fimi2 mi2fi

10 a 14 12 5 60 - 10 100 500 144 720

15 a 19 17 10 170 - 5 25 250 289 2890

20 a 24 22 28 616 0 0 0 484 13552

25 a 29 27 20 540 5 25 500 729 14580

Σ 78 63 1386 150 1250 31742

Varianza para series agrupadas: fórmula corta

S2 =31742

_(1386)2

63

63 -1

=31742

_ 1920996

63

62

=31742 - 30492

62=

1250

62= 20.16

S = 20.16 = 4.49

Rango

• Resultado de la diferencia entre los valores extremos de la

distribución,

• (Xmax.+1) – Xmin.

• Donde Xmax. corresponde a la observación de mayor valor y Xmin. a la

más pequeña (amplitud del rango)

• El rango de los jonrones de Babe Ruth se expresa así: Rango = 22 a

60. La amplitud del rango es: (60+1) – 22 = 39

Pros y contras del rango

Pros

• Muy simple de calcular

• Los valores existen en el grupo de

datos

Contras

• Los valores dependen solamente

de dos observaciones

• Muy sensible a los “outliers”

• Influenciado por el tamaño de la

muestra (a mayor tamaño, mayor

el rango)

Ejercicio: rango

• Tarifas de hotel en Las Vegas

205, 76, 186, 196, 750, 52, 150, 257, 264, 264, 693, 280, 891, 282, 313, 400, 472,

317, 317, 325, 373, 384, 283, 303, 384, 417, 100, 422, 480, 643, 402, 732, 749,

791, 136

• ¿Cuál es el rango? =

• Calcule la amplitud del rango:

76 a 891

892-76 = 816

Cuartiles

• Medidas de localización que dividen a la distribución de frecuencias en

cuatro partes iguales

• Los identificaremos con la notación Q

• Q1 = cuartil 1 o percentil 25, es el valor que deja por arriba de él al 75% de

los valores y por debajo de él al restante 25%

• Q1 = (n+1)/4

Cuartiles

• Q2 = mediana o percentil 50

• Q3 o percentil 75, es el valor que tiene por arriba de él al 25% de los

valores de la serie ordenada y 75% por debajo de él

• Q3 = [3 (n+1)]/4

• Igual que con la Md, la fórmula sólo nos indica la posición, NO el valor del

cuartil

Cuartiles

Cuartiles para series agrupadas

• Para cuartil 1 o Q1:

CF

Fn

LQp

25.

25.14

1

• Donde:

L.25 = Límite inferior del intervalo que contiene Q1 ó percentil 25

n = número de observaciones

Fp = Frecuencia absoluta acumulada del intervalo de clase anterior al que contiene Q1

F.25 = Frecuencia absoluta del intervalo que contiene a Q1

C = Amplitud del intervalo que contiene a Q1


Grupo de edadFrecuencia absoluta

Fp % % Acumulado

0 a 4 10 10 12.9 12.9

5 a 9 15 25 19.5 32.4

10 a 14 32 57 41.6 74.0

15 a 19 20 77 26.0 100.0

Total 77 100.0

L.25 = 5 n = 77 Fp = 10 F.25 = 15 C = 5

Q1 = 5

77 + 1

410_

+ 5

15

= 5 + [(0.63) 5] = 5 + 3.16 = 8.16 ≈ 8

* Interpretación: El 25% de los valores se encuentra por debajode 8.16


• Para cuartil 3 o Q3:

CF

Fn

LQp

75.

75.34

)1(3

• Donde:

L.75 = Límite inferior del intervalo que contiene Q3 ó percentil 75

n = número de observaciones

Fp = Frecuencia absoluta acumulada del intervalo de clase anterior al que contiene Q3

F.75 = Frecuencia absoluta del intervalo que contiene a Q3

C = Amplitud del intervalo que contiene a Q3



Fp % % Acumulado

0 a 4 10 10 12.9 12.9

5 a 9 15 25 19.5 32.4

10 a 14 32 57 41.6 74.0

15 a 19 20 77 26.0 100.0

Total 77 100.0

L.75 = 15 n = 77 Fp = 57 F.75 = 20 C = 5

Q3 = 15

3 (78)

457_

+ 5

20

= 15 + [(0.075) 5] = 15 + 0.375 = 15.375 ≈ 15

* Interpretación: El 75% de los valores se encuentra por debajode 15.375

Rango intercuartil

Rango Intercuartil (RIQ)

• Es la distancia existente entre los cuartiles Q1 y Q3

• Da el rango cubierto por la mitad de los datos

• Es decir, RIQ contiene al 50% de los valores centrales de una distribución

Q1 Q3Q2

Rango IQ50% de los valores

Rango intercuartil

• La expresión matemática:

• RIQ = Q3 – Q1

• Los cuartiles y el RIQ no son afectados por cambios en los extremos de la

distribución, por lo tanto, son medidas resistentes a los valores atípicos (“outliers”)

• Con una sencilla regla podemos identificar esos valores extremos: 1.5 x RIQ

• Llamaremos “outliers” a aquellos valores que caigan más de 1.5 x RIQ arriba de Q3

o por debajo de Q1.

Rango intercuartil

• Ejemplo:

• Supongamos que en una serie de datos acerca del costo de un medicamento en

distintas farmacias, observamos que el RIQ = 70 - 55 = 15

• Apliquemos nuestra regla: 1.5 x RIQ, 1.5 x 15 = $22.5

• Esto nos indica que cualquier valor por abajo de 32.5 ($55 - $22.5) o por arriba de

$92.5 ($70 + $22.5) son posibles “outliers”

Percentiles

• Son valores de localización que dividen a la

distribución en 100 partes iguales

• Sólo determinan posición, NO el valor del percentil

• Pk = (k/100)n

• Donde Pk significa el percentil deseado (P10, P30,

P50, etc.) y ‘n’ corresponde al número de

observaciones de la serie

Percentiles

• Ejemplo:

• Busquemos el percentil 10 de una serie de 67 sujetos en los que se está estudiando la edad :

• P10 = (10/100) 67 = 6.7

• Como 6.7 sólo nos indica la ubicación en que se ubica el percentil 10 podemos inferir que tal valor se encuentra entre las posiciones 6 y 7. Supongamos que tales posiciones están ocupadas por los valores 30 y 31 (edad de esos dos sujetos), ¿cuál es el valor que corresponde a la posición 6.7?, lo obtenemos de la siguiente manera:

• P10 = 30 + 1 (0.7) = 30.7

• Si esos valores cambiaran y fueran 30 y 38, nuestra estimación sería la siguiente:

• P10 = 30 + 8 (0.7) = 35.6

Valor de la posición 6

Distancia recorrida entre los valores 30 y 31

La fracción del valor 6.7

Categoría de peso Rango de percentil

Por debajo del peso Menos del percentil 5

Sano Entre el percentil 5 hasta menos del 85%

En riesgo de sobrepeso 85 hasta menos del percentil 95

Sobrepeso y obesidad Igual o mayor al percentil 95%

Percentiles para series agrupadas

CF

Fnk

LPkk

p

k

.

.100

)1(

• Donde:

P.k = El valor del percentil que se quiere calcular

L.k = Límite inferior del intervalo que contiene al percentil que se busca

Fp = Frecuencia absoluta acumulada del intervalo de clase anterior al que contiene Pk

F.k = Frecuencia absoluta del intervalo que contiene a Pk

C = Amplitud del intervalo que contiene a Pk

Percentiles para series agrupadas


Fp % % Acumulado

0 a 4 10 10 12.9 12.9

5 a 9 15 25 19.5 32.4

10 a 14 32 57 41.6 74.0

15 a 19 20 77 26.0 100.0

Total 77 100.0

• Calculemos P19 (valor que debajo por debajo de él al 19% de las observaciones

L.19 = 5 n = 77 Fp = 10 F.19 = 15 C = 5

P19 = 5

19 (78)

10010_

+ 5

15

= 5 + [(0.32) 5] = 5 + 1.6 = 6.6 ≈ 7

* Interpretación: El 19% de los valores se encuentra por debajo de 6.6

Tarea para próxima sesión


Fp % % Acumulado

0 a 4 10 10 12.9 12.9

5 a 9 15 25 19.5 32.4

10 a 14 32 57 41.6 74.0

15 a 19 20 77 26.0 100.0

Total 77 100.0

• Usando los datos de la tabla previa:

1. Calcule P40 (valor que debajo por debajo de él al 40% de las observaciones)

2. Estime P80 (valor que deja por debajo de él al 80% de las observaciones)

Mínimo y máximo

• Valores que señalan la dispersión total

de la distribución

• Corresponden a los valores más

extremos en la serie de datos

• Complementan la descripción de las

MTC y de dispersión

Recordatorio: resumen de los cinco números

• El grupo de observaciones que incluyen al mínimo, Q1, Md, Q3 y al máximo se denominan “el

resumen de los cinco números”

• En nuestro ej. de Babe Ruth, tales valores serían:

• 22, 35, 46, 54, 60

• Este resumen numérico nos lleva a una representación visual conocida como “boxplot”.

0

20

40

60

Md = 46

Q1 = 35

Q3 = 54

Máximo = 60

Mínimo = 22

Summary Section of EDAD

Standard Standard

Count Mean Deviation Error Minimum Maximum Range

264 27.67602 7.106908 0.4374 14.03 46.03 32

Counts Section of EDAD

Sum of Missing Distinct Total Adjusted

Rows Frequencies Values Values Sum Sum Squares Sum

Squares

266 264 2 174 7306.47 215497.7 13283.64

Means Section of EDAD

Geometric Harmonic

Parameter Mean Median Mean Mean Sum Mode

Value 27.67602 27.055 26.75986 25.84622 7306.47 24.1

Std Error 0.4374 115.4736

95% LCL 26.81477 26.05 25.92168 25.02943 7079.1

95% UCL 28.53727 28.07 27.62515 26.71813 7533.84

T-Value 63.27395

Prob Level 0

Count 264 264 264 5

Variation Section of EDAD

Standard Unbiased Std Error Interquartile

Parameter Variance Deviation Std Dev of Mean Range Range

Value 50.50814 7.106908 7.113667 0.4374 11.0125 32

Std Error 3.510223 0.3492521 0.02149498

95% LCL 42.87611 6.547985 0.4030006

95% UCL 60.38786 7.770962 0.4782697

Sesgo

• Una distribución es simétrica cuando

las observaciones están

uniformemente cercanas a la Md y a la

media

• Una distribución está sesgada cuando

es asimétrica hacia uno de los lados

• Existen en este sentido, dos

posibilidades: sesgo a la derecha y

sesgo a la izquierda

Sesgo a la derecha

0 α

α y

x

Mo Md Xmedia

La Xmedia > Md > Mo

Sesgo a la izquierda

0 α

α y

x

MoMdXmedia

La Xmedia < Md < Mo

Coeficiente de sesgo de Pearson (Índice de asimetría de Pearson)

• Los fenómenos biológicos se distribuyen aleatoria y

normalmente (de acuerdo a curva normal)

• Para probar si esto es cierto, podemos usar el

coeficiente de sesgo de Pearson

• Cuando la distribución no está sesgada, el CSP

tiende a cero

• Si CSP es negativo, la distribución está sesgada a la

izquierda

• Si CSP es positivo, la distribución está sesgada a la

derecha

S

MdXCSPóSKP

)(3

Coeficiente de sesgo de Pearson (Índice de asimetría de Pearson)

S

MdXCSPóSKP

)(3

Skewness and Kurtosis Section of EDADCoefficient Coefficient

Parameter Skewness Kurtosis Fisher's g1 Fisher's g2 of Variation of DispersionValue 0.2798641 2.275119 0.2814659 -0.7157232 0.2567894 0.2183669Std Error 0.09751143 0.1428113 0.008838272

¿Hay sesgo? ¿Hacia dónde se encuentra?

Curtosis

• Es una medida de la agudeza de la distribución (‘que tan picuda es la curva’)

• Hace referencia al apuntamiento de la distribución en relación a un estándar, que es

la distribución normal

• Mide pues, la dispersión de una curva

• Su expresión matemática:

3

*)(4

4

s

nxxK

i

Curtosis

• Donde

• x: media aritmética de la variable x

s: desviación estándar de la variable x

n: frecuencia absoluta

3

*)(4

4

s

nxxK

i

Si K>0 la curva es leptocúrtica (más elevada que la curva normal)

Si K=0 la curva es mesocúrtica (igual de elevada que la curva normal)

Si K<0 la curva es platicúrtica (menos elevada que la curva normal)

Curtosis

Kurtosis = 2.275119

Edad de 264 mujeres con MM

¿Qué tipo de curva es?

Curtosis

• Distribución leptocúrtica: K índice superior a 0

http://www.scielo.org.co/img/revistas/eg/v22n100/n100a05f2.jpg

Curtosis

• Distribución platicúrtica: K índice inferior a 0

http://www.efdeportes.com/efd87/motric02.gif

Curtosis

• Distribución mesocúrtica: K ~ 0

http://www.aulafacil.com/CursoEstadistica/Lecc-9-est.htm

Ejercicio

• ¿Es normal la distribución de esta serie de datos correspondientes las semanas de

edad gestacional, según sexo del recién nacido, en un estudio de sífilis congénita?

• Si no es así, cómo espera que se encuentre la distribución, ¿hay algún sesgo?, ¿hacía

dónde? Justifique su respuesta

• Estime el coeficiente de sesgo de Pearson para los RN hombres y las mujeres

Statistical Summary Report

Page/Date/Time 1 03/03/2010 03:42:00 p.m.

Database J:\RESPALDO MI LAPTOP\STUDEN ... ATABASE SIFILIS MAR012010.S0

Table of Counts, Means, Medians, Standard Deviations, Minimums, Maximums, Standard Errors

SEX

Variables Male Female Unknown Total

SDG 136 151 5 292

34.47573 34.59007 34.46 34.53459

37.1 37 34.1 37

5.902736 5.982784 3.917652 5.901576

22 22 30 22

42 42 40.2 42

0.5061555 0.486872 1.752027 0.3453636

Ejercicio

0.0

13.3

26.7

40.0

20.0 28.3 36.7 45.0

Histogram

SDG (SEX=1)

Co

un

t

En los hombres hay un sesgo a la izquierda, la Md es > que la media

0.0

13.3

26.7

40.0

20.0 28.3 36.7 45.0

Histogram

SDG (SEX=2)

Co

un

t

Ejercicio

En las mujeres hay un sesgo a la izquierda, la Md es > que la media

Ejercicio

En los hombres hay un sesgo a la izquierda, la Md es > que la media

33.1902736.5

87281.7

902736.5

)1.3747573.34(3

)(3

S

MdXCSPóSKP

Ejercicio

En las mujeres hay un sesgo a la izquierda, la Md es > que la media

20.1982784.5

22979.7

982784.5

)3759007.34(3

)(3

S

MdXCSPóSKP