Cap´ıtulo 1 Estad´ıstica descriptiva univariante€¦ · Por esta raz´on el diagrama de tallo...
Transcript of Cap´ıtulo 1 Estad´ıstica descriptiva univariante€¦ · Por esta raz´on el diagrama de tallo...
Capıtulo 1
Estadıstica descriptiva univariante
”No aprendemos porque seamos inteligentes,
somos inteligentes cuando aprendemos”.
Datos. Distribuciones de frecuencias. Representaciones graficas.
Sıntesis de datos: Medidas descriptivas.
• de centralizacion
• de posicion
• de dispersion
• de forma
Casos atıpicos.
Ejercicios.
1
2 1. Estadıstica descriptiva univariante
La Estadıstica es la ciencia de los datos. Cualquier conjunto de datos contiene
informacion sobre un grupo de individuos. La informacion se organiza con variables.
Los individuos, que son los elementos observados y sometidos a investigacion,
pueden ser personas, animales o cosas.
Una variable es cualquier caracterıstica X de un individuo que queramos ana-
lizar. Las variables pueden ser:
• cualitativas o atributo: sus modalidades son nominales. Ejemplo: el grupo san-
guıneo.
• cuasicuantitativas u ordinales: aunque sus modalidades son nominales, es po-
sible establecer un orden entre ellas. Ejemplo: grado de recuperacion de un paciente
tras un tratamiento (Nada, Poco, Moderado, Bueno, Muy Bueno). Estas modali-
dades se presentan, a veces, en escalas numericas. Por ejemplo, puntuar el grado
de recuperacion en una escala de 0 a 4, lo que no significa que podamos realizar
operaciones aritmeticas con dichas cantidades, pues un grado de recuperacion 4 no
significa el doble que el de grado 2.
• cuantitativas: toman valores numericos, para los que tiene sentido hacer calculos
aritmeticos. Las variables numericas pueden ser:
Discreta (Datos no agrupados): cuando el paso de un valor a otro representa
un salto, es decir, existe una distancia, no nula, entre valores contiguos de
la variable. Por ejemplo: nacimientos diarios en cierta comunidad, numero de
electrodomesticos en el hogar, numero de hijos en una poblacion, ...
Continua (Datos agrupados): cuando dados dos valores cualesquiera que ha
tomado la variable, existe siempre entre ellos una infinidad de posibles valores
que pudiera tomar. Ası por ejemplo magnitudes como el peso, la longitud, el
volumen, ... son variables continuas.
Si la variable X ha tomado los valores x1, x2, . . . , xn en un conjunto de individuos,
nuestro objetivo sera, en primer lugar, organizar la informacion.
Alicia M. Juan GonzalezEnfermerıa GD A Curso 2013/14
1.1. Distribuciones de frecuencias y graficos 3
1.1. Distribuciones de frecuencias y graficos.
La distribucion de frecuencias nos dice que valores toma la variable y con
que frecuencia.
ni: frecuencia absoluta fi: frecuencia relativa
Ni: frecuencia absoluta acumulada Fi: frecuencia relativa acumulada
xi ni fi = ni
n
Ni = n1 + · · · + ni Fi = Ni
n
• Distribucion de frecuencias para datos no agrupados:
X ni Ni fi Fi
x1 n1 N1 f1 F1
x2 n2 N2 f2 F2
......
......
...
xi ni Ni fi Fi
......
......
...
xm nm n fm 1
n 1
• Distribucion de frecuencias para datos agrupados: Cuando la variable
es continua o, en cambio, es discreta pero el numero de valores distintos que toma
es grande, conviene agrupar los datos en clases o intervalos, en cuyo caso, se llama
Alicia M. Juan GonzalezEnfermerıa GD A Curso 2013/14
4 1. Estadıstica descriptiva univariante
marca de clase al valor central del intervalo que identifica la clase.
Ii ci ni Ni fi Fi
[L0, L1) c1 n1 N1 f1 F1
[L1, L2) c2 n2 N2 f2 F2
......
......
......
[Li−1, Li) ci ni Ni fi Fi
......
......
......
[Lm−1, Lm] cm nm n fm 1
n 1
siendo ci la marca de clase del intervalo [Li−1, Li),
ci =Li−1 + Li
2
No existe un unico criterio para determinar el numero k de intervalos. Por lo general,
depende del tamano de la muestra, n. Ası, un criterio clasico establece que, si n es
pequeno (n ≤ 50), entonces k ≈ √n y, en caso contrario, k ≈ 1 + 3, 22 ln n. Otro
criterio recomienda que 4 ≤ k ≤ 15 con k ≈ 10 % n.
Una vez obtenido k, calculamos el rango o recorrido R de la variable,
R = maxi
xi − mıni
xi
y la razon R/k ≈ a (de tal manera que ak ≥ R) es la amplitud de cada clase. A
partir de aquı, conviene tener en cuenta las observaciones siguientes:
El dato mas pequeno debe estar en el primer intervalo, y el dato mayor debe
estar en el ultimo intervalo,
Los lımites de los intervalos no deben solaparse,
La marca de clase, si es posible y por razones de comodidad, debe ser de la
misma naturaleza que los datos.
Alicia M. Juan GonzalezEnfermerıa GD A Curso 2013/14
1.1. Distribuciones de frecuencias y graficos 5
Representaciones graficas.
Graficos de atributos
Grafico de barras (o Pareto) Grafico de sectores
En un grafico de barras se representa sobre el eje de abscisas las modalidades y,
sobre el eje de ordenadas, las frecuencias absolutas o bien, las frecuencias relativas.
Si mediante un mismo grafico se desea comparar varias poblaciones de tamanos
distintos, debemos utilizar las frecuencias relativas.
En un grafico de sectores se divide un cırculo en tantas porciones como mo-
dalidades del atributo, de modo que a cada modalidad le corresponda un arco de
cırculo proporcional a su frecuencia absoluta o relativa.
Graficos de variables discretas
Grafico de barras Grafico de barras acumulado
En un grafico de barras se representa sobre el eje de abscisas las modalidades
y, sobre el eje de ordenadas, las frecuencias absolutas o bien, las frecuencias relativas.
En un grafico de barras acumulado se utilizan las frecuencias acumuladas.
Alicia M. Juan GonzalezEnfermerıa GD A Curso 2013/14
6 1. Estadıstica descriptiva univariante
Graficos de variables continuas
Histograma Diagrama de tallos y hojas
Un histograma es un conjunto de rectangulos, cada uno se corresponde con un
intervalo o clase. Cada rectangulo tiene una base que es la amplitud de su intervalo
asociado y su altura se determina de forma que el area de dicho rectangulo sea pro-
porcional a la frecuencia de su intervalo. Ası, la altura de cada rectangulo, conocida
como densidad de frecuencia, se calcula por
hi =ni
ai
aunque tambien podrıan calcularse utilizando las frecuencias relativas, fi, en lugar
de las abslutas. Cuando, en particular, todos los intervalos tienen la misma amplitud,
no es necesario calcular las alturas porque coincidiran con las frecuencias.
El inconveniente del histograma es que no es reversible, es decir, una vez definidos
los intervalos, nos ”olvidamos” de los valores que toma la variable en cada uno de
ellos desconociendo, por tanto, como se reparten las frecuencias dentro de ellos, lo
unico que sabemos es la frecuencia que corresponde a cada intervalo. No obstante y
por convenio, se supone que los elementos se situan de forma homogenea dentro de
cada intervalo.
Por esta razon el diagrama de tallo y hojas (”stem-and-leaf” plot, en ingles)
es una alternativa, cuando cada dato esta formado al menos por dos dıgitos. En este
diagrama, cada dato xi se descompone en dos partes: el tallo, formado por el primer
o primeros dıgitos; y una hoja, que es el ultimo dıgito o el que sigue a los utilizados
en el tallo.
Alicia M. Juan GonzalezEnfermerıa GD A Curso 2013/14
1.2. Medidas descriptivas 7
1.2. Medidas descriptivas.
Las tablas estadısticas y representaciones graficas mejoran la presentacion de
los datos y nos proporcionan toda la informacion sobre la variable en estudio. No
obstante y desde el punto de vista de las aplicaciones, surge la necesidad de resumir
toda esa informacion mediante un conjunto reducido de cantidades numericas que
describan las caracterısticas de dicha variable. En esto consiste la reduccion de los
datos que, junto a su interpretacion posterior, constituyen las tecnicas estadısticas
del analisis descriptivo.
Medidas de centralizacion.
Algunas de estas cantidades describen la tendencia central de un conjunto de
observaciones, esto es, lo dominante, lo tıpico de ellas. Se conocen como medidas de
centralizacion, y son:
• Media aritmetica1: es el valor central de la distribucion de frecuencias de la
variable, es decir, el valor en torno al cual se agrupan los datos.
x =x1 + x2 + · · · + xn
n=
∑mi=1 xini
n=
m∑i=1
xifi (1.1)
Propiedades 1.2.1.
1.∑m
i=1(xi − x)ni = 0
2. Si Y = aX + b ⇒ y = ax + b
3. La media aritmetica de una muestra partida se relaciona con las medias aritmeti-
cas de las submuestras de la forma:
x =n1x1 + n2x2
n1 + n2
siendo n1 y n2 los tamanos muestrales de dos submuestras de medias x1 y x2,
respectivamente.
1Dado que casi siempre se considera a los datos como una muestra, la media aritmetica seconoce tambien como media muestral.
Alicia M. Juan GonzalezEnfermerıa GD A Curso 2013/14
8 1. Estadıstica descriptiva univariante
El principal inconveniente de la media es que es muy sensible a los valores extre-
mos de la variable. En consecuencia, no debe utilizarse como medida de la tendencia
central cuando la distribucion es muy asimetrica.
Otras medias especıficas son: la media ponderada, que se utiliza cuando no todos
los datos tienen la misma importancia (”peso”); la media geometrica, se aplica para
promediar razones; y la media armonica, que se aplica para promediar funciones
inversas.
• Mediana (Me): Una vez ordenados los datos, Me es el valor de la variable o
la categorıa del atributo (si estas son ordenables) que ocupa el centro.
x1, x2, . . . , xn −→ x(1) ≤ x(2) ≤ · · · ≤ x(n)
Me =
⎧⎪⎪⎨⎪⎪⎩
x(k+1) n = 2k + 1
x(k)+x(k+1)
2n = 2k
En distribuciones con datos no agrupados, calculamos el valor n2
y observamos
el primer valor de la variable cuya frecuencia Ni supera o iguala esta cantidad.
Me =
⎧⎪⎪⎨⎪⎪⎩
xi Ni > n2
xi+xi+1
2Ni = n
2
En distribuciones con datos agrupados, calculamos el valor n2
y observamos el
primer intervalo (Li−1, Li] cuya frecuencia Ni supera o iguala esta cantidad. Una vez
identificado el intervalo mediano,
Me = Li−1 +n2− Ni−1
ni
ai
donde ai = Li − Li−1 es la amplitud del intervalo.
La mediana, a diferencia de la media, tiene la ventaja de que no le afectan los
valores extremos de la variable (se dice que es una medida robusta), porque solo
depende del orden de los valores de la variable. En consecuencia, es la medida de la
tendencia central apropiada en distribuciones asimetricas.
Alicia M. Juan GonzalezEnfermerıa GD A Curso 2013/14
1.2. Medidas descriptivas 9
• Moda (Mo): es el valor o categorıa mas frecuente. En distribuciones con datos
agrupados, el intervalo modal es el de mayor densidad de frecuencia hi, es decir, el
que tiene mayor altura en el histograma.
Ii ci ni Ni fi Fi ai hi
[L0, L1) c1 n1 N1 f1 F1 a1 h1
[L1, L2) c2 n2 N2 f2 F2 a2 h2
......
......
......
......
[Lm−1, Lm] cm nm n fm 1 am hm
n 1
Una vez identificado dicho intervalo, la moda es el valor
Mo = Li−1 +hi − hi−1
(hi − hi−1) + (hi − hi+1)ai
pero, cuando todos los intervalos tienen la misma amplitud (ai = a para cada i), la
formula se reduce a
Mo = Li−1 +ni − ni−1
(ni − ni−1) + (ni − ni+1)a
Medidas de posicion.
• Cuartiles: son tres valores Q1, Q2 y Q3 de la variable o categorıas del atributo
(si estas son ordenables) que, una vez ordenados los datos, ocupan la posicion corres-
pondiente al primer, al segundo y al tercer cuarto de los datos, respectivamente.
En distribuciones con datos no agrupados, consideramos los valores n4, 2n
4y 3n
4
y observamos los valores de la variable para los que se superan o igualan estas
cantidades en la columna de las frecuencias absolutas acumuladas (Ni).
Qp =
⎧⎪⎪⎨⎪⎪⎩
xi Ni > pn4
p = 1, 2, 3
xi+xi+1
2Ni = pn
4p = 1, 2, 3
En distribuciones con datos agrupados,
Qp = Li−1 +pn
4− Ni−1
ni
ai p = 1, 2, 3
Alicia M. Juan GonzalezEnfermerıa GD A Curso 2013/14
10 1. Estadıstica descriptiva univariante
Es inmediato, entonces que
Q2 = Me
• Cuantiles: La mediana y los cuartiles son casos particulares de ”cuantiles”.
El cuantil de orden p es el valor de la variable que deja a su izquierda el p100 % de
los datos. Otros cuantiles importantes son los deciles,
Dp = Li−1 +p n
10− Ni−1
ni
ai p = 1, 2, . . . , 9
y los percentiles,
Pp = Li−1 +p n
100− Ni−1
ni
ai p = 1, 2, . . . , 99
Medidas de dispersion.
Miden el grado de separacion o dispersion de los datos respecto al centro de la
distribucion. Cuanto mayor sea la dispersion, menos representativa es su medida de
centralizacion asociada.
• absolutas: miden el grado de variabilidad en la misma unidad que la de la
variable en estudio. No sirven para comparar variables en distintas unidades de
medida. Algunas son: la amplitud o rango R de la variable, el rango intercuartılico,
Q3 − Q1, aunque la mas importante es la desviacion tıpica ”muestral”, que es la
raız cuadrada positiva de la varianza. Ası, si la varianza muestral de un conjunto de
datos es
s2 =
∑ni=1(xi − x)2
n≥ 0 (1.2)
entonces la desviacion tıpica es
s ≥ 0
Cuando s = 0, todos los valores de la variable, coinciden con la media aritmetica.
La cuasivarianza muestral, definida por
S2 =
∑ni=1(xi − x)2
n − 1(1.3)
es una correccion de la varianza muestral s2 cuando n es pequeno (n < 30).
Alicia M. Juan GonzalezEnfermerıa GD A Curso 2013/14
1.2. Medidas descriptivas 11
Propiedades 1.2.2. Las medidas de dispersion absolutas son invariantes respecto
a un cambio de origen, pero no de escala. Ası, por ejemplo, si
Y = X + b ⇒ s2Y = s2
X
Y = aX ⇒ s2Y = a2s2
X
La varianza y/o cuasivarianza, y la desviacion tıpica muestrales son las medidas
de dispersion asociadas a la media y, en consecuencia, tambien se ven afectadas por
los valores extremos de la variable.
• relativas: son adimensionales (se expresan en porcentajes). Sirven para com-
parar variables en distintas unidades de medida. Una de ellas es el coeficiente de
variacion,
CV =s
|x|(×100)
que nos proporciona una buena medida de la representatividad de la media. Ası,
cuando CV = 0 %, la representatividad es maxima (no hay dispersion, s = 0). En
general, coeficientes de variacion superiores al 30 % indican baja representatividad
de la media, y por debajo del 20 % la representatividad puede considerarse buena.
Propiedades 1.2.3. Las medidas de dispersion relativas son invariantes respecto a
un cambio de escala, pero no de origen. Ası, si
Y = aX ⇒ CVY = CVX
y si Y = X + b, ¿cual es la relacion entre CVY y CVX?.
Momentos muestrales.
Si x1, x2, . . . , xn son los datos correspondientes a una variable X, el momento de
orden k de su distribucion de frecuencias se define por
ak =
∑ni=1 xk
i
n(1.4)
Alicia M. Juan GonzalezEnfermerıa GD A Curso 2013/14
12 1. Estadıstica descriptiva univariante
En consecuencia, la media aritmetica x es el momento de orden 1, x = a1. Una vez
conocido x, el momento central de orden k de dicha distribucion, se define por
mk =
∑ni=1(xi − x)k
n(1.5)
y ası, la varianza muestral s2 es el momento central de orden 2, m2 = s2. Se puede
demostrar, en virtud de las propiedades lineales de la media aritmetica (Propiedad
1.1.1-2), que los momentos centrales pueden obtenerse a partir de los momentos
ordinarios y viceversa, obteniendose ası la formula para el calculo directo de la
varianza (1.2),
s2 =
∑ni=1 x2
i
n− x2 = a2 − a2
1 (1.6)
Analogamente,
m3 = a3 − 3a2x + 2x3 (1.7)
m4 = a4 − 4a3x + 6a2x2 − 3x4 (1.8)
S2 =n
n − 1s2 =
∑ni=1 x2
i
n − 1− n
n − 1x2 (1.9)
Medidas de la forma de la distribucion.
• Simetrıa: Una distribucion de frecuencias es simetrica cuando, graficamente,
lo es respecto a su tendencia central.
La simetrıa perfecta de una distribucion implica,
la igualdad entre la media, mediana y moda: x = Me = Mo
La mediana equidista de los cuartiles primero y tercero: Q3 −Me = Me−Q1
Todos los momentos centrales de orden impar son nulos: mk = 0, para k =
3, 5, 7, 9, . . .
Si la grafica de las frecuencias (histograma o diagrama de barras) refleja una rama
mas alargada por la izquierda, esto es, las frecuencias tienden a descender mas
Alicia M. Juan GonzalezEnfermerıa GD A Curso 2013/14
1.3. Casos atıpicos 13
lentamente por la izquierda, entonces la distribucion es de ”cola izquierda”, se dice
que tiene asimetrıa negativa y
x ≤ Me ≤ Mo
Si la distribucion presenta una cola larga por la derecha (asimetrıa positiva), entonces
Mo ≤ Me ≤ x
El coeficiente de asimetrıa de Fisher, definido por
CAS =m3
s3(1.10)
refleja la intensidad de la asimetrıa, y su signo indica el sentido de la misma.
CAS < 0 CAS = 0 CAS > 0
• Apuntamiento (o curtosis): es el grado de concentracion de la distribucion
en el centro frente a las colas, de tal manera que diremos que cuanto mayor sea
la concentracion, mayor sera el apuntamiento. Se mide mediante el coeficiente de
apuntamiento (o curtosis) muestral, definido por
CAP =m4
s4− 3 (1.11)
que indica la intensidad del apuntamiento,
CAP
⎧⎪⎪⎨⎪⎪⎩
< 0 forma aplastada (platicurtica)
= 0 forma ”normal” (mesocurtica)
> 0 forma puntiaguda (leptocurtica)
Alicia M. Juan GonzalezEnfermerıa GD A Curso 2013/14
14 1. Estadıstica descriptiva univariante
1.3. Casos atıpicos.
Definicion: Son observaciones que se diferencian claramente de la mayorıa de
los datos que componen la muestra.
Los casos atıpicos ocurren con frecuencia. En condiciones muy controladas, pue-
den aparecer entre un 1 y un 3 % de observaciones inusuales en la muestra. Cuando
los datos se recogen sin un cuidado especial, dicho porcentaje puede llegar al 5 % o
mas.
El tratamiento de un caso atıpico depende de su origen. Se distinguen dos clases:
1. Los casos atıpicos que surgen por un error de procedimiento como, por ejemplo,
un dato mal registrado, un error o accidente en la experimentacion.
2. Los casos atıpicos que ocurren como consecuencia de un acontecimiento ex-
traordinario, es decir, conocemos una explicacion acerca de su presencia, o
por el contrario, son observaciones inusuales para las que el analista no tiene
explicacion.
En el primer caso, deberıan eliminarse o recodificarse como datos ausentes. En el
segundo caso, es el analista el que debe decidir si eliminarlos o mantenerlos. Ası, por
ejemplo, deberıan retenerse si el analista cree que representan un segmento valido
de la poblacion. No obstante, es aconsejable realizar el analisis de los datos con ellos
y tambien sin ellos. De esta forma, el investigador puede tomar conciencia de su
impacto, informacion que le resultara muy util para decidir su inclusion o no en
futuros analisis.
Cuando los datos atıpicos no se deben a errores de medida o de transcripcion,
hay que sospechar que sobre esa observacion ha actuado alguna causa que no ha
estado actuando sobre el resto de las observaciones. Por ejemplo, alguna variable
que afecta a la variable en estudio ha tomado un valor distinto y es responsable
del cambio observado. El descubrimiento de esta variable insospechada puede ser el
resultado mas importante del estudio descriptivo. Muchos descubrimientos cientıficos
importantes y muchas patentes insdustriales han surgido de la investigacion para
determinar las razones de un dato anomalo.
Alicia M. Juan GonzalezEnfermerıa GD A Curso 2013/14
1.3. Casos atıpicos 15
Deteccion: Aunque pueden identificarse mediante el histograma o diagrama de
barras porque apareceran separados del resto de las observaciones, el grafico idoneo
es el grafico de caja y bigotes (”Box-and-Whisker Plot”, en ingles).
Calculamos los cuartiles y los representamos sobre una lınea horizontal o vertical.
Despues construimos un rectangulo o ”caja” que delimita el rango intercuartılico
(Q3 − Q1), con la arista izquierda (o inferior) ubicada en el primer cuartil, Q1, y
la arista derecha (o superior) en el tercer cuartil, Q3. Se dibuja una lınea a traves
del rectangulo en la posicion que corresponde al segundo cuartil, Me . En segundo
lugar, determinamos las fronteras interiores:
f1 = Q1 − 1, 5 (Q3 − Q1) y f2 = Q3 + 1, 5(Q3 − Q1)
y trazamos, desde cualquiera de las aristas del rectangulo, una lınea o ”bigote” hacia
dichas fronteras.
Los casos atıpicos son las observaciones xi que quedan fuera del intervalo (f1, f2).
Sin embargo, podemos distinguir entre casos atıpicos ”moderados” o ”extremos”.
Estos ultimos son aquellas observaciones que estan mas alla de 3 veces el rango
intercuartılico. Para ello, determinamos las fronteras exteriores:
F1 = Q1 − 3 (Q3 − Q1) y F2 = Q3 + 3 (Q3 − Q1)
y los casos xi que quedan fuera del intervalo (F1, F2) son los extremos. Estos, si los
hay, deberıan eliminarse. Los casos atıpicos moderados son los que se encuentran
entre las fronteras interiores y exteriores:
F1 ≤ xi ≤ f1 o f2 ≤ xi ≤ F2
Alicia M. Juan GonzalezEnfermerıa GD A Curso 2013/14
16 1. Estadıstica descriptiva univariante
Ejemplo 1.3.1 (Datos sin agrupar). En un estudio sobre parasitos, se consi-
dero la distribucion de la garrapata ”Ixodes trianguliceps” en el cuerpo de los conejos
de una granja. Se obtuvieron las siguientes observaciones del numero de garrapatas
encontradas sobre 44 conejos:
0 2 0 0 2 2 0 0 1 1 3
0 0 1 0 0 1 0 1 4 0 0
1 4 2 0 0 1 0 0 2 2 1
1 0 6 0 5 1 3 0 1 0 1
a) Construye el grafico adecuado para representar estos datos, b) Determina el
numero medio de garrapatas de un conejo, el numero mediano, y explica su signifi-
cado, ¿Cual es el numero de garrapatas mas frecuente de un conejo?, c) Determina
la dispersion en torno a la media, y la representatividad de esta, d) ¿Como es la
forma de la distribucion?, e) Analiza la homogeneidad de los datos o si, por el con-
trario, existe algun dato que pueda considerarse atıpico. En caso afirmativo, analiza
su impacto sobre la tendencia central de la variable en estudio.
Sol. La tabla estadıstica es
xi ni Ni xi ni
0 20 20 0
1 12 32 12
2 6 38 12
3 2 40 6
4 2 42 8
5 1 43 5
6 1 44 6
44 49
b) El numero medio de garrapatas viene dado por la media muestral,
x =49
44= 1, 11
Para determinar el numero mediano, calculamos
n
2= 22 ⇒ Ni = 32 > 22 ⇒ Me = 1
Alicia M. Juan GonzalezEnfermerıa GD A Curso 2013/14
1.3. Casos atıpicos 17
lo que significa que la mitad de los conejos (el 50%) tienen menos de 1 garrapata,
mientras que la otra mitad, tienen mas de 1. El numero de garrapatas mas frecuente
(o moda) es 0.
c) Anadimos la columna x2i ni a nuestra tabla estadıstica,
xi ni Ni xi ni x2i ni
0 20 20 0 0
1 12 32 12 12
2 6 38 12 24
3 2 40 6 18
4 2 42 8 32
5 1 43 5 25
6 1 44 6 36
44 49 147
Aplicando la formula (1.6), calculamos la desviacion tıpica muestral,
s2 =147
44− 1, 112 = 2, 1088 ⇒ s = 1, 45
En consecuencia, el coeficiente de variacion es
CV =1, 45
1, 11= 1, 31 ⇒ 131 %
lo que indica que el numero medio de garrapatas no representa adecuadamente el
centro de la distribucion.
d) Puesto que Mo ≤ Me ≤ x, la distribucion tiene una cola hacia la derecha
(asimetrıa positiva) y, por tanto, es de esperar que CAS > 0 (¡Compruebalo!).
e) Para ello, calculamos los cuartiles,
1
4× 44 = 11 ⇒ Ni = 20 > 11 ⇒ Q1 = 0
3
4× 44 = 33 ⇒ Ni = 38 > 33 ⇒ Q3 = 2
y las fronteras interiores,
f1 = Q1 − 1, 5(Q3 − Q1) = −3
f2 = Q3 + 1, 5(Q3 − Q1) = 5
Alicia M. Juan GonzalezEnfermerıa GD A Curso 2013/14
18 1. Estadıstica descriptiva univariante
Ası, el dato 6 es atıpico. Cuando lo descartamos de los calculos, obtenemos un valor
inferior para la media (x = 1) con una desviacion tıpica tambien inferior (s = 1, 26).
La media gana en representatividad (CV = 126 %), aunque no lo suficiente.
Ejemplo 1.3.2 (Datos agrupados). Un estudio pluviometrico realizado en 80
nucleos rurales espanoles registro durante el pasado ano los siguientes datos respecto
a precipitaciones (en milımetros):
810 312 368 423 529 1861 390 675 919 578
1053 514 391 259 513 1348 498 194 340 587
1495 1868 553 322 404 441 567 835 518 446
542 593 353 670 572 362 595 1028 1552 417
513 1352 473 226 917 419 442 516 1658 280
404 442 574 815 320 379 414 1502 361 310
566 419 591 1048 503 554 283 414 379 670
917 372 440 1508 598 332 317 559 492 228
a) Construye el grafico adecuado para representar estos datos, b) Determina la
precipitacion media, en primer lugar, sin agrupar los datos y, en segundo lugar,
agrupandolos en 5 intervalos ¿Cual de los promedios es mas preciso? Razona tu
respuesta, c) ¿Cual es la precipitacion mediana?, ¿Cual es precipitacion mas fre-
cuente?, d) Determina la dispersion en torno a la media, y la representatividad de
esta, e) ¿Hay casos atıpicos? ¿Cuales son? ¿Cuales de ellos son casos extremos?.
Sol. b) La media sin agrupar es 627,53 mm. Para calcular la media agrupada
tendremos en cuenta: n = 80, el dato maximo es 1868 y el mınimo 194, con lo cual
el recorrido es R = 1674 y si el numero de intervalos k ha de ser 5, entonces
R
k=
1674
5= 334, 8 ≈ a
Si a = 335 y L1 = 190, las marcas de clase tienen decimales. Para evitarlo, probamos
con a = 334 y L1 = 190 pero entonces el ultimo intervalo no contiene al dato maximo
pues L1 + k a = 1860. Ahora bien, si a = 336 y L1 = 190, entonces L1 + k a = 1870.
Ası pues, la tabla queda,
Alicia M. Juan GonzalezEnfermerıa GD A Curso 2013/14
1.3. Casos atıpicos 19
xi ni xini Ni
(190, 526] 358 44 15752 44
(526, 862] 694 21 14574 65
(862, 1198] 1030 6 6180 71
(1198, 1534] 1366 5 6830 76
(1534, 1870] 1702 4 6808 80
80 50144
y la media agrupada es
x =50144
80= 626, 8 mm
Aunque los valores de ambas medias estan muy proximos, lo cual se debe a una
buena eleccion de los intervalos, la media sin agrupar siempre es mas precisa que
la agrupada. El agrupamiento de los datos en intervalos siempre lleva implıcito una
perdida de informacion.
c)
1
2× 80 = 40 ⇒ Ni = 44 > 40 ⇒ Me ∈ (190, 526] ⇒
Me = 190 +40 − 0
44× 336 = 495, 45 mm
Puesto que todos los intervalos tienen la misma amplitud, el intervalo modal es el
de mayor frecuencia absoluta: Mo ∈ (190, 526], y la precipitacion mas frecuente es
Mo = 190 +44 − 0
44 + (44 − 21)336 = 410, 66 mm
d) Anadimos la columna x2i ni a nuestra tabla,
xi ni xini Ni x2i ni
(190, 526] 358 44 15752 44 5639216
(526, 862] 694 21 14574 65 10114356
(862, 1198] 1030 6 6180 71 6365400
(1198, 1534] 1366 5 6830 76 9329780
(1534, 1870] 1702 4 6808 80 11587216
80 50144 43035968
Alicia M. Juan GonzalezEnfermerıa GD A Curso 2013/14
20 1. Estadıstica descriptiva univariante
La desviacion tıpica muestral es
s2 =43035968
80− 626, 82 = 145071, 36 ⇒ s = 380, 88 mm
En consecuencia, el coeficiente de variacion es
CV =380, 88
626, 8= 0, 6077 =⇒ 60, 77 %
lo que indica que la precipitacion media no representa adecuadamente el centro de
la distribucion.
e) Calculamos los cuartiles:
1
4× 80 = 20 ⇒ Q1 ∈ (190, 526] ⇒ Q1 = 190 +
20 − 0
44× 336 = 342, 73
3
4× 80 = 60 ⇒ Q3 ∈ (526, 862] ⇒ Q3 = 526 +
60 − 44
21× 336 = 782
Las fronteras interiores son:
f1 = Q1 − 1, 5(Q3 − Q1) = −316, 175
f2 = Q3 + 1, 5(Q3 − Q1) = 1440, 91
con lo cual, las precipitaciones superiores a 1440 mm son atıpicas. Las fronteras
exteriores son:
F1 = Q1 − 3(Q3 − Q1) = −975, 08
F2 = Q3 + 3(Q3 − Q1) = 2099, 81
Las precipitaciones extremas son superiores a 2099 mm pero, en este caso, no las
hay.
Alicia M. Juan GonzalezEnfermerıa GD A Curso 2013/14
1.4. Ejercicios 21
1.4. Ejercicios.
2. El dioxido de carbono es un gas inodoro e incoloro que comprende 0,035 %
del volumen atmosferico. Afecta el equilibrio termico al actuar como una pantalla
unidireccional. Deja que la luz del sol caliente los oceanos y la tierra, mientras que
bloquea el calor de la luz infrarroja que se irradia del planeta. Este calor reflejado
se absorbe en las capas inferiores de la atmosfera, lo que produce un efecto de
invernadero que vuelve a la superficie terrestre mas caliente que en otras condiciones.
Supongamos los siguientes valores de dioxido de carbono (en partes por millon, ppm):
319 338 337 339 328 325 340 331 341 336
330 330 321 327 337 320 343 350 322 334
326 349 341 338 332 339 335 338 333 334
a) ¿Cual es la proporcion de dioxido de carbono superior a la media?, b) ¿Que can-
tidad de dioxido de carbono es la mas frecuente?, c) Calcula los cuartiles de la
distribucion e interpreta los resultados.
5. Las concentraciones de ozono alrededor de la ciudad de Los Angeles han
llegado a ser hasta de 220 partes por millar de millones (ppmm), lo que constituye
un riesgo para la vida animal y vegetal. Los datos siguientes son las concentraciones
de ozono obtenidas en un area boscosa cercana a Seattle, Washington (basado en
informacion de ”Twigs”, American Forests, 1990, p.71)
160 176 160 180 167 165 163 162 168 173 170 196 185
163 162 172 162 167 161 169 164 179 163 178 161
a) Determina la concentracion promedio, la mas frecuente y la mediana, b) Evalua
la representatividad de la media? c) ¿Hay algun caso atıpico?.
7. En cierta provincia hay 3 grandes empresas electricas A, B y C. La primera
emplea a 542 personas y su salario medio es 1080 e. En B trabajan 843 empleados
y su ingreso medio es de 860 e. Si el sueldo medio de los trabajadores de C es de
810 e, ¿cual es el numero de empleados en la industria electrica de dicha provincia
si el salario medio es de 904,245 e?.
Alicia M. Juan GonzalezEnfermerıa GD A Curso 2013/14
22 1. Estadıstica descriptiva univariante
14. Una encuesta entre fumadores sobre el numero de cigarrillos que consumen
al dıa ha dado lugar a los resultados siguientes:
Num.cigarrillos 4.5-9.5 9.5-14.5 14.5-19.5 19.5-24.5 24.5-29.5
Num.fumadores 10 15 25 18 22
a) Determina la media, mediana y moda de la distribucion e interpreta los resultados,
b) Determina la desviacion tıpica y calcula la representatividad de la media, c)
Determina el intervalo intercuartılico e interpreta el resultado, d) Determina el
porcentaje de individuos que fuman entre 12 y 22 cigarrillos diarios, ambos inclusive,
e) Determina el consumo medio diario de cigarrillos para una poblacion de 1000
individuos, sabiendo que el porcentaje de fumadores es del 30 %.
23. Se han medido los coeficientes intelectuales de un grupo de 20 alumnos, vi-
niendo los resultados agrupados en 6 intervalos de amplitud variable. Las amplitudes
de dichos intervalos y sus frecuencias relativas acumuladas son:
ai 12 12 4 4 12 20
Fi 0,15 0,15 0,55 0,80 0,95 1,00
a) Construye la tabla de frecuencias, sabiendo que el extremo inferior del primer
intervalo es 70, b) Construye el histograma y el polıgono de frecuencias absolutas,
c) ¿Entre que dos percentiles esta comprendido un coeficiente intelectual de 98,4?.
30. Las calificaciones obtenidas por los alumnos de cierto curso de la Universidad
vienen dadas en la siguiente tabla:
Calificacion 0-3 3-5 5-7 7-8 8-10
Fr. acumulada 0,15 0,35 0,75 0,90 1,00
a) ¿Que porcentaje de alumnos tienen una calificacion comprendida entre 3,4 y 8,2
puntos?, b) ¿Que calificacion mınima debe tener un alumno para poder considerarse
entre el 20 % de los mejor calificados?.
Alicia M. Juan GonzalezEnfermerıa GD A Curso 2013/14
1.4. Ejercicios 23
34. Se han medido los niveles de colinesterasa en un recuento de eritrocitos de 34
agricultores expuestos a insecticidas agrıcolas, obteniendose los resultados siguientes:
10, 6 12, 5 11, 1 9, 2 11, 5 9, 9 11, 9 11, 6 14, 9 12, 5
12, 5 12, 3 12, 2 10, 8 16, 5 15, 0 10, 3 12, 4 9, 1 7, 8
11, 3 12, 3 9, 7 12, 0 11, 8 12, 7 11, 4 9, 3 8, 6 8, 5
10, 1 12, 4 11, 1 10, 2
Agrupando los datos en 6 intervalos de amplitud constante de tal forma que el
extremo inferior sea 7,5, determina: a) el nivel de colinesterasa mas frecuente, b)
¿cual es el nivel de colinesterasa que debe tener un agricultor para que se le pueda
considerar entre el 50 % de los de mayor nivel?, c) Determina el nivel de colinesterasa
promedio con los datos agrupados y tambien con los datos sin agrupar, ¿cual de los
promedios es mas preciso? ¿porque?.
39. Una vacuna antitetanica se ha administrado a 42 personas. A las 5 horas se
les ha tomado la temperatura, obteniendose los datos siguientes,
Temperatura (◦C) 37-37,5 37,5-38 38-38,5 38,5-39 39-39,5 39,5-40
Num. personas 1 5 15 6 10 5
a) ¿Cuantas personas han tenido una temperatura de 38◦, como maximo?, ¿Que por-
centaje de individuos han tenido una fiebre superior a 38◦ pero inferior a 39◦? b)
¿Cual ha sido la temperatura promedio al cabo de 5 horas?, c) ¿Cual ha sido la
temperatura mas frecuente al cabo de 5 horas?, d) ¿Cual ha sido la temperatura
mınima de los individuos que han tenido mas fiebre?
41. Se ha medido la talla (cm) de 110 jovenes de cierta universidad, obteniendose
los datos siguientes:
Altura 155-160 160-170 170-180 180-190 190-200
Num. jovenes 18 31 24 20 17
Determina: a) los percentiles 21 y 87 e interpreta sus significados, b) los deciles 3
y 9 e interpreta sus significados, c) Si se consideran ”bajos” aquellos cuya altura
Alicia M. Juan GonzalezEnfermerıa GD A Curso 2013/14
24 1. Estadıstica descriptiva univariante
esta sobre el percentil 3, ¿cual es la altura maxima que puede alcanzar un joven?, d)
Si se consideran ”altos” aquellos cuya altura esta sobre el percentil 82, ¿cual es la
altura mınima que puede alcanzar un joven?, e) ¿Que porcentaje de jovenes tienen
una altura inferior a 178 cms?.
42. Dadas las 6 observaciones siguientes: -10, 3, x, 10, 1, 0, se sabe que su
desviacion tıpica es igual a su coeficiente de variacion. Calcula el valor de x ası como
la media de dicha distribucion.
49. ¿Cuantas calorıas contienen las salchichas?: Hay gente que siempre
esta pendiente del numero de calorıas que ingiere con los alimentos. En la revis-
ta estadounidense Consumer Reports aparecio un artıculo donde se analizaban los
contenidos en calorıas de 20 marcas distintas de salchichas elaboradas con carne de
ternera, de 17 marcas de salchichas hechas con carne de cerdo, y de 17 marcas de
salchichas hechas con carne de pollo. Los resultados son,
Ternera Cerdo Pollo
Media 156,8 158,7 122,5
Desviacion tıpica 22,64 25,24 25,48
Mınimo 111 107 87
Maximo 190 195 170
Tamano muestra 20 17 17
Mediana 152,5 153 129
Cuartil primero 140 139 102
Cuartil tercero 178,5 179 143
Describe brevemente las diferencias que observes en las tres distribuciones. Comer
salchichas hechas con carne de pollo, ¿significa ingerir menos calorıas que comer las
hechas con carne de ternera o de cerdo?.
55. Supervivencia de los conejillos de Indias: Los datos siguientes se refieren
a los tiempos de supervivencia, en dıas, de 72 conejillos de Indias despues de que se
les inyectara el bacilo de la tuberculosis en un experimento medico, a) Representa
Alicia M. Juan GonzalezEnfermerıa GD A Curso 2013/14
1.4. Ejercicios 25
graficamente estos datos y describe sus caracterısticas mas destacables, b) analiza
la forma de la distribucion, c) analiza la presencia de casos atıpicos.
43 45 53 56 56 57 58 66 67 73 74 79
80 80 81 81 81 82 83 83 84 88 89 91
91 92 92 97 99 99 100 100 101 102 102 102
103 104 107 108 109 113 114 118 121 123 126 128
137 138 139 144 145 147 156 162 174 178 179 184
191 198 211 214 243 249 329 380 403 511 522 598
63. Los pesos (en kg) de los ninos observados en una consulta, al cumplir el
primer mes de vida, varıan de acuerdo a la tabla siguiente,
Peso 3-3,7 3,7-4 4-4,2 4,2-4,5 4,5-4,7 4,7-5 5-5,4
Num. ninos 2 5 18 91 15 6 3
¿Cual es el peso medio de los ninos atendidos?,¿Cual es el peso mas frecuente?,
¿Que debe pesar un nino para pertenecer al grupo de los mas pesados?.
Alicia M. Juan GonzalezEnfermerıa GD A Curso 2013/14