Cap´ıtulo 1 Estad´ıstica descriptiva univariante€¦ · Por esta raz´on el diagrama de tallo...

25
Cap´ ıtulo 1 Estad´ ıstica descriptiva univariante ”No aprendemos porque seamos inteligentes, somos inteligentes cuando aprendemos”. Datos. Distribuciones de frecuencias. Representaciones gr´ aficas. ıntesis de datos: Medidas descriptivas. de centralizaci´ on de posici´ on de dispersi´ on de forma Casos at´ ıpicos. Ejercicios. 1

Transcript of Cap´ıtulo 1 Estad´ıstica descriptiva univariante€¦ · Por esta raz´on el diagrama de tallo...

Page 1: Cap´ıtulo 1 Estad´ıstica descriptiva univariante€¦ · Por esta raz´on el diagrama de tallo y hojas (”stem-and-leaf” plot, en ingl´es) es una alternativa, cuando cada

Capıtulo 1

Estadıstica descriptiva univariante

”No aprendemos porque seamos inteligentes,

somos inteligentes cuando aprendemos”.

Datos. Distribuciones de frecuencias. Representaciones graficas.

Sıntesis de datos: Medidas descriptivas.

• de centralizacion

• de posicion

• de dispersion

• de forma

Casos atıpicos.

Ejercicios.

1

Page 2: Cap´ıtulo 1 Estad´ıstica descriptiva univariante€¦ · Por esta raz´on el diagrama de tallo y hojas (”stem-and-leaf” plot, en ingl´es) es una alternativa, cuando cada

2 1. Estadıstica descriptiva univariante

La Estadıstica es la ciencia de los datos. Cualquier conjunto de datos contiene

informacion sobre un grupo de individuos. La informacion se organiza con variables.

Los individuos, que son los elementos observados y sometidos a investigacion,

pueden ser personas, animales o cosas.

Una variable es cualquier caracterıstica X de un individuo que queramos ana-

lizar. Las variables pueden ser:

• cualitativas o atributo: sus modalidades son nominales. Ejemplo: el grupo san-

guıneo.

• cuasicuantitativas u ordinales: aunque sus modalidades son nominales, es po-

sible establecer un orden entre ellas. Ejemplo: grado de recuperacion de un paciente

tras un tratamiento (Nada, Poco, Moderado, Bueno, Muy Bueno). Estas modali-

dades se presentan, a veces, en escalas numericas. Por ejemplo, puntuar el grado

de recuperacion en una escala de 0 a 4, lo que no significa que podamos realizar

operaciones aritmeticas con dichas cantidades, pues un grado de recuperacion 4 no

significa el doble que el de grado 2.

• cuantitativas: toman valores numericos, para los que tiene sentido hacer calculos

aritmeticos. Las variables numericas pueden ser:

Discreta (Datos no agrupados): cuando el paso de un valor a otro representa

un salto, es decir, existe una distancia, no nula, entre valores contiguos de

la variable. Por ejemplo: nacimientos diarios en cierta comunidad, numero de

electrodomesticos en el hogar, numero de hijos en una poblacion, ...

Continua (Datos agrupados): cuando dados dos valores cualesquiera que ha

tomado la variable, existe siempre entre ellos una infinidad de posibles valores

que pudiera tomar. Ası por ejemplo magnitudes como el peso, la longitud, el

volumen, ... son variables continuas.

Si la variable X ha tomado los valores x1, x2, . . . , xn en un conjunto de individuos,

nuestro objetivo sera, en primer lugar, organizar la informacion.

Alicia M. Juan GonzalezEnfermerıa GD A Curso 2013/14

Page 3: Cap´ıtulo 1 Estad´ıstica descriptiva univariante€¦ · Por esta raz´on el diagrama de tallo y hojas (”stem-and-leaf” plot, en ingl´es) es una alternativa, cuando cada

1.1. Distribuciones de frecuencias y graficos 3

1.1. Distribuciones de frecuencias y graficos.

La distribucion de frecuencias nos dice que valores toma la variable y con

que frecuencia.

ni: frecuencia absoluta fi: frecuencia relativa

Ni: frecuencia absoluta acumulada Fi: frecuencia relativa acumulada

xi ni fi = ni

n

Ni = n1 + · · · + ni Fi = Ni

n

• Distribucion de frecuencias para datos no agrupados:

X ni Ni fi Fi

x1 n1 N1 f1 F1

x2 n2 N2 f2 F2

......

......

...

xi ni Ni fi Fi

......

......

...

xm nm n fm 1

n 1

• Distribucion de frecuencias para datos agrupados: Cuando la variable

es continua o, en cambio, es discreta pero el numero de valores distintos que toma

es grande, conviene agrupar los datos en clases o intervalos, en cuyo caso, se llama

Alicia M. Juan GonzalezEnfermerıa GD A Curso 2013/14

Page 4: Cap´ıtulo 1 Estad´ıstica descriptiva univariante€¦ · Por esta raz´on el diagrama de tallo y hojas (”stem-and-leaf” plot, en ingl´es) es una alternativa, cuando cada

4 1. Estadıstica descriptiva univariante

marca de clase al valor central del intervalo que identifica la clase.

Ii ci ni Ni fi Fi

[L0, L1) c1 n1 N1 f1 F1

[L1, L2) c2 n2 N2 f2 F2

......

......

......

[Li−1, Li) ci ni Ni fi Fi

......

......

......

[Lm−1, Lm] cm nm n fm 1

n 1

siendo ci la marca de clase del intervalo [Li−1, Li),

ci =Li−1 + Li

2

No existe un unico criterio para determinar el numero k de intervalos. Por lo general,

depende del tamano de la muestra, n. Ası, un criterio clasico establece que, si n es

pequeno (n ≤ 50), entonces k ≈ √n y, en caso contrario, k ≈ 1 + 3, 22 ln n. Otro

criterio recomienda que 4 ≤ k ≤ 15 con k ≈ 10 % n.

Una vez obtenido k, calculamos el rango o recorrido R de la variable,

R = maxi

xi − mıni

xi

y la razon R/k ≈ a (de tal manera que ak ≥ R) es la amplitud de cada clase. A

partir de aquı, conviene tener en cuenta las observaciones siguientes:

El dato mas pequeno debe estar en el primer intervalo, y el dato mayor debe

estar en el ultimo intervalo,

Los lımites de los intervalos no deben solaparse,

La marca de clase, si es posible y por razones de comodidad, debe ser de la

misma naturaleza que los datos.

Alicia M. Juan GonzalezEnfermerıa GD A Curso 2013/14

Page 5: Cap´ıtulo 1 Estad´ıstica descriptiva univariante€¦ · Por esta raz´on el diagrama de tallo y hojas (”stem-and-leaf” plot, en ingl´es) es una alternativa, cuando cada

1.1. Distribuciones de frecuencias y graficos 5

Representaciones graficas.

Graficos de atributos

Grafico de barras (o Pareto) Grafico de sectores

En un grafico de barras se representa sobre el eje de abscisas las modalidades y,

sobre el eje de ordenadas, las frecuencias absolutas o bien, las frecuencias relativas.

Si mediante un mismo grafico se desea comparar varias poblaciones de tamanos

distintos, debemos utilizar las frecuencias relativas.

En un grafico de sectores se divide un cırculo en tantas porciones como mo-

dalidades del atributo, de modo que a cada modalidad le corresponda un arco de

cırculo proporcional a su frecuencia absoluta o relativa.

Graficos de variables discretas

Grafico de barras Grafico de barras acumulado

En un grafico de barras se representa sobre el eje de abscisas las modalidades

y, sobre el eje de ordenadas, las frecuencias absolutas o bien, las frecuencias relativas.

En un grafico de barras acumulado se utilizan las frecuencias acumuladas.

Alicia M. Juan GonzalezEnfermerıa GD A Curso 2013/14

Page 6: Cap´ıtulo 1 Estad´ıstica descriptiva univariante€¦ · Por esta raz´on el diagrama de tallo y hojas (”stem-and-leaf” plot, en ingl´es) es una alternativa, cuando cada

6 1. Estadıstica descriptiva univariante

Graficos de variables continuas

Histograma Diagrama de tallos y hojas

Un histograma es un conjunto de rectangulos, cada uno se corresponde con un

intervalo o clase. Cada rectangulo tiene una base que es la amplitud de su intervalo

asociado y su altura se determina de forma que el area de dicho rectangulo sea pro-

porcional a la frecuencia de su intervalo. Ası, la altura de cada rectangulo, conocida

como densidad de frecuencia, se calcula por

hi =ni

ai

aunque tambien podrıan calcularse utilizando las frecuencias relativas, fi, en lugar

de las abslutas. Cuando, en particular, todos los intervalos tienen la misma amplitud,

no es necesario calcular las alturas porque coincidiran con las frecuencias.

El inconveniente del histograma es que no es reversible, es decir, una vez definidos

los intervalos, nos ”olvidamos” de los valores que toma la variable en cada uno de

ellos desconociendo, por tanto, como se reparten las frecuencias dentro de ellos, lo

unico que sabemos es la frecuencia que corresponde a cada intervalo. No obstante y

por convenio, se supone que los elementos se situan de forma homogenea dentro de

cada intervalo.

Por esta razon el diagrama de tallo y hojas (”stem-and-leaf” plot, en ingles)

es una alternativa, cuando cada dato esta formado al menos por dos dıgitos. En este

diagrama, cada dato xi se descompone en dos partes: el tallo, formado por el primer

o primeros dıgitos; y una hoja, que es el ultimo dıgito o el que sigue a los utilizados

en el tallo.

Alicia M. Juan GonzalezEnfermerıa GD A Curso 2013/14

Page 7: Cap´ıtulo 1 Estad´ıstica descriptiva univariante€¦ · Por esta raz´on el diagrama de tallo y hojas (”stem-and-leaf” plot, en ingl´es) es una alternativa, cuando cada

1.2. Medidas descriptivas 7

1.2. Medidas descriptivas.

Las tablas estadısticas y representaciones graficas mejoran la presentacion de

los datos y nos proporcionan toda la informacion sobre la variable en estudio. No

obstante y desde el punto de vista de las aplicaciones, surge la necesidad de resumir

toda esa informacion mediante un conjunto reducido de cantidades numericas que

describan las caracterısticas de dicha variable. En esto consiste la reduccion de los

datos que, junto a su interpretacion posterior, constituyen las tecnicas estadısticas

del analisis descriptivo.

Medidas de centralizacion.

Algunas de estas cantidades describen la tendencia central de un conjunto de

observaciones, esto es, lo dominante, lo tıpico de ellas. Se conocen como medidas de

centralizacion, y son:

• Media aritmetica1: es el valor central de la distribucion de frecuencias de la

variable, es decir, el valor en torno al cual se agrupan los datos.

x =x1 + x2 + · · · + xn

n=

∑mi=1 xini

n=

m∑i=1

xifi (1.1)

Propiedades 1.2.1.

1.∑m

i=1(xi − x)ni = 0

2. Si Y = aX + b ⇒ y = ax + b

3. La media aritmetica de una muestra partida se relaciona con las medias aritmeti-

cas de las submuestras de la forma:

x =n1x1 + n2x2

n1 + n2

siendo n1 y n2 los tamanos muestrales de dos submuestras de medias x1 y x2,

respectivamente.

1Dado que casi siempre se considera a los datos como una muestra, la media aritmetica seconoce tambien como media muestral.

Alicia M. Juan GonzalezEnfermerıa GD A Curso 2013/14

Page 8: Cap´ıtulo 1 Estad´ıstica descriptiva univariante€¦ · Por esta raz´on el diagrama de tallo y hojas (”stem-and-leaf” plot, en ingl´es) es una alternativa, cuando cada

8 1. Estadıstica descriptiva univariante

El principal inconveniente de la media es que es muy sensible a los valores extre-

mos de la variable. En consecuencia, no debe utilizarse como medida de la tendencia

central cuando la distribucion es muy asimetrica.

Otras medias especıficas son: la media ponderada, que se utiliza cuando no todos

los datos tienen la misma importancia (”peso”); la media geometrica, se aplica para

promediar razones; y la media armonica, que se aplica para promediar funciones

inversas.

• Mediana (Me): Una vez ordenados los datos, Me es el valor de la variable o

la categorıa del atributo (si estas son ordenables) que ocupa el centro.

x1, x2, . . . , xn −→ x(1) ≤ x(2) ≤ · · · ≤ x(n)

Me =

⎧⎪⎪⎨⎪⎪⎩

x(k+1) n = 2k + 1

x(k)+x(k+1)

2n = 2k

En distribuciones con datos no agrupados, calculamos el valor n2

y observamos

el primer valor de la variable cuya frecuencia Ni supera o iguala esta cantidad.

Me =

⎧⎪⎪⎨⎪⎪⎩

xi Ni > n2

xi+xi+1

2Ni = n

2

En distribuciones con datos agrupados, calculamos el valor n2

y observamos el

primer intervalo (Li−1, Li] cuya frecuencia Ni supera o iguala esta cantidad. Una vez

identificado el intervalo mediano,

Me = Li−1 +n2− Ni−1

ni

ai

donde ai = Li − Li−1 es la amplitud del intervalo.

La mediana, a diferencia de la media, tiene la ventaja de que no le afectan los

valores extremos de la variable (se dice que es una medida robusta), porque solo

depende del orden de los valores de la variable. En consecuencia, es la medida de la

tendencia central apropiada en distribuciones asimetricas.

Alicia M. Juan GonzalezEnfermerıa GD A Curso 2013/14

Page 9: Cap´ıtulo 1 Estad´ıstica descriptiva univariante€¦ · Por esta raz´on el diagrama de tallo y hojas (”stem-and-leaf” plot, en ingl´es) es una alternativa, cuando cada

1.2. Medidas descriptivas 9

• Moda (Mo): es el valor o categorıa mas frecuente. En distribuciones con datos

agrupados, el intervalo modal es el de mayor densidad de frecuencia hi, es decir, el

que tiene mayor altura en el histograma.

Ii ci ni Ni fi Fi ai hi

[L0, L1) c1 n1 N1 f1 F1 a1 h1

[L1, L2) c2 n2 N2 f2 F2 a2 h2

......

......

......

......

[Lm−1, Lm] cm nm n fm 1 am hm

n 1

Una vez identificado dicho intervalo, la moda es el valor

Mo = Li−1 +hi − hi−1

(hi − hi−1) + (hi − hi+1)ai

pero, cuando todos los intervalos tienen la misma amplitud (ai = a para cada i), la

formula se reduce a

Mo = Li−1 +ni − ni−1

(ni − ni−1) + (ni − ni+1)a

Medidas de posicion.

• Cuartiles: son tres valores Q1, Q2 y Q3 de la variable o categorıas del atributo

(si estas son ordenables) que, una vez ordenados los datos, ocupan la posicion corres-

pondiente al primer, al segundo y al tercer cuarto de los datos, respectivamente.

En distribuciones con datos no agrupados, consideramos los valores n4, 2n

4y 3n

4

y observamos los valores de la variable para los que se superan o igualan estas

cantidades en la columna de las frecuencias absolutas acumuladas (Ni).

Qp =

⎧⎪⎪⎨⎪⎪⎩

xi Ni > pn4

p = 1, 2, 3

xi+xi+1

2Ni = pn

4p = 1, 2, 3

En distribuciones con datos agrupados,

Qp = Li−1 +pn

4− Ni−1

ni

ai p = 1, 2, 3

Alicia M. Juan GonzalezEnfermerıa GD A Curso 2013/14

Page 10: Cap´ıtulo 1 Estad´ıstica descriptiva univariante€¦ · Por esta raz´on el diagrama de tallo y hojas (”stem-and-leaf” plot, en ingl´es) es una alternativa, cuando cada

10 1. Estadıstica descriptiva univariante

Es inmediato, entonces que

Q2 = Me

• Cuantiles: La mediana y los cuartiles son casos particulares de ”cuantiles”.

El cuantil de orden p es el valor de la variable que deja a su izquierda el p100 % de

los datos. Otros cuantiles importantes son los deciles,

Dp = Li−1 +p n

10− Ni−1

ni

ai p = 1, 2, . . . , 9

y los percentiles,

Pp = Li−1 +p n

100− Ni−1

ni

ai p = 1, 2, . . . , 99

Medidas de dispersion.

Miden el grado de separacion o dispersion de los datos respecto al centro de la

distribucion. Cuanto mayor sea la dispersion, menos representativa es su medida de

centralizacion asociada.

• absolutas: miden el grado de variabilidad en la misma unidad que la de la

variable en estudio. No sirven para comparar variables en distintas unidades de

medida. Algunas son: la amplitud o rango R de la variable, el rango intercuartılico,

Q3 − Q1, aunque la mas importante es la desviacion tıpica ”muestral”, que es la

raız cuadrada positiva de la varianza. Ası, si la varianza muestral de un conjunto de

datos es

s2 =

∑ni=1(xi − x)2

n≥ 0 (1.2)

entonces la desviacion tıpica es

s ≥ 0

Cuando s = 0, todos los valores de la variable, coinciden con la media aritmetica.

La cuasivarianza muestral, definida por

S2 =

∑ni=1(xi − x)2

n − 1(1.3)

es una correccion de la varianza muestral s2 cuando n es pequeno (n < 30).

Alicia M. Juan GonzalezEnfermerıa GD A Curso 2013/14

Page 11: Cap´ıtulo 1 Estad´ıstica descriptiva univariante€¦ · Por esta raz´on el diagrama de tallo y hojas (”stem-and-leaf” plot, en ingl´es) es una alternativa, cuando cada

1.2. Medidas descriptivas 11

Propiedades 1.2.2. Las medidas de dispersion absolutas son invariantes respecto

a un cambio de origen, pero no de escala. Ası, por ejemplo, si

Y = X + b ⇒ s2Y = s2

X

Y = aX ⇒ s2Y = a2s2

X

La varianza y/o cuasivarianza, y la desviacion tıpica muestrales son las medidas

de dispersion asociadas a la media y, en consecuencia, tambien se ven afectadas por

los valores extremos de la variable.

• relativas: son adimensionales (se expresan en porcentajes). Sirven para com-

parar variables en distintas unidades de medida. Una de ellas es el coeficiente de

variacion,

CV =s

|x|(×100)

que nos proporciona una buena medida de la representatividad de la media. Ası,

cuando CV = 0 %, la representatividad es maxima (no hay dispersion, s = 0). En

general, coeficientes de variacion superiores al 30 % indican baja representatividad

de la media, y por debajo del 20 % la representatividad puede considerarse buena.

Propiedades 1.2.3. Las medidas de dispersion relativas son invariantes respecto a

un cambio de escala, pero no de origen. Ası, si

Y = aX ⇒ CVY = CVX

y si Y = X + b, ¿cual es la relacion entre CVY y CVX?.

Momentos muestrales.

Si x1, x2, . . . , xn son los datos correspondientes a una variable X, el momento de

orden k de su distribucion de frecuencias se define por

ak =

∑ni=1 xk

i

n(1.4)

Alicia M. Juan GonzalezEnfermerıa GD A Curso 2013/14

Page 12: Cap´ıtulo 1 Estad´ıstica descriptiva univariante€¦ · Por esta raz´on el diagrama de tallo y hojas (”stem-and-leaf” plot, en ingl´es) es una alternativa, cuando cada

12 1. Estadıstica descriptiva univariante

En consecuencia, la media aritmetica x es el momento de orden 1, x = a1. Una vez

conocido x, el momento central de orden k de dicha distribucion, se define por

mk =

∑ni=1(xi − x)k

n(1.5)

y ası, la varianza muestral s2 es el momento central de orden 2, m2 = s2. Se puede

demostrar, en virtud de las propiedades lineales de la media aritmetica (Propiedad

1.1.1-2), que los momentos centrales pueden obtenerse a partir de los momentos

ordinarios y viceversa, obteniendose ası la formula para el calculo directo de la

varianza (1.2),

s2 =

∑ni=1 x2

i

n− x2 = a2 − a2

1 (1.6)

Analogamente,

m3 = a3 − 3a2x + 2x3 (1.7)

m4 = a4 − 4a3x + 6a2x2 − 3x4 (1.8)

S2 =n

n − 1s2 =

∑ni=1 x2

i

n − 1− n

n − 1x2 (1.9)

Medidas de la forma de la distribucion.

• Simetrıa: Una distribucion de frecuencias es simetrica cuando, graficamente,

lo es respecto a su tendencia central.

La simetrıa perfecta de una distribucion implica,

la igualdad entre la media, mediana y moda: x = Me = Mo

La mediana equidista de los cuartiles primero y tercero: Q3 −Me = Me−Q1

Todos los momentos centrales de orden impar son nulos: mk = 0, para k =

3, 5, 7, 9, . . .

Si la grafica de las frecuencias (histograma o diagrama de barras) refleja una rama

mas alargada por la izquierda, esto es, las frecuencias tienden a descender mas

Alicia M. Juan GonzalezEnfermerıa GD A Curso 2013/14

Page 13: Cap´ıtulo 1 Estad´ıstica descriptiva univariante€¦ · Por esta raz´on el diagrama de tallo y hojas (”stem-and-leaf” plot, en ingl´es) es una alternativa, cuando cada

1.3. Casos atıpicos 13

lentamente por la izquierda, entonces la distribucion es de ”cola izquierda”, se dice

que tiene asimetrıa negativa y

x ≤ Me ≤ Mo

Si la distribucion presenta una cola larga por la derecha (asimetrıa positiva), entonces

Mo ≤ Me ≤ x

El coeficiente de asimetrıa de Fisher, definido por

CAS =m3

s3(1.10)

refleja la intensidad de la asimetrıa, y su signo indica el sentido de la misma.

CAS < 0 CAS = 0 CAS > 0

• Apuntamiento (o curtosis): es el grado de concentracion de la distribucion

en el centro frente a las colas, de tal manera que diremos que cuanto mayor sea

la concentracion, mayor sera el apuntamiento. Se mide mediante el coeficiente de

apuntamiento (o curtosis) muestral, definido por

CAP =m4

s4− 3 (1.11)

que indica la intensidad del apuntamiento,

CAP

⎧⎪⎪⎨⎪⎪⎩

< 0 forma aplastada (platicurtica)

= 0 forma ”normal” (mesocurtica)

> 0 forma puntiaguda (leptocurtica)

Alicia M. Juan GonzalezEnfermerıa GD A Curso 2013/14

Page 14: Cap´ıtulo 1 Estad´ıstica descriptiva univariante€¦ · Por esta raz´on el diagrama de tallo y hojas (”stem-and-leaf” plot, en ingl´es) es una alternativa, cuando cada

14 1. Estadıstica descriptiva univariante

1.3. Casos atıpicos.

Definicion: Son observaciones que se diferencian claramente de la mayorıa de

los datos que componen la muestra.

Los casos atıpicos ocurren con frecuencia. En condiciones muy controladas, pue-

den aparecer entre un 1 y un 3 % de observaciones inusuales en la muestra. Cuando

los datos se recogen sin un cuidado especial, dicho porcentaje puede llegar al 5 % o

mas.

El tratamiento de un caso atıpico depende de su origen. Se distinguen dos clases:

1. Los casos atıpicos que surgen por un error de procedimiento como, por ejemplo,

un dato mal registrado, un error o accidente en la experimentacion.

2. Los casos atıpicos que ocurren como consecuencia de un acontecimiento ex-

traordinario, es decir, conocemos una explicacion acerca de su presencia, o

por el contrario, son observaciones inusuales para las que el analista no tiene

explicacion.

En el primer caso, deberıan eliminarse o recodificarse como datos ausentes. En el

segundo caso, es el analista el que debe decidir si eliminarlos o mantenerlos. Ası, por

ejemplo, deberıan retenerse si el analista cree que representan un segmento valido

de la poblacion. No obstante, es aconsejable realizar el analisis de los datos con ellos

y tambien sin ellos. De esta forma, el investigador puede tomar conciencia de su

impacto, informacion que le resultara muy util para decidir su inclusion o no en

futuros analisis.

Cuando los datos atıpicos no se deben a errores de medida o de transcripcion,

hay que sospechar que sobre esa observacion ha actuado alguna causa que no ha

estado actuando sobre el resto de las observaciones. Por ejemplo, alguna variable

que afecta a la variable en estudio ha tomado un valor distinto y es responsable

del cambio observado. El descubrimiento de esta variable insospechada puede ser el

resultado mas importante del estudio descriptivo. Muchos descubrimientos cientıficos

importantes y muchas patentes insdustriales han surgido de la investigacion para

determinar las razones de un dato anomalo.

Alicia M. Juan GonzalezEnfermerıa GD A Curso 2013/14

Page 15: Cap´ıtulo 1 Estad´ıstica descriptiva univariante€¦ · Por esta raz´on el diagrama de tallo y hojas (”stem-and-leaf” plot, en ingl´es) es una alternativa, cuando cada

1.3. Casos atıpicos 15

Deteccion: Aunque pueden identificarse mediante el histograma o diagrama de

barras porque apareceran separados del resto de las observaciones, el grafico idoneo

es el grafico de caja y bigotes (”Box-and-Whisker Plot”, en ingles).

Calculamos los cuartiles y los representamos sobre una lınea horizontal o vertical.

Despues construimos un rectangulo o ”caja” que delimita el rango intercuartılico

(Q3 − Q1), con la arista izquierda (o inferior) ubicada en el primer cuartil, Q1, y

la arista derecha (o superior) en el tercer cuartil, Q3. Se dibuja una lınea a traves

del rectangulo en la posicion que corresponde al segundo cuartil, Me . En segundo

lugar, determinamos las fronteras interiores:

f1 = Q1 − 1, 5 (Q3 − Q1) y f2 = Q3 + 1, 5(Q3 − Q1)

y trazamos, desde cualquiera de las aristas del rectangulo, una lınea o ”bigote” hacia

dichas fronteras.

Los casos atıpicos son las observaciones xi que quedan fuera del intervalo (f1, f2).

Sin embargo, podemos distinguir entre casos atıpicos ”moderados” o ”extremos”.

Estos ultimos son aquellas observaciones que estan mas alla de 3 veces el rango

intercuartılico. Para ello, determinamos las fronteras exteriores:

F1 = Q1 − 3 (Q3 − Q1) y F2 = Q3 + 3 (Q3 − Q1)

y los casos xi que quedan fuera del intervalo (F1, F2) son los extremos. Estos, si los

hay, deberıan eliminarse. Los casos atıpicos moderados son los que se encuentran

entre las fronteras interiores y exteriores:

F1 ≤ xi ≤ f1 o f2 ≤ xi ≤ F2

Alicia M. Juan GonzalezEnfermerıa GD A Curso 2013/14

Page 16: Cap´ıtulo 1 Estad´ıstica descriptiva univariante€¦ · Por esta raz´on el diagrama de tallo y hojas (”stem-and-leaf” plot, en ingl´es) es una alternativa, cuando cada

16 1. Estadıstica descriptiva univariante

Ejemplo 1.3.1 (Datos sin agrupar). En un estudio sobre parasitos, se consi-

dero la distribucion de la garrapata ”Ixodes trianguliceps” en el cuerpo de los conejos

de una granja. Se obtuvieron las siguientes observaciones del numero de garrapatas

encontradas sobre 44 conejos:

0 2 0 0 2 2 0 0 1 1 3

0 0 1 0 0 1 0 1 4 0 0

1 4 2 0 0 1 0 0 2 2 1

1 0 6 0 5 1 3 0 1 0 1

a) Construye el grafico adecuado para representar estos datos, b) Determina el

numero medio de garrapatas de un conejo, el numero mediano, y explica su signifi-

cado, ¿Cual es el numero de garrapatas mas frecuente de un conejo?, c) Determina

la dispersion en torno a la media, y la representatividad de esta, d) ¿Como es la

forma de la distribucion?, e) Analiza la homogeneidad de los datos o si, por el con-

trario, existe algun dato que pueda considerarse atıpico. En caso afirmativo, analiza

su impacto sobre la tendencia central de la variable en estudio.

Sol. La tabla estadıstica es

xi ni Ni xi ni

0 20 20 0

1 12 32 12

2 6 38 12

3 2 40 6

4 2 42 8

5 1 43 5

6 1 44 6

44 49

b) El numero medio de garrapatas viene dado por la media muestral,

x =49

44= 1, 11

Para determinar el numero mediano, calculamos

n

2= 22 ⇒ Ni = 32 > 22 ⇒ Me = 1

Alicia M. Juan GonzalezEnfermerıa GD A Curso 2013/14

Page 17: Cap´ıtulo 1 Estad´ıstica descriptiva univariante€¦ · Por esta raz´on el diagrama de tallo y hojas (”stem-and-leaf” plot, en ingl´es) es una alternativa, cuando cada

1.3. Casos atıpicos 17

lo que significa que la mitad de los conejos (el 50%) tienen menos de 1 garrapata,

mientras que la otra mitad, tienen mas de 1. El numero de garrapatas mas frecuente

(o moda) es 0.

c) Anadimos la columna x2i ni a nuestra tabla estadıstica,

xi ni Ni xi ni x2i ni

0 20 20 0 0

1 12 32 12 12

2 6 38 12 24

3 2 40 6 18

4 2 42 8 32

5 1 43 5 25

6 1 44 6 36

44 49 147

Aplicando la formula (1.6), calculamos la desviacion tıpica muestral,

s2 =147

44− 1, 112 = 2, 1088 ⇒ s = 1, 45

En consecuencia, el coeficiente de variacion es

CV =1, 45

1, 11= 1, 31 ⇒ 131 %

lo que indica que el numero medio de garrapatas no representa adecuadamente el

centro de la distribucion.

d) Puesto que Mo ≤ Me ≤ x, la distribucion tiene una cola hacia la derecha

(asimetrıa positiva) y, por tanto, es de esperar que CAS > 0 (¡Compruebalo!).

e) Para ello, calculamos los cuartiles,

1

4× 44 = 11 ⇒ Ni = 20 > 11 ⇒ Q1 = 0

3

4× 44 = 33 ⇒ Ni = 38 > 33 ⇒ Q3 = 2

y las fronteras interiores,

f1 = Q1 − 1, 5(Q3 − Q1) = −3

f2 = Q3 + 1, 5(Q3 − Q1) = 5

Alicia M. Juan GonzalezEnfermerıa GD A Curso 2013/14

Page 18: Cap´ıtulo 1 Estad´ıstica descriptiva univariante€¦ · Por esta raz´on el diagrama de tallo y hojas (”stem-and-leaf” plot, en ingl´es) es una alternativa, cuando cada

18 1. Estadıstica descriptiva univariante

Ası, el dato 6 es atıpico. Cuando lo descartamos de los calculos, obtenemos un valor

inferior para la media (x = 1) con una desviacion tıpica tambien inferior (s = 1, 26).

La media gana en representatividad (CV = 126 %), aunque no lo suficiente.

Ejemplo 1.3.2 (Datos agrupados). Un estudio pluviometrico realizado en 80

nucleos rurales espanoles registro durante el pasado ano los siguientes datos respecto

a precipitaciones (en milımetros):

810 312 368 423 529 1861 390 675 919 578

1053 514 391 259 513 1348 498 194 340 587

1495 1868 553 322 404 441 567 835 518 446

542 593 353 670 572 362 595 1028 1552 417

513 1352 473 226 917 419 442 516 1658 280

404 442 574 815 320 379 414 1502 361 310

566 419 591 1048 503 554 283 414 379 670

917 372 440 1508 598 332 317 559 492 228

a) Construye el grafico adecuado para representar estos datos, b) Determina la

precipitacion media, en primer lugar, sin agrupar los datos y, en segundo lugar,

agrupandolos en 5 intervalos ¿Cual de los promedios es mas preciso? Razona tu

respuesta, c) ¿Cual es la precipitacion mediana?, ¿Cual es precipitacion mas fre-

cuente?, d) Determina la dispersion en torno a la media, y la representatividad de

esta, e) ¿Hay casos atıpicos? ¿Cuales son? ¿Cuales de ellos son casos extremos?.

Sol. b) La media sin agrupar es 627,53 mm. Para calcular la media agrupada

tendremos en cuenta: n = 80, el dato maximo es 1868 y el mınimo 194, con lo cual

el recorrido es R = 1674 y si el numero de intervalos k ha de ser 5, entonces

R

k=

1674

5= 334, 8 ≈ a

Si a = 335 y L1 = 190, las marcas de clase tienen decimales. Para evitarlo, probamos

con a = 334 y L1 = 190 pero entonces el ultimo intervalo no contiene al dato maximo

pues L1 + k a = 1860. Ahora bien, si a = 336 y L1 = 190, entonces L1 + k a = 1870.

Ası pues, la tabla queda,

Alicia M. Juan GonzalezEnfermerıa GD A Curso 2013/14

Page 19: Cap´ıtulo 1 Estad´ıstica descriptiva univariante€¦ · Por esta raz´on el diagrama de tallo y hojas (”stem-and-leaf” plot, en ingl´es) es una alternativa, cuando cada

1.3. Casos atıpicos 19

xi ni xini Ni

(190, 526] 358 44 15752 44

(526, 862] 694 21 14574 65

(862, 1198] 1030 6 6180 71

(1198, 1534] 1366 5 6830 76

(1534, 1870] 1702 4 6808 80

80 50144

y la media agrupada es

x =50144

80= 626, 8 mm

Aunque los valores de ambas medias estan muy proximos, lo cual se debe a una

buena eleccion de los intervalos, la media sin agrupar siempre es mas precisa que

la agrupada. El agrupamiento de los datos en intervalos siempre lleva implıcito una

perdida de informacion.

c)

1

2× 80 = 40 ⇒ Ni = 44 > 40 ⇒ Me ∈ (190, 526] ⇒

Me = 190 +40 − 0

44× 336 = 495, 45 mm

Puesto que todos los intervalos tienen la misma amplitud, el intervalo modal es el

de mayor frecuencia absoluta: Mo ∈ (190, 526], y la precipitacion mas frecuente es

Mo = 190 +44 − 0

44 + (44 − 21)336 = 410, 66 mm

d) Anadimos la columna x2i ni a nuestra tabla,

xi ni xini Ni x2i ni

(190, 526] 358 44 15752 44 5639216

(526, 862] 694 21 14574 65 10114356

(862, 1198] 1030 6 6180 71 6365400

(1198, 1534] 1366 5 6830 76 9329780

(1534, 1870] 1702 4 6808 80 11587216

80 50144 43035968

Alicia M. Juan GonzalezEnfermerıa GD A Curso 2013/14

Page 20: Cap´ıtulo 1 Estad´ıstica descriptiva univariante€¦ · Por esta raz´on el diagrama de tallo y hojas (”stem-and-leaf” plot, en ingl´es) es una alternativa, cuando cada

20 1. Estadıstica descriptiva univariante

La desviacion tıpica muestral es

s2 =43035968

80− 626, 82 = 145071, 36 ⇒ s = 380, 88 mm

En consecuencia, el coeficiente de variacion es

CV =380, 88

626, 8= 0, 6077 =⇒ 60, 77 %

lo que indica que la precipitacion media no representa adecuadamente el centro de

la distribucion.

e) Calculamos los cuartiles:

1

4× 80 = 20 ⇒ Q1 ∈ (190, 526] ⇒ Q1 = 190 +

20 − 0

44× 336 = 342, 73

3

4× 80 = 60 ⇒ Q3 ∈ (526, 862] ⇒ Q3 = 526 +

60 − 44

21× 336 = 782

Las fronteras interiores son:

f1 = Q1 − 1, 5(Q3 − Q1) = −316, 175

f2 = Q3 + 1, 5(Q3 − Q1) = 1440, 91

con lo cual, las precipitaciones superiores a 1440 mm son atıpicas. Las fronteras

exteriores son:

F1 = Q1 − 3(Q3 − Q1) = −975, 08

F2 = Q3 + 3(Q3 − Q1) = 2099, 81

Las precipitaciones extremas son superiores a 2099 mm pero, en este caso, no las

hay.

Alicia M. Juan GonzalezEnfermerıa GD A Curso 2013/14

Page 21: Cap´ıtulo 1 Estad´ıstica descriptiva univariante€¦ · Por esta raz´on el diagrama de tallo y hojas (”stem-and-leaf” plot, en ingl´es) es una alternativa, cuando cada

1.4. Ejercicios 21

1.4. Ejercicios.

2. El dioxido de carbono es un gas inodoro e incoloro que comprende 0,035 %

del volumen atmosferico. Afecta el equilibrio termico al actuar como una pantalla

unidireccional. Deja que la luz del sol caliente los oceanos y la tierra, mientras que

bloquea el calor de la luz infrarroja que se irradia del planeta. Este calor reflejado

se absorbe en las capas inferiores de la atmosfera, lo que produce un efecto de

invernadero que vuelve a la superficie terrestre mas caliente que en otras condiciones.

Supongamos los siguientes valores de dioxido de carbono (en partes por millon, ppm):

319 338 337 339 328 325 340 331 341 336

330 330 321 327 337 320 343 350 322 334

326 349 341 338 332 339 335 338 333 334

a) ¿Cual es la proporcion de dioxido de carbono superior a la media?, b) ¿Que can-

tidad de dioxido de carbono es la mas frecuente?, c) Calcula los cuartiles de la

distribucion e interpreta los resultados.

5. Las concentraciones de ozono alrededor de la ciudad de Los Angeles han

llegado a ser hasta de 220 partes por millar de millones (ppmm), lo que constituye

un riesgo para la vida animal y vegetal. Los datos siguientes son las concentraciones

de ozono obtenidas en un area boscosa cercana a Seattle, Washington (basado en

informacion de ”Twigs”, American Forests, 1990, p.71)

160 176 160 180 167 165 163 162 168 173 170 196 185

163 162 172 162 167 161 169 164 179 163 178 161

a) Determina la concentracion promedio, la mas frecuente y la mediana, b) Evalua

la representatividad de la media? c) ¿Hay algun caso atıpico?.

7. En cierta provincia hay 3 grandes empresas electricas A, B y C. La primera

emplea a 542 personas y su salario medio es 1080 e. En B trabajan 843 empleados

y su ingreso medio es de 860 e. Si el sueldo medio de los trabajadores de C es de

810 e, ¿cual es el numero de empleados en la industria electrica de dicha provincia

si el salario medio es de 904,245 e?.

Alicia M. Juan GonzalezEnfermerıa GD A Curso 2013/14

Page 22: Cap´ıtulo 1 Estad´ıstica descriptiva univariante€¦ · Por esta raz´on el diagrama de tallo y hojas (”stem-and-leaf” plot, en ingl´es) es una alternativa, cuando cada

22 1. Estadıstica descriptiva univariante

14. Una encuesta entre fumadores sobre el numero de cigarrillos que consumen

al dıa ha dado lugar a los resultados siguientes:

Num.cigarrillos 4.5-9.5 9.5-14.5 14.5-19.5 19.5-24.5 24.5-29.5

Num.fumadores 10 15 25 18 22

a) Determina la media, mediana y moda de la distribucion e interpreta los resultados,

b) Determina la desviacion tıpica y calcula la representatividad de la media, c)

Determina el intervalo intercuartılico e interpreta el resultado, d) Determina el

porcentaje de individuos que fuman entre 12 y 22 cigarrillos diarios, ambos inclusive,

e) Determina el consumo medio diario de cigarrillos para una poblacion de 1000

individuos, sabiendo que el porcentaje de fumadores es del 30 %.

23. Se han medido los coeficientes intelectuales de un grupo de 20 alumnos, vi-

niendo los resultados agrupados en 6 intervalos de amplitud variable. Las amplitudes

de dichos intervalos y sus frecuencias relativas acumuladas son:

ai 12 12 4 4 12 20

Fi 0,15 0,15 0,55 0,80 0,95 1,00

a) Construye la tabla de frecuencias, sabiendo que el extremo inferior del primer

intervalo es 70, b) Construye el histograma y el polıgono de frecuencias absolutas,

c) ¿Entre que dos percentiles esta comprendido un coeficiente intelectual de 98,4?.

30. Las calificaciones obtenidas por los alumnos de cierto curso de la Universidad

vienen dadas en la siguiente tabla:

Calificacion 0-3 3-5 5-7 7-8 8-10

Fr. acumulada 0,15 0,35 0,75 0,90 1,00

a) ¿Que porcentaje de alumnos tienen una calificacion comprendida entre 3,4 y 8,2

puntos?, b) ¿Que calificacion mınima debe tener un alumno para poder considerarse

entre el 20 % de los mejor calificados?.

Alicia M. Juan GonzalezEnfermerıa GD A Curso 2013/14

Page 23: Cap´ıtulo 1 Estad´ıstica descriptiva univariante€¦ · Por esta raz´on el diagrama de tallo y hojas (”stem-and-leaf” plot, en ingl´es) es una alternativa, cuando cada

1.4. Ejercicios 23

34. Se han medido los niveles de colinesterasa en un recuento de eritrocitos de 34

agricultores expuestos a insecticidas agrıcolas, obteniendose los resultados siguientes:

10, 6 12, 5 11, 1 9, 2 11, 5 9, 9 11, 9 11, 6 14, 9 12, 5

12, 5 12, 3 12, 2 10, 8 16, 5 15, 0 10, 3 12, 4 9, 1 7, 8

11, 3 12, 3 9, 7 12, 0 11, 8 12, 7 11, 4 9, 3 8, 6 8, 5

10, 1 12, 4 11, 1 10, 2

Agrupando los datos en 6 intervalos de amplitud constante de tal forma que el

extremo inferior sea 7,5, determina: a) el nivel de colinesterasa mas frecuente, b)

¿cual es el nivel de colinesterasa que debe tener un agricultor para que se le pueda

considerar entre el 50 % de los de mayor nivel?, c) Determina el nivel de colinesterasa

promedio con los datos agrupados y tambien con los datos sin agrupar, ¿cual de los

promedios es mas preciso? ¿porque?.

39. Una vacuna antitetanica se ha administrado a 42 personas. A las 5 horas se

les ha tomado la temperatura, obteniendose los datos siguientes,

Temperatura (◦C) 37-37,5 37,5-38 38-38,5 38,5-39 39-39,5 39,5-40

Num. personas 1 5 15 6 10 5

a) ¿Cuantas personas han tenido una temperatura de 38◦, como maximo?, ¿Que por-

centaje de individuos han tenido una fiebre superior a 38◦ pero inferior a 39◦? b)

¿Cual ha sido la temperatura promedio al cabo de 5 horas?, c) ¿Cual ha sido la

temperatura mas frecuente al cabo de 5 horas?, d) ¿Cual ha sido la temperatura

mınima de los individuos que han tenido mas fiebre?

41. Se ha medido la talla (cm) de 110 jovenes de cierta universidad, obteniendose

los datos siguientes:

Altura 155-160 160-170 170-180 180-190 190-200

Num. jovenes 18 31 24 20 17

Determina: a) los percentiles 21 y 87 e interpreta sus significados, b) los deciles 3

y 9 e interpreta sus significados, c) Si se consideran ”bajos” aquellos cuya altura

Alicia M. Juan GonzalezEnfermerıa GD A Curso 2013/14

Page 24: Cap´ıtulo 1 Estad´ıstica descriptiva univariante€¦ · Por esta raz´on el diagrama de tallo y hojas (”stem-and-leaf” plot, en ingl´es) es una alternativa, cuando cada

24 1. Estadıstica descriptiva univariante

esta sobre el percentil 3, ¿cual es la altura maxima que puede alcanzar un joven?, d)

Si se consideran ”altos” aquellos cuya altura esta sobre el percentil 82, ¿cual es la

altura mınima que puede alcanzar un joven?, e) ¿Que porcentaje de jovenes tienen

una altura inferior a 178 cms?.

42. Dadas las 6 observaciones siguientes: -10, 3, x, 10, 1, 0, se sabe que su

desviacion tıpica es igual a su coeficiente de variacion. Calcula el valor de x ası como

la media de dicha distribucion.

49. ¿Cuantas calorıas contienen las salchichas?: Hay gente que siempre

esta pendiente del numero de calorıas que ingiere con los alimentos. En la revis-

ta estadounidense Consumer Reports aparecio un artıculo donde se analizaban los

contenidos en calorıas de 20 marcas distintas de salchichas elaboradas con carne de

ternera, de 17 marcas de salchichas hechas con carne de cerdo, y de 17 marcas de

salchichas hechas con carne de pollo. Los resultados son,

Ternera Cerdo Pollo

Media 156,8 158,7 122,5

Desviacion tıpica 22,64 25,24 25,48

Mınimo 111 107 87

Maximo 190 195 170

Tamano muestra 20 17 17

Mediana 152,5 153 129

Cuartil primero 140 139 102

Cuartil tercero 178,5 179 143

Describe brevemente las diferencias que observes en las tres distribuciones. Comer

salchichas hechas con carne de pollo, ¿significa ingerir menos calorıas que comer las

hechas con carne de ternera o de cerdo?.

55. Supervivencia de los conejillos de Indias: Los datos siguientes se refieren

a los tiempos de supervivencia, en dıas, de 72 conejillos de Indias despues de que se

les inyectara el bacilo de la tuberculosis en un experimento medico, a) Representa

Alicia M. Juan GonzalezEnfermerıa GD A Curso 2013/14

Page 25: Cap´ıtulo 1 Estad´ıstica descriptiva univariante€¦ · Por esta raz´on el diagrama de tallo y hojas (”stem-and-leaf” plot, en ingl´es) es una alternativa, cuando cada

1.4. Ejercicios 25

graficamente estos datos y describe sus caracterısticas mas destacables, b) analiza

la forma de la distribucion, c) analiza la presencia de casos atıpicos.

43 45 53 56 56 57 58 66 67 73 74 79

80 80 81 81 81 82 83 83 84 88 89 91

91 92 92 97 99 99 100 100 101 102 102 102

103 104 107 108 109 113 114 118 121 123 126 128

137 138 139 144 145 147 156 162 174 178 179 184

191 198 211 214 243 249 329 380 403 511 522 598

63. Los pesos (en kg) de los ninos observados en una consulta, al cumplir el

primer mes de vida, varıan de acuerdo a la tabla siguiente,

Peso 3-3,7 3,7-4 4-4,2 4,2-4,5 4,5-4,7 4,7-5 5-5,4

Num. ninos 2 5 18 91 15 6 3

¿Cual es el peso medio de los ninos atendidos?,¿Cual es el peso mas frecuente?,

¿Que debe pesar un nino para pertenecer al grupo de los mas pesados?.

Alicia M. Juan GonzalezEnfermerıa GD A Curso 2013/14