ESTADISTICA DESCRPTIVA · 2015. 2. 20. · Estadística descriptiva. La estadística descriptiva...

ESTADISTICA

DESCRPTIVA

Estadística descriptivaBioestadística y Ciencias de la Salud.Recogida y organización de los datos. Escalas de medida.Variables (caracteres) y modalidades. Frecuencia, proporción y porcentaje.Presentación de los datos: Tablas de distribución de frecuencias y representaciones gráficas.Medidas de tendencia central y de posición: media, mediana, moda, percentiles.Medidas de variabilidad: recorrido, recorridointerquartílico, varianza, desviación típica, coeficiente de variación.

Bioestadística y Ciencias de la Salud.

Necesidad de la estadística: Las ciencias de la salud son esencialmente experimentales.

Necesidad de razonamientos inductivos a partir de los datos: Se hacen afirmaciones acerca de un colectivo de individuos u objetos, habiendo observado en realidad sólo una parte de ellos (inferencia)

Introducción

¿Qué es la estadística?

¿Para qué nos sirve?

Estadística descriptiva.La estadística descriptiva comprende las técnicas que se emplean para resumir y describir datos numéricos.El estudio de los datos se realiza con representaciones gráficas, tablas, medidas de posición y dispersión.

Estadística inferencial.El problema crucial de la estadística inferencial es llegar a proposiciones acerca de la población a partir de la observación efectuada en muestras. Es decir, por ejemplo, si podemos dar la media de edad de la población a partir de una muestra y como es de válido ese valor.

Introducción

Ejemplos

Gráfico: Número de defunciones por cáncer cervical y mama ha aumentado de 1979 a 2006 en Méjico.

Ejemplo 1: Ingresos en la Unidad de Obstetricia del Hospital Universitario Dr. Peset durante el año 2010 y que finalizaron en parto.

Ejemplo 2:

Ejemplos

Gráfico: Distribución de los nuevos casos de cáncer en Europa por género.

Ejemplo 3:

Ejemplos: Algunas estadísticas del grupo D de enfermería

Ejemplo: Datos de nacimiento de 817 partos

edad: edad expresada en años Edad gestacional: edad expresada en semanas de gestación Gest: número de gestacionesAbortos: número de abortosCesáreas. Número de cesáreasPeso: peso (kilogramos)Sexo: indica el sexo del entrevistado, v = varón, m = mujer

1. Muestra y variables

Ejemplo: Datos de nacimiento de 817 partos

Reproducción parcial de las 817 observaciones

¿?¿? Interpretar los datos parece difícil

Resumir información

1. Muestra y variables

Distribución frecuencias

Gráficos

Medidas posición y dispersión

EDAD EDAD_GEST GEST PARTOS ABORTOS CESAREAS PESO SEXO34 40 2 1 0 0 3780 M24 38 1 0 0 0 3420 H29 41 2 1 0 0 3430 M28 40 1 0 0 0 3850 M25 39 2 0 1 0 2790 H27 40 1 0 0 0 2990 M31 36 2 1 0 0 2700 H31 32 2 1 0 028 39 3 0 1 1 2610 M22 37 1 0 0 0 2590 M29 39 4 2 1 0 3100 H24 39 2 0 1 0 2590 M27 40 2 0 1 0 3320 M32 38 1 0 0 0 2930 M22 41 1 0 0 0 3150 H29 41 1 0 0 0 2780 M43 37 3 1 0 1 2670 M24 38 2 1 0 0 3400 H26 34 1 0 0 0 2640 H36 40 4 3 0 0 3010 H

Población conjunto de elementos que presentan unos rasgos comunes y en los que se desea estudiar una o varias características/variables.

Individuo/unidad: cada uno de los elementos que pertenecen a la población.

Tamaño de la población (N): número de individuos de la población. Las poblaciones según su tamaño se clasifican en finitas (formada por un numero limitado de unidades) o infinitas (si el numero de elementos es ilimitado o no puede establecerse).

Recogida y organización de los datos. Escalas de medida.

Muestra: subconjunto representativo de la población (ejemplo: datos recogidos en la tabla).

Tamaño de la muestra (n): número de individuos de la muestra (vendrá determinado por el tipo de estudio que realizamos, las características de la población estudiada, el grado de error que estemos dispuestos a asumir, etc.). En general trabajaremos con ‘N’ para referir el número de casos estudiados

Muestreo: Es el procedimiento que permite obtener una muestra que sea representativa de la población. Se llama muestreo aleatorio, a aquél en que los individuos son seleccionados al azar .


Tipos de muestreo

a) Muestreo aleatorio simple: todos los individuos de la población (N) tienen igual

probabilidad de ser elegidos. Es el más habitual aunque no siempre es posible

realizarlo. Presenta la ventaja de que puede asumirse la independencia de los valores

observados entre los sujetos y cuando el tamaño de la población es muy grande es

irrelevante si se permite o no la posibilidad de que los individuos puedan ser

reelegidos (muestreo con reemplazamiento).

b) Muestreo aleatorio sistemático: para obtener una muestra de n individuos, se

toma un número aleatorio k entre 1 y h=N/n, como integrantes de la muestra se

tomarían a los individuos: k, k+h, k+2h, k+3h, …, k+(n‐1)h. La muestra podría no ser

representativa si los datos dentro de los grupos están ordenados según alguna

característica que tenga que ver con el parámetro de interés

Tipos de muestreo

c) Muestreo aleatorio estratificado: Es el método ideal cuando la población se

divide en varios grupos o estratos cuya representación en la muestra se desea

asegurar. Consiste en tomar una submuestra en cada grupo manteniendo en la

muestra la proporcionalidad que se da en la población.

Es decir, si N: tamaño de la población y Ni el tamaño del estrato i, y se desea

obtener una muestra de tamaño n, en cada estrato se seleccionarán niindividuos, siendo n

NN

n ii ⋅=

Este tipo de muestreo posibilita la inferencia en cada grupo, y es tanto más

efectivo cuanto más homogéneos son los estratos internamente, respecto a la

característica sobre la que se desea inferir. Es algo más costoso que el muestreo

aleatorio simple pero puede ser más preciso, ya que elimina como posible fuente

de sesgos la característica que define los grupos

Tipos de muestreo

d) Muestreo aleatorio por conglomerados: Se eligen al azar grupos de sujetos y se

estudian todos los individuos de cada grupo seleccionado. Los conglomerados

deben ser lo más homogéneos entre sí y lo más heterogéneos posibles dentro de

ellos. Se puede reducir bastante el coste del estudio y si los conglomerados no

tienen la misma cantidad de individuos pueden establecerse pesos

Variable: Cualquier aspecto de la población que nos interesa estudiar. Cada una de las posibles manifestaciones de la variable se denomina modalidad y estas tienen que constituir un listado exhaustivo (todo elemento de la población presenta una de las modalidades del listado) y exclusivo (cada individuo presenta una única modalidad).

Variables cualitativas: son variables que describen categorías, razón por la cual se las denomina también categóricas.

Ordinales: Cuando las categorías admiten algún tipo de ordenación (por ejemplo, nivel de educación)

No ordinales en caso contrario (por ejemplo: sexo, estado civil)

Variables cuantitativas: son variables que expresan valores numéricos.

Discretas: es la que toma valores enteros (por ejemplo: consumo medio diario de alcohol)

Continuas: puede tomar cualquier valor, entero o decimal (por ejemplo: peso y altura)

Tipos de Variables

Ejercicio:Clasificar las siguientes variables en: cuantitativa (continua/discreta) o cualitativa (nominal/ordinal):

‐ n° de alumnos por carrera‐ sexo‐ color de ojos de los alumnos‐ peso‐ N° de hijos de una familia,‐ nivel socioeconómico‐ edad‐ Lugar de residencia‐ clasificación de la edad en: niño, joven, adulto y adulto mayor‐ nº delitos cometidos por año (1990‐2010)


Sensibilidad (s): unidad mas pequeña que el instrumento de medida es capaz de apreciar.

Ejemplo: En el caso del peso al nacer [gramos] s = 1 gramo

En el caso de que tengamos una medida con cifras decimales, la sensibilidad será el número de cifras decimales.

Valor observado (X0): Resultado de la mediciónEjemplo: 2935 gramos

Valor exacto (Xe): es un valor que se encuentra dentro del intervalo X0 ± s/2 (límites exactos del intervalo)

Ejemplo: Xe=[2935–½ ; 2935+½]=[2934,5 ; 2935,5]


Amplitud de la distribución (A): diferencia entre el límite exacto superior del valor máximo observado y el límite exacto inferior del valor mínimo observado

A=(Xmax+ s/2 )‐(Xmin– s/2)= Xmax‐Xmin+s

Ejemplo: Peso al nacer [gramos] s=1; Xmin=1425 ; Xmax=4540

A=4540‐1425+1=3116

Clases o intervalos: posibles agrupaciones de la variable

Número de intervalos (k): depende del numero de datos observado. No hay un criterio fijo para determinarlo. Algunos de los criterios que podemos encontrar en la literatura son :

k=1+3,322*log(N)

k= N

siendo N el número de observaciones.


Longitud del intervalo (l): se obtiene dividiendo la amplitud de la distribución por el numero de intervalos (k) y aproximando el resultado, por exceso, a un múltiplo de la sensibilidad

l =A/k

Ejemplo: Si k=11 l=3116/11=283,27 ≈284

Si k=10 l=3116/10=311,6 ≈312

Construcción de las clases o intervalos:Se fija el limite exacto inferior del primer intervalo (Xmin– s/2 )

Se obtienen las clases sumando la longitud

M01 1424,5 ;1424,5+284 1424,5; 1708,5

M02 1708,5;1708,5+284 1708,5; 1992,5

……….

M11 4264,5; 4264,5+284 4264,5; 4548,5


Límites aparentes: aquellos que tienen por extremos valores observables (que si que pueden estar en la base de datos)

Limites exactos Limites aparentes

1424,5; 1708,5 1425; 1708

1708,5;1992,5 1709; 1992

……….

4264,5; 4548,5 4265; 4548

Marca de clase (Mi) es el punto medio del intervalo (limites exactos o limites aparentes): Mi=(Lím Sup+Lím Inf)/2

Limites Exactos Limites aparentes Marca de clase

1424,5;1708,5 1425;1708 1566,5

1708,5;1992,5 1709;1992 1850,5

……….

4264,5;4548,5 4265;4548 4406,5


IMPORTANT: Categorización de una variable cuantitativa.Podemos transformar una variable cuantitativa en cualitativa codificando los posibles valores de la variable y generando unasnuevas modalidades categóricas. Esta transformación implicara siempre una perdida de información.

Ejemplo: Peso del niño [gramos] en 3 categorías Bajo peso (peso < 2500 gr), Peso normal (peso ≥ 2500 gr e peso ≤ 4000 gr), Peso elevado (peso ≥ 4000 gr)

Si tenemos los datos de una variable continua y no conocemos la sensibilidad s=10-d, donde d=número cifras decimales que se observan e los datos

Ejemplo: 10,25; 11,36; 15,57; … s=10-2=0,01

Frecuencia (frecuencia absoluta ordinaria o número de casos (fi o ni) de una modalidad (categoría) Mi: número de individuos de la población (muestra) que presentan dicha modalidad.

Proporción (frecuencia relativa ordinaria) (hi o pi) de una modalidad Mi: proporción de individuos de la población (muestra) que presentan dicha modalidad. hi=fi/N

Porcentaje (%i) de una modalidad Mi: porcentaje de individuos de la población (muestra) que presentan dicha modalidad.

%i=100*hi

Frecuencia, proporción y porcentaje

Ejemplo:

Lugar de ingreso: 3 categorías: maternidad (M), paritorio (P) y dilatación (D)

Tenemos N=796. 476 están en maternidad, 16 en paritorio y 306 en dilatación. Estas son las frecuencias absolutas de cada una de las modalidades (categorías de la variable).

Para el cálculo de las frecuencia relativas o proporciones tenemos que dividir la frecuencia absoluta por el N total.

M = 476/796 = 0.598; P = 16/796= 0.020; D = 306/796= 0.384

Porcentajes:

M = 100*(476/796) = 59,8%; P = 100*(16/796)= 2%; D = 100* (306/796) = 38,4%


Sólo para variables cuantitativas:

Frecuencia acumulada/frecuencia absoluta acumulada/casos acumulados (Fi /Ni) de una modalidad Mi: número de individuos de la población (muestra) que presentan una modalidad igual o inferior a Mi.

Proporción acumulada/frecuencia relativa acumulada (Hi o Pi) de una modalidad Mi: proporción de individuos de la población (muestra) que presentan una modalidad igual o inferior a Mi



Porcentaje acumulado (%i) de una modalidad Mi: número de individuos de la población (muestra) que presentan una modalidad igual o inferior a Mi



Determinación de la frecuencia acumulada conocida la frecuencia

Determinación de la frecuencia, conocida la frec. acumulada



La frecuencia/proporción/porcentaje acumulado en un intervalo es el número/proporción/% de observaciones con valor menor o igual al límite exacto superior del intervalo.

Determinación de la frecuencia, conocida la frec. acumulada


Ejercicios:

1. Analizando el nivel de potasio en sangre en 300 pacientes obtenemos los siguientes resultados:

Xmin= 3,7 mEq/lXmax=5,2 mEq/l

Si queremos agrupar los posibles valores en 6 intervalos de la misma longitud

Determinar los límites exactos de los intervalos

2. Analizando el nivel de sodio en sangre en 300 pacientes obtenemos los siguientes resultados:

Xmin= 135 mEq/lXmax=145 mEq/l

Hacer lo mismo que en el ejercicio 1.

2. Distribuciones de frecuencias

3. En una muestra de 430 personas se le ha determinado la cantidad de hierro en sangre.

Xmin= 50 mcg/lXmax=150 mcg/l

Hacer los mismo que en los anteriores ejercicios pero agrupalos en 9 clases.

4. En una encuesta de presupuesto familiar, se ha obtenido información respecto al n° de hijos.

Los datos son los siguientes:

3, 1, 2, 0, 3, 2, 1, 1, 3, 3, 2, 4, 2, 2, 0, 2, 1, 3, 4, 2, 3

Calcula la tabla de frecuencias absolutas, relativas y porcentajes


5. Durante el mes de julio, en una ciudad se han registrado las siguientes temperaturas máximas:

32, 31, 28, 29, 33, 32, 31, 30, 31, 31, 27, 28, 29, 30, 32, 31, 31, 30, 30, 29, 29, 30, 30, 31, 30, 31, 34, 33, 33, 29, 29.

Construir la tabla de frecuencias (absolutas, relativas, acumuladas y porcentajes)


Presentación de los datos

Tabla de distribución de frecuencias (TDF)En toda TDF deberemos considerar:1. El título (claro, conciso e informativo)2. La tabla: celdas dispuestas en filas y columnas (1a fila indicará a que se refieren los datos y 1ª columna mostrará el listado de modalidades.)

Notas:● Las modalidades estarán en orden creciente.● Los intervalos se presentarán con límites exactos.● Si la variable es cualitativa los valores acumulados no se pueden calcular.● Para representar: Las proporciones con un máximo de 4 decimales y los porcentajes con 2.


Ejemplos:


Series temporales

Variable estudiada: Tiempo (casos observados en una semana, mes, año, …).Se pretende mostrar como varia un fenómeno en relación al tiempo. La presentación de los datos es similar a una tabla de distribución de frecuencias, pero carece de sentido (generalmente) el calculo de proporciones y porcentajes. Si la característica estudiada se refiere a lo ocurrido en una población cuyo número de individuos ha variado a lo largo del tiempo, es conveniente incluir en la tabla una columna que muestre el numero de veces que ocurrió el fenómeno por cada 10k

individuos (índice).


Tablas de contingencia

Si estudiamos dos variables [X con M modalidades e Y con M’ modalidades] la variable conjunta tendrá M*M’ modalidades y la presentación de los datos la haremos mediante una tabla de doble entrada [tabla de contingencia] que contendrá las modalidades y el número (proporción/%) de casos que observamos de cada una de ellas

Presentación de los datosTablas de contingencia

Cada celda contiene el numero de casos que presentan a la vez una modalidad de X y una de Y.

Así el valor 89 (f12) indica que 89 casos presentan a la vez el valor M2 (Fumó en el embarazo pero no en semana 12) de la variable fuma y el valor M‘2 (Estudios primarios) de la variable Nivel de estudios.Si sumamos las filas obtenemos el numero (proporción/%) de casos de las modalidades de la variable nivel de estudios (585 son todas las mujeres con estudios primarios). Esta frecuencia se denota por

Si sumamos las columnas obtenemos el numero (proporción/%) de casos de las modalidades de la variable Fumar en el embarazo (1657 indica las mujeres que no fumaron en el embarazo)

Tabla de contingencia Nivel estudios madre 3 cat * tabaco s12 3 categorías

Recuento

320 89 176 585656 145 204 1005681 90 63 834

1657 324 443 2424

Hasta primarios/ESOSecundariosUniversitarios

Nivel estudiosmadre 3 cat

Total

No fuma enembarazo

Fuma enembarazo,no en s12 Fuma en s12

tabaco s12 3 categorías

Total

• if 100522 ==∑•j

j ff

j f• 4433 ==∑•j

j3 ff

A las frecuencias resultantes de sumar toda una fila o columna se les llama frecuencias marginales y proporcionan la TDF de cada una de las variables estudiadas. Si sumamos todas las frecuencias obtendremos el numero total de casos y lo mismo ocurre si sumamos las frecuencias marginales de cualquiera de las dos variables estudiadas.

2424=== ∑∑∑ ••j

ji

iji

ij fff,

Las tablas de contingencia pueden presentarse también en porcentajes, dividiendo por la frecuencia total y multiplicando por 100. Según la frecuencia que se utiliza como “total” se obtienen diferentes resultados.




Esta tabla muestra la distribución conjunta de les variables ‘Evolución del parto’ y ‘Lugar de ingreso’

A indica que 14 de los casos estudiados corresponden a mujeres que ingresaron en el paritorio y la evolución del parto fue normal.


Tablas de contingencia‐ Si se divide por el total de individuos en la muestra (nº total de

datos), la tabla resultante expresa la distribución de probabilidad conjunta de las variables X e Y. La suma de todos sus elementos será 100.

B indica que de entre los partos que tuvieron una evolución normal, el 55,8%corresponden a mujeres ingresadas en paritorio

1002,038,459,5total6,70,32,63,8Otra

93,31,835,8B=55,8Normaltotal

Paritorio (P)

Dilatación (D)

Maternidad (M)

Evol/lugar


Tablas de contingencia‐ Si se divide por la frecuencia marginal de la fila correspondiente, la

tabla resultante expresa la distribución de probabilidad condicionada a tipo de evolución. Las nuevas frecuencias marginales por filas serán 100

C indica que los ingresos por paritorio suponen un 3,77% de los ingresos con evolución no normal, i.e. de los ingresos con evolución no normal, el 3,77% fueron por paritorio


Tablas de contingencia‐ Si se divide por la frecuencia marginal de la columna

correspondiente, la tabla resultante expresa la distribución de probabilidad condicionada al lugar de ingreso. Las nuevas frecuencias marginales por columnas serán 100

D indica que los ingresos con evolución no normal, suponen un 12,5% de los ingresos por paritorio, i.e. de los ingresos por paritorio, el 12,5% tienen una evolución no normal. El porcentaje de ingresos con evolución no normal es casi el doble cuando el ingreso es por paritorio que cuando es por maternidad o dilatación

Representaciones gráficas

Variables cualitativas

Gráficos de sectores: Se asocia a cada modalidad un sector circular con ángulo central proporcional a la frecuencia (proporción/porcentaje) de dicha modalidad [en el ejemplo se representan las frecuencias/casos de las modalidades de la variable ‘Trasplantes en la CV. Ano 2009’]



Diagrama de barras: Sobre unos ejes coordenadas marcamos en el eje de abscisas las posibles modalidades y sobre el eje de ordenadas la frecuencia proporción/porcentaje). Sobre cada modalidad trazamos rectángulos de base constante y altura igual a la frecuencia (proporción/porcentaje) correspondiente [en el ejemplo se representan las proporciones de las modalidades de la variable ‘Lugar de ingreso’]



Diagrama de barras dobles: Similar al diagrama de barras, se utiliza para representar conjuntamente dos o mas variables cualitativas. Si con el diagrama queremos comparar una misma variable en dos grupos diferentes la representación grafica se hará con proporciones (porcentajes) [en el ejemplo se representan las frecuencias/casos de las modalidades de la variable conjunta ‘Lugar de ingreso’ –‘Evolución del parto’]



Diagrama de barras estratificado: Presenta las modalidades de una variable condicionadas a una segunda variable. Normalmente se expresa en porcentajes [en la primera grafica se representan los porcentajes de las modalidades de la variable ‘Evolución del parto’ condicionada a la variable ‘Lugar de ingreso’.



Serie temporal o perfil ortogonal: Se representan en abscisas las posibles modalidades y en ordenadas las correspondientes frecuencias (en ocasiones utilizaremos las cifras relativas calculadas: índices, tasas, ...). Uniendo los puntos obtenemos el perfil ortogonal.

Representaciones gráficasVariables cuantitativas discretas

Diagramas de barras: sobre unos ejes coordenadas marcamos sobre el eje de abscisas las posibles modalidades y sobre el eje de ordenadas la frecuencia (proporción o porcentaje). Sobre cada modalidad trazamos rectángulos de base constante y altura igual a la frecuencia (proporción o porcentaje) correspondiente.

También se pueden representar frecuencias, proporciones y porcentajes acumulados

Representaciones gráficasVariables cuantitativas continuas

Histograma:Si los intervalos tienen la misma amplitud (l) asociamos a cada intervalo un rectángulo cuya base será l (trabajaremos con limites exactos) y cuya altura serála frecuencia (fi) del intervalo. Si las clases tienen distintas longitudes la altura del rectángulo se calcula en cada caso como fi/l.

Si se desea en lugar de la frecuencia absoluta pueden representarse las frecuencias relativas o los porcentajes


Polígono de frecuencias: consideramos los pares formados por la marca de cada clase y su correspondiente frecuencia (proporción o porcentaje). Al representar estos puntos y unir dos consecutivos mediante una línea recta obtenemos el polígono de frecuencias


Polígono acumulativo o curva de distribución: si consideramos la proporción (porcentaje) de una clase uniformemente repartida a lo largo de ella, podremos definir a la proporción acumulada a un punto del intervalo como:

Esta función es monótona creciente y su representación grafica la llamaremos polígono acumulativo

EJERCICIOS

1. Analizando el nivel de sodio en sangre en 300 pacientes obtenemos los siguientes resultados: Xmin= 135 mEq/l; Xmax=145 mEq/l

Si queremos agrupar los posibles valores en 6 intervalos de la misma longitud, determinar los límites exactos de los intervalos. Determinar los límites aparentes

2. Calcular todas las columnas de la siguiente tabla de frecuencias:

3. Analizando el nivel de potasio en sangre en 300 pacientes obtenemos los siguientes resultados:

Xmin= 25,35 mEq/lXmax= 50,40 mEq/l

Si queremos agrupar los posibles valores en 5 intervalos de la misma longitud, determinar los límites exactos de los intervalos. Determinar los límites aparentes

4. En una encuesta de presupuesto familiar, se ha obtenido información respecto al n° de hijos. Los datos son los siguientes:

3, 1, 2, 0, 3, 2, 1, 1, 3, 3, 2, 4, 2, 2, 0, 2, 1, 3, 4, 2, 3

Calcula la tabla de frecuencias absolutas, relativas y porcentajes

EJERCICIOS

Media aritmética

Medidas de tendencia central

Son las que intentan caracterizar el “centro de la distribución”

n

xx i

i∑=

- En datos agrupados (tabla de frecuencia) de una variable discreta

∑∑

==i

iii

ii

hxn

fxx

- En datos agrupados de una variable continua (intervalos) :

clase de marca la m siendo hmn

fmx i

iii

iii

∑∑

==

[ ]x


Ejemplo:

0 1 2 3

xi fi hi Fi Hi0 175 0,35 175 0,351 225 0,45 400 0,82 75 0,15 475 0,953 25 0,05 500 1

totales 500 1

9.0500

25*375*2225x =

++=


Propiedades de la media aritmética

La media diaria ecbs en Valencia en el 99 fue de 3. Se espera que en el 2003, el nº de ingresos por esta causa ha aumentado un 20%. Entonces, la media en este año será: 3+0.2*3=3.63+0.2*3=3.6

- La media es un operador linealoperador lineal: x·bayx·bay +=→+=

- dadas las medias de dos submuestras, la media global se calcula:

21

2211

NNN*xN*xx

++

=

la edad media en una muestra de 99 niños es 10 años, si añadimos a la muestra un niño de 11 años, la media pasará a ser:10.0110.01

- La media está expresada en las mismas unidades que la variable y siempre está comprendida entre el mínimo y el máximo valor encontrados


-La media aritmética no es una buena medida para caracterizar distribucionesmuy asimétricas:

Supongamos una muestra con veinte 1 y un 820: la media aritmética es 40, valor que no representa muy bien a ninguno de los valores de la muestra...

1 820

****** ******** **** ****

-La suma de desviaciones con respecto a la media es 0:∑ =−i

i 0)xx(

Propiedades de la media aritmética

1. Supongamos que la media de ingresos urgentes diarios en un hospital es 10, ¿Cuál es la media de ingresos semanales?

2. Supongamos que la media de ingresos diarios por causas circulatorias en Valencia es 9 y por causas respiratorias es 3. Entonces, ¿Cuál es la media de ingresos por causas cardio-respiratorias?

3. Supongamos una muestra de 20 datos en los que la media muestral resultó18, se obtienen 10 nuevos datos que tienen una media de 16, ¿Cuál es la media aritmética del conjunto?

EJERCICIOS

70x∙7y ==

1239z =+=

33,1730

10∙1620∙18x =

+=

1. Supongamos que la media de ingresos urgentes diarios en un hospital es 10, ¿Cuál es la media de ingresos semanales?X=Nº de ingresos urgentes, Y=nº de ingresos semanales, Y=7·X ->

2. Supongamos que la media de ingresos diarios por causas circulatorias en Valencia es 9 y por causas respiratorias es 3. Entonces la media de ingresos por causas cardio-respiratorias sería 12:X=Nº de ingresos circulatorios, Y=nº de ingresos respiratorios, Z=nº de ingresos cardio-respiratorios Z=X+Y ->

3. Supongamos una muestra de 20 datos en los que la media muestral resultó18, se obtienen 10 nuevos datos que tienen una media de 16, la media aritmética del conjunto es:

EJERCICIOS


Mediana [Me]: es el valor de la variable que divide a la muestra en dos grupos con igual frecuencia. De no ser posible alcanzar exactamente la mitad de la frecuencia, se prefiere dejar atrás a más de la mitad. - En datos no agrupados se ordenan los valores registrados de menor a mayor y se cuenta. Si el número de datos es impar, la mediana es el valor central si el número de datos es par, se da como mediana la media entre el dato que ocupa la posición n/2 y el siguiente.Ejemplos:

0, 0, 0, 0, 0, 1, 1, 1, 1, 2, 2, 2, 3, 3 Me =1

0, 0, 0, 0, 0, 1, 1, 1, 1, 2, 2, 2, 3, 3, 3 Me =1

0, 0, 0, 0, 0, 1, 1, 2, 2, 2, 2, 2, 3, 3 Me =1,5

- En datos agrupados de variable discreta se procede igual utilizando la frecuencia relativa acumulada.

Ejemplos:


xi Hi0 0,351 0,82 0,953 1

totales

Me =1

xi Hi0 0,351 0,52 0,953 1

totales

Me =1,5

- En datos agrupados de variable continua (intervalos) se procede igual utilizando la frecuencia relativa acumulada.

Ejemplo:


xi Hi[0, 1) 0,35[1, 2) 0,8[2, 3) 0,95[3, 4) 1

totales

La mediana está entre 1 y 2, ya que en 1 tenemos solo el 35% de la frecuencia, menos del 50% y en 2 nos hemos pasado (80%)

1 2MeMe

0,15

145,0

33.1Me =

1

=

0,8

0,35

0,5 )1Me(

15,0−

Medidas de tendencia centralPropiedad:Propiedad:

0 10

* ** **** ****

52.5 7.5

*****

Tanto la media como la mediana toman el valor 5.

Notas:Notas:

- Igual que la mediana se calculan los puntos de la variable que dejan atrás otrasfrecuencias. Estos puntos se llaman percentilespercentiles. (p.e. el P30 es el

valor de la variable que deja atrás el 30% de los datos)

-Algunos percentiles con “nombre propio” son los cuartilescuartiles: : puntos que dividen a la muestra en 4 grupos con igual frecuencia (P25, P50, P75) o los decilesdeciles: puntos que dividen a la muestra en 10 grupos con igual frecuencia (P10, P20,…)

- Si la distribución es simsiméétricatrica, la media y la mediana coinciden


Moda [Mo]: es el valor de la variable más frecuente- En datos agrupados de una variable continua, se da la marca de clase del “intervalo modal” (intervalo más frecuente)Ejemplos:

xi fi[0, 100) 175

[100, 200) 225[200, 300) 75[300, 400) 25

totales 500

xi fi0 351 502 293 10

totales

Mo =1Mo =150

Propiedad:Propiedad:- Si la distribución es simsiméétricatrica y unimodal: media, mediana y moda coinciden

0 10

* ** ***

*** **

52.5 7.5

*

Medidas de Dispersión

Varianza [S2]: mide el alejamiento de los datos con respecto a la media

- En datos sin agrupar:

- En datos agrupados de una variable discreta:

- En datos agrupados de una variable continua (intervalos):

( )2i

2i

i

2i

2 xn

x

n

xxS −=

−=

∑∑

( )2i

i2i

ii

2i

2 xn

fx

n

fxxS −

⋅=

⋅−=

∑∑

( )clase de marca la m siendo ,x

n

fm

n

fxmS i

2ii

2i

ii

2i

2 −⋅

=⋅−

=∑∑

Medidas de Dispersión- Ejemplos:

69.09.0500750

S 22 =−=

xi fi xi*fi xi2 xi2*fi0 175 0 0 01 225 225 1 2252 75 150 4 3003 25 75 9 225

450 750

9.0500450

x ==

xi mi fi xi*fi xi2 xi2*fi[0,10) 5 175 875 25 4375[10,20) 15 225 3375 225 50625[20,30) 25 75 1875 625 46875[30,40) 35 25 875 1225 30625

7000 132500

145007000

x == 6914500

132500S 22 =−=

Medidas de DispersiónPropiedades:Propiedades:

-La varianza de la suma de dos variables solo es la suma de las varianzas, cuando las dos variables son incorreladas.

- La varianza es un operador cuadrático:2x

22y S·bSx·bay =→+=

0 2 31 10 12 1311

69.0S ; 9.0x 2x == 69.0S ; 9.10y 2

y ==

0 2 31 0 20 3010

69.0S ; 9.0x 2x == 69S ; 9y 2

y ==

- la varianza se mide en las unidades de la variable al cuadrado.

10xy +=

x∙10y =


Desviación típica [S]: mide el alejamiento de los datos con respecto a la media pero en las unidades de la variable

2SS =

La desviacidesviacióón tn tíípicapica de la variable nº de hijos cada 10 madres es 8.3 y la media es 9. Al estar S en las mismas unidades que la variable puede interpretarse: el número de hijos cada 10 madres suele estar entre 9-8.3 y 9+8.3, o sea, entre 0.7 y 17.3


Rango o recorrido [R]: )xmin()xmax(R −=

Rango intercuartílico [IQ]: 2575 PPIQ −=

El rango intercuartílico sería el rango de la muestra trabajando con el 50% de los valores centrales de la muestra

Coeficiente de variación [CV]: xS

CV =

El CV sirve para comparar variables en cuanto a su dispersión

El CVCV de la variable paridad (datos anteriores) es 0.83/0.9=0.92.

Supongamos que en Perú (País con índice de natalidad muy superior a España) se recoge la misma variable paridad, también en 500 madres. Resultando una media de 5 hijos y una desviación típica de 1.5 resultando un CV de 0.3 ¿En cual de los dos países es más variable la paridad? En EspaEn Españñaa


Otro ejemplo

Supongamos que deseamos saber si el peso dentro de una muestra dSupongamos que deseamos saber si el peso dentro de una muestra de e obesos, es mobesos, es máás variable que el peso dentro de una muestra de anors variable que el peso dentro de una muestra de anorééxicos. En xicos. En la primera muestra la desviacila primera muestra la desviacióón tn tíípica es de 6 kilos y en la segunda es de 3, pica es de 6 kilos y en la segunda es de 3, el peso medio en la primera muestra es de 100 el peso medio en la primera muestra es de 100 kgkg, mientras que en la , mientras que en la segunda es de 40 kg. segunda es de 40 kg.

AsAsíí pues, el peso en la muestra de anorpues, el peso en la muestra de anorééxicos es mxicos es máás variable en ts variable en téérminos rminos relativos. (relativos. (CV(anorCV(anorééxicosxicos)=0.075; )=0.075; CV(obesosCV(obesos)=0.06))=0.06)

Ejercicios

11. Los pesos en kilos de un grupo de personas son:{23,94,100,25,27,65,62,75,58,98,74,50,36,42,45,38,27,99,88,92,45,3

8,25,65,60,47}.

Forma la tabla de frecuencias absolutas y relativas agrupándolo por pesos de 20 kg en 20 kg (límites exactos). Dibuja el histograma, el polígono de frecuencias y el polígono acumulado. Calcula la media, la mediana, el percentil 25, el 75 y la moda. Dar el rango intercuartílico y la desviación típica

12. En un pueblo viven 5500 personas. El 32% tiene menos de 18 años, el 23% entre 18 y 35, el 34% entre 36 y 53, y el resto más de 53. Forma la tabla de frecuencias absolutas, relativas y acumuladas. Dibuja el histograma, Calcula la media ,la moda y la mediana. Dar la desviación típica

Ejercicios

14. ¿Cómo se llama el gráfico siguiente?

- Hacer los intervalos y las correspondientes proporciones acumuladas. - A partir de las proporciones acumuladas, dibujar el gráfico de polígonos acumulados.-Obtener la media, el primer cuartil, la mediana y la moda-Obtener la dt

ESTADISTICA DESCRPTIVA · 2015. 2. 20. · Estadística descriptiva. La estadística descriptiva...

Documents

Transcript of ESTADISTICA DESCRPTIVA · 2015. 2. 20. · Estadística descriptiva. La estadística descriptiva...