ESTADISTICA DESCRPTIVA · 2015. 2. 20. · Estadística descriptiva. La estadística descriptiva...
Transcript of ESTADISTICA DESCRPTIVA · 2015. 2. 20. · Estadística descriptiva. La estadística descriptiva...
ESTADISTICA
DESCRPTIVA
Estadística descriptivaBioestadística y Ciencias de la Salud.Recogida y organización de los datos. Escalas de medida.Variables (caracteres) y modalidades. Frecuencia, proporción y porcentaje.Presentación de los datos: Tablas de distribución de frecuencias y representaciones gráficas.Medidas de tendencia central y de posición: media, mediana, moda, percentiles.Medidas de variabilidad: recorrido, recorridointerquartílico, varianza, desviación típica, coeficiente de variación.
Bioestadística y Ciencias de la Salud.
Necesidad de la estadística: Las ciencias de la salud son esencialmente experimentales.
Necesidad de razonamientos inductivos a partir de los datos: Se hacen afirmaciones acerca de un colectivo de individuos u objetos, habiendo observado en realidad sólo una parte de ellos (inferencia)
Introducción
¿Qué es la estadística?
¿Para qué nos sirve?
Estadística descriptiva.La estadística descriptiva comprende las técnicas que se emplean para resumir y describir datos numéricos.El estudio de los datos se realiza con representaciones gráficas, tablas, medidas de posición y dispersión.
Estadística inferencial.El problema crucial de la estadística inferencial es llegar a proposiciones acerca de la población a partir de la observación efectuada en muestras. Es decir, por ejemplo, si podemos dar la media de edad de la población a partir de una muestra y como es de válido ese valor.
Introducción
Ejemplos
Gráfico: Número de defunciones por cáncer cervical y mama ha aumentado de 1979 a 2006 en Méjico.
Ejemplo 1: Ingresos en la Unidad de Obstetricia del Hospital Universitario Dr. Peset durante el año 2010 y que finalizaron en parto.
Ejemplo 2:
Ejemplos
Gráfico: Distribución de los nuevos casos de cáncer en Europa por género.
Ejemplo 3:
Ejemplos: Algunas estadísticas del grupo D de enfermería
Ejemplo: Datos de nacimiento de 817 partos
edad: edad expresada en años Edad gestacional: edad expresada en semanas de gestación Gest: número de gestacionesAbortos: número de abortosCesáreas. Número de cesáreasPeso: peso (kilogramos)Sexo: indica el sexo del entrevistado, v = varón, m = mujer
1. Muestra y variables
Ejemplo: Datos de nacimiento de 817 partos
Reproducción parcial de las 817 observaciones
¿?¿? Interpretar los datos parece difícil
Resumir información
1. Muestra y variables
Distribución frecuencias
Gráficos
Medidas posición y dispersión
EDAD EDAD_GEST GEST PARTOS ABORTOS CESAREAS PESO SEXO34 40 2 1 0 0 3780 M24 38 1 0 0 0 3420 H29 41 2 1 0 0 3430 M28 40 1 0 0 0 3850 M25 39 2 0 1 0 2790 H27 40 1 0 0 0 2990 M31 36 2 1 0 0 2700 H31 32 2 1 0 028 39 3 0 1 1 2610 M22 37 1 0 0 0 2590 M29 39 4 2 1 0 3100 H24 39 2 0 1 0 2590 M27 40 2 0 1 0 3320 M32 38 1 0 0 0 2930 M22 41 1 0 0 0 3150 H29 41 1 0 0 0 2780 M43 37 3 1 0 1 2670 M24 38 2 1 0 0 3400 H26 34 1 0 0 0 2640 H36 40 4 3 0 0 3010 H
Población conjunto de elementos que presentan unos rasgos comunes y en los que se desea estudiar una o varias características/variables.
Individuo/unidad: cada uno de los elementos que pertenecen a la población.
Tamaño de la población (N): número de individuos de la población. Las poblaciones según su tamaño se clasifican en finitas (formada por un numero limitado de unidades) o infinitas (si el numero de elementos es ilimitado o no puede establecerse).
Recogida y organización de los datos. Escalas de medida.
Muestra: subconjunto representativo de la población (ejemplo: datos recogidos en la tabla).
Tamaño de la muestra (n): número de individuos de la muestra (vendrá determinado por el tipo de estudio que realizamos, las características de la población estudiada, el grado de error que estemos dispuestos a asumir, etc.). En general trabajaremos con ‘N’ para referir el número de casos estudiados
Muestreo: Es el procedimiento que permite obtener una muestra que sea representativa de la población. Se llama muestreo aleatorio, a aquél en que los individuos son seleccionados al azar .
Recogida y organización de los datos. Escalas de medida.
Tipos de muestreo
a) Muestreo aleatorio simple: todos los individuos de la población (N) tienen igual
probabilidad de ser elegidos. Es el más habitual aunque no siempre es posible
realizarlo. Presenta la ventaja de que puede asumirse la independencia de los valores
observados entre los sujetos y cuando el tamaño de la población es muy grande es
irrelevante si se permite o no la posibilidad de que los individuos puedan ser
reelegidos (muestreo con reemplazamiento).
b) Muestreo aleatorio sistemático: para obtener una muestra de n individuos, se
toma un número aleatorio k entre 1 y h=N/n, como integrantes de la muestra se
tomarían a los individuos: k, k+h, k+2h, k+3h, …, k+(n‐1)h. La muestra podría no ser
representativa si los datos dentro de los grupos están ordenados según alguna
característica que tenga que ver con el parámetro de interés
Tipos de muestreo
c) Muestreo aleatorio estratificado: Es el método ideal cuando la población se
divide en varios grupos o estratos cuya representación en la muestra se desea
asegurar. Consiste en tomar una submuestra en cada grupo manteniendo en la
muestra la proporcionalidad que se da en la población.
Es decir, si N: tamaño de la población y Ni el tamaño del estrato i, y se desea
obtener una muestra de tamaño n, en cada estrato se seleccionarán niindividuos, siendo n
NN
n ii ⋅=
Este tipo de muestreo posibilita la inferencia en cada grupo, y es tanto más
efectivo cuanto más homogéneos son los estratos internamente, respecto a la
característica sobre la que se desea inferir. Es algo más costoso que el muestreo
aleatorio simple pero puede ser más preciso, ya que elimina como posible fuente
de sesgos la característica que define los grupos
Tipos de muestreo
d) Muestreo aleatorio por conglomerados: Se eligen al azar grupos de sujetos y se
estudian todos los individuos de cada grupo seleccionado. Los conglomerados
deben ser lo más homogéneos entre sí y lo más heterogéneos posibles dentro de
ellos. Se puede reducir bastante el coste del estudio y si los conglomerados no
tienen la misma cantidad de individuos pueden establecerse pesos
Variable: Cualquier aspecto de la población que nos interesa estudiar. Cada una de las posibles manifestaciones de la variable se denomina modalidad y estas tienen que constituir un listado exhaustivo (todo elemento de la población presenta una de las modalidades del listado) y exclusivo (cada individuo presenta una única modalidad).
Variables cualitativas: son variables que describen categorías, razón por la cual se las denomina también categóricas.
Ordinales: Cuando las categorías admiten algún tipo de ordenación (por ejemplo, nivel de educación)
No ordinales en caso contrario (por ejemplo: sexo, estado civil)
Variables cuantitativas: son variables que expresan valores numéricos.
Discretas: es la que toma valores enteros (por ejemplo: consumo medio diario de alcohol)
Continuas: puede tomar cualquier valor, entero o decimal (por ejemplo: peso y altura)
Tipos de Variables
Ejercicio:Clasificar las siguientes variables en: cuantitativa (continua/discreta) o cualitativa (nominal/ordinal):
‐ n° de alumnos por carrera‐ sexo‐ color de ojos de los alumnos‐ peso‐ N° de hijos de una familia,‐ nivel socioeconómico‐ edad‐ Lugar de residencia‐ clasificación de la edad en: niño, joven, adulto y adulto mayor‐ nº delitos cometidos por año (1990‐2010)
Recogida y organización de los datos. Escalas de medida.
Sensibilidad (s): unidad mas pequeña que el instrumento de medida es capaz de apreciar.
Ejemplo: En el caso del peso al nacer [gramos] s = 1 gramo
En el caso de que tengamos una medida con cifras decimales, la sensibilidad será el número de cifras decimales.
Valor observado (X0): Resultado de la mediciónEjemplo: 2935 gramos
Valor exacto (Xe): es un valor que se encuentra dentro del intervalo X0 ± s/2 (límites exactos del intervalo)
Ejemplo: Xe=[2935–½ ; 2935+½]=[2934,5 ; 2935,5]
Recogida y organización de los datos. Escalas de medida.
Amplitud de la distribución (A): diferencia entre el límite exacto superior del valor máximo observado y el límite exacto inferior del valor mínimo observado
A=(Xmax+ s/2 )‐(Xmin– s/2)= Xmax‐Xmin+s
Ejemplo: Peso al nacer [gramos] s=1; Xmin=1425 ; Xmax=4540
A=4540‐1425+1=3116
Clases o intervalos: posibles agrupaciones de la variable
Número de intervalos (k): depende del numero de datos observado. No hay un criterio fijo para determinarlo. Algunos de los criterios que podemos encontrar en la literatura son :
k=1+3,322*log(N)
k= N
siendo N el número de observaciones.
Recogida y organización de los datos. Escalas de medida.
Longitud del intervalo (l): se obtiene dividiendo la amplitud de la distribución por el numero de intervalos (k) y aproximando el resultado, por exceso, a un múltiplo de la sensibilidad
l =A/k
Ejemplo: Si k=11 l=3116/11=283,27 ≈284
Si k=10 l=3116/10=311,6 ≈312
Construcción de las clases o intervalos:Se fija el limite exacto inferior del primer intervalo (Xmin– s/2 )
Se obtienen las clases sumando la longitud
M01 1424,5 ;1424,5+284 1424,5; 1708,5
M02 1708,5;1708,5+284 1708,5; 1992,5
……….
M11 4264,5; 4264,5+284 4264,5; 4548,5
Recogida y organización de los datos. Escalas de medida.
Límites aparentes: aquellos que tienen por extremos valores observables (que si que pueden estar en la base de datos)
Limites exactos Limites aparentes
1424,5; 1708,5 1425; 1708
1708,5;1992,5 1709; 1992
……….
4264,5; 4548,5 4265; 4548
Marca de clase (Mi) es el punto medio del intervalo (limites exactos o limites aparentes): Mi=(Lím Sup+Lím Inf)/2
Limites Exactos Limites aparentes Marca de clase
1424,5;1708,5 1425;1708 1566,5
1708,5;1992,5 1709;1992 1850,5
……….
4264,5;4548,5 4265;4548 4406,5
Recogida y organización de los datos. Escalas de medida.
IMPORTANT: Categorización de una variable cuantitativa.Podemos transformar una variable cuantitativa en cualitativa codificando los posibles valores de la variable y generando unasnuevas modalidades categóricas. Esta transformación implicara siempre una perdida de información.
Ejemplo: Peso del niño [gramos] en 3 categorías Bajo peso (peso < 2500 gr), Peso normal (peso ≥ 2500 gr e peso ≤ 4000 gr), Peso elevado (peso ≥ 4000 gr)
Si tenemos los datos de una variable continua y no conocemos la sensibilidad s=10-d, donde d=número cifras decimales que se observan e los datos
Ejemplo: 10,25; 11,36; 15,57; … s=10-2=0,01
Frecuencia (frecuencia absoluta ordinaria o número de casos (fi o ni) de una modalidad (categoría) Mi: número de individuos de la población (muestra) que presentan dicha modalidad.
Proporción (frecuencia relativa ordinaria) (hi o pi) de una modalidad Mi: proporción de individuos de la población (muestra) que presentan dicha modalidad. hi=fi/N
Porcentaje (%i) de una modalidad Mi: porcentaje de individuos de la población (muestra) que presentan dicha modalidad.
%i=100*hi
Frecuencia, proporción y porcentaje
Ejemplo:
Lugar de ingreso: 3 categorías: maternidad (M), paritorio (P) y dilatación (D)
Tenemos N=796. 476 están en maternidad, 16 en paritorio y 306 en dilatación. Estas son las frecuencias absolutas de cada una de las modalidades (categorías de la variable).
Para el cálculo de las frecuencia relativas o proporciones tenemos que dividir la frecuencia absoluta por el N total.
M = 476/796 = 0.598; P = 16/796= 0.020; D = 306/796= 0.384
Porcentajes:
M = 100*(476/796) = 59,8%; P = 100*(16/796)= 2%; D = 100* (306/796) = 38,4%
Frecuencia, proporción y porcentaje
Sólo para variables cuantitativas:
Frecuencia acumulada/frecuencia absoluta acumulada/casos acumulados (Fi /Ni) de una modalidad Mi: número de individuos de la población (muestra) que presentan una modalidad igual o inferior a Mi.
Proporción acumulada/frecuencia relativa acumulada (Hi o Pi) de una modalidad Mi: proporción de individuos de la población (muestra) que presentan una modalidad igual o inferior a Mi
Frecuencia, proporción y porcentaje
Sólo para variables cuantitativas:
Porcentaje acumulado (%i) de una modalidad Mi: número de individuos de la población (muestra) que presentan una modalidad igual o inferior a Mi
Frecuencia, proporción y porcentaje
Sólo para variables cuantitativas:
Determinación de la frecuencia acumulada conocida la frecuencia
Determinación de la frecuencia, conocida la frec. acumulada
Frecuencia, proporción y porcentaje
Sólo para variables cuantitativas:
La frecuencia/proporción/porcentaje acumulado en un intervalo es el número/proporción/% de observaciones con valor menor o igual al límite exacto superior del intervalo.
Determinación de la frecuencia, conocida la frec. acumulada
Frecuencia, proporción y porcentaje
Ejercicios:
1. Analizando el nivel de potasio en sangre en 300 pacientes obtenemos los siguientes resultados:
Xmin= 3,7 mEq/lXmax=5,2 mEq/l
Si queremos agrupar los posibles valores en 6 intervalos de la misma longitud
Determinar los límites exactos de los intervalos
2. Analizando el nivel de sodio en sangre en 300 pacientes obtenemos los siguientes resultados:
Xmin= 135 mEq/lXmax=145 mEq/l
Hacer lo mismo que en el ejercicio 1.
2. Distribuciones de frecuencias
3. En una muestra de 430 personas se le ha determinado la cantidad de hierro en sangre.
Xmin= 50 mcg/lXmax=150 mcg/l
Hacer los mismo que en los anteriores ejercicios pero agrupalos en 9 clases.
4. En una encuesta de presupuesto familiar, se ha obtenido información respecto al n° de hijos.
Los datos son los siguientes:
3, 1, 2, 0, 3, 2, 1, 1, 3, 3, 2, 4, 2, 2, 0, 2, 1, 3, 4, 2, 3
Calcula la tabla de frecuencias absolutas, relativas y porcentajes
Frecuencia, proporción y porcentaje
5. Durante el mes de julio, en una ciudad se han registrado las siguientes temperaturas máximas:
32, 31, 28, 29, 33, 32, 31, 30, 31, 31, 27, 28, 29, 30, 32, 31, 31, 30, 30, 29, 29, 30, 30, 31, 30, 31, 34, 33, 33, 29, 29.
Construir la tabla de frecuencias (absolutas, relativas, acumuladas y porcentajes)
Frecuencia, proporción y porcentaje
Presentación de los datos
Tabla de distribución de frecuencias (TDF)En toda TDF deberemos considerar:1. El título (claro, conciso e informativo)2. La tabla: celdas dispuestas en filas y columnas (1a fila indicará a que se refieren los datos y 1ª columna mostrará el listado de modalidades.)
Notas:● Las modalidades estarán en orden creciente.● Los intervalos se presentarán con límites exactos.● Si la variable es cualitativa los valores acumulados no se pueden calcular.● Para representar: Las proporciones con un máximo de 4 decimales y los porcentajes con 2.
Presentación de los datos
Ejemplos:
Presentación de los datos
Ejemplos:
Presentación de los datos
Ejemplos:
Presentación de los datos
Series temporales
Variable estudiada: Tiempo (casos observados en una semana, mes, año, …).Se pretende mostrar como varia un fenómeno en relación al tiempo. La presentación de los datos es similar a una tabla de distribución de frecuencias, pero carece de sentido (generalmente) el calculo de proporciones y porcentajes. Si la característica estudiada se refiere a lo ocurrido en una población cuyo número de individuos ha variado a lo largo del tiempo, es conveniente incluir en la tabla una columna que muestre el numero de veces que ocurrió el fenómeno por cada 10k
individuos (índice).
Presentación de los datos
Tablas de contingencia
Si estudiamos dos variables [X con M modalidades e Y con M’ modalidades] la variable conjunta tendrá M*M’ modalidades y la presentación de los datos la haremos mediante una tabla de doble entrada [tabla de contingencia] que contendrá las modalidades y el número (proporción/%) de casos que observamos de cada una de ellas
Presentación de los datosTablas de contingencia
Cada celda contiene el numero de casos que presentan a la vez una modalidad de X y una de Y.
Así el valor 89 (f12) indica que 89 casos presentan a la vez el valor M2 (Fumó en el embarazo pero no en semana 12) de la variable fuma y el valor M‘2 (Estudios primarios) de la variable Nivel de estudios.Si sumamos las filas obtenemos el numero (proporción/%) de casos de las modalidades de la variable nivel de estudios (585 son todas las mujeres con estudios primarios). Esta frecuencia se denota por
Si sumamos las columnas obtenemos el numero (proporción/%) de casos de las modalidades de la variable Fumar en el embarazo (1657 indica las mujeres que no fumaron en el embarazo)
Tabla de contingencia Nivel estudios madre 3 cat * tabaco s12 3 categorías
Recuento
320 89 176 585656 145 204 1005681 90 63 834
1657 324 443 2424
Hasta primarios/ESOSecundariosUniversitarios
Nivel estudiosmadre 3 cat
Total
No fuma enembarazo
Fuma enembarazo,no en s12 Fuma en s12
tabaco s12 3 categorías
Total
• if 100522 ==∑•j
j ff
j f• 4433 ==∑•j
j3 ff
A las frecuencias resultantes de sumar toda una fila o columna se les llama frecuencias marginales y proporcionan la TDF de cada una de las variables estudiadas. Si sumamos todas las frecuencias obtendremos el numero total de casos y lo mismo ocurre si sumamos las frecuencias marginales de cualquiera de las dos variables estudiadas.
2424=== ∑∑∑ ••j
ji
iji
ij fff,
Las tablas de contingencia pueden presentarse también en porcentajes, dividiendo por la frecuencia total y multiplicando por 100. Según la frecuencia que se utiliza como “total” se obtienen diferentes resultados.
Tablas de contingencia
Presentación de los datos
Tablas de contingencia
Esta tabla muestra la distribución conjunta de les variables ‘Evolución del parto’ y ‘Lugar de ingreso’
A indica que 14 de los casos estudiados corresponden a mujeres que ingresaron en el paritorio y la evolución del parto fue normal.
Presentación de los datos
Tablas de contingencia‐ Si se divide por el total de individuos en la muestra (nº total de
datos), la tabla resultante expresa la distribución de probabilidad conjunta de las variables X e Y. La suma de todos sus elementos será 100.
B indica que de entre los partos que tuvieron una evolución normal, el 55,8%corresponden a mujeres ingresadas en paritorio
1002,038,459,5total6,70,32,63,8Otra
93,31,835,8B=55,8Normaltotal
Paritorio (P)
Dilatación (D)
Maternidad (M)
Evol/lugar
Presentación de los datos
Tablas de contingencia‐ Si se divide por la frecuencia marginal de la fila correspondiente, la
tabla resultante expresa la distribución de probabilidad condicionada a tipo de evolución. Las nuevas frecuencias marginales por filas serán 100
C indica que los ingresos por paritorio suponen un 3,77% de los ingresos con evolución no normal, i.e. de los ingresos con evolución no normal, el 3,77% fueron por paritorio
Presentación de los datos
Tablas de contingencia‐ Si se divide por la frecuencia marginal de la columna
correspondiente, la tabla resultante expresa la distribución de probabilidad condicionada al lugar de ingreso. Las nuevas frecuencias marginales por columnas serán 100
D indica que los ingresos con evolución no normal, suponen un 12,5% de los ingresos por paritorio, i.e. de los ingresos por paritorio, el 12,5% tienen una evolución no normal. El porcentaje de ingresos con evolución no normal es casi el doble cuando el ingreso es por paritorio que cuando es por maternidad o dilatación
Representaciones gráficas
Variables cualitativas
Gráficos de sectores: Se asocia a cada modalidad un sector circular con ángulo central proporcional a la frecuencia (proporción/porcentaje) de dicha modalidad [en el ejemplo se representan las frecuencias/casos de las modalidades de la variable ‘Trasplantes en la CV. Ano 2009’]
Representaciones gráficas
Variables cualitativas
Diagrama de barras: Sobre unos ejes coordenadas marcamos en el eje de abscisas las posibles modalidades y sobre el eje de ordenadas la frecuencia proporción/porcentaje). Sobre cada modalidad trazamos rectángulos de base constante y altura igual a la frecuencia (proporción/porcentaje) correspondiente [en el ejemplo se representan las proporciones de las modalidades de la variable ‘Lugar de ingreso’]
Representaciones gráficas
Variables cualitativas
Diagrama de barras dobles: Similar al diagrama de barras, se utiliza para representar conjuntamente dos o mas variables cualitativas. Si con el diagrama queremos comparar una misma variable en dos grupos diferentes la representación grafica se hará con proporciones (porcentajes) [en el ejemplo se representan las frecuencias/casos de las modalidades de la variable conjunta ‘Lugar de ingreso’ –‘Evolución del parto’]
Representaciones gráficas
Variables cualitativas
Diagrama de barras estratificado: Presenta las modalidades de una variable condicionadas a una segunda variable. Normalmente se expresa en porcentajes [en la primera grafica se representan los porcentajes de las modalidades de la variable ‘Evolución del parto’ condicionada a la variable ‘Lugar de ingreso’.
Representaciones gráficas
Variables cualitativas
Serie temporal o perfil ortogonal: Se representan en abscisas las posibles modalidades y en ordenadas las correspondientes frecuencias (en ocasiones utilizaremos las cifras relativas calculadas: índices, tasas, ...). Uniendo los puntos obtenemos el perfil ortogonal.
Representaciones gráficasVariables cuantitativas discretas
Diagramas de barras: sobre unos ejes coordenadas marcamos sobre el eje de abscisas las posibles modalidades y sobre el eje de ordenadas la frecuencia (proporción o porcentaje). Sobre cada modalidad trazamos rectángulos de base constante y altura igual a la frecuencia (proporción o porcentaje) correspondiente.
También se pueden representar frecuencias, proporciones y porcentajes acumulados
Representaciones gráficasVariables cuantitativas continuas
Histograma:Si los intervalos tienen la misma amplitud (l) asociamos a cada intervalo un rectángulo cuya base será l (trabajaremos con limites exactos) y cuya altura serála frecuencia (fi) del intervalo. Si las clases tienen distintas longitudes la altura del rectángulo se calcula en cada caso como fi/l.
Si se desea en lugar de la frecuencia absoluta pueden representarse las frecuencias relativas o los porcentajes
Representaciones gráficasVariables cuantitativas continuas
Polígono de frecuencias: consideramos los pares formados por la marca de cada clase y su correspondiente frecuencia (proporción o porcentaje). Al representar estos puntos y unir dos consecutivos mediante una línea recta obtenemos el polígono de frecuencias
Representaciones gráficasVariables cuantitativas continuas
Polígono acumulativo o curva de distribución: si consideramos la proporción (porcentaje) de una clase uniformemente repartida a lo largo de ella, podremos definir a la proporción acumulada a un punto del intervalo como:
Esta función es monótona creciente y su representación grafica la llamaremos polígono acumulativo
EJERCICIOS
1. Analizando el nivel de sodio en sangre en 300 pacientes obtenemos los siguientes resultados: Xmin= 135 mEq/l; Xmax=145 mEq/l
Si queremos agrupar los posibles valores en 6 intervalos de la misma longitud, determinar los límites exactos de los intervalos. Determinar los límites aparentes
2. Calcular todas las columnas de la siguiente tabla de frecuencias:
3. Analizando el nivel de potasio en sangre en 300 pacientes obtenemos los siguientes resultados:
Xmin= 25,35 mEq/lXmax= 50,40 mEq/l
Si queremos agrupar los posibles valores en 5 intervalos de la misma longitud, determinar los límites exactos de los intervalos. Determinar los límites aparentes
4. En una encuesta de presupuesto familiar, se ha obtenido información respecto al n° de hijos. Los datos son los siguientes:
3, 1, 2, 0, 3, 2, 1, 1, 3, 3, 2, 4, 2, 2, 0, 2, 1, 3, 4, 2, 3
Calcula la tabla de frecuencias absolutas, relativas y porcentajes
EJERCICIOS
Media aritmética
Medidas de tendencia central
Son las que intentan caracterizar el “centro de la distribución”
n
xx i
i∑=
- En datos agrupados (tabla de frecuencia) de una variable discreta
∑∑
==i
iii
ii
hxn
fxx
- En datos agrupados de una variable continua (intervalos) :
clase de marca la m siendo hmn
fmx i
iii
iii
∑∑
==
[ ]x
Medidas de tendencia central
Ejemplo:
0 1 2 3
xi fi hi Fi Hi0 175 0,35 175 0,351 225 0,45 400 0,82 75 0,15 475 0,953 25 0,05 500 1
totales 500 1
9.0500
25*375*2225x =
++=
Medidas de tendencia central
Propiedades de la media aritmética
La media diaria ecbs en Valencia en el 99 fue de 3. Se espera que en el 2003, el nº de ingresos por esta causa ha aumentado un 20%. Entonces, la media en este año será: 3+0.2*3=3.63+0.2*3=3.6
- La media es un operador linealoperador lineal: x·bayx·bay +=→+=
- dadas las medias de dos submuestras, la media global se calcula:
21
2211
NNN*xN*xx
++
=
la edad media en una muestra de 99 niños es 10 años, si añadimos a la muestra un niño de 11 años, la media pasará a ser:10.0110.01
- La media está expresada en las mismas unidades que la variable y siempre está comprendida entre el mínimo y el máximo valor encontrados
Medidas de tendencia central
-La media aritmética no es una buena medida para caracterizar distribucionesmuy asimétricas:
Supongamos una muestra con veinte 1 y un 820: la media aritmética es 40, valor que no representa muy bien a ninguno de los valores de la muestra...
1 820
****** ******** **** ****
-La suma de desviaciones con respecto a la media es 0:∑ =−i
i 0)xx(
Propiedades de la media aritmética
1. Supongamos que la media de ingresos urgentes diarios en un hospital es 10, ¿Cuál es la media de ingresos semanales?
2. Supongamos que la media de ingresos diarios por causas circulatorias en Valencia es 9 y por causas respiratorias es 3. Entonces, ¿Cuál es la media de ingresos por causas cardio-respiratorias?
3. Supongamos una muestra de 20 datos en los que la media muestral resultó18, se obtienen 10 nuevos datos que tienen una media de 16, ¿Cuál es la media aritmética del conjunto?
EJERCICIOS
70x∙7y ==
1239z =+=
33,1730
10∙1620∙18x =
+=
1. Supongamos que la media de ingresos urgentes diarios en un hospital es 10, ¿Cuál es la media de ingresos semanales?X=Nº de ingresos urgentes, Y=nº de ingresos semanales, Y=7·X ->
2. Supongamos que la media de ingresos diarios por causas circulatorias en Valencia es 9 y por causas respiratorias es 3. Entonces la media de ingresos por causas cardio-respiratorias sería 12:X=Nº de ingresos circulatorios, Y=nº de ingresos respiratorios, Z=nº de ingresos cardio-respiratorios Z=X+Y ->
3. Supongamos una muestra de 20 datos en los que la media muestral resultó18, se obtienen 10 nuevos datos que tienen una media de 16, la media aritmética del conjunto es:
EJERCICIOS
Medidas de tendencia central
Mediana [Me]: es el valor de la variable que divide a la muestra en dos grupos con igual frecuencia. De no ser posible alcanzar exactamente la mitad de la frecuencia, se prefiere dejar atrás a más de la mitad. - En datos no agrupados se ordenan los valores registrados de menor a mayor y se cuenta. Si el número de datos es impar, la mediana es el valor central si el número de datos es par, se da como mediana la media entre el dato que ocupa la posición n/2 y el siguiente.Ejemplos:
0, 0, 0, 0, 0, 1, 1, 1, 1, 2, 2, 2, 3, 3 Me =1
0, 0, 0, 0, 0, 1, 1, 1, 1, 2, 2, 2, 3, 3, 3 Me =1
0, 0, 0, 0, 0, 1, 1, 2, 2, 2, 2, 2, 3, 3 Me =1,5
- En datos agrupados de variable discreta se procede igual utilizando la frecuencia relativa acumulada.
Ejemplos:
Medidas de tendencia central
xi Hi0 0,351 0,82 0,953 1
totales
Me =1
xi Hi0 0,351 0,52 0,953 1
totales
Me =1,5
- En datos agrupados de variable continua (intervalos) se procede igual utilizando la frecuencia relativa acumulada.
Ejemplo:
Medidas de tendencia central
xi Hi[0, 1) 0,35[1, 2) 0,8[2, 3) 0,95[3, 4) 1
totales
La mediana está entre 1 y 2, ya que en 1 tenemos solo el 35% de la frecuencia, menos del 50% y en 2 nos hemos pasado (80%)
1 2MeMe
0,15
145,0
33.1Me =
1
=
0,8
0,35
0,5 )1Me(
15,0−
Medidas de tendencia centralPropiedad:Propiedad:
0 10
* ** **** ****
52.5 7.5
*****
Tanto la media como la mediana toman el valor 5.
Notas:Notas:
- Igual que la mediana se calculan los puntos de la variable que dejan atrás otrasfrecuencias. Estos puntos se llaman percentilespercentiles. (p.e. el P30 es el
valor de la variable que deja atrás el 30% de los datos)
-Algunos percentiles con “nombre propio” son los cuartilescuartiles: : puntos que dividen a la muestra en 4 grupos con igual frecuencia (P25, P50, P75) o los decilesdeciles: puntos que dividen a la muestra en 10 grupos con igual frecuencia (P10, P20,…)
- Si la distribución es simsiméétricatrica, la media y la mediana coinciden
Medidas de tendencia central
Moda [Mo]: es el valor de la variable más frecuente- En datos agrupados de una variable continua, se da la marca de clase del “intervalo modal” (intervalo más frecuente)Ejemplos:
xi fi[0, 100) 175
[100, 200) 225[200, 300) 75[300, 400) 25
totales 500
xi fi0 351 502 293 10
totales
Mo =1Mo =150
Propiedad:Propiedad:- Si la distribución es simsiméétricatrica y unimodal: media, mediana y moda coinciden
0 10
* ** ***
*** **
52.5 7.5
*
Medidas de Dispersión
Varianza [S2]: mide el alejamiento de los datos con respecto a la media
- En datos sin agrupar:
- En datos agrupados de una variable discreta:
- En datos agrupados de una variable continua (intervalos):
( )2i
2i
i
2i
2 xn
x
n
xxS −=
−=
∑∑
( )2i
i2i
ii
2i
2 xn
fx
n
fxxS −
⋅=
⋅−=
∑∑
( )clase de marca la m siendo ,x
n
fm
n
fxmS i
2ii
2i
ii
2i
2 −⋅
=⋅−
=∑∑
Medidas de Dispersión- Ejemplos:
69.09.0500750
S 22 =−=
xi fi xi*fi xi2 xi2*fi0 175 0 0 01 225 225 1 2252 75 150 4 3003 25 75 9 225
450 750
9.0500450
x ==
xi mi fi xi*fi xi2 xi2*fi[0,10) 5 175 875 25 4375[10,20) 15 225 3375 225 50625[20,30) 25 75 1875 625 46875[30,40) 35 25 875 1225 30625
7000 132500
145007000
x == 6914500
132500S 22 =−=
Medidas de DispersiónPropiedades:Propiedades:
-La varianza de la suma de dos variables solo es la suma de las varianzas, cuando las dos variables son incorreladas.
- La varianza es un operador cuadrático:2x
22y S·bSx·bay =→+=
0 2 31 10 12 1311
69.0S ; 9.0x 2x == 69.0S ; 9.10y 2
y ==
0 2 31 0 20 3010
69.0S ; 9.0x 2x == 69S ; 9y 2
y ==
- la varianza se mide en las unidades de la variable al cuadrado.
10xy +=
x∙10y =
Medidas de Dispersión
Desviación típica [S]: mide el alejamiento de los datos con respecto a la media pero en las unidades de la variable
2SS =
La desviacidesviacióón tn tíípicapica de la variable nº de hijos cada 10 madres es 8.3 y la media es 9. Al estar S en las mismas unidades que la variable puede interpretarse: el número de hijos cada 10 madres suele estar entre 9-8.3 y 9+8.3, o sea, entre 0.7 y 17.3
Medidas de Dispersión
Rango o recorrido [R]: )xmin()xmax(R −=
Rango intercuartílico [IQ]: 2575 PPIQ −=
El rango intercuartílico sería el rango de la muestra trabajando con el 50% de los valores centrales de la muestra
Coeficiente de variación [CV]: xS
CV =
El CV sirve para comparar variables en cuanto a su dispersión
El CVCV de la variable paridad (datos anteriores) es 0.83/0.9=0.92.
Supongamos que en Perú (País con índice de natalidad muy superior a España) se recoge la misma variable paridad, también en 500 madres. Resultando una media de 5 hijos y una desviación típica de 1.5 resultando un CV de 0.3 ¿En cual de los dos países es más variable la paridad? En EspaEn Españñaa
Medidas de Dispersión
Otro ejemplo
Supongamos que deseamos saber si el peso dentro de una muestra dSupongamos que deseamos saber si el peso dentro de una muestra de e obesos, es mobesos, es máás variable que el peso dentro de una muestra de anors variable que el peso dentro de una muestra de anorééxicos. En xicos. En la primera muestra la desviacila primera muestra la desviacióón tn tíípica es de 6 kilos y en la segunda es de 3, pica es de 6 kilos y en la segunda es de 3, el peso medio en la primera muestra es de 100 el peso medio en la primera muestra es de 100 kgkg, mientras que en la , mientras que en la segunda es de 40 kg. segunda es de 40 kg.
AsAsíí pues, el peso en la muestra de anorpues, el peso en la muestra de anorééxicos es mxicos es máás variable en ts variable en téérminos rminos relativos. (relativos. (CV(anorCV(anorééxicosxicos)=0.075; )=0.075; CV(obesosCV(obesos)=0.06))=0.06)
Ejercicios
11. Los pesos en kilos de un grupo de personas son:{23,94,100,25,27,65,62,75,58,98,74,50,36,42,45,38,27,99,88,92,45,3
8,25,65,60,47}.
Forma la tabla de frecuencias absolutas y relativas agrupándolo por pesos de 20 kg en 20 kg (límites exactos). Dibuja el histograma, el polígono de frecuencias y el polígono acumulado. Calcula la media, la mediana, el percentil 25, el 75 y la moda. Dar el rango intercuartílico y la desviación típica
12. En un pueblo viven 5500 personas. El 32% tiene menos de 18 años, el 23% entre 18 y 35, el 34% entre 36 y 53, y el resto más de 53. Forma la tabla de frecuencias absolutas, relativas y acumuladas. Dibuja el histograma, Calcula la media ,la moda y la mediana. Dar la desviación típica
Ejercicios
14. ¿Cómo se llama el gráfico siguiente?
- Hacer los intervalos y las correspondientes proporciones acumuladas. - A partir de las proporciones acumuladas, dibujar el gráfico de polígonos acumulados.-Obtener la media, el primer cuartil, la mediana y la moda-Obtener la dt