Estadística Descriptiva Univariante

13
1 DEPARTAMENTO DE ESTADÍSTICA E I.O. GRADO EN CIENCIAS AMBIENTALES 2014-2015 ESTADÍSTICA Bloque I: Estadística descriptiva Tema 1. Estadística descriptiva univariante. 1. Introducción y definiciones básicas. 2. Tablas de frecuencias y representaciones gráficas de un conjunto de datos. 3. Medidas descriptivas de un conjunto de datos de una variable. 1. Introducción y definiciones básicas. 1.1. Introducción El concepto de estadística se deriva del término “estado”, y originalmente se asoció a la tarea de recopilar datos de interés para el estado (datos económicos, demográficos, militares, ...), es decir, lo que hoy en día se conoce como “censos”. No obstante, con el crecimiento de los estados y sus poblaciones, surgió la necesidad de procesar y resumir toda la información contenida en los censos para su manejo por parte de los estadistas, lo que aumentó la utilidad de dichos censos y provocó la evolución del término estadística, siendo una de las ramas de la estadística en la actualidad el tratamiento y extracción de la información contenida en el conjunto de datos recopilados. Aunque en la actualidad, esto supone una parte de todo lo que engloba la estadística, como rama de las matemáticas, no cabe duda del gran interés que suscitan las estadísticas de la Organización Mundial de la Salud, de la Unión Europea y del Instituto Nacional de Estadística, los censos de población e índices sobre el estado económico autonómico, nacional y europeo, llamadas estadísticas oficiales. En general, al igual que todos los campos científicos, la estadística ha experimentado un gran impulso y desarrollo en el último siglo, lo que hace difícil establecer una definición concreta de esta rama de las matemáticas, por ejemplo, podríamos decir que: La estadística es el conjunto de las técnicas de recopilación de datos, los mecanismos para clasificar y resumir la información, y los métodos para extender los resultados al resto de la población En este contexto, se llama población al conjunto de todos los individuos objeto de estudio, y muestra a un subconjunto de la población (subconjunto de individuos sobre los que se realiza el experimento). A partir de este concepto, la Estadística constituye hoy en día una ciencia imprescindible para el desarrollo de la mayoría de las ciencias. De este modo, la Estadística suele dividirse en dos ramas: Estadística Descriptiva y Estadística Inferencial. 2 En el primer lugar, la Estadística Descriptiva tiene por objeto la clasificación y resumen de la información contenida en los datos (extraer la información de los datos), ya sean de censos (toda la población) o muestras (subconjunto de la población), como por ejemplo en las estadísticas oficiales comentadas anteriormente. De este modo, para el proceso de extracción de la máxima información contenida en los datos, se utiliza una serie de medidas con el objetivo de establecer el comportamiento de los mismos, usualmente denominadas medidas descriptivas o estadísticos, las cuales se clasifican en tres tipos fundamentales, dependiendo de la información que pretenden determinar o sintetizar: medidas de posición o localización, medidas de dispersión y medidas de forma. Las medidas de localización tienen por objetivo extraer la información sobre la posición y localización de los datos. Las medidas de dispersión pretenden establecer la concentración de los datos a través de la variabilidad y dispersión de los mismos con respecto a las medidas de localización. Las medidas de forma intentan determinar el comportamiento de la distribución de frecuencias de los datos. Además de estas medidas descriptivas que sintetizan la información contenida en los datos sobre una característica particular, la Estadística Descriptiva incluye una serie de representaciones de los datos, gráficas descriptivas, con el fin de facilitar la interpretación de las medidas anteriores mediante una imagen. Asimismo, cuando estamos interesados en analizar dos o más características sobre la población, disponemos de medidas descriptivas para extraer la información de los datos sobre sus relaciones y dependencia. Cabe señalar, que cuando se analizan muestras (subconjunto de la población), estas medidas descriptivas intentan exprimir los datos de una muestra para obtener la información que contienen, como es el caso de las estadísticas oficiales mencionadas en el apartado anterior, y los resultados que proporcionan corresponden a la propia muestra, aunque el mal uso de estas estadísticas está ampliamente extendido en la sociedad al aceptarlas como resultados válidos sobre toda la población obviando la componente inferencial de este proceso. La Estadística Inferencial corresponde a la extrapolación de la información contenida en un subconjunto de la población (inferir a toda la población). Por ejemplo, un equipo médico está investigando un tratamiento para analizar su eficiencia, pero sólo dispone de un número limitado de pacientes para aplicar el tratamiento de forma experimental y estudiar los procesos de recuperación, con el objetivo final de establecer, de manera fiable, la eficiencia del tratamiento para todos los pacientes. La Estadística Inferencial es el proceso de establecer la eficiencia del tratamiento para todos los pacientes a partir del ensayo experimental sobre un subconjunto de ellos. De este modo, la Inferencia Estadística es el conjunto de los métodos que permiten trasladar los resultados de una muestra a la población de manera fiable (midiendo la incertidumbre o acierto de los resultados, decisiones y sus conclusiones). Para ello, se utilizan una serie de técnicas basadas en medidas de extracción de la información contenida en la muestra, que se clasifican en dos tipos, estimación y contraste de hipótesis, según los objetivos que se persiguen en el proceso de inferencia. En este enfoque, a las medidas de extracción en general se les llama estadísticos, y en particular, dependiendo de la técnica inferencial, estimadores y estadísticos del contraste, respectivamente. Los estimadores son funciones de la muestra que pretenden proporcionar estimaciones (aproximaciones) de alguna característica particular de la población de interés en el problema o experimento; dichos estimadores pueden ser tanto paramétricos como no paramétricos, según el nivel de generalización de la característica a estimar, como por ejemplo estimar el modelo de probabilidad de una variable (no paramétrico) o estimar el parámetro (media, varianza, ...) que determina unívocamente dicho modelo.

description

Estadística Descriptiva Univariante

Transcript of Estadística Descriptiva Univariante

  • 1

    DEPARTAMENTO DE ESTADSTICA E I.O. GRADO EN CIENCIAS AMBIENTALES

    2014-2015

    ESTADSTICA

    Bloque I: Estadstica descriptiva

    Tema 1. Estadstica descriptiva univariante.

    1. Introduccin y definiciones bsicas. 2. Tablas de frecuencias y representaciones grficas de un conjunto de datos. 3. Medidas descriptivas de un conjunto de datos de una variable.

    1. Introduccin y definiciones bsicas.

    1.1. Introduccin

    El concepto de estadstica se deriva del trmino estado, y originalmente se asoci a la

    tarea de recopilar datos de inters para el estado (datos econmicos, demogrficos, militares, ...), es decir, lo que hoy en da se conoce como censos.

    No obstante, con el crecimiento de los estados y sus poblaciones, surgi la necesidad de

    procesar y resumir toda la informacin contenida en los censos para su manejo por parte de los estadistas, lo que aument la utilidad de dichos censos y provoc la evolucin del trmino estadstica, siendo una de las ramas de la estadstica en la actualidad el tratamiento y extraccin de la informacin contenida en el conjunto de datos recopilados.

    Aunque en la actualidad, esto supone una parte de todo lo que engloba la estadstica,

    como rama de las matemticas, no cabe duda del gran inters que suscitan las estadsticas de la Organizacin Mundial de la Salud, de la Unin Europea y del Instituto Nacional de Estadstica, los censos de poblacin e ndices sobre el estado econmico autonmico, nacional y europeo, llamadas estadsticas oficiales.

    En general, al igual que todos los campos cientficos, la estadstica ha experimentado un

    gran impulso y desarrollo en el ltimo siglo, lo que hace difcil establecer una definicin concreta de esta rama de las matemticas, por ejemplo, podramos decir que:

    La estadstica es el conjunto de las tcnicas de recopilacin de datos, los mecanismos para clasificar y resumir la informacin, y los mtodos para extender los resultados al resto de la poblacin En este contexto, se llama poblacin al conjunto de todos los individuos objeto de estudio,

    y muestra a un subconjunto de la poblacin (subconjunto de individuos sobre los que se realiza el experimento).

    A partir de este concepto, la Estadstica constituye hoy en da una ciencia imprescindible

    para el desarrollo de la mayora de las ciencias. De este modo, la Estadstica suele dividirse en dos ramas: Estadstica Descriptiva y Estadstica Inferencial.

    2

    En el primer lugar, la Estadstica Descriptiva tiene por objeto la clasificacin y resumen de la informacin contenida en los datos (extraer la informacin de los datos), ya sean de censos (toda la poblacin) o muestras (subconjunto de la poblacin), como por ejemplo en las estadsticas oficiales comentadas anteriormente.

    De este modo, para el proceso de extraccin de la mxima informacin contenida en los

    datos, se utiliza una serie de medidas con el objetivo de establecer el comportamiento de los mismos, usualmente denominadas medidas descriptivas o estadsticos, las cuales se clasifican en tres tipos fundamentales, dependiendo de la informacin que pretenden determinar o sintetizar: medidas de posicin o localizacin, medidas de dispersin y medidas de forma.

    Las medidas de localizacin tienen por objetivo extraer la informacin sobre la posicin y localizacin de los datos.

    Las medidas de dispersin pretenden establecer la concentracin de los datos a travs de la variabilidad y dispersin de los mismos con respecto a las medidas de localizacin.

    Las medidas de forma intentan determinar el comportamiento de la distribucin de frecuencias de los datos. Adems de estas medidas descriptivas que sintetizan la informacin contenida en los datos

    sobre una caracterstica particular, la Estadstica Descriptiva incluye una serie de representaciones de los datos, grficas descriptivas, con el fin de facilitar la interpretacin de las medidas anteriores mediante una imagen. Asimismo, cuando estamos interesados en analizar dos o ms caractersticas sobre la poblacin, disponemos de medidas descriptivas para extraer la informacin de los datos sobre sus relaciones y dependencia.

    Cabe sealar, que cuando se analizan muestras (subconjunto de la poblacin), estas

    medidas descriptivas intentan exprimir los datos de una muestra para obtener la informacin que contienen, como es el caso de las estadsticas oficiales mencionadas en el apartado anterior, y los resultados que proporcionan corresponden a la propia muestra, aunque el mal uso de estas estadsticas est ampliamente extendido en la sociedad al aceptarlas como resultados vlidos sobre toda la poblacin obviando la componente inferencial de este proceso.

    La Estadstica Inferencial corresponde a la extrapolacin de la informacin contenida en

    un subconjunto de la poblacin (inferir a toda la poblacin). Por ejemplo, un equipo mdico est investigando un tratamiento para analizar su eficiencia, pero slo dispone de un nmero limitado de pacientes para aplicar el tratamiento de forma experimental y estudiar los procesos de recuperacin, con el objetivo final de establecer, de manera fiable, la eficiencia del tratamiento para todos los pacientes. La Estadstica Inferencial es el proceso de establecer la eficiencia del tratamiento para todos los pacientes a partir del ensayo experimental sobre un subconjunto de ellos.

    De este modo, la Inferencia Estadstica es el conjunto de los mtodos que permiten

    trasladar los resultados de una muestra a la poblacin de manera fiable (midiendo la incertidumbre o acierto de los resultados, decisiones y sus conclusiones).

    Para ello, se utilizan una serie de tcnicas basadas en medidas de extraccin de la

    informacin contenida en la muestra, que se clasifican en dos tipos, estimacin y contraste de hiptesis, segn los objetivos que se persiguen en el proceso de inferencia. En este enfoque, a las medidas de extraccin en general se les llama estadsticos, y en particular, dependiendo de la tcnica inferencial, estimadores y estadsticos del contraste, respectivamente.

    Los estimadores son funciones de la muestra que pretenden proporcionar estimaciones

    (aproximaciones) de alguna caracterstica particular de la poblacin de inters en el problema o experimento; dichos estimadores pueden ser tanto paramtricos como no paramtricos, segn el nivel de generalizacin de la caracterstica a estimar, como por ejemplo estimar el modelo de probabilidad de una variable (no paramtrico) o estimar el parmetro (media, varianza, ...) que determina unvocamente dicho modelo.

  • 3

    Adems, cabe distinguir entre los estimadores puntuales y los estimadores por intervalos. En primer lugar, se llama estimador puntual cuando el objetivo consiste en obtener un valor nico (estimacin); en tal caso, se suele requerir ciertas propiedades del estimador con el fin de que la estimacin que proporciona no presente grandes desviaciones de la realidad. Por otro lado, se llama estimador por intervalos cuando proporciona un intervalo de valores, lo que permite realizar la estimacin con una determinada probabilidad de acierto, es decir, que realmente el valor se encuentre en dicho intervalo.

    Por ltimo, los contrastes de hiptesis tienen como objetivo principal la toma de decisiones

    sobre una condicin de la poblacin, tanto del tipo paramtrico como no paramtrico. En este proceso se decide que la condicin es cierta o falsa a partir de la informacin extraida de la muestra mediante un estadstico (estadstico del contraste), y por consiguiente, cabe la posibilidad de haber optado por una decisin errnea, por lo que el estadstico del contraste permite inferir la informacin suministrada por la muestra a una decisin sobre la poblacin junto con una medida de fiabilidad o seguridad de dicha decisin.

    Como hemos comentado algunas estadsticas oficiales de inters para la sociedad en

    general, basadas en estadsticos descriptivos que resumen y clasifican la informacin de los censos, por concretar algunas de ellas: las estadsticas sanitarias y epidemiolgicas, los ndices o niveles de riqueza, de precio al consumo, poblacin activa, ... Adems de estas y otras aplicaciones similares, la Estadstica Descriptiva se utiliza para explorar los datos de una muestra como un primer anlisis estadstico en cualquier estudio estadstico.

    En relacin a la Estadstica Inferencial, se puede observar que en la actualidad est

    considerada como el mtodo cientfico de investigacin en casi todos los campos cientficos, como en demografa, sociologa, psicologa, educacin, historia, filologa, economa, qumica, fsica, meteorologa, ingeniera, ..., en donde cabe destacar las ciencias de la salud, puesto que en estas reas surgieron muchos de los problemas relacionados con los datos obtenidos en la experimentacin y su inferencia al resto de la poblacin, lo que impuls el desarrollo de los principales mtodos actuales de la estadstica. Adems, la amplia aplicacin de las tcnicas estadsticas en estos campos ha dado lugar a una propia disciplina llamada Bioestadstica, que recoge las diversas aplicaciones en biologa, medicina, veterinaria, farmacia, ...

    Por ejemplo, un ambientalista es responsable del rea de anlisis de los impactos ambientales en una ONG dedicada al estudio y denuncia de las causas de la degradacin de la atmsfera en zonas metropolitanas. En cada situacin en la que trabaja la organizacin, el ambientalista tiene que analizar multitud de datos procedentes de las mediciones de SO2, Amonaco, CO2, y otros factores contaminantes, en un determinado nmero de lugares de la zona estudiada, as como de los agentes que contaminan (particulares, empresas, explotaciones agrcolas, etc.) En este caso, el ambientalista necesitar conocer si los niveles de SO2 son relevantes en el incremento de las enfermedades pulmonares de las personas de una determinada ciudad.

    En resumen, un problema experimental requiere:

    Ordenar y analizar grandes cantidades de datos Buscar regularidades que permitan comprender fenmenos concretos Realizar inferencia sobre el comportamiento de la poblacin Encontrar modelos matemticos que expliquen las regularidades encontradas

    1.2. Mtodos de la estadstica descriptiva

    Ejemplo 1. Supongamos que disponemos de una lista consistente en los pesos de las 5000 vacas de una explotacin ganadera. En principio, tal lista no nos aporta ninguna informacin pertinente sobre la totalidad de los animales, sino de cada uno individualmente. Por ejemplo, de tal lista no se podra dar respuesta inmediata a preguntas sencillas:

    qu proporcin de animales pesan menos de 200 Kg?

    4

    cul es el peso a partir del que se encuentra el 10% de los animales de mayor peso? Para poder utilizar esta informacin de forma eficaz, con vistas a su posterior utilizacin, la

    estadstica descriptiva utiliza, bsicamente, tres herramientas: el agrupamiento de los datos en tablas de frecuencias, la representacin grfica de los datos mediante histogramas y otros grficos, y la reduccin de los datos mediante nmeros denominados estadsticos.

    Para agilizar la exposicin inmediata, utilizaremos el trmino muestra para designar tanto

    la lista de los pesos de las vacas del ejemplo anterior, como cualquier otra coleccin de datos (reservando la definicin precisa para el apartado 2). Una forma cmoda, entonces, de escribir una muestra, que nos sirva para cualquier tipo de datos, es

    1 2 i n(x ,x ,....,x ,.....,x ) , donde: 1x es el primer elemento de nuestra lista, 2x es el segundo, ix el situado en el lugar i-simo, y nx el situado en el ltimo lugar.

    Utilicemos, tambin de manera informal, la nocin de clase como la de un conjunto

    formado por elementos con alguna propiedad comn. Por ejemplo, en el caso 1 una clase correspondera a todos los perros de una determinada raza; en el segundo, podramos hablar de la clase de las empresas cuyas emisiones de CO2 a la atmsfera supera una cantidad determinada, o, en el caso de la explotacin ganadera, una clase puede ser la formada por todas las vacas cuyo peso est comprendido entre 250 y 350 kilogramos.

    Veamos ahora los mtodos bsicos de trabajo de la Estadstica descriptiva.

    1.2.1. Agrupamiento de los datos. Se entiende por agrupar los datos el proceso por el cul asociamos cada dato ix a una, y

    solo a una clase, de un conjunto de clases preestablecidas C1, C2, ., Ck, cada una de las cuales no tiene elementos comunes con ninguna de las restantes.

    Cuando se ha realizado el proceso con todos los elementos de la muestra, nos

    encontraremos con que f1 datos se han asociado con C1, f2 se han asociado con C2, etc. En general, el nmero fi, que indica cuantos elementos de la muestra se han asociado con la clase Ci, se denomina la frecuencia absoluta de la clase Ci.

    Podemos representar de forma sinttica el resultado del proceso mediante lo que

    denominaremos una tabla de frecuencias agrupadas:

    Tabla 1

    Clases C1 C2 Ci Ck

    Frecuencias absolutas f1 f2 fi fk n

    Si el veterinario del Caso 1 estuviese interesado en averiguar los tipos de perros que han pasado por su clnica, podra identificar las clases con las razas, C1 = {dogo}, C2 = {caniche}, C3 = {doberman}, C4 = {malts}, C5 = {pastor}, y contar el nmero de perros que hay de cada raza. Esto le permitira construir la siguiente tabla de frecuencias:

    Tabla 2

    Clases Pastor Caniche Dogo Mastn Malts Doberman Galgo Labrador

    Frecuencias absolutas f1 =15 f2 =40 f3=12 f4 =30 f5 =75 f6 =15 f7=10 f8 =5

  • 5

    Si en lugar de por las razas estuviese interesado en el comportamiento de los pesos de los animales las clases podran estar caracterizadas por intervalos cuyos lmites indicasen lmites inferior y superior de los pesos. Por ejemplo, la clase C1 sera la formada por todos los pesos comprendidos entre 0 y 5 kilogramos, la C2 la correspondiente a los pesos comprendidos entre 5 y 10, la C3 la correspondiente a los pesos comprendidos entre 10 y 15, etc. Entonces la tabla adoptara la siguiente forma:

    Tabla 3

    Clases 0 - 5 5 - 10 10 - 15 15 - 20 20 - 25 25 - 30

    Frecuencias absolutas f1 = 10 f1 = 15 f1 = 20 f1 = 14 f1 = 6 f1 = 3 68 1.2.2. Representacin de los datos.

    Para visualizar la informacin de una tabla de datos agrupados se recurre a distintos tipos de grficos (pictogramas, histogramas, polgonos, entre otros), con la nica restriccin de que representen fielmente el peso relativo de cada clase, por medio de su frecuencia absoluta, en relacin a las dems clases.

    Por ejemplo, despus de obtener la tabla de frecuencias para las distintas razas, esta se

    podra visualizar con un pictograma construido de la siguiente forma: dibujado un circulo, este se puede dividir en tantos sectores circulares como clases tengamos en nuestra tabla, dndole a cada uno de los sectores una amplitud (en grados) proporcional a la frecuencia de la clase a la que vaya a representar.

    Por este sencillo procedimiento se llega, para la tabla de frecuencias de la distribucin de

    razas, al siguiente grfico:

    Grfico 1

    PastorCanicheDogoMastnMaltsDobermanGalgoLabrador

    Category

    Pictograma de Razas

    N = 202 1.2.3. Reduccin de los datos.

    Una muestra se ha reducido cuando a partir de sus elementos se han calculado una reducida cantidad de nmeros, llamados estadsticos, que sinteticen de la manera ms fiel posible las caractersticas y tendencias de la muestra.

    Por ejemplo, la cantidad 1 2 1n nx x .... x xx

    n

    + + + += , denominada media aritmtica de la

    muestra, es un estadstico. En este proceso del conjunto de datos de la muestra a un conjunto de estadsticos se

    produce una prdida de informacin. Si suponemos que la muestra tiene n = 100 datos (el 100%

    6

    de la informacin disponible) y a partir de esos datos obtenemos 2 estadsticos, resulta obvio que estos no pueden contener ms que una parte de la informacin total. Si calculsemos 100 estadsticos es posible que retuvisemos toda la informacin, pero no habramos ganado nada en cuanto al objetivo de sintetizar las propiedades de la muestra.

    Nos encontramos, entonces, con un dilema al elegir el nmero de estadsticos que

    representarn a nuestra muestra: por una parte, deseamos que su nmero sea reducido; por otra, queremos que esos estadsticos retengan la mayor cantidad de informacin posible de la muestra de la que proceden.

    Como resultado de este conflicto, la experiencia estadstica nos ha dejado una solucin que, en buena parte de las situaciones experimentales habituales, es suficiente: el uso sistemtico de unos estadsticos tpicos nos permite cumplir el objetivo de reducir la muestra con una aceptable prdida de informacin.

    Estos estadsticos tpicos, cuyo desarrollo ser el objetivo de lo que sigue, se agrupan tradicionalmente en tres grandes grupos: (1) estadsticos de localizacin, (2) estadsticos de dispersin y, (3) estadsticos de forma.

    1.3. Definiciones bsicas de la estadstica descriptiva

    1.3.1. Poblacin.

    Entenderemos como poblacin el mayor conjunto de elementos de los cuales deseemos obtener informacin, siendo sus elementos los individuos susceptible de observacin o experimentacin.

    Por ejemplo, una poblacin puede estar formada por personas, animales u objetos

    inanimados. El conjunto de todos los animales que pasaron por el Hospital Clnico Veterinario durante el ao 2009 constituye una poblacin; las temperaturas medias anuales en Murcia en el periodo 1990 2010 constituyen otra poblacin; o la coleccin de todas las posibles placas de cultivo conteniendo una colonia de bacterias e.coli constituye otra.

    La experimentacin u observacin es un proceso de anlisis de elementos de la poblacin,

    con el objetivo de obtener informacin desconocida de los elementos de la muestra (estadstica descriptiva) y de inferir los resultados obtenidos a toda la poblacin midiendo el grado de verosimilitud de esta inferencia (inferencia estadstica).

    En general, un experimento puede ser determinstico o aleatorio. Se dice aleatorio cuando

    su propia naturaleza nos impide afirmar que su repeticin en las mismas exactas condiciones conducir a un nico resultado. Solo podemos conocer a priori, que el resultado obtenido ser un valor perteneciente a un conjunto de posibles resultados, y solo podremos conocer a posteriori, tras la realizacin el ensayo el valor concreto. Sin embargo, en un experimento determinista, iguales condiciones iniciales conducen a un mismo resultado.

    1.3.2. Variables.

    El objetivo ltimo del estudio de una poblacin es el de conocer el comportamiento de sus elementos colectivamente, es decir: averiguar lo que tienen en comn (o los diferencia) y las tendencias o pautas que siguen.

    Por ejemplo, en el caso de la Clnica, nuestros intereses podran ser tan distintos como:

    averiguar la distribucin de especies, analizar el comportamiento de los pesos o edades de los animales de una cierta especie, o investigar el tiempo dedicado a cada consulta.

  • 7

    En cualquier caso, realizaremos un proceso comn: seleccionaremos uno a uno cada elemento de la poblacin, aplicaremos algn mecanismo de medicin (como una bscula para medir el peso, o la simple observacin para determinar la especie), y obtendremos un resultado.

    En resumen, El mtodo de seleccin de individuos de una poblacin es el muestreo, y cada eleccin

    de un elemento de una poblacin se llama ensayo o prueba. El proceso consistente en aplicar algn mecanismo de medicin u observacin a un

    elemento de la poblacin recibe el nombre de variable. El resultado obtenido al aplicar una variable a un elemento recibe el nombre de dato u

    observacin.

    Para un elemento y una variable X el dato obtenido al aplicar X a se representa por medio del smbolo X() = x.

    Tipos de variables y modalidades.

    Una vez elegidas una poblacin y una variable X, los posibles resultados quedan limitados a un determinado conjunto que denominaremos conjunto de modalidades de X, y que representaremos por T. Este conjunto tambin recibe el nombre de poblacin de valores de la variable, o simplemente poblacin.

    Es importante observar que lo que denominamos modalidades son valores potenciales: los que puede tener cualquier elemento de la poblacin antes de realizar un ensayo. Una vez realizado este, la variable ha asignado al elemento elegido una cierta modalidad que se denomina dato u observacin. Los elementos de T pueden ser:

    letras o nombres, y la variable se llamar entonces cualitativa (nominal, si sus valores no presentan ninguna ordenacin, u ordinal, si sus elementos tienen una ordenacin).

    nmeros, y la variable se llamar cuantitativa (discreta, si sus valores son nmeros enteros, o continua, si sus valores son nmeros reales).

    Cuando las variables son cualitativas o cuantitativas discretas el conjunto de modalidades

    se representa por T = {t1, t2, t3,., tk}, y por T = [a, b] cuando es cuantitativa continua, siendo a y b, respectivamente, los valores mnimo y mximo que puede alcanzar la variable. Ejemplo 2. Veamos algunos ejemplos utilizando los elementos del Hospital Clnico, tomando como poblacin la formada por todos los gatos tratados en 2009. Para estudiar la distribucin por sexos la variable ser cualitativa nominal, y el conjunto T

    estar formado por solo dos elementos: T = {hembra, macho}. Si se trata de averiguar las preferencias de los gatos por determinados tipos de pienso la

    variable ser cualitativa ordinal, y el conjunto T estar formado por tantas modalidades como tipos de pienso entren en el estudio: T = {1, 2,, k}, siendo 1 una forma de abreviar pienso tipo 1, etc.

    Cuando se trate de averiguar la distribucin del nmero de cachorros vivos en cada parto la variable ser cuantitativa discreta, y el conjunto de modalidades depender de la experiencia previa que se tenga sobre las variedades en estudio: si sabe que en cada camada no nacen ms de 8 animales, el conjunto de modalidades ser T = {0, 1, 2,, 8}.

    Para el estudio de los pesos la variable ser cuantitativa continua, ya que en funcin del aparato de medida de que dispongamos el peso podr ser estimado con mayor o menor nmero de cifras decimales (5, 5.4, 5.47,...). En este caso, el conjunto de modalidades ser un intervalo de la recta real: T = [0, 30], si sabemos que el peso mximo que pueden alcanzar los gatos es de 30 kilogramos.

    En la siguiente figura se muestra un esquema del proceso completo hasta obtener un

    resultado. As, al elemento 1 la variable X le ha asignado la modalidad t2, que llamaremos observacin x1, al elemento 2 la variable X le ha asignado la modalidad tk, que llamaremos observacin x2, etc.

    1.3.3. Mu

    Llade n pruebsu obtenci

    Des

    anlisis deel total de destrucci

    El

    muestral y Not

    mientras q Ejemplo 3Podemos Cada prue

    Si representa

    El e(3, 4), (4, 4

    Ejemplo 4peso mxi

    (a) la p(b) la

    mod(c) las

    y 4, al se

    uestras. Esmamos mu

    bas. Una mn u observ

    stacar la ne los datos

    individuos n (por ejem

    conjunto dey se represe

    tar que el cque la mues

    3. Supongavisualizar la

    eba consistirealizamos

    aremos por espacio mu4)}, cuya re

    4. Un experimo es de 4

    poblacin variable X

    dalidades semuestras del primero

    egundo anim

    pacio mueuestra de tamuestra se revacin:

    necesidad pu observacde la pobla

    mplo para m

    e todas lasenta con M(n

    conjunto destra es un p

    amos que Xas modalidr en extrae dos prueb(x1, x2).

    uestral est presentaci

    imento cons4 kilogramos

    estar conX representer el conjue tamao 2x1 correspomal: M = (x

    stral. mao n al cepresenta c

    Muestra =

    prctica de ciones, con acin, ms edir su tiem

    s muestras n) (y en ocas

    e elementosunto del es

    X es una varades comoer una bolabas consec

    constituidon es

    siste en la ms. En este estituida por tar la medunto de todo2 estarn coondiente al 1, x2), y

    conjunto decomo un co

    M = 1 2(x ,x

    trabajar crespecto alan cuand

    mpo de vida

    posibles dsiones por

    s {1, 2,pacio mues

    riable cuyo o 4 bolas si, anotar su cutivas obte

    o, por los 16

    medicin deexperimentor todos los adicin del

    os los nmeonstituidas pprimer anim

    e observacioonjunto de v

    i n,...,x ,...x )

    on muestral manejo de

    do la observ).

    del mismo M omitiendo

    , n} es unstral.

    conjunto detuadas en nmero y dendremos u

    6 puntos de

    el peso de lo: animales de

    peso de ceros comprepor pares d

    mal pesado,

    ones obtenivalores orde

    as para face censos quvacin de u

    tamao n o el tamao

    n subconjun

    e modalidaduna caja y

    devolverla auna muestr

    l conjunto M

    os animales

    e la especiecada animaendidos ente nmeros , y el segun

    idas tras la enados con

    cilitar el traue estn forun individuo

    se denomio).

    nto de la po

    des es T = numeradas

    a la caja. ra de tama

    M(2) = {(1, 1

    s de una es

    e consideradal, y su ctre 1 y 4: T =comprendi

    ndo x2 corre

    8

    realizacin respecto a

    atamiento yrmados por

    o implica su

    na espacio

    oblacin ,

    {1, 2, 3, 4}.s de 1 a 4.

    ao 2, que

    ), (1, 2), ...,

    specie cuyo

    da; onjunto de= [1, 4], dos entre 1

    espondiente

    8

    n a

    y r u

    o

    ,

    .

    .

    e

    ,

    o

    e

    e

  • (d) el ese m

    1.3.4. Mu

    Se de tamaouna mismconstituci

    Trede muestre

    1. 2.

    3.

    Muestreo

    Cuadenominar

    Muelepru

    Muelela p

    Vea

    tipo de mu

    Situretiramos ala caja el m

    Es

    prueba y lay lo represmuestra alvalor arbitr

    Situdevuelta aanterior, celementospoblacin la tengan e

    espacio muemuestra en

    uestreo. Tipdenomina

    o n es el rema poblacin final de la

    es caractereo:

    Que la poQue todospara la reaQue antessolo puedun conjun

    aleatorio sando todosremos al pro

    uestreo aleaemento obteueba. Por louestreo aleaemento obsepoblacin d

    amos algunuestreo.

    uacin 1. Dal azar una muestreo es

    claro que, a siguiente.sentaremos leatoria conrariamente

    uacin 2. Ca la caja. Scuando vayas de la poblano tienen laentre ellos).

    estral M(2) ela siguiente

    pos de Muemuestreo asultado de

    n, por lo a muestra.

    sticas del p

    blacin es ls los elemealizacin des de realizaa ser una dto de moda

    simple. s los elemeoceso de matorio con enido para lo que la pobatorio sin rervado no eisponible se

    nas situacio

    Disponemosbola de la c

    s con reemp

    actuando d. Naturalmepor x1 = k.

    n reemplazagrande: tan

    Con la misSi el resultamos a reaacin iniciala misma po.

    estar forme figura.

    estreo. al proceso dla realizacique la form

    proceso de

    la misma caentos de la el ensayo. r el ensayo

    determinadaalidades.

    ntos de la muestreo: m

    reemplazamla misma es

    blacin no creemplazames devuelto e reduce co

    nes que mo

    s de una ccaja, anotaplazamiento

    de esta formente el nme

    La repeticiamiento de

    nto como lo

    sma caja, sado del enalizar la segl menos la b

    osibilidad de

    mado por tod

    de obtenciin de una ma en que

    muestreo n

    ada vez quepoblacin t

    o y obtener ua modalidad

    poblacin tmuestreo ale

    miento: cuas devuelto

    cambia tras miento: cua

    a la poblacon cada exp

    ostrarn las

    caja en la qmos su nmo.

    ma la poblaero obtenidn de este

    e tamao n.sea el nm

    supongamonsayo es lagunda pruebola k. Por e ser elegid

    dos los pun

    n de muesserie de n e se realiz

    nos permitir

    e se realizatengan la m

    un elementod o, por el c

    tienen la meatorio. Pueando tras la la poblacla realizacindo tras la

    cin antes dperimentaci

    s diferencias

    que hay N mero (k, por

    acin no cado es el prim

    procedimie Por constr

    mero de ens

    os que trasa bola de neba la poblatanto, los (

    dos que los

    tos del cua

    tras. Naturaensayos so

    zan los ens

    rn caracter

    un ensayomisma posib

    o de la pocontrario, pu

    misma posibde ser de dla realizaci

    cin antes dn de cada a realizacide la siguienn.

    s y coincide

    bolas numr ejemplo) y

    ambia de cmer elemenento n vecesruccin, n payos que re

    s extraer cnmero k, acin ha cak-1) elemende la pobla

    adrado [1, 4

    almente cadobre los elesayos dete

    rizar los dis

    o. bilidad de s

    oblacin, eueda ser un

    bilidad de sdos tipos: n de una

    de realizar l prueba.

    n de cadante prueba.

    encias entre

    meradas dey devolvemo

    composicinnto de nuests nos propopuede tomaealicemos.

    cada bola ecomo en lambiado: cntos que quacin inicial

    9

    ]x[1, 4] que

    da muestraementos deerminar la

    stintos tipos

    er elegidos

    l valor X()na de entre

    er elegidos

    a prueba ella siguiente

    a prueba el. Por lo que

    e uno y otro

    e 1 a N. Sios la bola a

    n entre unatra muestraorciona unaar cualquier

    esta no esa situacinontiene los

    uedan en la(aunque si

    9

    e

    a e a

    s

    s

    ) e

    s

    l e

    l e

    o

    i a

    a a a r

    s n s a i

    10

    En este caso, el muestreo es sin reemplazamiento, y las muestras obtenidas se llaman

    muestras aleatorias sin reemplazamiento. Por construccin, estas muestras no pueden tener un tamao n superior a N (tamao de la poblacin inicial), ya que tras N ensayos no quedar ningn elemento en la poblacin.

    Situacin 3. Supongamos ahora que disponemos de un dado cuyas caras estn

    numeradas de 1 a 6. Cada ensayo consiste en un lanzamiento del dado y la posterior anotacin del resultado obtenido. En este caso no podemos distinguir entre muestreo con o sin reemplazamiento. Por la naturaleza del experimento, tras cada ensayo la poblacin es exactamente la misma que antes.

    Situacin 4. Si la poblacin es muy numerosa, por ejemplo la constituida por los 6,500 millones de habitantes del planeta Tierra, y la prueba consiste en la eleccin al azar de una persona y la determinacin de su peso, a todos los efectos prcticos, la devolucin o no de esa persona a la poblacin original no va a afectar significativamente los resultados de las siguientes pruebas.

    De estas situaciones se pueden extraer dos caractersticas de los procesos de toma de muestras aleatorias:

    i) Si las poblaciones son finitas, el tipo de muestreo condiciona la estructura de las muestras obtenidas (muestreo con o sin reemplazamiento). En este caso, la influencia del tipo de muestreo disminuye a medida que aumenta el tamao de la poblacin.

    ii) Si las poblaciones son infinitas, el tipo de muestreo no tendr una influencia significativa en las muestras obtenidas.

    En general, en un experimento aleatorio destacan tres caractersticas bsicas: 1. Se puede repetir un gran nmero de veces bajo un conjunto de condiciones estables

    (condicin de repetibilidad indefinida). 2. En cada prueba del experimento no se puede predecir el resultado que se va a obtener

    sino la pertenencia del mismo a un conjunto determinado de posibles resultados (condicin de azar).

    3. La frecuencia relativa de cada resultado, el cociente de dividir el nmero de veces que se ha repetido por el nmero total de pruebas realizadas, tiende a estabilizarse en torno a un nmero fijo cuando el nmero de pruebas crece indefinidamente (condicin de regularidad estadstica).

    2. Tablas de frecuencias y representaciones grficas de un conjunto de datos.

    En este apartado vamos a ocuparnos de dos herramientas bsicas de la Estadstica

    descriptiva. Dada una muestra (x1, x2, ..., xi, ..., xn), resumir la informacin en una tabla de datos agrupados y, representar grficamente la informacin que nos proporciona dicha tabla.

    Veremos como realizar estas operaciones manualmente, utilizando muestras de pequeo

    tamao, con el objetivo de que se adquieran las habilidades necesarias para entender el significado de los clculos y grficos, reservando el tratamiento de muestras de tamao mediano o grande para el uso de los programas estadsticos en las prcticas (por ejemplo, Minitab). 2.1. Frecuencias de una variable.

    Bsicamente, una tabla de datos agrupados se obtiene dibujando una tabla de dos filas, y tantas columnas como modalidades o clases de modalidades de nuestra variable, escribiendo en

  • 11

    las casillas de la primera fila el nombre de las modalidades o clases y, en las correspondientes casillas de la segunda fila, el nmero de elementos de la muestra cuyo valor es igual a esa modalidad o est dentro de esa clase. Esta cantidad o conteo de valores de la muestra se denomina frecuencia.

    En particular, utilizaremos la siguiente nomenclatura segn tratemos con una variable

    cualitativa o cuantitativa discreta, o con una variable cuantitativa continua: Variable cualitativa o cuantitativa discreta: Sus modalidades T = {t1, t2, ..., ti, ..., tk}

    forman la primera fila de la tabla y para cada modalidad ti, se llama frecuencia absoluta de ti a:

    fi = f(ti) = nmero de elementos de la muestra iguales a ti que completa la segunda fila de la tabla.

    Variable cuantitativa continua: El intervalo de modalidades T=[a, b] se divide en nmero conveniente k de subintervalos disjuntos (particin), llamados intervalos de clase

    A1 = [a0, a1], A2 = (a1, a2], , Ai = (ai-1, ai], , Ak = (ak-1, ak] que forman la primera fila de la tabla, y la segunda fila se construye con las frecuencias absolutas de cada intervalo de clase, esto es, para cada intervalo Ai=(ai-1, ai], su frecuencia absoluta es el nmero de elementos de la muestra cuyo valor est comprendido entre ai-1 y ai:

    fi = f((ai-1, ai]) = nmero de elementos de la muestra cuyo valor entre ai-1 y ai.

    Observar que en el caso de variable cuantitativa continua, tambin suele utilizarse las marcas de clase (punto de medio de cada intervalo de clase) como valores representativos para la primera fila de la tabla de frecuencias.

    Propiedades.

    i) fi > 0, para i = 1, 2,, k.

    ii) =k i1

    f n .

    iii) = + = +i j i j i jf(t , t ) f(t ) f(t ) f f iv) f((ai-1, ai] (aj-1, aj]) = f((ai-1, ai])+f((aj-1, aj]) = fi +fj .

    A partir de estas frecuencias absolutas se pueden construir las denominadas frecuencias

    absolutas acumuladas para variables cuantitativas. La frecuencia absoluta acumulada hasta la modalidad ti, es la suma de las frecuencias de todas las modalidades inferiores o iguales a ti y se representa por Fi. As,

    Si la variable X es discreta la frecuencia acumulada es el nmero de datos de la muestra con valor menor o igual que ti

    Fi = f(X < ti) = =

    = + + +i r 1 2 ir 1

    f f f .... f .

    Si la variable es continua la frecuencia acumulada es el nmero de datos de la muestra con valor menor o igual que ai

    Fi = f(X < ai) = f([a0,a1])+f((a1,a2])+...+f((ai-1,ai]) = =

    = + + +i r 1 2 ir 1

    f f f .... f .

    Las frecuencias acumuladas tienen las siguientes propiedades:

    i) iF 0 , para i = 1, 2,, k. ii)

    = +i i 1 iF F f . iii) =kF n .

    Otra forma de expresar las frecuencias absolutas, acumuladas o no acumuladas, es

    relativizando sus valores con respecto al tamao de la muestra, es decir, dividiendo las frecuencias absolutas por el tamao muestral n, obtenindose las frecuencias relativas.

    12

    En este sentido, las frecuencias relativas no acumuladas y las frecuencias relativas

    acumuladas se definen como sigue: Si la variable es discreta, para cada modalidad ti

    o su frecuencia relativ es hi = h(ti) = = fi/n, o su frecuencia relativa acumulada es Hi = H(ti) = = Fi/n.

    Si la variable es continua, para cada intervalo de clase (ai-1, ai] o su frecuencia relativa es hi = h((ai-1, ai]) = fi/n, o su frecuencia relativa acumulada es Hi = H((ai-1, ai]) = Fi/n.

    Estas frecuencias relativas no acumuladas satisfacen las siguientes propiedades:

    i) 0 < ih < 1, para i = 1, 2,, k.

    ii) =k i1

    h 1.

    iii) = + = +i j i j i jh(t ,t ) h(t ) h(t ) h h iv) h((ai-1, ai] (aj-1, aj]) = h((ai-1, ai])+h((aj-1, aj]) = hi +hj

    y las frecuencias relativas acumuladas verifican:

    i) 0 < iH 1, para i = 1, 2,, k. ii)

    = +i i 1 iH H h . iii) =kH 1.

    Observar que en la prctica tambin es habitual expresar estas frecuencias relativas, que

    por definicin se encuentran en el intervalo (0,1), en trminos de porcentajes para facilitar su interpretacin.

    Veamos a continuacin la forma que adoptan las tablas de frecuencias para cada tipo de

    variable (discreta o continua) y cada tipo de frecuencias absolutas o relativas (acumuladas o no acumuladas), para lo que utilizaremos muestras ficticias. Tablas de frecuencias para una variable cualitativa o discreta

    En este caso, las siguientes tablas de frecuencias corresponden a una variable con 5 modalidades y una muestra de tamao 21.

    Tabla 4. Frecuencias absolutas no acumuladas

    Modalidades ti t2 t3 t4 t5 Frecuencias f1 = 2 f2 = 5 f3 = 8 f4 = 4 f5 = 2 n = 21

    Tabla 5. Frecuencias absolutas acumuladas

    Modalidades ti t2 t3 t4 t5 Frecuencias F1 = 2 F2 = 7 F3 = 15 F4= 19 F5 = 21

    Tabla 6. Frecuencias relativas no acumuladas

    Modalidades ti t2 t3 t4 t5 Frecuencias h1= 2/21 h2 = 5/21 h3 = 8/21 h4 = 4/21 h5 = 2/21 1

    Tabla 7. Frecuencias relativas acumuladas

    Modalidades ti t2 t3 t4 t5 Frecuencias H1 = 2/21 H2 = 7/21 H3 = 15/21 H4 = 19/21 H5 = 21/21

  • 13

    Tablas de frecuencias para una variable cuantitativa continua

    En este caso, las siguientes tablas de frecuencias corresponden a una variable continua con conjunto de modalidades T = [a, b], y una muestra de tamao 50. Para construir las tablas de frecuencias, tenemos que estalecer los intervalos de clase que forman la particin del intervalo [a,b].

    As, teniendo en cuenta que a y b son los valores mnimo y mximo que puede tomar la

    variable, se elige un nmero de intervalos de clase k para agrupar los n datos, por ejemplo puede calcularse mediante la regla de Sturges u otras similares. En este caso, si se toma k=5, los extremos de los intervalos de clase se obtienen como sigue:

    Se determina la amplitud h de cada clase: h = (b a)/k. Se calculan los lmites de clase: ai, para i = 0, 1, 2,...., k, mediante las relaciones:

    a0 = a, a1 = a + h, a2 = a1 + h,..., ak = ak-1 + h = b.

    Se calculan las marcas de clase de cada intervalo: zi, = (ai-1 + ai)/2, para i = 1, 2, ..., k.

    Tabla 8. Frecuencias absolutas no acumuladas Clases [a0, a1] (a1, a2] (a2, a3] (a3, a4] (a4, a5]

    Marcas de clase z1 z2 z3 z4 z5

    Frecuencias f1 = 3 f2 = 9 f3 = 15 f4 = 13 f5 = 10 n = 50

    Tabla 9. Frecuencias absolutas acumuladas Clases [a0, a1] (a1, a2] (a2, a3] (a3, a4] (a4, a5]

    Marcas de clase z1 z2 z3 z4 z5

    Frecuencias F1 = 3 F2 = 12 Fi = 27 Fk-1 = 40 Fk = 50

    Tabla 10. Frecuencias relativas no acumuladas Clases [a0, a1] (a1, a2] (a2, a3] (a3, a4] (a4, a5]

    Marcas de clase z1 z2 z3 z4 z5 Frecuencias h1 = 3/50 h2 = 9/50 h3 = 15/50 h4 = 13/50 hk = 10/50 1

    Tabla 11. Frecuencias relativas acumuladas

    Clases [a0, a1] (a1, a2] (a2, a3] (a3, a4] (a4, a5]

    Marcas de clase z1 z2 z3 z4 z5

    Frecuencias H1 = 3/50 H2 = 12/50 H3 = 27/50 H4 = 40/50 H5 = 50/50 2.2. Representaciones grficas.

    Como indicbamos ms arriba las representaciones grficas tienen la finalidad de visualizar la informacin procedente de la muestra cuando se ha sintetizado en una tabla de frecuencias agrupadas.

    Por ejemplo, las siguientes grficas ilustran algunos de los casos bsicos para representar

    las frecuencias de una variable segn su naturaleza (cualitativa o cuantitativa), las cuales son sencillas de realizar con cualquier programa estadstico.

    14

    Grfico de sectores (variables cualitativas)

    PastorCanicheDogoMastnMaltsDobermanGalgoLabrador

    Category

    Pictograma de Razas

    N = 202 Diagrama de barras (variables discretas)

    86420

    9

    8

    7

    6

    5

    4

    3

    2

    1

    0

    Parsitos

    Freq

    uenc

    y

    Histogram of Parsitos

    Polgono de frecuencias acumuladas o polgono acumulativo (variables discretas)

    10987654321

    500

    400

    300

    200

    100

    0

    Pinos/parcelaFr

    ec.A

    cum

    ulad

    as.

    Polgono acumulativo de Pinos/parcela

  • 15

    Histograma de frecuencias absolutas no acumuladas (variables continuas)

    16141210864

    14

    12

    10

    8

    6

    4

    2

    0

    Periodo de latencia

    Freq

    uenc

    y

    Histograma de Periodo de Latencia

    Tamao de muestra = n = 100 Histograma de frecuencias absolutas acumuladas (variables continuas)

    86420

    50

    40

    30

    20

    10

    0

    Nmero de Parsitos

    Frec

    uenc

    ia a

    cum

    ulad

    a

    Histograma acumulativo de Parsitos

    3. Medidas descriptivas de un conjunto de datos de una variable.

    Comos hemos mencionado anteriormente, las medidas descriptivas o estadsticos reducen la cantidad de datos proporcionando valores que resumen la informacin de la muestra describiendo las caractersticas principales del conjunto de datos.

    As, el trmino estadstico tiene un doble significado. Por una parte, un estadstico es una

    funcin de los valores de la muestra, o una funcin de las modalidades de la variable y de sus frecuencias correspondientes,

    E = f 1 2 i n(x ,x ,...,x ,...x ) . Por otra parte, un estadstico es el valor obtenido cuando en esta funcin de la muestra se

    sustituyen las variables por las observaciones o datos concretos de la muestra. En este caso, se suele hablar de valor del estadstico, utilizando el smbolo e para indicar el nmero obtenido al sustituir cada variable ix por su valor concreto en la muestra.

    16

    Por ejemplo, consideremos una muestra cualquiera 1 2 3(x ,x ,x ) de una variable X. La funcin = + 21 2 3y x 2.x x es un estadstico. Si se realizan las tres pruebas, obteniendo la muestra concreta 1 2 3(x ,x ,x ) = (2, 5, -2), entonces

    22 2.5 ( 2) 4y = + = es el valor del estadstico. Como vimos, los estadsticos ms comunes se clasifican estadsticos de localizacin,

    dispersin y forma. No obstante, la mayora de ellos se basan en los estadsticos llamados momentos: momentos respecto del origen y momentos centrados.

    Se llama momento respecto del origen de orden r a la funcin: Si los datos proceden de la muestra sin agrupar

    ar = n ri

    1x

    n, para r = 0, 1, 2, 3,.

    Si los datos proceden de una variable discreta y se han agrupado en una tabla de frecuencias, con modalidades ti y frecuencias fi, el momento se calcular por medio de la frmula

    ar = k ri i

    1f .t

    n, para r = 0, 1, 2, 3,.

    Si los datos proceden de una variable continua y se han agrupado en una tabla de frecuencias, con marcas de clase zi y frecuencias fi, utilizaremos la frmula

    ar = k ri i

    1f .z

    n, para r = 0, 1, 2, 3,.

    Los momentos respecto del origen de orden 1, 2, 3 y 4 sern utilizados frecuentemente en

    el clculo de distintos estadsticos: a0 = 1.

    a1 = + + + +

    =

    n i1 2 3 n1

    xx x x ... x

    n n= x se llama media aritmtica o media.

    a2 = n 2i

    1x

    n =

    + + +2 2 21 2 nx x .... xn

    = 2x es la media de los cuadrados.

    a3 = n 3i

    1x

    n =

    + + +3 3 31 2 nx x .... xn

    = 3x es la media de los cubos.

    a4 = n 4i

    1x

    n =

    + + +4 4 41 2 nx x .... xn

    = 4x es la media de las potencias de orden cuatro.

    Los momentos centrados o respecto de la media se definen y calculan como los momentos

    respecto del origen cuando los datos ix son sustituidos por sus desviaciones respecto de la media i(x x) . As, el momento central de orden r,se define por medio de la frmula:

    Para una muestra sin agrupar,

    mr = n ri

    1(x x)

    n, para r = 0, 1, 2, 3,.

  • 17

    Para una muestra agrupada, de una variable discreta o continua, las frmulas son equivalentes a las de los momentos respecto al origen (con las correspondientes sustituciones de ix por i(t x) para las primeras, y por i(z x) para las segundas.

    Observar que los momentos centrales estn relacionados con los momentos respecto del

    origen, por ejemplo para los 4 primeros momentos de cada tipo. m0 = a0 = 1. m1 = a1 - a1 = x x = 0. m2 = a2 (a1)2 = 2x - ( x )2, se llama varianza de la muestra ( desviacin tpica). m3 = a3 3. a2. a1 + (a1)3 =

    3x - 3. 2x + 2.( x )3.

    m4 = a4 4. a3.a1 + 6. a2.(a1)2 3.(a1)4 = 4x - 4. 3x . x + 6. 2x .( x )2 3.( x )4.

    3.1. Estadsticos de localizacin

    Los estadsticos de posicin o localizacin son valores obtenidos a partir de la muestra que nos indican caractersticas sobre la posicin, generalmente central, de los datos. Veamos algunos de ellos. 3.1.1. Media aritmtica x

    A partir de la muestra en bruto: x = n i

    1x

    n

    A partir de la tabla de frecuencias absolutas: x = k i i

    1f .t

    n

    A partir de la tabla de frecuencias relativas: =k i i1

    x h .t

    Propiedades de la media: i) Si todos los datos de la muestra se multiplican por un mismo nmero a, la media de

    los nuevos datos es igual al producto de a por la media de los datos originales: Si yi = a. xi, entonces =y a.x .

    ii) Si a todos los datos de una muestra se les suma una constante b, la media de los nuevos datos es igual a la suma de b y la media de los datos originales:

    Si yi = xi + b, entonces = +y x b . iii) Si se tipifican o estandariza los datos, es decir, se les resta la media de la muestra y las

    diferencias se dividen por la desviacin tpica de la muestra, los nuevos datos tienen media 0 y desviacin tpica 1:

    Si

    =i

    ix

    (x x)ys

    , entonces y 0= , ys 1= .

    iv) Si M1 = (x1, x2, x3,..... xn-1, xn) y M2= (y1, y2, y3,......, ym-1, ym) son dos muestras de medias x e y , respectivamente, entonces la media de la muestra resultante de la unin, M1 U M2 = (x1, x2, x3,..... xn-1, xn) U (y1, y2, y3,..... ym-1, ym), tiene la siguiente media:

    +=

    +

    (n.x m.y)w(n m)

    donde (w1, w2, w3,..... wn+m-1, wn+m)=(x1, x2, x3,..... xn-1, xn, y1, y2, y3,..... ym-1, ym). Ejemplo. Los siguientes grficos proceden de los datos de la variable IQ (cociente de inteligencia) de una muestra de 100 personas (los datos pueden encontrarse en Datos 1: fichero Inteligencia).

    18

    En ellos pueden observarse los efectos producidos en el histograma de la variable IQ cuando se le aplican, sucesivamente, las transformaciones (100 + IQ), (IQ/4) y (100 + IQ/4).

    Grfico 2

    Grfico 3

    3.1.2. Medias geomtrica xg y armnica xh.

    En algunos experimentos los datos presentan rangos de variacin de los datos que hacen difcil la visualizacin y el uso de los estadsticos para su interpretacin. Dos ejemplos pueden ilustrar estas situaciones. Ejemplo 5. Si se est estudiando la distribucin de los ingresos anuales de las personas individuales y de las empresas nos encontramos con que los ingresos varan entre los 1000 euros (103) y los 10 millones de euros (107), mientras que las frecuencias, el nmero de personas o empresas que ingresan esas cantidades, varan entre 2.000 millones (2.109), para los ingresos menores, y 10.000 (104).

    En esta situacin, ningn grfico razonable (del tamao de un folio, por ejemplo) puede ofrecernos una visin realista de la distribucin de los ingresos junto a la de los perceptores de los mismos. Ejemplo 6. Cuando se intenta establecer el comportamiento de las burbujas de oxgeno en la sangre nos encontramos con que los dimetros oscilan entre 0.00017 y 0.00312 milmetros, por ejemplo. Es decir se encuentran el un rango que va de 10-4 y 10-3.

    Para conseguir llevar a los datos a situaciones manejables se emplean transformaciones como la logartmica ln(x) o la funcin 1/x. La primera transforma un nmero como 5.107 en el nmero 17,73; la segunda transforma un nmero como 0.00312 en el nmero 320,51.

    Las dos medias, geomtrica y armnica, se obtienen de manera similar: se transforman los datos, se halla la media de los datos transformados, y se aplica la transformacin inversa a la

    24020016012080

    40

    30

    20

    10

    0

    Data

    Freq

    uenc

    y

    IQIQ+100

    Variable

    Histogram of IQ; IQ+100

    14012010080604020

    60

    50

    40

    30

    20

    10

    0

    Data

    Freq

    uenc

    y

    IQIQ/4

    Variable

    Histogram of IQ; IQ/4

    15014013012011010090

    40

    30

    20

    10

    0

    Data

    Freq

    uenc

    y

    IQ100+IQ/4

    Variable

    Histogram of IQ; 100+IQ/4

  • media as ambas me

    3.1.3. Mo

    En

    encontremmodas.

    Los

    primera tie

    La

    longitudes superior a estructura cuales los 3.1.4. Me

    La siguientes:

    al m al m

    Util

    la siguiente F(m 1

    En

    se ordenan

    obtenida. Sedias.

    Media geo

    Media arm

    oda: Mo. Para una frecuenciaPara una v

    general, unmos ms de

    s dos grficene una sola

    existencia de los animla de las heen dos suestadstico

    ediana: m. mediana m: menos el 50menos el 50

    izando la ne manera

    m) = f(X < mF(m) = f(X

    el caso de n los datos

    Sin entrar en

    mtrica: xg

    nica: xh =

    variable d.

    variable con

    na poblaciuna moda

    cos siguiena moda, mie

    de dos momales de unembras. De

    ubpoblacions no solo la

    m de una m

    0% de los va0% de los va

    nomenclatur

    m) > n/2, y > m) > n/2.

    una variabs de la mue

    n estos pro

    =

    n i1

    ln(x )

    ne

    + + ++1 2

    n1 1 ....

    x x

    discreta: la

    ntinua: la mo

    n puede te. Se emple

    ntes muestentras que

    odas en la na especie ee hecho, la es, la de lo

    a moda) tom

    muestra es e

    alores de laalores de la

    ra usual, es

    ble discreta,estra de me

    cesos, vere

    +4

    1x

    moda es

    oda es la m

    ener varias ea el trmin

    tran los hisla segunda

    Grfico 4

    segunda men la que lopoblacin tos machos

    man diferent

    el valor de

    a muestra sa muestra s

    stas dos co

    la medianaenor a mayo

    emos las f

    la modali

    marca de la c

    modas, lo o poblacin

    stogramas d posee dos

    4

    muestra se os machos otal de dich y la de lates valores.

    la variable

    on inferioreon superior

    ndiciones s

    a se obtienor y se rea

    rmulas que

    dad de la

    clase con m

    que implican n-modal a

    de dos mu.

    explica porposen una hos animales hembras.

    que verific

    es o iguales res o iguale

    se expresan

    e por un oblizan dos re

    e nos permit

    a variable

    mayor frecu

    a que en una aquella qu

    uestras de

    rque esta clongitud no

    es puede cos, en cada

    ca las dos c

    a m, y es a m.

    n matemtic

    bservacin ecuentos d

    19

    ten calcular

    con mayor

    encia.

    na muestraue posee n

    las que la

    consiste entablemente

    onsiderarseuna de las

    condiciones

    camente de

    y recuento:e los datos

    9

    r

    r

    a n

    a

    n e e s

    s

    e

    : s

    20

    reordenados, el primero de izquierda a derecha y el segundo de derecha a izquierda, hasta localizar el valor que verifica las dos condiciones de la definicin.

    Supongamos que la muestra M de tamao 48: M = (5, 7, 8, 7, 6. 7, 3, 4, 0, 9, 7, 5, 4, 3, 5, 4, 6, 8, 9, 7, 2, 5,1, 1, 2, 6, 4, 7, 6, 9, 3, 3, 6, 7, 3, 4, 4, 6, 7, 5, 9, 0, 1, 2, 7, 4, 1, 8)

    Observemos, en primer lugar que n/2 = 48/2 = 24, lo que supone que la mediana m debe

    dejar a su izquierda al menos 24 valores de la muestra y a su derecha al menos 24 valores. Para proceder a su determinacin, ordenemos los elementos de la muestra de menor a

    mayor y contemos de izquierda a derecha 24 lugares y otros 24 de derecha a izquierda: 0, 0, 1, 1, 1, 1, 2, 2, 2, 3, 3, 3, 3, 3, 4, 4, 4, 4, 4, 4, 4, 5, 5, 5, 5, 5, 6, 6, 6, 6, 6, 6, 7, 7, 7, 7, 7, 7, 7, 7, 7, 8, 8, 8, 9, 9, 9, 9.

    entonces, el valor 5 es la mediana ya que f(X < 5) = 26 >24 y f(X > 5) = 28 > 24.

    En el caso de una variable continua con los datos agrupados por intervalos, se identifica el intervalo para el se verifica una de las dos condiciones de la mediana, supongamos que es el intervalo de clase (ai, ai+1] para el que

    Fi < 2n < Fi+1 o Hi <

    12

    < Hi+1,

    segn utilicemos frecuencias acumuladas absolutas o relativas, respectivamente, entonces el valor m de la mediana se calcula por:

    i

    i i 1 ii 1 i

    n( F )2m a .(a a )

    (F F) ++

    = +

    = i

    i i 1 ii 1 i

    1( H )2a .(a a )

    (H H ) ++

    +

    .

    Notar que para el estadstico de posicin moda M0 indica el valor de la variable con mayor

    frecuencia muestral, y el estadstico media x proporciona la situacin del centro de gravedad de la muestra. Asimismo, la mediana m de una muestra nos serva para situar un valor de la variable que, con matizaciones, dejaba un 50% de los datos por debajo de l, y el restante 50% por encima. Tambin las observaciones mnima y mxima pueden entenderse como medidas de posicin: el 100% de los datos son superiores o iguales a la observacin mnima, y el 100% de los datos son inferiores o iguales a la observacin mxima.

    Vamos, pues, a generalizar la nocin de mediana a unos nuevos estadsticos denominados

    cuantiles, los cuales tienen la caracterstica de dejar por debajo de ellos un porcentaje del p % de los valores de la muestra (y, lgicamente, dejarn por encima un porcentaje del (100 p) % de los valores muestrales). En particular, consideraremos un cuantil o percentil p % que se representar con el smbolo cp, siendo p un nmero comprendido entre 0 y 100. 3.1.5. Cuantiles.

    Un cuantil al p% de una muestra es el valor cp de la variable que verifica las dos condiciones siguientes:

    al menos el p% de los valores de la muestra son inferiores o iguales a cp, y al menos el p% de los valores de la muestra son superiores o iguales a cp.

    Utilizando la nomenclatura usual, estas dos condiciones se expresan matemticamente de

    la siguiente manera F(cp) = f(X < cp) > n.p/100, 1 F(cp) = f(X > cp) > n.p/100.

    Tipos usuales de cuantiles. Cuartiles: cuantiles para p = 25, 50 y 75 %:

    q1 = cuartil inferior, q2 = m = mediana, q3 = cuartil superior. Deciles: cuantiles para p = 10, 20,....., 90 %: d10, d20,..., d90. Centiles o percentiles: cuantiles para p = 1, 2, 3,...., 98 y 99 %: p1, p2, p3,..., p97, p98, p99.

  • Par

    localizaremtiene que necesarios

    3.2. Est

    En 6.00, pero en los sigmucho me

    Los

    numricas ejemplo, lahistograma Rango o r

    Recorrido

    Desviaci

    3.2.1. Var

    La datos de la

    ra el clcumos el interv

    verificar las para aplica

    tadsticos d

    primer lugse encuenuientes his

    enos en el te

    s estadstico menores a medida dea, 1.26 para

    recorrido: R

    o intercuart

    n media: D

    rianza sesgvarianza o

    a muestra:

    Para una m

    Para una t

    Para una t

    ulo de los valo de clas

    a propiedadar las siguie

    p ic a (a= +

    de dispers

    ar, veamostran desigu

    stogramas: ercero.

    os de dispea los histoe dispersi

    a el segundo

    R = xmax x

    tlico: Q = q

    D =

    n

    i1

    x

    n

    gada o varianza s

    muestra en

    abla de dat

    abla de dat

    cuantiles, se (ai, ai+1]

    d Fi < n.p/1entes frmu

    i 1 ii

    n(10a a ).(F+

    in

    s tres casoualmente disms conce

    ersin cuantogramas men denominao y 2.45 pa

    min.

    q3 q1.

    x

    sesgada de

    bruto: 2Xs =

    tos agrupad

    tos agrupad

    en la taben el que s100 < Fi+1. ulas:

    i

    ii 1 i

    .p F )00 a

    F F)+

    =

    s de los daspersos resentrados en

    Grfico 5

    tifican esta enos dispeada desviacra el tercero

    e una varia

    n

    i1

    x x

    n

    =

    ( )

    dos de una v

    dos de una v

    la de frecse encuentr

    Entonces

    i 1 i(a a ).++

    atos que tispecto a esn el primer

    propiedad ersos y maycin tpica to:

    able cuantit

    2).

    variable dis

    variable con

    uencias aga el cuantil tendremos

    i

    i 1 i

    (n.p H )(H H )+

    .

    enen la mie valor ceno, algo me

    de los datoyores a lostoma el val

    ativa se de

    screta: 2Xs =

    ntinua: 2Xs =

    grupadas a cp utilizand

    s todos los

    sma mediantral, como enos en el

    os: asignan s ms dispor 0.76 par

    efine segn

    k

    i i1

    f t x

    n

    =

    .(k

    i i1

    f z

    n

    =

    .(

    21

    acumuladasdo que este

    elementos

    a aritmticase observasegundo y

    cantidadespersos. Porra el primer

    n el tipo de

    2x).

    2x).

    s e s

    a a y

    s r r

    e

    22

    3.2.2. Varianza insesgada (cuasivarianza):

    Para una muestra en bruto:

    n2

    i2 1X

    x xS

    n 1

    =

    ( )( )

    .

    Para una tabla de datos agrupados de una variable discreta:

    k2

    i i2 1X

    f t xS

    n 1

    =

    .( )( ) .

    Para una tabla de datos agrupados de una variable continua:

    k2

    i i2 1X

    f z xS

    n 1

    =

    .( )( )

    Propiedades de la varianza:

    i) Si los datos xi se multiplican por un nmero a, yi = a.xi, las varianzas sx2 y sy2 estn relacionadas por la frmula

    sy2 = a2.sx2. ii) Si a los datos xi se les suma un nmero b, yi = xi + b, las varianzas sx2 y sy2 son

    iguales: sy2 = sx2.

    iii) Las varianzas sesgada e insesgada estn relacionadas por la igualdad: 2 2X X

    nS sn 1

    .=

    .

    iv) Si M1 = (x1, x2, ..., xn) y M2= (y1, y2, ..., ym) son dos muestras de medias x e y , y varianzas sx2 y sy2, respectivamente, entonces la varianza media de la unin de las muestras M1 U M2 = (x1, x2, x3,..... xn-1, xn) U (y1, y2, y3,..... ym-1, ym), tiene la siguiente varianza:

    2 2 2 2X y2

    w

    n s m s n x w m y wsn m n m

    + +

    = ++ +

    . . .( ) .( )( ) ( )

    donde (w1, w2, ..., wn+m)=(x1, x2, ..., xn, y1, y2, ..., ym). Desviaciones tpicas:

    Las desviacin tpica se define mediante la raz cuadrada positiva de la varianza: La desviacin tpica sesgada: La desviacin tpica insesgada:

    Propiedades de la desviacin tpica: i) Si los datos xi se multiplican por un nmero a, yi = a.xi, las desviaciones tpicas sx y

    sy estn relacionadas por la frmula: sy = |a|.sx.

    ii) Si a los datos xi se les suma un nmero b, yi = xi + b, las desviaciones tpicas sx y sy son iguales:

    sy = sx.

    iii) Las desviaciones tpicas se relacionan por la igualdad: X XnS s

    n 1.=

    .

    3.2.3. Coeficiente de variacin:

    Coeficiente de variacin sesgado: cvx = 100. Xsx

    .

    Coeficiente de variacin insesgado: CVx = 100. XSx

    .

  • 3.3. Est

    3.3.1. Coe

    En tipo de sim

    Com

    medias, caderecha. A

    En

    cuantitativo

    Coeficient

    Coeficient

    Propiedade

    i) ii) iii) iv)

    3.3.2. CoeLos

    histograma

    y su repres

    tadsticos d

    eficientes dprimer luga

    metra o asim

    mo se obseada histogr

    As, Un histograUn histogrcola derecUn histogrcola izquie

    este marco de la desv

    te de asime

    te de asime

    es: Si la asSi hay Si la asg1 es a

    eficientes ds coeficienta respecto a

    sentacin e

    de forma

    de asimetrar mostraremetra:

    erva en los rama queda

    ama es simrama es asiha rama es aserda

    o, un coefiviacin de l

    etra de Fisg1 =

    etra de Pe

    simetra es simetra: g1simetra es adimensiona

    de apuntamtes de cura la curva n

    es:

    ra. emos un eje

    tres histoga dividido e

    mtrico si ammtrico por

    imtrico po

    iciente de aa simetra d

    sher: = ((xi x)3/

    arson:

    g1 =

    por la izqui

    1 = 0. Adempor la derec

    al: no vara

    miento o curtosis o apnormal o cam

    emplo de tre

    Grafico

    ramas, conen dos par

    mbas colas r la izquierd

    or la derech

    asimetra ede un histog

    /n)/sx3 = (f

    + 1 3(q q 22.m

    erda: g1 < 0ms, en este

    cha: g1 > 0.al realizar c

    urtosis. puntamientompana de G

    es conjunto

    6

    nsiderando crtes, que lla

    son simtricda si su col

    ha si su co

    es un estadgrama.

    fi.(zi x)3/n)

    2.m).

    0. Adems, e caso, x =. Adems, ecambios line

    o dan una Gauss, dad ,

    os de datos

    como refereamaremos

    cas respectla izquierda

    la derecha

    dstico que

    /sx3.

    en este cas

    0m M= en este casoeales de la

    medida dea por la ecu

    s que refleja

    encia de abcola izquie

    to a la meda es ms la

    es ms la

    sirve como

    so, x m

    o, x m variable.

    e la situacuacin

    23

    an diferente

    bscisas suserda y cola

    ia arga que su

    rga que su

    o indicador

    0M

    0M

    cin de un

    3

    e

    s a

    u

    u

    r

    n

    Por

    para comp

    Par

    intervalo ce

    As

    del histogr Un

    der Un

    cen Un

    der

    r ejemplo, sparar con la

    ra ello, divientral est

    C

    , la curtosisrama situad

    histogramarecha y ms

    histogramantral

    histogramarecha y ms

    supongamocurva norm

    diremos el centrado en

    Cola izquier

    s o apuntamas sobre caa es platics alto en la a es mesoc

    a es leptocs bajo en la

    os que un cmal:

    recorrido dn la media a

    rda Z

    miento se cada una de rtico si es zona centracrtico si co

    rtico si es zona centr

    Grfico 7

    conjunto de

    Grfico 8

    de la variaaritmtica, e

    Zona centra

    clasifica tenestos intervms bajo qal oincide con

    ms alto qral.

    e datos pro

    ble en treses decir,

    al C

    niendo en cvalos:

    que la curva

    n la curva n

    que la curva

    porciona el

    s intervalos;

    Cola derech

    cuenta histo

    a normal en

    normal en la

    a normal en

    l siguiente

    ; de tal for

    ha

    ograma las

    n las colas

    as colas y

    n las colas

    24

    histograma

    rma, que el

    tres partes

    izquierda y

    en la zona

    izquierda y

    4

    a

    l

    s

    y

    a

    y

  • 25

    Definicin. Se llama coeficiente de curtosis al estadstico: g2 = = ((xi x)4/n)/sx4 = (fi.(zi x)4/n)/sx4

    o bien, al estadstico: g2 = g2 3.

    Propiedades:

    i) Si el histograma es platicrtico: g2 < 3 (g2 < 0). ii) Si el histograma es mesocrtico: g2 = 3 (g2 = 0). iii) Si el histograma es leptocrtico: g2 > 3 (g2 > 0). iv) g2 es adimensional: no vara al realizar cambios lineales de la variable.