Analisis de Datos Unidimension

download Analisis de Datos Unidimension

of 45

Transcript of Analisis de Datos Unidimension

  • 8/19/2019 Analisis de Datos Unidimension

    1/45

    a)   Determinar la variable objeto de estudio así como su dominio.

    b)   Obtener la tabla de frecuencias tanto absolutas como relativas (ordinarias y

    acumuladas).

    c)   Determinar el número de clientes que tienen 5 productos contratados y el por-

    centaje con menos de 6.

    d)   El número de clientes que tienen más de 3 productos y el porcentaje con 4 omenos.

    e)   Porcentaje de clientes que tienen contratados entre 4 y 5 productos (ambos in-

    clusive).

    f)   Dibujar el diagrama de barras y el diagrama en escalera (utilizar las frecuen-

    cias absolutas y relativas).

    1.4   Los 75 clientes de la sucursal bancaria del problema anterior presentan los siguien-

    tes saldos trimestrales (en e) en sus cuentas corrientes o de ahorro:

    Saldo trimestral (e) Número clientes

    [0 , 600[ 10

    [600 , 1.200[ 15

    [1.200 , 1.800[ 35

    [1.800 , 3.000[ 10[3.000 , 6.000] 5

    a)   Determinar la variable objeto de estudio.

    b)   Calcular la amplitud de los intervalos y las marcas de clase.

    c)   El número de clientes con un saldo trimestral entre 1.200 y 1.800 e, y el por-

    centaje de clientes con saldo igual o superior a 1.200 e

    d)   ¿Cuántos clientes tienen en sus cuentas un saldo trimestral entre 600 y1.800  e (ambos inclusive)?

    e)   Dibujar el histograma y polígono de frecuencias.

    f)   Representar el polígono de frecuencias acumulativo.

    24   ESTADÍSTICA DESCRIPTIVA Y NOCIONES DE PROBABILIDAD

    7 ITES-Paraninfo

  • 8/19/2019 Analisis de Datos Unidimension

    2/45

    Análisis de datosunidimensionales

    Tema

    2.1.   Medidas de posición.

    2.2.   Medidas de dispersión.

    2.3.   Momentos.

    2.4.   Medidas de forma.

    2.5.   Transformaciones lineales y tipificación de variables.

    2.6.   Medidas de concentración. Curva de Lorenz e índice de Gini.

    Cuestiones de autoevaluación.

    Ejercicios propuestos.Problemas resueltos.

    Problemas propuestos.

    OBJETIVOS

    Definir una serie de medidas (estadísticos descriptivos básicos) que sin-teticen la información contenida en una distribución de frecuenciasunidimensional, tanto de valores agrupados como sin agrupar, y apren-der a calcularlos e interpretarlos. Comparar la dispersión entre dos omás variables o distribuciones de frecuencias. Estudiar cómo se venafectados los estadísticos al transformar los datos de una variable.Cuantificar e interpretar la concentración de una distribución.

  • 8/19/2019 Analisis de Datos Unidimension

    3/45

    2.1. Medidas de posición

    En general, las medidas de posición indican un valor de la variable en torno al

    cual se sitúan un grupo de observaciones. Puede distinguirse entre:

    a)   Medidas de tendencia central: media aritmética, armónica, geométrica,mediana y moda.

    b)   Medidas de tendencia no central: cuantiles.

    A continuación se abordan los principales detalles conceptuales y de aplicación

    de cada una de las medidas referidas anteriormente.

    2.1.1. Media aritmética(1)

    Es la suma de todos los valores de la variable divididos por el número total de

    observaciones. Se denota por  x  6.

     x  6%

     N 

    ;i%1

     xi

     N o   x  6%

     x1n1! x2n2!ñ! x I n I 

     N %

     I 

    ;i%1

     xini

     N %

     I 

    ;i%1

     xi f i

    Evidentemente, esta medida sólo se puede calcular si la variable estadística ob-

     jeto de estudio es de naturaleza cuantitativa.El valor que toma la media debe estar siempre incluido entre el valor mínimo y

    máximo del dominio de la variable analizada.

    Ejemplo 2.1   La plantilla de una empresa durante los últimos 4 meses ha estado forma-

    da por 16, 14, 15 y 15 empleados. Determinar la plantilla media de la empresa.

    Solución

    A partir de la información proporcionada, construimos la distribución de fre-

    cuencias. La variable toma I% 3 valores distintos ( xi para i% 1, 2, 3), con frecuen-

    cias 1, 2 y 1, respetivamente.

     xi   ni

    14 1

    15 2

    16 1

    (1) Este es, con diferencia, el estadístico (cualquier función de los valores de la variable) más impor-tante. En adelante, cuando se haga referencia al término media, sin especificar, deberá entenderse mediaaritmética.

    26   ESTADÍSTICA DESCRIPTIVA Y NOCIONES DE PROBABILIDAD

    7 ITES-Paraninfo

  • 8/19/2019 Analisis de Datos Unidimension

    4/45

    Si se añade una tercera columna que recoja, para cada elemento, el producto

     xini, su suma se corresponderá con el numerador de la expresión de la media, de

    manera que se obtendrá al dividir por el número total de observaciones ( N ), en este

    caso  N %4.

     xi   ni   xi ni

    14 1   14

    15 2   30

    16 1   16

    60   p3

    ;i%1

     xini

    La media será:   x  6%60

    4%15, es decir, la plantilla media de la empresa en los

    últimos 4 meses ha sido de 15 empleados.

    Obsérvese que la media de empleados ( x  6%15) se encuentra comprendida entre

    el mínimo valor de la variable ( x1%14) y el máximo ( x3%16).

    Si la distribución de frecuencias con la que se trabaja es de datos agrupados,

    para poder calcular la media se toman, a modo de aproximación a los valores de la

    variable, las marcas de clase correspondientes a cada uno de los intervalos, lo que

    supondrá una pérdida de precisión, que será tanto mayor cuanto mayor sea la am-

    plitud de los mismos.

    Ejemplo 2.2   De un total de 10 asignaturas optativas se ha tomado el número de alum-nos matriculados en cada una de ellas, obteniéndose la siguiente distribución de

    frecuencias.

    Alumnos matriculados Número optativas

     Li.1   ,  Li   ni

    [10 , 20[ 4

    [20 , 40] 6

    ¿Cuál es el número medio de alumnos matriculados?

    Solución

    Para calcular la media de alumnos matriculados ( x  6), lo primero es determinar la

    marca de clase ( xi,   i%1, 2) de cada intervalo. Seguidamente se añade una colum-

    na que recoja el producto  xini  y se suma.

     ANÁLISIS DE DATOS UNIDIMENSIONALES   27

    7 ITES-Paraninfo

  • 8/19/2019 Analisis de Datos Unidimension

    5/45

    Alumnos

    matriculados Li.1   ,  Li

    Número

    optativas ni

    Marca

    de clase xi

     xi ni

    [10 , 20[ 4 15   60

    [20 , 40] 6 30   180

    240   p2

    ;i%1

     xini

    Al dividir este resultado entre el número total de observaciones ( N % 10) se ob-

    tiene la media,

     x  6%240

    10%24 alumnos matriculados

    La media aritmética puede utilizarse si los datos con los que se trabaja son de

    naturaleza aditiva, es decir, que al sumar todos los valores, estos representen el to-

    tal de la población. Variables aditivas son, por ejemplo, el número de empleados,

    la renta, el salario, etc. Por el contrario, variables no aditivas son: tipos de interés,

    velocidad, rentabilidad, etc.

    Entre las principales ventajas que presenta la media se pueden destacar las si-

    guientes:

    Se puede calcular siempre que las variables sean de tipo cuantitativo.Su cálculo resulta fácil y en él intervienen todos los valores de la distribu-

    ción.

    La media aritmética es el centro de gravedad de la distribución, es decir, es

    el punto que por término medio dista menos de todas las observaciones de la

    distribución.

    Es una medida única y definida de forma objetiva en cada distribución de

    frecuencias.

    En cuanto a los inconvenientes, tal vez el más importante sea que la media arit-mética de la distribución puede llegar a ser muy poco representativa del conjunto

    de los valores observados si existe mucha dispersión en los datos. Se trata de una

    medida muy sensible a los valores extremos(2).

    Ejemplo 2.3   Para un total de 4 empresas se dispone de información relativa al tamaño,

    medido a través del activo (millones de e):

    500, 25, 30, 545

    ¿Cuál es el tamaño medio del conjunto de las empresas?

    (2) En este sentido se dice que la media no es un estadístico (medida) robusto.

    28   ESTADÍSTICA DESCRIPTIVA Y NOCIONES DE PROBABILIDAD

    7 ITES-Paraninfo

  • 8/19/2019 Analisis de Datos Unidimension

    6/45

    Solución

    El tamaño medio ( x  6) se obtiene al sumar todos los valores de la variable y divi-

    dir por el número de observaciones (empresas), así:

     x  6%

    25! 30! 500! 545

    4 %

    1.100

    4 % 275 millones de e

    Como se pone de manifiesto en el ejemplo anterior, los valores del activo son

    muy diferentes entre sí, con lo que la media (275 millones de  e) será poco repre-

    sentativa. Cuando ocurre esto, es preferible utilizar otras medidas de posición cen-

    tral, por ejemplo la mediana (véase Epígrafe 2.1.2.).

    Con todo, la media aritmética es la medida de posición central más utilizada,

    de la que cabe destacar las siguientes  propiedades:

    1.   La suma de las desviaciones de todos los valores de la variable respecto a

    su media es cero.

     I 

    ;i%1

    ( xi. x  6)ni% 0

    2.   Si  x  6i (i% 1, 2, ...,  k ) corresponden a las medias de  k  grupos distintos de ta-

    maño  N i  (i% 1, 2, ...,  k ), respectivamente, se cumple que la media aritmé-tica del conjunto es:

     x  6% x  61 N 1! x  62 N 2!ñ! x  6k  N k 

     N 1! N 2!ñ N k 

    3.   Depende de los cambios de origen y de unidad (véase Apartado 2.5).

    Ejemplo 2.4   En una empresa de fabricación de muebles, el departamento de control decalidad ha inspeccionado cada hora, durante las 3 últimas, un total de 6, 8 y 6 mue-

    bles respectivamente, encontrando en cada una de ellas un número medio de defec-

    tos de 3, 5 y 2. Determinar el número medio de defectos del total de muebles ins-

    peccionados.

    Solución

    Aplicando la segunda propiedad de la media:

     x  6% x  61 N 1! x  62 N 2! x  63 N 3

     N 1! N 2! N 3

    %3 · 6! 5 · 8! 2 · 6

    6! 8! 6% 3,5 defectos

     ANÁLISIS DE DATOS UNIDIMENSIONALES   29

    7 ITES-Paraninfo

  • 8/19/2019 Analisis de Datos Unidimension

    7/45

    2.1.2. Media armónica y geométrica

    La media armónica, que se denota por  M h, se define como:

     M h% N 

    1 x1

    n1!1 x2

    n2!ñ!1 x I 

    n I 

    % N 

     I ;i%1

    1 xi

    · ni

    siendo:

     N %

     I 

    ;i%1

    ni

    En el caso particular de que las frecuencias fuesen unitarias, esto es,  ni% 1  O i,

    entonces:

     M h% I 

     I 

    ;i% I 

    1

     xi

    Además, a la hora de calcular la media armónica suele utilizarse que la inversa

    de la media armónica es la media aritmética de los valores inversos de la variable,

    esto es:

    1 M h

    %

     I 

    ;i%1

    1 xi

    ·ni

     N 

    Por su parte, la media geométrica, que es empleada cuando las variables son de

    naturaleza multiplicativa en el sentido, por ejemplo, que los intereses generan nue-

    vos intereses o cuando el incremento salarial se efectúa sobre el anterior y no sobre

    uno fijo, se denota por  M g y se define como:

     M g% N 

    ∂  xn

    11   · xn

    22   · . . . · xn I  I    %

     N 

    J   I 

    <i%1

     xnii

    En el caso particular de que las frecuencias fuesen unitarias (ni% 1  O i), enton-

    ces se tienen:

     M g%  I ∂  x1 · x2 · . . . ·  x I %  I J 

      I 

    <i%1

     xi

    Además, a la hora de calcular la media geométrica suele utilizarse que el loga-

    ritmo de la media geométrica que es igual a la media aritmética de los logaritmosde los valores de la variable, esto es:

    log M g%

     I 

    ;i%1

    log( xi) ·ni

     N 

    30   ESTADÍSTICA DESCRIPTIVA Y NOCIONES DE PROBABILIDAD

    7 ITES-Paraninfo

  • 8/19/2019 Analisis de Datos Unidimension

    8/45

    De la misma forma que se indicó para la media aritmética, el valor que tome la

    media armónica y la media geométrica(3) debe estar siempre incluido entre el valor

    mínimo y máximo del dominio de la variable analizada.

    2.1.3. Mediana

    Ordenada la distribución de frecuencias de menor a mayor, la mediana, que se

    denota por Me, es un valor del recorrido de la variable que deja el mismo número

    de observaciones a su izquierda y a su derecha.

    Para el cálculo de la mediana es necesario distinguir entre distribuciones de

    frecuencias de valores sin agrupar y agrupados, pero la idea que siempre hay que

    tener presente es que la mediana es aquel valor de la variable al que corresponde

    una frecuencia acumulada igual a  N / 2.

    2.1.3.1. Distribuciones de frecuencias de valores sin agrupar 

    Al trabajar con valores sin agrupar hay que considerar varias posibles situacio-

    nes (Figura 2.1). Cada una de éstas será tratada a continuación.

    Distribución de frecuenciasde valores sin agrupar 

    Frecuencias unitarias

    Frecuencias no unitarias

     Número impar deobservaciones

     Número par deobservaciones

    Figura 2.1.

    Situación 1. Distribución de frecuencias unitarias

    Si el número de observaciones es impar, el valor de la mediana coincidirá con

    el valor   xi  (Me% xi) que deje a derecha e izquierda el mismo número de observa-

    ciones.

    Si el número de observaciones es par, entonces el valor de la mediana se obten-

    drá como la media del valor(4): Me% xi! xi!1

    2

    .

    (3) Se podría comprobar que la media armónica, geométrica y armónica guardan la siguiente rela-ción:  M hm M gm x  6.

    (4) Este es el criterio que se utilizará. Otros criterios consideran que son válidos ambos valores, estoes, Me% xi y Me% xi!1, o incluso cualquier valor comprendido entre los anteriores.

     ANÁLISIS DE DATOS UNIDIMENSIONALES   31

    7 ITES-Paraninfo

  • 8/19/2019 Analisis de Datos Unidimension

    9/45

    Ejemplo 2.5   Una variable estadística  X  toma los siguientes 7 valores distintos:

    1, 3, 5, 6, 7, 8, 12

    Determinar la mediana.

    Solución

    Puede verse fácilmente que el valor de la variable  xi% 6 deja el mismo número

    de observaciones, un total de 3, a cada lado.

    1, 3, 5 6 7, 8, 12

     VWX    VWX 

    Por tanto, el valor de la mediana es:

    Me% xi% 6

    Ejemplo 2.6   Obtener la mediana de una variable estadística que toma los siguientes 6valores distintos:

    9, 2, 5, 3, 6, 8,

    Solución

    En este caso, lo primero que debe hacerse es ordenar la distribución de fre-

    cuencias de menor a mayor.

    2, 3, 5    6, 8, 9

    El valor de la variable que deja el mismo número de observaciones a ambos la-

    dos, la mediana, se sitúa entre 5 y 6. Así:

    Me%

    5! 6

    2 % 5,5

    Situación 2. Distribución de frecuencias no unitarias

    Cuando la distribución de frecuencias es no unitaria, se suele utilizar el si-

    guiente criterio para determinar el valor de la mediana: sea  N i  la primera frecuen-

    cia absoluta acumulada igual o superior a  N / 2, entonces:

    si

    DAEAF

     N i.1a N 2a N i

     N i% N 

    2

    ú

    ú

    Me% xi

    Me% xi! xi!1

    2

    32   ESTADÍSTICA DESCRIPTIVA Y NOCIONES DE PROBABILIDAD

    7 ITES-Paraninfo

  • 8/19/2019 Analisis de Datos Unidimension

    10/45

    Ejemplo 2.7   Obtener la mediana de la siguiente distribución de frecuencias.

     xi   ni   N i

    2 3 3

    3 2 5

    5 3 8

    Solución

    La mitad de las observaciones corresponde a N 

    2% 4. El valor de la variable que

    contiene una frecuencia acumulada de 4 es  x2% 3, con  N 2% 5.

     xi   ni   N i

    2 3 3   p N i.1% N 1

     xi% x2r   3 2 5   p N i% N 2

    5 3 8

    Por tanto, como  N 1a N 

    2a N 2r 3a4a 5 entonces Me% x2rMe% 3.

    Ejemplo 2.8   Obtener la mediana de la siguiente distribución de frecuencias.

     xi   ni   N i

    3 3 3

    4 2 5

    6 5 10

    SoluciónEl valor de la variable que acumula un número de observaciones igual

     N 

    2% 5

    es  x2% 4.

     xi   ni   N i

    3 3 3

     xi% x2r   4 2 5   p N i% N 2

     xi!1% x3r   6 5 10

    Por tanto, como  N 2% 5% N 

    2se tendrá que Me%

     xi! xi!1

    2rMe%

    4!6

    2% 5.

    La mediana de la distribución es 5.

     ANÁLISIS DE DATOS UNIDIMENSIONALES   33

    7 ITES-Paraninfo

  • 8/19/2019 Analisis de Datos Unidimension

    11/45

    2.1.3.2. Distribuciones de frecuencias agrupadas

    Este caso tiene menos interés, pues actualmente no se suele trabajar con datos

    agrupados, dado que la informática permite manejar mucha información sin nece-

    sidad de perder parte de ella en agrupaciones.

    El problema se resuelve obteniendo en primer lugar el llamado intervalo me-

    diano, el primero cuya frecuencia absoluta acumulada  N i  alcanza o sobrepasa  N / 2.

    Es decir,  N i.1a

     N 

    2m N i.

    Para precisar el valor de la variable que corresponde a la mediana (5) se supone

    que la frecuencia correspondiente al intervalo se distribuye uniformemente y por

    reparto proporcional se obtiene el valor buscado.

    Ejemplo 2.9   El número de proyectos de mejora propuestos por los 20 círculos de cali-dad existentes en una empresa han sido agrupados de la siguiente forma:

    Proyectos de mejora Círculos de calidad Li.1   , Li   ni

    [8 , 12[ 2

    [12 , 16[ 6

    [16 , 20[ 8

    [20 , 24] 4

    Determinar el intervalo mediano.

    Solución

    Para saber en qué intervalo estará incluida la mediana lo primero es insertar

    una columna que represente la frecuencia absoluta acumulada ( N i), tal y como se

    refleja en la siguiente tabla.

    Proyectos de mejora Círculos de calidad Li.1   , Li   ni

     N i

    [8 , 12[ 2 2

    [12 , 16[ 6 8   p N i.1% N 2

    [16 , 20[ 8 16   p N i% N 3

    [20 , 24] 4 20

    (5) Identificado el intervalo mediano, Me% Li.1! ci · N / 2. N i

     N i. N i.1

    , donde  ci  es la amplitud del inter-

    valo mediano y  Li.1 su extremo inferior.

    34   ESTADÍSTICA DESCRIPTIVA Y NOCIONES DE PROBABILIDAD

    7 ITES-Paraninfo

  • 8/19/2019 Analisis de Datos Unidimension

    12/45

    Como la mediana es el valor de la variable que acumula N 

    2observaciones, ésta

    estará contenida en el intervalo [16 , 20[, que es el intervalo mediano, puesto que

     N 2a N 

    2m N 3, es decir, 8a

     N 

    2%10m 16.

    2.1.4. Moda

    La moda de una distribución, a la que se denotará por Mo, representa el valor

    de la variable con mayor frecuencia. No tiene por qué ser única. Es decir, si hay

    dos o más valores de la variable que tienen la misma frecuencia, siendo esta la

    mayor, se estará ante una distribución multimodal (bimodal, dos modas; trimodal,tres modas; etc.).

    Del mismo modo que se procedió con la mediana, para determinar la moda

    debe distinguirse entre distribuciones de valores sin agrupar y agrupados.

    2.1.4.1. Distribuciones de frecuencias de valores sin agrupar 

    En este caso, y según la definición de la moda, hay que fijarse en cuál es el va-

    lor de la variable que más se repite, el de mayor frecuencia.

    Ejemplo 2.10   Se ha preguntado a 15 estudiantes por el número de horas semanales

    dedicadas al estudio, recogiéndose sus respuestas en la siguiente distribución de

    frecuencias.

    Horas semanales Númerode estudio,   xi   de estudiantes,  ni

    2 1

    3 4

    5 8

    7 2

    Obtener la moda del número de horas de estudio.

    Solución

    La moda es 5 (Mo%5), puesto que es el valor de la variable con mayor frecuen-

    cia. Un total de 8 estudiantes dedican 5 horas a estudiar.

     ANÁLISIS DE DATOS UNIDIMENSIONALES   35

    7 ITES-Paraninfo

  • 8/19/2019 Analisis de Datos Unidimension

    13/45

    Ejemplo 2.11   Se ha preguntado a 5 estudiantes por el número de horas semanales dedi-

    cadas al estudio, siendo sus respuestas:

    0, 2, 4, 5, 8

    Obtener la moda del número de horas de estudio.

    Solución

    En esta distribución todos los valores de la variable se considerarían modas

    pues  ni%1  O i.

    2.1.4.2. Distribuciones de frecuencias de valores agrupados

    Cuando se trabaja con valores agrupados en intervalos, lo más sencillo para de-

    terminar el valor modal consiste en dibujar el histograma.

    La moda estará contenida en el intervalo de mayor altura, al que se denomina

    intervalo modal.

    Ejemplo 2.12   Obtener el intervalo modal de la distribución de frecuencias del Ejem-

    plo 2.9.

    Solución

    Para determinar el intervalo modal se añade una columna que recoja la altura

    (hi) asociada a cada intervalo. En este ejemplo todos los intervalos tienen la misma

    amplitud (ci% 4), por lo que el intervalo de mayor frecuencia será el que tenga

    mayor altura y, por tanto, el intervalo modal.

    Proyectos de

    mejora,  Li.1   ,  Li

    Círculo

    de calidad,  ni hi%

     ni

     ci

    [8 , 12[ 2 1/ 2[12 , 16[ 6 3/ 2

    intervalo modalr   [16 , 20[ 8 2   pmayor altura

    [20 , 24] 4 1

    Así pues, la moda estará contenida en el intervalo [16 , 20[.

    Existen casos en los que, sin necesidad de realizar ningún cálculo, es posibleaproximar el valor que toma la moda en el intervalo modal. Así, en la Figura 2.2,

    Gráfica (a), puede observarse cómo, si los intervalos anterior y posterior al inter-

    valo modal tienen la misma altura, la moda coincidirá con la marca de clase.

    En cambio, si el intervalo posterior al modal es de mayor altura que el anterior,

    36   ESTADÍSTICA DESCRIPTIVA Y NOCIONES DE PROBABILIDAD

    7 ITES-Paraninfo

  • 8/19/2019 Analisis de Datos Unidimension

    14/45

    Figura 2.2.

    Gráfica (b), la moda se desplaza hacia la derecha de la marca de clase, coincidien-

    do su valor con el límite superior del intervalo modal cuando la altura del anterior

    al mismo sea cero, como puede verse en la Gráfica (c). De forma análoga, la moda

    coincidirá con el extremo inferior del intervalo modal cuando la altura del interva-

    lo posterior a éste sea cero, Gráfica (d).

    Siguiendo con el criterio anterior de aproximar el valor de la moda en propor-ción inversa a las alturas de los rectángulos del histograma anterior y posterior al

    modal, se recurre a la siguiente expresión:

    Mo% Li.1! ci ·hi!1

    hi.1!hi!1

    (2.1)

    donde  ci es la amplitud del intervalo modal,  Li.1  su extremo inferior;  hi.1 es la al-

    tura asociada al intervalo anterior al modal y  hi!1 a la del posterior.

    Ejemplo 2.13   En la siguiente distribución de frecuencias se refleja la retribución men-

    sual de los 260 empleados del área de fabricación de una gran empresa industrial.

    Retribución (e) Número de empleados Li.1   ,  Li   ni

    [800 , 1.000[ 50

    [1.000 , 1.400[ 100

    [1.400 , 1.800[ 80

    [1.800 , 2.100] 30

    ¿Cuál es la retribución más frecuente en esta área funcional?

     ANÁLISIS DE DATOS UNIDIMENSIONALES   37

    7 ITES-Paraninfo

  • 8/19/2019 Analisis de Datos Unidimension

    15/45

    Solución

    Como fácilmente puede observarse en la distribución de frecuencias del enun-

    ciado, los intervalos son de distinta amplitud. En consecuencia, y a diferencia del

    Ejemplo 2.12, el intervalo al que corresponde mayor frecuencia no necesariamente

    tiene que ser el que tenga mayor altura asociada.

    Añadiendo a la tabla dos nuevas columnas que recojan la amplitud (ci) y altura(hi) de cada intervalo:

    Retribución (e) Li.1   ,  Li

    Númeroempleados

     ni

     ci   hi% ni

     ci

    intervalo modalr   [800 , 1.000[ 50 200 0,25   pmayor altura

    intervalo modalr   [1.000 , 1.400[ 100 400 0,25   pmayor altura

    [1.400 , 1.800[ 80 400 0,2[1.800 , 2.100] 30 300 0,1

    Como puede verse en la tabla anterior, en este caso existen dos modas (la dis-

    tribución es bimodal), la primera estará incluida en el intervalo [800 , 1.000[ y la

    segunda en [1.000 , 1.400[.

    Sin necesidad de realizar ningún cálculo, podría decirse que la primera moda

    será 1.000, puesto que la altura del intervalo anterior al modal es cero. En cambio,

    respecto a la segunda, como el intervalo anterior a [1.000 , 1.400[ es de mayor al-tura que el posterior, sólo puede decirse que su valor se encontrará ligeramente por

    debajo de la marca de clase ( x2% 1.200). Una mejor aproximación al valor de la

    moda puede obtenerse con la expresión dada en (2.1).

    Moda 1: Mo% 800!200 ·0,25

    0! 0,25% 1.000

    Moda 2: Mo% 1.000! 400 ·

    0,2

    0,25! 0,2% 1.177,78

    Por tanto, las retribuciones más frecuentes en el área de fabricación de esta em-

    presa son 1.000 e y 1.177,78  e.

    2.1.5. Cuantiles

    Ordenados de menor a mayor los valores de la variable y dado un entero positi-

    vo  k , las familias de cuantiles serán valores del recorrido de la variable que dividi-

    rán la distribución en  k  partes, conteniendo cada una de ellas la misma proporción

    de observaciones A1

    k B.

    38   ESTADÍSTICA DESCRIPTIVA Y NOCIONES DE PROBABILIDAD

    7 ITES-Paraninfo

  • 8/19/2019 Analisis de Datos Unidimension

    16/45

    Las familias de cuantiles más utilizadas son aquellas que dividen la distribu-

    ción de frecuencias en cuatro, diez y cien partes y se conocen con el nombre de

    cuartiles, deciles y percentiles, respectivamente:

    a)   Cuartiles (k % 4): son tres valores (C s,  s% 1, 2, 3) del recorrido que divi-

    den la distribución en 4 partes, conteniendo cada una de ellas el 25%

    A14Bde las observaciones.

    b)   Deciles (k % 10): son nueve valores del recorrido ( Ds,  s% 1, 2, ..., 9) que

    dividen la distribución en 10 partes, de tal forma que cada una de ellas

    contendrá el 10% A 1

    10B de las observaciones.c)   Percentiles (k % 100): son noventa y nueve valores del recorrido (Ps,

    s% 1, 2, ..., 99) que dividen la distribución en 100 partes, conteniendo ca-da una de ellas el 1% de las observaciones.

    En general (para cualquier valor de  k ): una familia de cuantiles de orden As

    k Bs% 1, 2, ..., (k .1), se identificará como los (k .1) valores del recorrido de la va-riable  Qs

    s% 1, 2, ..., (k .1), que dividirán en  k  partes la distribución de la varia-

    ble conteniendo, cada una de ellas, una proporción de valores de

    A

    1

    B.

    De esta forma, si  Qsk 

    es el cuantil de orden As

    k B, un porcentaje de As

    k ·100B  de

    los valores de la variable (como mínimo) serán menores o iguales que  Qsk 

    y un por-

    centaje de A1.s

    k B · 100 de los valores (como mínimo) serán mayores o igualesque  Qs

    .

    Así, por ejemplo, el primer cuartil  C 1  será el cuantil  Q14

    , de tal forma que, al

    menos, el 25% de los valores serán menores o iguales que  C 1  y, al menos, el 75%

    restante serán mayores o iguales que  C 1.

    Análogamente, podemos identificar los deciles y percentiles como cuantiles en

    general:  P35%Q 35100

    ,  D8%Q 810

    , ..., etc.

    El procedimiento de cálculo es análogo al estudiado en el caso de la mediana,

    es decir, suponiendo datos sin agrupar:

    si

    DAEAF

     N i.1a s · N k a N i

     N i%s · N 

    ú

    ú

    Qsk 

    % xi

    Qsk 

    % xi! xi!1

    2

     ANÁLISIS DE DATOS UNIDIMENSIONALES   39

    7 ITES-Paraninfo

  • 8/19/2019 Analisis de Datos Unidimension

    17/45

    donde  Qsk 

    es el cuantil (cuartil, decil o percentil) que se quiere calcular y que acu-

    mulará una proporción de As

    k B  observaciones.Si la distribución de frecuencias es de valores agrupados se determinará el

    intervalo cuantílico, es decir, aquel que contiene el cuantil que se quiere obtener.

    Ejemplo 2.14   Dada la siguiente tabla de frecuencias:

    Proyectos de mejora Círculos de calidad xi   ni

    10 2

    14 6

    18 8

    22 4

    Obtener el segundo cuartil, el cuarto decil y nonagésimo percentil.

    Solución

    Proyectos de mejora Círculos de calidad xi   ni

     N i

    10 2 2

    14 6 8

    18 8 16

    22 4 20

    El segundo cuartil (C 2) es el valor de la variable que deja a su izquierda, esto es

    acumula, un número mínimo de observaciones del 50%.

    s%2,  k %4   rs · N 

    k %

    2 · 2 0

    4%10 observaciones

    por tanto, como  N 2as · N 

    k a N 3  (8a10a 16) entonces  C 2%Q2

    4

    % x3%18.

    Obsérvese que el valor del segundo cuartil coincide con el de la mediana. De

    hecho,  C 2% D5%P50%Me%Q12

    .

    El cuarto decil ( D4) es el valor que acumula como mínimo un 40% de las ob-servaciones:

    s%4,  k %10   rs · N 

    k %

    4 · 2 0

    10%8 observaciones

    40   ESTADÍSTICA DESCRIPTIVA Y NOCIONES DE PROBABILIDAD

    7 ITES-Paraninfo

  • 8/19/2019 Analisis de Datos Unidimension

    18/45

    en consecuencia, como  N 2% 8%s · N 

    k , el cuarto decil será:

    Qsk 

    % D4% x2! x3

    2%

    14! 18

    2% 16

    Por último, el nonagésimo percentil,  P90, es el valor que acumula como míni-mo un 90% de las observaciones:

    s% 90,  k % 100   rs · N 

    k %

    90·20

    100% 18 observaciones

    con lo que el percentil noventa será:  Q 90100%P90

    % x4% 22, dado que  N 3as · N 

    k %

    % 18a N 4 .

    2.2. Medidas de dispersión

    El término dispersión o variabilidad hace referencia a cómo de distantes, de se-

    parados, se encuentran los datos. En este sentido, si los distintos valores de la dis-

    tribución se encuentran próximos entre sí, estos presentarán poca dispersión o va-

    riabilidad; si por el contrario están alejados, mostrarán mucha dispersión.

    Pueden calcularse diversas medidas de dispersión, aunque las más habituales

    son el rango (o recorrido), la varianza y la desviación típica. Las anteriores son

    medidas de dispersión absoluta. Sin embargo, si lo que se quiere es comparar va-

    rias distribuciones de frecuencias en términos de variabilidad, para ver cuál es la

    que presenta mayor o menor dispersión, debe obtenerse una medida relativa como,

    por ejemplo, el coeficiente de variación de Pearson.

    2.2.1. Rango

    El rango o recorrido de una distribución es la diferencia entre el valor máximo

    y mínimo, es decir, Re% xmax. xmin. La principal desventaja de este tipo de me-

    dida de dispersión es que únicamente tiene en cuenta dos valores de la variable.

    2.2.2. Varianza y desviación típica

    La varianza, que se denota por  S 2 X , se define como la media aritmética de los

    cuadrados de las diferencias de los valores de la variable a la media aritmética:

    S 2

     X %

     I 

    ;i%1

    ( xi. x  6)2 · ni

     N (2.2)

     ANÁLISIS DE DATOS UNIDIMENSIONALES   41

    7 ITES-Paraninfo

  • 8/19/2019 Analisis de Datos Unidimension

    19/45

    Con la varianza se pretende medir la dispersión que presentan los valores de la

    variable respecto de su media. Cuanto mayor sea la varianza, cuanto mayor sea la

    dispersión, menos representativa resultará ser la media.

    Una expresión equivalente a la anterior para calcular la varianza, muy utilizada

    por cuanto simplifica considerablemente la operatoria, es:

    S 2 X %

     I 

    ;i%1

     x2i   · ni

     N . x  6

    2 (2.3)(6)

    De la definición de varianza se desprende que ésta nunca puede ser negativa

    (S 2 X n0) y que se encuentra expresada en unidades de medida al cuadrado.

    Además, la varianza no depende de los cambios de origen, pero sí de los de

    unidad (véase Apartado 2.5.).

    Por su parte, la desviación típica o estándar, que se denota por  S 

     x, es la raízcuadrada positiva de la varianza, es decir:

    S  X %!∂ S 2 X n 0

    La desviación típica es una medida de dispersión que suele proporcionarse jun-

    to con la media de la distribución, puesto que ambas magnitudes vienen expresadas

    en la misma unidad de medida, lo que facilita enormemente la interpretación de los

    resultados.

    Otro estadístico que se utiliza mucho, especialmente en inferencia estadística,

    es la cuasivarianza, que se denota por  S *2 X  , y se define como:

    S *2

     X    %

     I 

    ;i%1

    ( xi. x  6)2 · ni

     N . 1%

     N 

     N . 1· S 

    2

     X 

    siendo la cuasidesviación típica,  S * X %!∂ S *2 X 

    Ejemplo 2.15   El número de ofertas de empleo publicadas en los últimos cinco númerosen una revista especializada ha sido:

    10, 20, 12, 16, 12

    Calcular el rango, varianza, desviación típica, cuasivarianza y cuasidesviación

    típica.

    Solución

    El rango o recorrido del número de ofertas de empleo (variable  X ) es:

    Re% xmax. xmin   r   Re% 20. 10% 10

    (6) En el Apartado 2.3 se verá cómo esta expresión se corresponde con la obtenida al expresar elmomento central de orden 2, que es la varianza, en función de los momentos ordinarios.

    42   ESTADÍSTICA DESCRIPTIVA Y NOCIONES DE PROBABILIDAD

    7 ITES-Paraninfo

  • 8/19/2019 Analisis de Datos Unidimension

    20/45

    Para calcular la varianza, se puede recurrir a la Expresión (2.2) o (2.3). Eviden-

    temente el resultado es el mismo, simplemente una forma resulta más cómoda que

    la otra, como se verá.

    Los cálculos necesarios para obtener la varianza pueden obtenerse añadiendo

    una serie de columnas a la tabla de frecuencias de las ofertas de empleo publica-

    das, tal y como se muestra a continuación:

     xi   ni   ( xi. x  6) ( xi. x  6) ni   ( xi. x  6)2 ni   xi ni   x

    2

    i  ni

    10 1   .4   .4 16 10 100

    12 2   .2   .4 8 24 288

    16 1 2 2 4 16 256

    20 1 6 6 36 20 400

    ;% 0 (7) ;% 64   ;% 70   ;% 1.044

    Una vez elaborada la tabla anterior resulta casi inmediato el cálculo de la me-

    dia y de la varianza.

     x  6%

     I %4

    ;i%1

     xini

     N %

    70

    5% 14 anuncios

    S 2 X %

     I %4

    ;i%1

    ( xi. x  6)2ni

     N %

    64

    5% 12,8 (anuncios)2

    o bien,

    S 2 X %

     I %4

    ;i%1

     x2i ni

     N . x  6

    2%

    1.044

    5. 142% 12,8 (anuncios)2

    La desviación típica es:  S  X %!∂ S 2 X %∂ 12,8] 3,58 anuncios.La cuasivarianza se puede obtener a partir de la varianza:

    S *2

     X   %

     N 

     N . 1· S 2 X %

    5

    5. 1· 12,8% 16 (anuncios)2

    La cuasidesviación típica es:  S * X %∂ S *2 X    %∂ 16% 4 anuncios.

    (7) Obsérvese cómo la suma de las desviaciones de cada valor de la variable respecto a su media es

    cero A I %4

    ;i%1

    ( xi. x  6) · ni% 0B, tal y como se indicó en la primera propiedad de la media aritmética.

     ANÁLISIS DE DATOS UNIDIMENSIONALES   43

    7 ITES-Paraninfo

  • 8/19/2019 Analisis de Datos Unidimension

    21/45

    2.2.3. Coeficiente de variación de Pearson

    Es el cociente entre la desviación típica y la media aritmética de la variable es-

    tadística  X . Suele representarse por  g0( X ).

    g0( X )%

    S  X 

     x  6

    Cuanto más próximo a cero se encuentre el coeficiente de variación menor será

    la dispersión (relativa) y mejor la representatividad de la media aritmética.

    El coeficiente de variación es una medida de dispersión relativa. Por esta ra-

    zón, se utiliza para comparar la dispersión entre dos o más distribuciones, indepen-

    dientemente del valor de sus medias y de la unidad de medida de las variables.

    Ejemplo 2.16   Dos revistas especializadas en empleo,  A  y  B, han publicado una mediade ofertas de trabajo, que requieren alta cualificación, de   x  6 A%10 y   x  6 B%16 con

    varianzas, respectivamente, de  S 2 A% 4 y  S 2

     B% 9. ¿Qué revista presenta mayor dis-

    persión absoluta? ¿Y relativa?

    Solución

    La revista  B  presenta mayor dispersión absoluta que la revista  A, puesto que

    S 2 B% 9bS 2

     A%4. Ahora bien, para comparar correctamente la dispersión en ambas

    publicaciones (con medias distintas), debe calcularse el coeficiente de variación,medida de dispersión relativa, que mide el número de veces que la desviación típi-

    ca contiene a la media. Por tanto:

    g0( A)%S  A

     x  6 A%

    2

    10%0,2

    g0( B)%S  B

     x  6 B%

    3

    16%0,1875

    es decir, como  g0( B)a g0( A) puede concluirse que la dispersión relativa de la re-vista  B  es menor que la de la revista  A.

    2.3. Momentos

    A partir de la distribución de frecuencias es posible calcular una serie de valo-

    res específicos que la caracterizan. Estos valores son los denominados momentos.Los estadísticos obtenidos hasta ahora como media y varianza pueden conside-

    rarse casos particulares de los momentos. A continuación se estudian los principa-

    les detalles de los distintos tipos de momentos que pueden obtenerse, momentos

    ordinarios y centrales, así como la relación que puede establecerse entre ellos.

    44   ESTADÍSTICA DESCRIPTIVA Y NOCIONES DE PROBABILIDAD

    7 ITES-Paraninfo

  • 8/19/2019 Analisis de Datos Unidimension

    22/45

    2.3.1. Momentos ordinarios o respecto al origen

    Dada una variable estadística unidimensional ( X ) y su distribución de frecuen-

    cias, se define el momento ordinario (o respecto al origen) de orden  p, que se de-

    nota por  a p( X ), como:

    a p( X )%

     I 

    ;i%1

     x pini

     N 

    Los distintos momentos ordinarios son obtenidos al asignar valores a  p. Segui-

    damente se presentan algunos casos particulares:

    Momento ordinario de orden 0: Si  p% 0r a0( X )%

     I 

    ;i%1

     x0i ni

     N % 1

    Momento ordinario de orden 1: Si  p% 1r a1( X )%

     I 

    ;i%1

     x1i ni

     N % x  6

    Momento ordinario de orden 2: Si  p% 2r a2( X )%

     I 

    ;i%1

     x2i ni

     N 

    2.3.2. Momentos centrales o respecto a la media

    Dada una variable estadística unidimensional ( X ) y su distribución de frecuen-

    cias, se define el momento central (o respecto a la media) de orden  p, que se deno-

    ta por  m p( X ), como:

    m p( X )%

     I 

    ;i%1

    ( xi. x  6) pni

     N 

    Algunos casos particulares son:

    Momento central de orden 0: Si  p% 0rm0( X )%

     I 

    ;i%1

    ( xi. x  6)0ni

     N %

     I 

    ;i%1

    ni

     N % 1

    Momento central de orden 1: Si  p% 1rm1( X )%

     I 

    ;i%1

    ( xi. x  6)1ni

     N % 0

     ANÁLISIS DE DATOS UNIDIMENSIONALES   45

    7 ITES-Paraninfo

  • 8/19/2019 Analisis de Datos Unidimension

    23/45

    Momento central de orden 2: Si   p% 2rm2( X )%

     I 

    ;i%1

    ( xi. x  6)2ni

     N % S 2 x . Es

    decir, el momento central de orden 2 coincide con la varianza [véase Expre-

    sión (2.2)].

    2.3.3. Relación entre los momentos ordinariosy centrales

    Es posible expresar cualquier momento central en función de los momentos

    ordinarios. Para ello se recurre a la siguiente relación:

    m p%

     p

    ;k %0

    (.1)k 

    A pk B

    · ak 1 · a p.k    (2.4)

    Por ejemplo, la expresión del momento central de orden 2 en función de los

    momentos ordinarios se obtiene para  p% 2 (8).

    S 2 X zm2( X )% p%2

    ;k %0

    (.1)k A p% 2

    k   B · ak 1 · a p.k %

    % (.1)0A2

    0B · a01 · a2.0! (.1)1A2

    1B · a11 · a2.1! (.1)2A2

    2B · a21 · a2.2 V\\W\\\X V\\W\\\X V\\W\\\X 

    k %0   k %1   k %2

    Operando:

    S 2 X %m2( X )% a01 · a2.2 · a

    11 · a1! a

    21 · a0r S 

    2 X %m2( X )% a2.a

    21

    Sustituyendo el momento ordinario de orden 2 por la expresión que lo hace

    operativo, y recordando que el momento ordinario de orden 1 coincide con la

    media:

    S 2 X %m2( X )%

     I 

    ;i%1

     x2i ni

     N . x  62

    expresión para la varianza que coincide con la dada en (2.3).

    (8) Para calcular el número combinatorio A p

    k B se procede de la siguiente forma: A p

    k B% p!

    k !( p. k )!.

    46   ESTADÍSTICA DESCRIPTIVA Y NOCIONES DE PROBABILIDAD

    7 ITES-Paraninfo

  • 8/19/2019 Analisis de Datos Unidimension

    24/45

    Ejemplo 2.17   Expresar el momento central de orden 3 de la variable X  en función de

    los momentos ordinarios.

    Solución

    Recurriendo a la Expresión (2.4)

    m3( X )%

     p%3

    ;k %0

    (.1)k A p% 3

    k   B · ak 1 · a p.k % (.1)0A3

    0B · a01 · a3.0! V\\W\\\X 

    k %0

    ! (.1)1

    A

    3

    1

    B· a11 · a3.1! (.1)

    2

    A

    3

    2

    B· a21 · a3.2! (.1)

    3

    A

    3

    3

    B· a31 · a3.3

     V\\W\\\X V\\W\\\X V\\W\\\X 

    k %1   k %2   k %3

    Operando:

    m3( X )% a0

    1 · a3.0. 3 · a1

    1 · a3.1! 3 · a2

    1 · a3.2. a3

    1 · a3.3

    m3( X )% a3. 3 · a2 · a1! 2 · a3

    1

    Es decir:

    m3( X )%

     I 

    ;i%1

     x31ni

     N . 3 ·

     I 

    ;i%1

     x21ni

     N · x  6! 2 · x  63

    2.4. Medidas de forma

    En este apartado se va a comparar una determinada distribución de frecuencias

    con un modelo ideal, la distribución Normal (que tiene forma de campana). La

    comparación se centrará, básicamente, en dos aspectos fundamentales. Por una

    parte, en determinar si la distribución con la que se está trabajando es simétrica,

    como la normal, o bien es asimétrica, esto es, se encuentra desplazada hacia un la-

    do. Por otro parte, resulta también interesante conocer cómo es la distribución encuanto a su apuntamiento respecto al mencionado modelo ideal. Estas cuestiones

    pueden ser resueltas al representar gráficamente la distribución de frecuencias y

    observar su forma o, caso de no poder hacer esto, calculando las oportunas medi-

    das, a saber: asimetría y apuntamiento (curtosis).

     ANÁLISIS DE DATOS UNIDIMENSIONALES   47

    7 ITES-Paraninfo

  • 8/19/2019 Analisis de Datos Unidimension

    25/45

    2.4.1. Medidas de asimetría

    En la Figura 2.3 se ha representado la distribución normal [Gráfica (a)]. Puede

    observarse como ésta es una distribución simétrica respecto a la media, «al doblar

    la distribución por el eje de simetría ambas partes coinciden» [Figura 2.3, Gráfi-

    ca (b)]; en caso contrario se dice que la distribución es asimétrica.

    Eje simetría Eje simetría

     x = Me = Mo   x = Me = Mo

    Al «doblar» por el eje de

    simetría

    Gráfica (a) Gráfica (b)

    Figura 2.3.

    Para medir la asimetría de una distribución pueden utilizarse diferentes coefi-

    cientes, aunque es frecuente obtener el denominado coeficiente de asimetría (de

    Fisher), que se denota por  g1, y se define como el cociente entre el momento cen-tral de orden 3 y la desviación típica elevada al cubo. Por tanto, el coeficiente de

    asimetría de la variable  X  vendrá dado por:

    g1( X )%m3( X )

    S 3 X 

    %

     I 

    ;i%1

    ( xi. x  6)3 · ni

     N 

    S 3 X 

    de tal forma que si la distribución es asimétrica  g1( X ) tomará un valor distinto de

    cero, positivo o negativo, tanto mayor (en términos absolutos) cuanto más asimé-

    trica sea la distribución. Si  g1( X )% 0 la distribución puede ser simétrica o no, será

    necesario apoyarse en su representación gráfica (Figura 2.4); ahora bien, si la dis-

    tribución es simétrica el coeficiente de asimetría de Fisher siempre será cero.

    Puede observarse que, cuando los valores de la variable más frecuentes son los

    mayores y la distribución presenta una cola a la izquierda, ésta es asimétrica nega-

    tiva. En cambio, cuando los valores más comunes de la distribución son los meno-res, cola hacia la derecha, ésta es asimétrica positiva.

    En distribuciones unimodales y campaniformes, como las representadas en la

    Figura 2.4, se cumple que  x  6aMeaMo cuando la distribución es asimétrica ne-

    gativa y MoaMea x  6 cuando es asimétrica positiva.

    48   ESTADÍSTICA DESCRIPTIVA Y NOCIONES DE PROBABILIDAD

    7 ITES-Paraninfo

  • 8/19/2019 Analisis de Datos Unidimension

    26/45

     x = Me = Mo

    Mo x

    Mo   x

    Distribución asimétrica negativa;cola más larga a la izquierda de la moda

    ( ) < 0 g X 1

    Distribución simétrica( ) = 0 g X 1

    Distribución asimétrica positiva;cola más larga a la derecha de la moda

    ( ) > 0 g X 1

    Figura 2.4.

    Ejemplo 2.18   A partir de las calificaciones en estadística de 50 estudiantes universita-rios de primer curso se han obtenidos los siguientes estadísticos:

     I 

    ;i%1

     xini% 345 I 

    ;i%1

     x2

    i ni% 2.553 I 

    ;i%1

     x3

    1ni% 19.821

    ¿Es simétrica la distribución de las calificaciones obtenidas en esta asignatura?

    Solución

    El coeficiente de asimetría se define como el cociente entre el momento central

    de tercer orden y el cubo de la desviación típica.

    En primer lugar se calculará  x  6 y  S  X  y a continuación  m3( X ) a partir de la expre-

    sión dada en la solución del Ejemplo 2.17.

     x  6%

     I 

    ;i%1

     xini

     N %

    345

    50% 6,9

    S  X %!∂ S 2 X %J   I 

    ;i%1

     x2

    i   · ni

     N . x  6

    2%J 

    2.553

    50. 6,92 r S  X % 1,85741756] 1,857

    m3( X )%

     I 

    ;i%1

     x3

    i ni

     N . 3 ·

     I 

    ;i%1

     x2

    i ni

     N ·  x  6! 2 · x  63%

    19.821

    50. 3 ·

    2.553

    50· 6,9! 2·6,93

     ANÁLISIS DE DATOS UNIDIMENSIONALES   49

  • 8/19/2019 Analisis de Datos Unidimension

    27/45

    Resolviendo, m3( X )%.3,504. Por tanto, g1( X )%m3( X )

    S 3 X %

    .3,504

    1,8573  ].0,547.

    Es decir, la distribución de las calificaciones obtenidas en la asignatura de esta-

    dística es asimétrica negativa, como puede verse en la Figura 2.6, en el Ejem-

    plo 2.19, donde se representa gráficamente.

    2.4.2. Medidas de apuntamiento (curtosis)

    Las medidas de apuntamiento analizan si una distribución de frecuencias es

    más apuntada o menos al comparar ésta con una distribución tipo, la distribución

    Normal (véase Figura 2.5) con su misma media y varianza.

    El hecho de que una distribución sea muy apuntada, o poco, dependerá de la

    cantidad de valores de la variable que se encuentren en torno a la zona central y se

    agrupen alrededor de la media aritmética. Una medida que permite conocer este

    grado de apuntamiento es el coeficiente de curtosis, que se denota por  g2, y que se

    define, en este caso para una variable  X , como:

    g2( X )%m4( X )

    S 4 X 

    . 3

    En la expresión anterior se resta el valor 3, puesto que en la distribución Nor-

    mal, que se toma como referencia a la hora de realizar la comparación, m4S 4% 3.

    Si  g2( X )b0, la distribución es leptocúrtica, más apuntada que la Normal.

    g2( X )%0, la distribución es mesocúrtica, igual de apuntada que la Normal.

    g2( X )a0, la distribución es platicúrtica, más achatada que la Normal.

    Leptocúrtica

    Mesocúrtica

    Platicúrtica

    Figura 2.5.

    Ejemplo 2.19   En la Figura 2.6 se representa la distribución de frecuencias correspon-

    diente al Ejemplo 2.18.

    50   ESTADÍSTICA DESCRIPTIVA Y NOCIONES DE PROBABILIDAD

    7 ITES-Paraninfo

  • 8/19/2019 Analisis de Datos Unidimension

    28/45

    2 3 4 5 6 7 8 9 10

    Calificaciones

         N  .      º    a 

         l   u    m

       n   o    s 

    Distribución

     Normal

    Figura 2.6.

    ¿Qué puede decir acerca de su apuntamiento o aplastamiento? ¿Qué coeficiente

    de curtosis cabe esperar?

    Solución

    Sobre el diagrama de barras de las calificaciones obtenidas en estadística porlos 50 estudiantes universitarios consultados, se ha dibujado la distribución normal

    ajustada a esta distribución de media ( x  6% 6,9) y desviación típica (S  x % 1,857). Al

    comparar ambas se puede intuir que la distribución de las calificaciones es ligera-

    mente más apuntada que la normal, por ello cabe esperar un coeficiente de curtosis

    positivo (leptocúrtica).

    2.5. Transformaciones lineales y tipificaciónde variables

    Supóngase que, en principio, se está trabajando con la distribución de frecuen-

    cias de una variable estadística  X , de la que se ha obtenido una serie de estadísticos

    (media, varianza, etc,) y que por cualquier circunstancia es necesario pasar a traba-

     jar con otra variable estadística  Y , que se obtiene a partir de la anterior como resul-

    tado de:

    — Sumar (o restar) una constante  a a todos los valores de la variable estadísti-

    ca   X , es decir, de efectuar sobre ésta un cambio de origen:   Y % X ! a   o

    Y % X . a.

     ANÁLISIS DE DATOS UNIDIMENSIONALES   51

    7 ITES-Paraninfo

  • 8/19/2019 Analisis de Datos Unidimension

    29/45

    — Multiplicar (o dividir) por una constante  b  todos los valores de la variable

     X , es decir, de realizar sobre  X  un cambio de unidad (o escala):  Y % b · X  o

    Y % X 

    b.

    — Practicar sobre la variable  X   tanto un cambio de unidad como de origen,

    por ejemplo: Y % b · X ! a.

    Pues bien, para obtener aquellas mismas medidas conocidas para la nueva va-

    riable  Y  no es necesario crear su distribución de frecuencias y realizar de nuevo to-

    dos los cálculos que se efectuaron en su momento para la variable  X . Es suficiente

    con conocer cómo afectan los cambios de origen y unidad a los distintos estadísti-

    cos y recurrir a la transformación lineal empleada para obtener   Y   a partir de  X 

    (véase Tabla 2.1).

    En la Tabla 2.1, y para algunas transformaciones lineales tipo, a partir de los

    estadísticos  x  6

    ,  S 2

     x,  g0( X ),  g1( X ),  g2( X ) y  m p( X ) de la variable estadística  X , que sesuponen conocidos, se muestran estas mismas medidas para la variable  Y .

    Tabla 2.1.

    Transformación

    Cambio unidad Cambio origen Cambio origen y unidad

    Y % b · X Y % X ! a Y % b · X ! a

         E   s     t    a 

         d      í   s     t      i   c    o 

          (     m   e 

         d      i     d    a 

         )  

    Media  y  6% b · x  6   y  6% x  6! a  y  6% b · x  6! a

    (depende) (depende)

    Varianza  S 2Y % b

    2 · S 2 X    S 2

    Y % S 2

     X  S 2Y % b2 · S 2 X (depende) (no depende)

    Coeficiente   g0(Y )% g0( X )   g0(Y )%S  X 

     x  6! a   g0(Y )%b · S  X 

    b · x  6! aVariación   (no depende) (depende)

    Coeficiente   g1(Y )% g1( X )   g1(Y )% g1( X ) g1(Y )% g1( X )Asimetría   (no depende) (no depende)

    Coeficiente   g2(Y )% g2( X )   g2(Y )% g2( X ) g2(Y )% g2( X )Curtosis   (no depende) (no depende)

    Momento   m p(Y )%b p · m p( X )   m p(Y )%m p( X ) m p(Y )%b

     p · m p( X )central orden p   (depende) (no depende)

    Ejemplo 2.20   Determinar la media, varianza y coeficiente de variación de Pearson de

    la variable estadística  Y , que es obtenida como  Y %1

    4 X ! 2, sabiendo que  x  6% 17

    y  S 2 X % 4.

    52   ESTADÍSTICA DESCRIPTIVA Y NOCIONES DE PROBABILIDAD

    7 ITES-Paraninfo

  • 8/19/2019 Analisis de Datos Unidimension

    30/45

    Solución

    La variable  Y  es obtenida al aplicar, sobre la variable  X , un cambio de escala

    (b% 1/ 4) y un cambio de origen (a% 2).La media depende tanto de los cambios de origen como de unidad, ambos de-

    ben ser tenidos en cuenta a la hora de calcular la media de la variable  Y , así:

     y  6% b · x  6! a%1

    4· 17! 2r y  6% 6,25

    La varianza (en general todos los momentos centrales) únicamente depende de

    los cambios de unidad, siendo invariante ante cambios de origen, por tanto:

    S 2Y % b2 · S 2 X %A

    1

    4B2

    · 4 r S 2Y % 0,25

    El coeficiente de variación de Pearson es invariante ante cambios de unidad,

    pero no a los de origen; de forma que caso de existir este último queda afectado

    por ambos.

    g0(Y )%S Y 

     y  6%

    b · S  X 

    b · x  6! a%

    (1/ 4 ) · 2

    (1/ 4)·17! 2r g0(Y )% 0,08

    Por otra parte,   tipificar una variable   consiste en obtener, a través de una

    transformación lineal «especial», otra variable con media y desviación típica (o va-rianza) prefijada. Esto es, tipificar una variable  X , con media  x  6 y desviación típica

    S  X , consiste en transformar ésta en otra  Z   con media   z  6   y desviación típica  S  Z . La

    variable  Z  se dice que es la variable tipificada de  X .

    En general, si el objetivo es conseguir una variable tipificada   Z   con media

     z  6%m  y S  Z % k , la transformación lineal a realizar será:

     Z % k ·

    A

     X . x  6

    S  X 

     B!m

    El caso de tipificación más utilizado se conoce como  tipificación estándar, y

    consiste en transformar la variable  X  en otra variable  Z , con media 0 y desviación

    típica 1. En este caso, la transformación lineal consiste en restar al valor de la va-

    riable la media y dividir entre la desviación típica, de esta forma, la variable resul-

    tante  Z , será:

     Z % X . x  6

    S  X con   z  6% 0 y   S  Z % 1

    Si el coeficiente de variación de Pearson es empleado para comparar la disper-

    sión entre dos o más distribuciones, la tipificación resulta útil cuando se quiere

    comparar individuos o cantidades que en principio no son comparables, bien por-

    que provienen de poblaciones diferentes, bien porque aluden a conceptos distintos.

     ANÁLISIS DE DATOS UNIDIMENSIONALES   53

    7 ITES-Paraninfo

  • 8/19/2019 Analisis de Datos Unidimension

    31/45

    En este sentido, los valores tipificados que son obtenidos indican la distancia a la

    que se encuentran cada uno de ellos respecto a la media, distancia que es medida

    en términos de desviaciones típicas. Por tanto, fácilmente puede compararse la po-

    sición relativa de cada valor.

    Ejemplo 2.21   En la sección de pintura de un taller de reparaciones trabajan tres perso-nas. Sus salarios son de 900, 950 y 1.000  e. Obtener los salarios tipificados a me-

    dia cero y desviación típica 1.

    Solución

    La media y desviación típica de los salarios será:

     x  6%

    3

    ;i%1

     xi

     N %

    900! 950! 1.000

    3r  x  6% 950

    S  X %!J   3

    ;i%1

     x2

    i

     N . x  6

    2%J 

    9002!9502! 1.0002

    3. 9502 r S  X ] 40,825

    Una vez obtenidas  x  6 y  S  X  pueden determinarse los valores tipificados:

     z1% x1. x  6

    S  X %

    900. 950

    40,825r  z1].1,225

     z2% x2. x  6

    S  X %

    950. 950

    40,825r  z2] 0

     z3% x3. x  6

    S  X %

    1.000. 950

    40,825r  z3] 1,225

     x1   x2

    S  z    S  z 

     x3

     –1,225 =  z 1   z  =  z 2 = 0 –1 1   z 3 = 1,225

    Figura 2.7.

    Puede comprobarse que   z  6%0 y  S  Z %1. Los valores   z1  y   z3, que se correspon-

    den con los salarios de 900 y 1.000 e, respectivamente, se encuentran a 1,225 des-

    viaciones típicas de la media, es decir, se encuentran a la misma distancia de ésta.

    54   ESTADÍSTICA DESCRIPTIVA Y NOCIONES DE PROBABILIDAD

    7 ITES-Paraninfo

  • 8/19/2019 Analisis de Datos Unidimension

    32/45

    2.6. Medidas de concentración: curva de Lorenze índice de Gini

    Las medidas de concentración, que no se deben confundir como opuestas a las

    medidas de dispersión, indican el mayor o menor grado de igualdad (o equidistri-bución) en el reparto total de los valores de la variable objeto de estudio.

    La concentración puede determinarse gráficamente a través de la curva de

    Lorenz. Una medida analítica para la concentración es el conocido como índice de

    Gini.

    2.6.1. Curva de Lorenz

    Mediante la curva de Lorenz (véase Figura 2.8) se relaciona el porcentaje acu-mulado de frecuencias ( pi) —hogares, familias, individuos, trabajadores, indus-

    trias, etc.—, que se representa en el eje de abscisas, con el porcentaje acumulado

    del volumen total de la variable (qi) —ingresos, ventas, renta, producto interior

    bruto, etc.— que le corresponde, que se representa en el eje de ordenadas. Dicha

    curva, que comienza en el punto (0, 0) y finaliza en el (100, 100), es creciente por

    representar porcentajes acumulados y se encuentra situada por debajo de la bisec-

    triz al ser  pin qi  O i.

    2.6.2. Índice de Gini

    El índice de Gini, que se denota por  IG, es aproximadamente el cociente entre

    el área comprendida entre la bisectriz del primer cuadrante y la curva de Lorenz y

    el triángulo  OPQ (véase Figura 2.8).

    O   P 

    Q

    qi

     pi

    (% acumulado de frecuencias)

         (       % 

       a    c    u    m   u 

         l   a      d 

       o     v 

       o      l   u 

       m   e    n

         t    o     t    a 

         l    v    a    r

         i   a      b      l   e      )  

    Bisectriz

    Curva Lorenz

    Figura 2.8.

     ANÁLISIS DE DATOS UNIDIMENSIONALES   55

    7 ITES-Paraninfo

  • 8/19/2019 Analisis de Datos Unidimension

    33/45

    A nivel práctico suele utilizarse, como aproximación, la siguiente expresión:

     IG%

     I .1

    ;i%1

    ( pi. qi)

     I .1

    ;i%1

     pi

    La ventaja del índice de Gini es que proporciona una medida cuantitativa de laconcentración. Éste puede tomar valores comprendidos entre 0 y 1, es decir,0m IGm 1, de tal forma que si   IG% 0 existe equidistribución (o no concentra-ción), produciéndose una concentración máxima cuando  IG%1. Por tanto, cuantomás próximo a cero se encuentre el índice de Gini, menor será el grado de concen-tración.

    Relacionando curva de Lorenz e índice de Gini (véase Figura 2.9), cuanto me-nor sea este último, menor será el área comprendida entre la bisectriz y la curva deLorenz. En el caso que la concentración sea mínima ( IG%0), la curva de Lorenzcoincide con la bisectriz, lo que indica que a un porcentaje acumulado de indivi-duos le corresponde ese mismo porcentaje acumulado del volumen total de la va-riable ( pi%qi O i).

    O O O

    Q Q Q

     P P P  IG = 0 0 < < 1 IG IG = 1

    Figura 2.9.

    En caso de máxima concentración ( IG%1), la curva de Lorenz coincide con el

    triángulo  OPQ. En este caso extremo, un solo individuo, el último, concentra elvolumen total de variable, no encontrándose nada en manos de los restantes( N . 1) individuos.

    2.6.3. Haciendo operativo el índice de Gini

    y la curva de Lorenz

    Para poder representar la curva de Lorenz y obtener el índice de Gini, es nece-sario calcular los porcentajes acumulados de individuos y del volumen total de la

    56   ESTADÍSTICA DESCRIPTIVA Y NOCIONES DE PROBABILIDAD

    7 ITES-Paraninfo

  • 8/19/2019 Analisis de Datos Unidimension

    34/45

    variable. Para ello, lo más práctico consiste en añadir columnas a la tabla de fre-

    cuencias original, tal y como se muestra en la Tabla 2.2.

    Tabla 2.2.

    Volumen   Volumenacumulado

    Porcentajeacumulado

    individuos

    Porcentajeacumulado

    de volumen

    Diferencia

     xi   ni   N i   mi( a)  M i   pi%

     N i

     N · 100   qi%

     M i

     M · 100   pi. qi

     x1   n1   N 1   m1   M 1   p1% N 1

     N ·100   q1%

     M 1

     M · 100   p1. q1

     x2   n2   N 2   m2   M 2   p2% N 2

     N ·100   q2%

     M 2

     M · 100   p2. q2

    ñ ñ ñ ñ ñ ñ ñ ñ

     x I    n I    N  I (b) m I    M  I 

    (c)  p I %100   q I %100   p I .q I %0

    (a) Si no es facilitada información sobre el volumen (mi), por ejemplo masa salarial, ésta puede ser estimada de la

    siguiente forma:  mi% xini .

    (b) Total de individuos  N  I % N .

    (c) Volumen total de la variable  M  I % M .

    Ejemplo 2.22   Las horas de formación recibidas a lo largo del último año por los 40

    directivos de distinto nivel, de la filial española de una compañía multinacional, se

    recogen en la siguiente tabla.

    Horas formación Número directivos

     xi   ni

    20 20

    30 10

    40 5

    50 5

    Representar la curva de Lorenz y calcular el índice de Gini.

    Solución

    Confeccionando una tabla similar a la Tabla 2.2.

     ANÁLISIS DE DATOS UNIDIMENSIONALES   57

    7 ITES-Paraninfo

  • 8/19/2019 Analisis de Datos Unidimension

    35/45

     xi   ni   N i   mi% xi ni   M i   pi% N i

     N · 100   qi%

     M i

     M  I · 100

    ( a)  pi.qi

    20 20 20 400 400 50 34,78 15,22

    30 10 30 300 700 75 60,87 14,13

    40 5 35 200 900 87,5 78,26 9,24

    50 5   40(b) 250   1.150(c) 100 100 0

    (a) Los resultados han sido redondeados a dos números decimales para facilitar los cálculos.(b) Total directivos.(c) Total de horas dedicadas a formación de directivos.

    Representando el punto (0, 0) y los distintos pares ( pi,  qi), esto es, ( p1% 50,

    q1%

    34,78); ( p2%

    75, q2%

    60,87); ( p3%

    87,5, q3%

    78,26); la curva de Lorenz seobtiene al unir los puntos mediante segmentos.

    100,00

    90,00

    80,00

    70,00

    60,00

    50,0040,00

    30,00

    20,00

    10,00

    (0,0) 60604020 100

    % acumulados de individuos

         % 

       a    c    u    m   u 

         l   a      d 

       o     v 

       o      l   u 

       m   e    n

          h   o    r   a    s 

    Curva de Lorenz

    (50; 34,78)

    (75; 60,87)

    (87,5; 78,26)

    (100; 100)

    Figura 2.10.

    En cuanto al índice de Gini:

     IG%

    4.1

    ;i%1

    ( pi.qi)

    4.1

    ;i%1

    %( p1.q1)!( p2.q2)!( p3.q3)

     p1! p2! p3%

    15,22!14,13!9,24

    50!75!87,5]0,1816

    es decir, el número de horas de formación destinadas a los diferentes niveles direc-

    tivos en esta filial están relativamente bien repartidas.

    58   ESTADÍSTICA DESCRIPTIVA Y NOCIONES DE PROBABILIDAD

    7 ITES-Paraninfo

  • 8/19/2019 Analisis de Datos Unidimension

    36/45

    Cuestiones de autoevaluación

    2.1  En un total de 10 empresas de un determinado sector de actividad se ha observadoel número de empleados, obteniéndose los valores siguientes: 15, 21, 22, 26, 32,

    35, 40, 50, 54, 1.000, donde  x  6% 129,5 y Me%33,5.

    ¿Qué medida de posición es preferible utilizar como resumen del conjunto de

    datos de la variable?

    a)   La media aritmética, porque es la medida de posición central por excelencia y

    siempre que se conozca se debe utilizar ésta.

    b)   La mediana, porque como existe un valor muy alejado del resto, la media es

    poco representativa del conjunto de valores de la distribución.c)   Es indiferente.

    d)   Ninguna de las anteriores es correcta.

    2.2   Se estudian los salarios que perciben los empleados de una empresa. El menor de

    los salarios es de 600  e/ mes y el mayor de 2.400  e/ mes. ¿Cuál de los siguientesresultados puede ser cierto?

    a)   x  6% 1.200 e,  S  X % 0  e

    b)   x  6% 1.000 e,  S  X % 200 e

    c)   x  6% 500  e,  S  X % 200 e

    d)   x  6% 1.200 e,  S  X %.150 e

    2.3   Se invierten 12.000 e a plazo fijo durante dos años. El primer año el capital se in-

    crementa en un 3% y el segundo en un 12% acumulativo. El interés o incremento

    medio anual es:

    a)   7,5 %.b)   7,406 %

    c)   4,8 %

    2.4   Si el coeficiente de asimetría de una variable  X  es 4, y se realiza una transforma-

    ción lineal de la forma   Y % 50! 60 X , ¿cuál es el coeficiente de asimetría de la

    nueva variable?

    a)   El coeficiente de asimetría vale 24.

    b)   El coeficiente de asimetría vale 4.

    c)   El coeficiente de asimetría vale 74.

    d)   No se puede obtener el coeficiente de asimetría de  Y  a partir de la información

    de la que se dispone.

     ANÁLISIS DE DATOS UNIDIMENSIONALES   59

    7 ITES-Paraninfo

  • 8/19/2019 Analisis de Datos Unidimension

    37/45

    2.5   Supóngase una variable estadística  X   tal que  x  6% 31 y  S 2 X % 35. Si se realizase un

    cambio de variable aplicando la transformación  Y % 10! 5 X , entonces:

    a)   y  6% 165 y  S 2Y % 875

    b)   y  6% 165 y  S 2Y % 35

    c)   y  6% 155  y S 2

    Y % 875d)   y  6% 155 y  S 2Y % 35

    2.6   Una empresa de componentes electrónicos dispone de tres plantas de producción

    (A, B y C) con 100, 150 y 200 operarios de fabricación respectivamente. Si el nú-

    mero medio mensual de unidades producidas por cada empleado en la planta A es

    de 2.000, en la planta B de 2.500 y en la planta C de 1.750, ¿cúal es el número

    medio mensual de unidades producidas por cada operario para el global de la em-

    presa?

    a)2.000! 2.500! 1.750

    100! 150! 200] 13,89

    b)(2.000 · 100)! (2.500 · 150)! (1.750 · 200)

    2.000! 2.500! 1.750% 148

    c)100! 150! 200

    2.000! 2.500! 1.750] 0,072

    d)(2.000 · 100)! (2.500 · 150)! (1.750 · 200)

    100! 150! 200] 2.055,56

    2.7   Dados los siguientes momentos referentes a una variable estadística:

    a1% 63,   a2% 4.219,   a3% 296.867,   m3%.430,   m4% 110.024

    Se puede decir que la distribución de frecuencias es:

    a)   Simétrica y leptocúrtica.

    b)   Asimétrica por la izquierda y platicúrtica.

    c)   Asimétrica por la derecha y platicúrtica.

    d)   Asimétrica por la izquierda y leptocúrtica.

    2.8   Para que una distribución simétrica con desviación típica igual a 3 sea mesocúrti-

    ca, ¿cuál debe ser el valor del momento central de orden 4?

    a)   Igual a 243.b)   Mayor a 243.

    c)   Menor a 243.

    d)   No se puede calcular el valor de m4.

    60   ESTADÍSTICA DESCRIPTIVA Y NOCIONES DE PROBABILIDAD

    7 ITES-Paraninfo

  • 8/19/2019 Analisis de Datos Unidimension

    38/45

    2.9   Dada una variable estadística X  con media  x  6% 25 y desviación típica  S  X % 3, ¿quétransformación debería realizarse para que la variable tipificada tuviese media 5 ydesviación típica 2?

    a)   Z % X . 25

    3

    b)   Z % X 

    5

    c)   Z % 2 ·A X . 25

    3   B! 5d)   Únicamente pueden obtenerse variables tipificadas con media cero y desvia-

    ción típica 1.

    2.10   Si el índice de Gini vale 1, se puede afirmar que:

    a)   No existe concentración, los valores de las variables están equidistribuidos.b)   La curva de Lorenz coincide con la diagonal principal.c)   La curva de Lorenz coincide con los lados del cuadrado, formando un triángulo.d)   Tanto la opción a) como la c) son ciertas.

    E jercicios propuestos

    2.1   Se ha preguntado a 9 empresas por el número de personas que emplean, siendo susrespuestas:

    50, 56, 60, 75, 80, 85, 88, 90, 100

    Calcular la media aritmética, mediana y moda.

    2.2  A 15 personas que guardaban cola para entrar al museo de «El Prado» se les hapreguntado por el número de veces que han visitado previamente la pinacoteca,siendo las respuestas obtenidas:

    0, 1, 1, 2, 0, 5, 3, 2, 4, 4, 0, 1, 0, 0, 1

    Calcular la media aritmética, mediana y moda.

    2.3  Cierta empresa ha incrementado el salario a sus empleados en los últimos cinco

    años en un 1, 2, 3, 4 y 5% acumulativo. Si un trabajador empezó con un salario1.000 e, calcular:

    a)   El incremento medio anual aplicado en estos cinco años.b)   El salario a cobrar cinco años después.

     ANÁLISIS DE DATOS UNIDIMENSIONALES   61

    7 ITES-Paraninfo

  • 8/19/2019 Analisis de Datos Unidimension

    39/45

    2.4   Dada la siguiente tabla estadística:

    Intervalo   ni

    [10 , 20[ 9

    [20 , 140[ 31

    [140 , 180] 10

    Calcular la media, el intervalo donde está contenida la mediana y el intervalo modal.

    2.5   En la siguiente distribución de frecuencias se recoge el consumo de gas (en m3),

    entre los meses de diciembre-enero, de una comunidad de 100 viviendas.

    Consumo de gas Viviendas

    [5 , 9[ 5[9 , 15[ 25

    [15 , 25[ 50

    [25 , 50[ 15

    [50 , 80] 5

    Obtener la media aritmética, el intervalo donde está contenida la mediana y el

    intervalo modal de la distribución de consumo de gas.

    2.6   Las siguientes cuatro muestras de datos tienen la misma media:

    a)   4 4 4 4 4 4 4

    b)   1 1 1 1 1 3 20

    c)   1 2 3 4 5 6 7

    d)   1 1 2 4 4 8 8

    Ordenar el posible valor de sus varianzas (dispersión) de menor a mayor, pero sin

    realizar ningún cálculo. Después comprobar el resultado calculando dichas varianzas.

    2.7   Inspeccionadas un total de 40 planchas, el número de defectos (obstrucción del

    pulverizador, funcionamiento incorrecto del termostato, etc.) encontrados por el

    departamento de calidad ha sido:

    Defectos Planchas

    0 10

    1 25

    2 4

    3 1

    Obtener el número medio de defectos y la varianza de estos.

    62   ESTADÍSTICA DESCRIPTIVA Y NOCIONES DE PROBABILIDAD

    7 ITES-Paraninfo

  • 8/19/2019 Analisis de Datos Unidimension

    40/45

    2.8   El propietario de una tienda de electrodomésticos, tras un descenso en las ventas

    del último trimestre, observa el número de clientes que entran en su establecimien-

    to a lo largo de quince días:

    5, 8, 4, 2, 3, 5, 7, 6, 3, 4, 4, 9, 8, 5, 5

    Calcular la media y la desviación típica.

    2.9   Una Universidad tiene dos bibliotecas. La información disponible de la variable

    «Gasto dedicado a la compra de libros» entre los años 1998 y 2002, en cada una de

    las bibliotecas, ha sido el siguiente:

    Biblioteca A

    Gasto (miles de euros) 7 8 10 15 20

    Biblioteca B

    a1%12 (miles de euros)   a2% 159 (miles de euros)2

    ¿En cuál de las dos bibliotecas ha habido menor dispersión en el gasto destinado a

    la compra de libros?

    2.10   Los directores de producción y recursos humanos han estudiado el absentismo la-

    boral en dos células de producción. En la célula A el número medio de horas perdi-

    das resultó ser de 120 horas, con una desviación típica de 36 horas. En la célula B

    el absentismo medio se cuantificó en 80 horas de trabajo, con una desviación típica

    de 30 horas.

    ¿En qué célula de producción hay mayor dispersión relativa en el número de

    horas perdidas?

    2.11   Una compañía, perteneciente a un grupo de grandes empresas (Grupo A), presentaun beneficio anual de 3,5622 millones de euros. Asimismo, el beneficio anual de

    un comercio, perteneciente a una agrupación de pequeñas empresas (Grupo B), es

    de 32.280 euros. Si las medias y desviaciones típicas de los beneficios anuales de

    las empresas pertenecientes a cada uno de esos grupos han sido:

    Grupo A Grupo B

     x  6 A%3,1580 millones de euros   x  6 B%25.420  e

    S  A%0,5389 millones de euros   S  B%6.860  e

    Cuál de las dos empresas presenta un beneficio anual relativo mayor, ¿la com-

    pañía o el comercio?

     ANÁLISIS DE DATOS UNIDIMENSIONALES   63

    7 ITES-Paraninfo

  • 8/19/2019 Analisis de Datos Unidimension

    41/45

    2.12   Se tiene información acerca del número de goles por partido marcados en dos ligas

    europeas:

    Liga de fútbol A: Media 3,5 goles y varianza 1,34.

    Liga de fútbol B: Media de 2,5 goles y varianza 1,88.

    a)   ¿En qué liga europea hubo una mayor dispersión relativa?b)   Si en un partido jugado en la liga A el resultado fue 2-0 y en otro partido de la

    liga B el resultado fue 1-1. ¿En qué partido el número de goles fue relativa-

    mente mayor?

    2.13   Dos empresas del sector químico, A y B, han recogido información sobre el núme-

    ro de accidentes laborales al mes con baja laboral que se ha producido durante un

    determinado periodo de tiempo, obteniendo los siguientes resultados:

    Empresa A:   x  6 A% 9   S 2

     A% 2,2857

    Empresa B:   x  6 B% 12   S  B% 1,51

    Si durante un mes determinado, en la empresa A ha habido 7 accidentes con baja y

    en la empresa B se han producido 10 accidentes con baja, ¿en qué empresa el nú-

    mero de accidentes con baja ha sido relativamente mayor?

    2.14   Expresar el momento central de orden 4 en función de los momentos ordinarios.

    2.15   A partir de la siguiente distribución de frecuencias:

     xi   ni

    1 2

    2 5

    3 10

    4 5

    5 2

    Obtener los coeficientes de asimetría y curtosis, y decir cómo es la forma de la dis-

    tribución.

    2.16   Para una distribución se sabe que x  6% 25,  S 2 X % 9 obtener la media, varianza y coe-

    ficiente de variación de la variable  Y   si:

    a)   Y % X ! 4

    b)   Y % 2 X c)   Y % 2 X ! 4

    d)   Y %2 X . 4

    2

    64   ESTADÍSTICA DESCRIPTIVA Y NOCIONES DE PROBABILIDAD

    7 ITES-Paraninfo

  • 8/19/2019 Analisis de Datos Unidimension

    42/45

    2.17   De un estudio realizado en dos poblaciones acerca del tiempo diario (en minutos)

    que los niños de 4 a 10 años dedican a ver la televisión, se han obtenido los si-

    guientes resultados: en la población A dedican una media diaria de 90 minutos con

    una varianza de 144, mientras que en la población B la media diaria es de 75 minu-

    tos con una varianza de 100.

    a)   ¿En qué población es mayor la dispersión relativa?

    b)   Un niño de la población A dedica 82 minutos diarios a ver televisión y otro de

    la población B dedica 75 minutos. En términos relativos, ¿qué niño dedica

    más tiempo a ver televisión?

    2.18   La evolución de la variable  X : «Siniestralidad de automóviles (millones de euros)»

    en los últimos 6 años ha sido, aproximadamente, la que se recoge a continuación:

    Año Siniestralidad

    1995 4.000

    1996 4.500

    1997 4.750

    1998 5.000

    1999 5.250

    2000 6.000

    Calcular la media, desviación típica y coeficiente de variación de Pearson de la va-

    riable  X  a partir del cálculo de dichos estadísticos para la variable  U % X . 3.000

    500.

    2.19   En una empresa hay una sección dedicada a la fabricación de un tipo especial depiezas. La variable  X : «Número de piezas fabricadas al día por un trabajador», pre-

    senta los siguientes momentos:

    a1%140   m2( X )%225   m3( X )%.830   m4( X )%147.830

    Asimismo, el «Salario diario de los trabajadores» (variable   Y ) se compone de 21

    euros fijos más una prima de 30 céntimos por pieza producida. Determinar:

    a)   Los coeficientes de asimetría y apuntamiento de la variable  X , comentando laforma aproximada que tendrá la distribución de esta variable.

    b)   La media y la desviación típica de la variable   Y . ¿Qué forma tendrá la distri-

    bución de esta variable? Justifica las respuestas.

     ANÁLISIS DE DATOS UNIDIMENSIONALES   65

    7 ITES-Paraninfo

  • 8/19/2019 Analisis de Datos Unidimension

    43/45

    2.20   Observar las curvas de Lorenz representadas a continuación:

    A B

    q q

     p p

    ¿Cuál de las dos situaciones representa una distribución más equitativa?

    Problemas resueltos

    2.1   Una empresa de plásticos se dedica a la realización de piezas para vehículos de una

    determinada marca. La distribución del número de piezas que realizan los 250 tra-

    bajadores en una hora es la siguiente:

    Número de piezas Trabajadores

    10 26

    11 34

    12 60

    13 62

    14 4015 28

    a)   Calcular el número medio de piezas terminadas en una hora, la mediana y la

    moda.

    b)   Determinar el primer y el tercer cuartil.

    c)   Obtener la varianza de las piezas, la desviación típica y el coeficiente de va-

    riación de Pearson.

    2.2   Un grupo de expertos lleva a cabo una cata de aceites. A continuación se facilita la

    distribución de frecuencias correspondiente a las calificaciones obtenidas por los

    aceites de oliva procedentes de 150 almazaras:

    66   ESTADÍSTICA DESCRIPTIVA Y NOCIONES DE PROBABILIDAD

    7 ITES-Paraninfo

  • 8/19/2019 Analisis de Datos Unidimension

    44/45

    Puntuación Número de aceites

    [0 , 4[ 40

    [4 , 5[ 12

    [5 , 7[ 67

    [7 , 9[ 22

    [9 , 10] 9

    a)   Calcular la calificación media obtenida en la cata por el conjunto de los acei-

    tes evaluados.

    b)   Obtener los intervalos donde están contenidas la mediana y la moda.

    c)   Calcular la desviación típica de la distribución y el coeficiente de variación de

    Pearson.

    d)   Explicar la forma de la distribución de frecuencias sabiendo que los coeficien-tes de asimetría y curtosis son respectivamente  g1%.0,2 y  g2%.0,88.

    2.3   Sea  X   la variable estadística que expresa el salario mensual de los trabajadores de

    una empresa de la construcción (datos en euros), y de la que es conocida su media

     x  6%1.008 y su varianza  S 2 X % 90.000.

    Si se definen las siguientes variables:

    Y : «Deducción en las nóminas de los trabajadores para la Seguridad Social y

    Mutualidad». Esta consiste en deducir un 9,5% del salario más 15 euros fijos.

     Z : «Deducción en las nóminas de los trabajadores por retenciones del I.R.P.F».

    Esta consiste en deducir un 18% del salario.

    Calcular la media y la varianza de las variables estadísticas  Y   y  Z . ¿Cuál presenta

    una mayor dispersión relativa?

    2.4  El volumen de ventas mensuales de 30 empresas se distribuye como sigue:

    Ventas mensuales Número Volumen

    (en miles de euros) de empresas de ventas

    [15 , 20[ 8 140

    [20 , 25[ 7 145

    [25 , 30[ 5 130

    [30 , 35[ 4 125

    [35 , 40] 6 210

    Obtener el índice de Gini y la curva de Lorenz.

     ANÁLISIS DE DATOS UNIDIMENSIONALES   67

    7 ITES-Paraninfo

  • 8/19/2019 Analisis de Datos Unidimension

    45/45

    Problemas propuestos2.5   Durante el pasado fin de semana, dos agencias de viajes han presentado el siguien-

    te movimiento en la venta de billetes de avión.

    Agencia 1 Agencia 2Importe billete (e)Número de billetes Número de billetes

    340 3 1

    425 2 2

    700 2 4

    750 1 4800 1 3

    930 1 1

    a)   Obtener la media, mediana y moda del importe obtenido por la venta de bille-tes en cada una de las agencias.

    b)   ¿En qué agencia ha sido mayor la dispersión en el importe de los billetes ven-didos?

    2.6   Una empresa multinacional americana tiene una fábrica en Valencia. Se realiza unestudio sobre los salarios mensuales (en cientos de euros) de los empleados de di-cha empresa, ofreciendo los siguientes resultados:

    Salario   ni

    [3 , 6[ 22

    [6 , 9[ 54

    [9 , 12[ 20[12 , 18[ 15

    [18 , 20] 9

    a)   Calcular los salarios medios de la empresa.

    b)   ¿Qué porcentaje de trabajadores tiene un sueldo superior a 12 (cientos de  e)mensuales?

    68   ESTADÍSTICA DESCRIPTIVA Y NOCIONES DE PROBABILIDAD