Esta Di Stica

172
MANUAL TICA iho DESCRIPTIVA ^`^`° A AL SECTOR URISTICO CARMEN FERNANDEZ AGUADO 4' i08834 r ^ ^ :: ,^ _ ^;.. JRIAL ,^ SINTESIS , j fg&. 1?

Transcript of Esta Di Stica

Page 1: Esta Di Stica

MANUALTICA

iho

DESCRIPTIVA^`^`°AAL SECTOR

URISTICO

CARMENFERNANDEZAGUADO

4'

i08834

r

^ ^ :: ,^ _

^;.. JRIAL ,^

SINTESIS ,j fg&.1?

Page 2: Esta Di Stica
Page 3: Esta Di Stica

MANUAL DE ESTADISTICADESCRIPTIVA APLICADAAL SECTOR TURISTICO

EDITORIAL SINTESIS

Page 4: Esta Di Stica
Page 5: Esta Di Stica

3334

MANUAL DE ESTADISTICADESCRIPTIVA APLICADAAL SECTOR TURISTICO

Carmen Fernández Aguado

0

EDITORIALSINTESIS

Page 6: Esta Di Stica

k8F8

Primera reimpresión: noviembre 1993Segunda reimpresión: octubre 1999

Diseño de cubierta: JV Diseño gráfico

Reservados todos los derechos. Está prohibido, bajo lassanciones penales y el resarcimiento civil previstos enlas leyes, reproducir, registrar o transmitir esta publi-cación, íntegra o parcialmente, por cualquier sistema derecuperación y por cualquier medio, sea mecánico, elec-trónico, magnético, electroóptico, por fotocopia o porcualquier otro, sin la autorización previa por escrito deEditorial Síntesis. S. A.

O Carmen Fernández Aguado

O EDITORIAL SÍNTESIS, S. A.Vallehermoso, 34. 28015 Mad ridTeléfono 91 593 20 98http://www.sintesis.com

Depósito Legal: M- 33.046-1999ISBN: 84-7738-099-6

Impreso en España - Printed in Spain

Page 7: Esta Di Stica

A mis hijosCristina, José y Blanca

Page 8: Esta Di Stica
Page 9: Esta Di Stica

CONTENIDO

I. Conceptos previos I3

1.1. La Estadística 1 31.2. Población y muestra 131.3. Métodos de muestreo 141.4. Obtención de datos 151.5. Variables estadísticas I51.6. Frecuencias; sus clases 161.7. Series estadísticas 1 7

Ejercicios 19

I t. Representación gráfica de las series estadísticas 232.1. Diagrama de barras 232.2. Histogramas 242.3. Polígonos de frecuencias 252.4. Diagramas polares 262.5. Superficies representativas 282.6. Pictogramas y cartogramas 292.7. Diagrama de rectángulos 29

Ejercicios 31

III. Medidas de tendencia o de posición: promedios 35

3.1. Caracterización del valor central 353.2. La media aritmética. Propiedades 353.3. La media geométrica 403.4. La media armónica 413.5. La media cuadrática 433.6. Comparación entre las distintas medias 443.7. La moda 443.8. La mediana 463.9. Cuantiles 48

Ejercicios 50

IV. Medidas de dispersión 574.1. Representatividad de la media: centralización y dispersión 57

7

Page 10: Esta Di Stica

4.2. Recorrido 4.3. Desviación media 4.4. Varianza y desviación estándar o tipo 4.5. Coeficiente de variación 4.6. Tipificación de una variable

Ejercicios

57

58

59

616264

V. Medidas de asimetría y de curtosis 695.1. Distribución normal 695.2. Asimetría y sus coeficientes 715.3. Relación empírica entre media, mediana y moda 735.4. Curtosis y su coeficiente 73

Ejercicios 74

VI. Medidas de concentración 796.1. Introducción y representación gráfica: curva de Lorenz 796.2. Indice de Gini 79

Ejercicios 81

VII. Series estadísticas de dos variables 857.1. Definición y representación gráfica 857.2. Distribuciones marginales: medias, varianzas y desviaciones es-

tándar 877.3. Dependencia funcional o exacta y dependencia estadística. Co-

varianza 88Ejercicios 92

VIII. Análisis del ajuste y de la regresión entre dos variables 958.1. Conceptos de ajuste y regresión 958.2. Utilización práctica de la nube de puntos para determinar el

tipo de dependencia estadística 958.3. El método de los mínimos cuadrados y las ecuaciones normales

Coeficientes de regresión 96Ejercicios 99

IX. Medidas de la dependencia estadística. Análisis de la correlación 1039.1. Medidas de la dependencia estadística y de la correlación 1039.2. La varianza residual 1039.3. Relación entre las varianzas Sy 2, Sy' Z, Set 1069.4. El coeficiente de determinación 1069.5. El coeficiente de correlación lineal 108

Ejercicios 110

X. Series cronológicas o temporales 11310.1. Definición y representación gráfica 11310.2. Componentes de las series temporales 11410.3. Determinación de la tendencia secular 11510.4. Predicción 119

8

Page 11: Esta Di Stica

10.5. Variación estacional 12010.6. Desestacionalización 122

Ejercicios 123

XI. Números Indices 12711.1. Concepto y aplicaciones 1271 1.2. Números indices simples 12811.3. Números índices complejos sin ponderar 12911.4. Números índices complejos de precios y cantidades: Laspeyres,

Paasche y Fisher 131I I.S. Cambio del período base. Renovación y empalme 13111.6. Números índices de valor 136

Ejercicios 139

XII. Estadísticas de atributos 14312.1. Definición y representación gráfica 14312.2. Estadísticas de dos atributos 14412.3. Independencia y asociación 14412.4. Estadísticas mixtas 148

Ejercicios 149

Solucionarlo de problemas 153Bibliografia 167

Page 12: Esta Di Stica
Page 13: Esta Di Stica

PRESENTACION

Afirma un viejo adagio que uno de los tres deseos más importantes del hombresobre esta tierra es escribir un libro. Tal vez por eso, muchas personas se esfuercenpor hacerlo. Hasta el punto que en numerosas ocasiones viene a la boca, y a veces ala pluma, la crítica un tanto irónica: Fulanito ha publicado tal volumen, ¿por qué?

En el caso que nos ocupa, la pregunta debería ser más bien: Carmen FernándezAguado edita un volumen de Estadística, ¿por qué no lo hizo antes? Y es que en lasEscuelas de Turismo de toda España se notaba la falta de un texto actualizado deesa material. Llega ahora, por fin, para cubrir un hueco importante, y lo hace demanera profundamente profesional.

La experiencia de la autora, profesora de esa asignatura en la Escuela Oficial deTurismo de Madrid, ha permitido la realización a la comprensión y asimilación decuestiones a veces algo enrevesadas.

Entre los aciertos del trabajo se encuentra el haber reducido el contenido dellibro a lo que clásicamente se denomina Estadística Descriptiva, porque el nivel depráctica de la Matemática de los alumnos a los que va dirigido suele ser más bienbajo.

Con pedagogía de la buena, cada lección consta de una parte teórica, muy breve,en la que se definen con precisión los conceptos estadísticos. Luego, se ilustraenseguida la exposición con ejemplos. Posteriormente, una parte práctica tiene porobjeto ayudar al alumno a familiarizarse con las cuestiones expuestas, mediante suesfuerzo por resolver algunos problemas. Con el deseo de facilitar el aprendizaje, ytambién de no cargar sobre los bolsillos de los alumnos --casi siempre pocosurtidos--- un nuevo peso en forma de volumen de respuestas, al final de este mismolibro se presentan las soluciones.

Como es lógico, resultaría una pérdida de eficacia -- y en definitiva, de tiempo yde dinero -- que el usuario de este texto acudiera a las respuestas sin haber puestolos medios necesarios para procurar resolver los problemas que se suceden en ellibro. La exigencia intelectual que se precisa para intentar alcanzar la solución —selogre o no ésta— es, tal vez, lo más importante de todo.

Las páginas que siguen no pretenden ser sino el soporte pedagógico necesariopara exponer la asignatura de Estadística del plan vigente de la Escuela Oficial deTurismo. Nada más lejos de la intención de la autora pretender sustituir la inapre-ciable labor ete los profesores que, como ella, procuran transmitir sus conocimientos

Page 14: Esta Di Stica

a las sucesivas generaciones de estudiantes. Como mucho, este trabajo podría com-pararse al bastón que se ofrece a un personaje --el alumno— que por sí sólodificilmente seguiría el paso necesariamente ágil del maestro. Nada lograría sin unguía que le mostrara un camino, pero también es cierto que mantener un ritmoexigente no le resultaría sencillo sin contar con el apoyo de un buen texto que suplalagunas o que, ¿por qué no?, levante inquietudes y sugiera nuevos campos deestudio.

Los ejercicios de cada lección han sido seleccionados cuidadosamente, de talforma que van aumentando en complejidad a medida que avanza el curso. En sumayoria hacen referencia a aspectos del turismo nacional, con objeto de que losestudiantes enlacen los conceptos estadísticos con la vida en la que casi todos sedesenvolverán a la vuelta de poco tiempo. Con esa aproximación a la realidad, laautora desea aumentar el interés de los lectores, también porque estarán en condi-ciones de descubrir la utilidad práctica de esta asigntura.

Vale la pena insistir en esta novedad del libro: ilustrar los diversos conceptos quemaneja la estadística descriptiva con situaciones reales del mundo turístico. No setrata de que el estudiante quede encampanado —esta palabreja para quienes seanaficionados al cróquet, para los demás diremos detenido— en el ejemplo, pero sí deque al buscar la solución no olvide que está tratando con circunstancias que, enbastantes ocasiones, se le presentarán más adelante cuando comience su vida profe-sional.

Como puede deducirse por la estructura de cada lección, estamos ante un librode trabajo en el sentido más estricto del término. La participación del usuario esfundamental, ya que debe resolver todos y cada uno de los supuestos planteados. Acontinuación puede —y es conveniente que lo haga— comparar su solución con lapropuesta al final del volumen. Es, en fin, un libro que no está concluido...: sólo eltrabajo de cada estudiante y su esfuerzo por resolver los problemas, consiguenrealmente dar por obtenido el propósito que la autora se ha propuesto.

Como en cualquier publicación, especialmente al tratarse de la primera edición,tanto la autora como la editorial agradecerán muy de veras todas las sugerencias oindicaciones de irritas —perdón, erratas— que se hayan colado en estas páginas. Lalucha contra esa plaga ha sido sin cuartel —este volumen ha sido leído y revisadopor varios especialistas—, pero como sabe bien cualquiera que haya batallado enlides editoriales, los errores proliferan más astutamente que los conejos en Australia.Podría incluso estudiarse algún día la estadística de erratas en los libros de texto delas diferentes Escuelas y Facultades de toda España...; resultaría un ejercicio intere-sante.

Casi siempre que leo una presentación, considero que adolece de un profundodefecto: es demasiado larga. Con el fin de disminuir la estadística de prólogosinterminables, concluyo aquí estas líneas, no sin añadir mi felicitación a la autora.Le transmito además mi deseo de que su obra reciba el premio de las sucesivasreediciones. En ellas se introducirán con agradecimiento las posibles sugerencias querecibamos de los lectores que tengan la amabilidad de dedicar algo de su tiempo aayudarnos a mejorar estas páginas.

Javier Fernández AguadoConsejero de Ser v icios y Estudios

Empresariales, S. A.

12

Page 15: Esta Di Stica

ICONCEPTOS PREVIOS

1.1. LA ESTADISTICA

Los comienzos de la Estadística se remontan muy lejos en la historia, por lomenos en sus manifestaciones más elementales, como confeccionar censos, recopilardatos, etc. En el siglo xix, comienza a desarrollarse el cálculo de promedios, valoresde dispersión..., se trata de una estadística fundamentalmente descriptiva. A comien-zos del siglo xx, la estadística da un gran salto hacia adelante. Se desarrolla elcálculo de probabilidades, cuyo manejo permite a los estadísticos pasar de la simpledescripción del colectivo a la predeterminación del comportamiento de las variablesestadísticas.

Por tanto, el término «Estadística», puede referirse a:

a) La colección de datos numéricos ordenados y clasificados según un determi-nado criterio.

b) La ciencia que, utilizando como instrumento las Matemáticas y el Cálculode Probabilidades, estudia las leyes de comportamiento de aquellos fenóme-nos que, por no estar sometidos a leyes rígidas, dependen del azar.

c) La técnica o método que se sigue para recoger, organizar, resumir, presentar,analizar, generalizar y contrastar los resultados de las observaciones de losfenómenos reales. En este caso estamos hablando de Estadística Descriptiva,objeto de esta asignatura.

Cuando a partir de los resultados obtenidos del análisis de una muestrade población, se infieren, inducen o estiman las leyes generales de comporta-miento de la población, estamos ante la Estadística Inductiva o InferenciaEstadística.

1.2. POBLACION Y MUESTRA

La Estadística no analiza hechos aislados, sino que tiene por objeto el estudio decolectivos y de las relaciones que existen entre ellos. Cuando la población o colecti-vo es muy grande, la observación de todos sus elementos es prácticamente imposi-ble. Este inconveniente se soslaya con la elección de una muestra representativa de

13

Page 16: Esta Di Stica

la población, entendiendo por muestra una parte del conjunto total de elementosque componen el colectivo.

13. METODOS DE MUESTREO

Hay que tener mucho cuidado al elegir una muestra, para que el criterio deselección de sus componentes no introduzca errores que afecten a la representativi-dad de la misma. Para evitar la influencia de factores exteriores al colectivo, laselección de los elementos de la muestra se realiza mediante el azar. Esto, sinembargo, no es fácil de realizar, y por eso se utilizan sistemas que garanticen laaleatoriedad de la muestra, con lo que se beneficia su representatividad.

Entre los distintos métodos para obtener muestras por elección aleatoria de suselementos, destacan los siguientes:

Muestreo aleatorio simple

Es el método más sencillo, y consiste en numerar todos los elementos quecomponen la población. A continuación, mediante cualquier sistema mecánico, seextraen al azar unos números que indicarán, mediante la correspondencia estableci-da con la numeración de los elementos de la población, los elementos que componenla muestra.

Este sistema puede mejorarse con el uso de tablas de números aleatorios. Estastablas son un conjunto de cifras tal, que si comenzamos por una cualquiera de ellasobtenemos lotes de números que no responden a ninguna ley de formación, sinoexclusivamente al azar.

Muestreo aleatorio sistemático

Los elementos que forman la muestra se eligen sistemáticamente de entre losque componen la población. Consiste en ordenar mediante algún criterio al colecti-vo y después seleccionar elementos del mismo en función de su posición en elordenamiento, es decir, tomar el elemento que hace el número N, siendo N elcociente entre el número de elementos del colectivo y el de la muestra.

Así, por ejemplo, si tenemos un colectivo de 1.000 elementos y la muestra es de20, tomaríamos un elemento de cada 50, empezando no en el primero, lo que podríaproducir un error, sino en uno cualquiera al azar de los cincuenta primeros. Si, porejemplo, tomamos al azar el número 28, nuestra muestra estaría formada por loselementos que tengan la siguiente numeración: 28, 78, 128, 178, 228, 278, 328, 378,428, 478, 528, 578. 628, 678, 728. 778, 828, 878, 928 y 978.

Este sistema no debe utilizarse en distribuciones en las que pueda existir unaperiodicidad ya que, al utilizar un sistema también periódico en la selección de lamuestra pueden combinarse ambas periodicidades y producir una muestra anormal.

Muestreo aleatorio estratificado

En este método, la población se divide en categoría, clases o estratos, atendiendoa alguna característica homogénea de los elementos que la componen. A continua-ción, se aplica el muestreo aleatorio simple a cada uno de los estratos. Este procedi-

14

Page 17: Esta Di Stica

miento es especialmente útil cuando el colectivo es muy heterogéneo y se corre elpeligro de obtener una muestra poco representativa.

Muestreo por conglomerados

La población en estudio se divide en grupos o conglomerados, y se selecciona alazar uno de estos grupos previamente formados. Una vez que se eligen estos gruposo conglomerados se pasa al estudio de todos los elementos que componen losconglomerados elegidos, o bien se escogen al azar los elementos que se deberánestudiar dentro de cada grupo o conglomerado.

1.4. OBTENCION DE DATOS

Una vez que hemos elegido una muestra representativa de la población, pasare-mos a la obtención de los datos necesarios para la realización de un estudioestadístico.

El cuestionario o interrogación directa a las personas o entidades que disponende información sobre lo que debemos estudiar es un procedimiento muy utilizadopara la obtención de datos.

Un buen cuestionario debe cumplir: a) que sea adecuado a la población a la que vadirigida; h) que sea completo, según las exigencias de nuestro estudio; c) que tengaclaridad suficiente, para evitar titubeos a la hora de contestar; d) que sea conciso; e)que sea discreto; y f) que lleve preguntas que permitan verificar la posibilidad de las

respuestas a otras preguntas realizadas.

1.5. VARIABLES ESTADISTICAS

El objeto de la estadística descriptiva es el estudio de los caracteres de loselementos que componen una población, sean éstos susceptibles de medida o no.

Si analizamos, por ejemplo, la altura media de una población, o la renta percápita de un país, estaremos estudiando caracteres de una población susceptibles demedida. Estos caracteres los denominamos VARIABLES, y se representan con lasúltimas letras del abecedario en mayúsculas (...X, Y, Z). Los valores que toman cadauna de estas variables se simboliza con la letra correspondiente en minúscula yafectada por un subíndice de orden (x„ x 2 , ..., .r,,; y,, y 2 , ..., y,,; _„ _ 2 , ..., :„). Lasvariables pueden ser discretas o continuas. Una variable es discreta cuando entredos valores consecutivos no puede tomar ninguno más, y continua cuando entre dos

valores consecutivos puede tomar infinitos valores.Si estudiamos, por ejemplo, las marcas de coches, o la nacionalidad de los

extranjeros que visitan nuestro país, estaremos estudiando caracteres de una pobla-ción no susceptibles de medida. Estos caracteres los denominamos ATRIBUTOS, y

se representan con las primeras letras del abecedario en mayúsculas (A, B, C...). Lasdistintas modalidades que puede tomar un atributo determinado se representa

utilizando LA minúsculas correspondientes (a 1 , a 2 , ..., a„; h„ h 2 , ..., h,,; c„ c2 , ..., c„►.

15

Page 18: Esta Di Stica

1.6. FRECUENCIAS; SUS CLASES

El número de veces que se repite el valor de una variable o de un atributo recibeel nombre de frecuencia absoluta, y se simboliza como n i. La suma de todas lasfrecuencias absolutas, será el número total de elementos que componen el colectivoo la muestra, y se simboliza como N.

La relación que existe entre una frecuencia absoluta y el total de elementosestudiados recibe el nombre de frecuencia relativa, y se simboliza como A. Por tanto,

n;j = Ñ• El sumatorio de las frecuencias relativas es igual a la unidad, ya que:

_• E• n' _N = 1

1=1 N N

Ordenados los valores de una variable en sentido creciente o decreciente, defini-mos la frecuencia acumulada como la suma de frecuencias hasta un valor determina-do de la variable. La frecuencia absoluta acumulada hasta el valor x ;, la representa-mos como Ni, y la frecuencia relativa acumulada hasta el valor x„ la representamoscomo F.

Cuando se estudian atributos no tiene sentido hablar de frecuencias acumuladas.

EJEMPLO

1. Calcula los valores que faltan en la siguiente distribución:

x; n; N; j F,

100 14 0,14150 9 ^ ?200 17250 16 9

300 8 1 9

350 15 9 9

400 14 9 9

450 ? 9 9

SOLUCIÓN:

Lo primero que debemos calcular es el valor de N (total de elementosde que se compone el colectivo).

Como sabemos f, = n' por tanto, 0,14 = 14. N = 14

• N = 100.N N' 0,14'

La distribución nos queda:

16

Page 19: Esta Di Stica

x, n, N, j F1

100 14 14 0,14 0,14150 9 23 0,09 0,23200 17 40 0,17 0,40250 16 56 0,16 0,56300 8 64 0,08 0,64350 15 79 0,15 0,79400 14 93 0,14 0,93450 7 100 0,07 1

1.7. SERIES ESTADISTICAS

Una serie estadística es sinónimo de estadística cuando nos referimos a lacolección de datos numéricos, ordenados y clasificados según un determinado crite-rio.

Si los valores de una serie estadística se observan en el tiempo, estamos ante unaSERIE ESTADISTICA TEMPORAL O CRONOLOGICA. Si estos valores seobservan en un momento fijo, estamos ante una SERIE ESTADISTICA ATEMPO-RAL. Dentro de este tipo, nos podemos encontrar con series estadísticas atemporalesESPACIALES, cuando se estudia los valores que toma una variable en función delespacio geográfico; y series estadísticas atemporales DE FRECUENCIA, cuando seestudia la repetición de cierto fenómeno. Estas últimas, según el carácter que seestudie, variables o atributos, serán a su vez cualitativas o cuantitativas. En resumen,podemos realizar la siguiente clasificación:

Temporales o cronológicas

Series estadísticas

Atemporales Espaciales(CualitativasDe frecuencias{

Cuantitativas

Las distribuciones DE FRECUENCIAS de una sola variable las clasificamos entres tipos:

Distribución de! tipo I. Son aquellas distribuciones que constan de un reducidonúmero de observaciones, y se presentan dando los valores de x;.

x;

^ x,

17

Page 20: Esta Di Stica

Distribución del tipo II. Son aquellas distribuciones que constan de un grannúmero de observaciones, pero el número de valores distintos que toma la variablees pequeño, y se presentan los datos en dos columnas: una para los valores x ;, y otrapara los valores de sus frecuencias absolutas, n;.

x; n;

Distribución del tipo III. Son aquellas distribuciones que constan de un grannúmero de observaciones, y el número de valores distintos que toma la variable esgrande, con lo que agrupamos los resultados obtenidos eligiendo unos intervalosL,_, — L;, con una amplitud variable o fija, representada por a ; . En estas distribu-ciones interesa elegir una amplitud lo suficientemente pequeña para que la pérdidade información sea lo menor posible, pero lo suficientemente grande para que ladistribución no tenga demasiados intervalos, pues de lo contrario dicho agrupa-miento perdería su finalidad.

Este tipo de distribuciones necesita un paso más antes de ser tratada por losmétodos estadísticos. Cada intervalo debe ser sustituido por un número, llamado«marca de clase», que es el valor central de cada intervalo, es decir, la mediaaritmética de los límites inferior y superior del intervalo.

— L, n, .Y, (marca de clase)

Lo — L, n, Lo+ L,2

L, — L2 112 L, + L22

L„_ 1 — L„ n„ L, _ , + L,2

EJEI1PLO

2. En una capital de provincia se reali:u una encuesta sobre las reces que seacude a un establecimiento hotelero durante un año. Se obtienen los siguien-tes resultados:

2 4 3 6 0 23 5 2 8 4 31 8 4 9 6 70 2 9 2 6 74 I 7 3 2 63 5 0 8 8 I

18

Page 21: Esta Di Stica

EJERCICIO:

1. Establece una distribución del tipo Ill, con una amplitud cons-tante de 2.

2. Calcula las marcas de clase.

SOLUCIÓN:

L,_ 1 — L, X ^ n,

0- 2 1 62- 4 3 114- 6 5 66- 8 7 78-10 9 6

N = 36 ^

F.JF.R('ICIOS

1'.n un peaje de la autopista Pamplona-Tudela, se llevó el control delnúmero de viajeros que ocupaban cada vehículo. La observación, queduró una hora, ofreció los siguientes resultados:

3 2 2 34 3 4 21 5 4 1I I 4 2

CALCULA:

a) Las frecuencias absolutas.h) Las frecuencias absolutas acumuladas.e) Las frecuencias relativas.d) Las frecuencias relativas acumuladas.

1.2. En un restaurante de la autopista de La Coruña se tomó nota del«comportamiento económico» de 250 comensales. Los resultados quedanreflejados en la siguiente tabla, donde figura el gasto realizado y elnúmero correspondiente de clientes:

L,_, — L, n,

2.000-2.500 242.500-3.000 583.000-3.500 603.500-4.000 404.000-4.500 494.500-5.000 155.000-5.500 4

19

Page 22: Esta Di Stica

CALCULA:

a) ¿Cuántas personas gastaron entre 3.000 y 5.000 ptas.?h) ¿Cuántas gastaron menos de 4.000 ptas.?

1.3. Se ha realizado un estudio sobre la cantidad de dinero que gasta pordía un extranjero cuando visita España. Dicha observación, efectuadasobre una muestra de 1.000 personas, ofreció los siguientes resultados:

L,_ ^ - L; n;

3.000- 4.500 1254.500- 6.000 1856.000- 7.500 2457.500- 8.500 212

8.500-12.500 15512.500-20.000 78

CALCULA:

a) El porcentaje de personas que gastan menos de 8.500 ptas./día.b) ¿Cuántas personas gastan entre 6.000 y 12.500 ptas./día?

1.4. Una encuesta realizada en 1990 sobre el dinero que gasta semanalmenteun chico /a entre los 18 y 23 años, residente en una capital de provincia,ofreció los siguientes datos:

3.200 15.000 14.300 14.500 5.5007.100 12.100 13.750 9.000 6.4003.000 2.750 3.800 3.000 7.0005.500 7.500 7.500 2.750 15.0007.500 5.900 9.500 8.500 2.5002.500 6.000 10.000 3.250 3.250

10.300 10.250 12.400 4.150 6.0004.800 10.750 12.600 5.000 13.200

CALCULA:

a) Una distribución del tipo Ill con una amplitud constante de 1.000.b) La marca de clase, así como la frecuencia absoluta acumulada,

frecuencia relativa y frecuencia relativa acumulada.c) ¿Cuántos chicos/as gastan más de 7.500 ptas. /semana?

1.5. Durante un mes, el director de estudios de la Escuela Oficial de Turismopreguntó a cien alumnos de 2.° curso sobre el número de horas/díadedicadas al estudio. Los resultados obtenidos fueron los siguientes:

20

Page 23: Esta Di Stica

x, (horas) n;

1 31,30 22 52,30 72,45 73 53,15 63,30 103,45 154 44,15 64,45 35 95,15 85,30 35,45 36 4

EJERCICIO:

a) Agrupa estos valores en intervalos de amplitud constante.h) Calcula las frecuencias absolutas acumuladas y las frecuencias rela-

tivas.

1.6. Los colores que se utilizan con más frecuencia en las carrocerías de loscoches, según la encuesta realizada por una empresa automovilísticaeuropea entre 71 personas, son:

Colores n,

Blanco 15

Rojo 25

Negro 7

Azul 10

Gris 10

Verde 4

EJERCICIO:

a) Indica si la variable es cuantitativa o cualitativa.b) Calcula las frecuencias relativas.e) ¿Qué sentido tendría el cálculo de las frecuencias acumuladas y por

qué?

21

Page 24: Esta Di Stica
Page 25: Esta Di Stica

2

7

5

4

3

5

8

II

II

REPRESENTACION GRAFICA DE LAS SERIESESTADISTICAS

Una buena representación gráfica nos puede ayudar positivamente en un estudioestadístico, pero sin olvidar que una representación gráfica es un «instrumento»dentro del objeto de la estadística. De las muchas formas de representación gráficaque existen, vamos a tratar a continuación de las que se utilizan más comúnmente.

2.1. DIAGRAMA DE BARRAS

Es una representación gráfica que se utiliza con frecuencia para distribuciones detipo II. Se dibuja un sistema de ejes de coordenadas; en abcisas se representa losvalores de las variables y en el eje de ordenadas los valores de las frecuenciasabsolutas. Se construye unas columnas de altura igual a la frecuencia de cada uno delos valores.

EJEMPLO

I. Dada la siguiente serie estadistica, represéntala mediante un diagrama debarras.

23

Page 26: Esta Di Stica

— L; nini

h ; = —a;

0- 10 0,20

10- 30 - 0.35

30- 50 5 0,25

50- 80 4 0,13

80-110 I 0,03

SOLUCIÓN:

OIAGRAMA DE BARRAS

7

5

4

2.2. HISTOGRAMAS

Es una representación gráfica que se utiliza con frecuencia para distribucionesdel tipo 111. Se dibuja un sistema de ejes de coordenadas; en abcisas se representa losvalores de los intervalos de las variables y en el eje de ordenadas los valores de lasalturas h, siendo h; = n; a; . Se construyen unos rectángulos cuya área será igual a lafrecuencia absoluta del intervalo en estudio.

EJEMPLO

2. Representa mediante histogramas la siguiente serie de valores:

24

Page 27: Esta Di Stica

0 25

0.20

SOLUCIÓN:

HISTOGRAMA

o 3

0.13

003

30 50 80 110 Lr , -1,

2.3. POLIGONOS DE FRECUENCIAS

Es una representación gráfica que se utiliza para distribuciones del tipo II y III.Consiste en unir mediante una línea quebrada los extremos superiores de las colum-nas, si se trata de una distribución tipo II, o los puntos medios de las basessuperiores de los rectángulos del histograma, si se trata de una distribución del tipoIll.

En este tipo de gráfico vemos las pendientes de los tramos que unen estospuntos, con lo que tenemos una idea de las diferencias entre valores a través de laspendientes. Para ello es necesario mantener constante la separación entre valores enel eje de abcisas aun cuando se trate de variables cualitativas.

EJEMPLO

3. Representa mediante polígonos de frecuencias las series de frecuencias cls/usen los ejemplos l y 2.

10

25

Page 28: Esta Di Stica

SOLUCIÓN:

DIAGRAMA DE BARRAS

a

2

0.35

003

HISTOGRAMA

1

0.25

0.20

0.13

O 10

30

50

80

110

2.4. DIAGRAMAS POLARES

Es una representación gráfica que se utiliza para representar series cronológicas.En estos diagramas los elementos geométricos representativos son: a) una longitudtomada sobre una recta que gira alrededor de un punto fijo llamado polo, y b) elángulo de esta recta con una dirección fija (eje polar).

26

Page 29: Esta Di Stica

I .II \II'I ()

4. Representa mediante un diagrama polar la siguiente serie de valores, loscuales representan el número de viajeros extranjeros entrados en estableci-mientos turísticos durante 1989.

Meses del año Número de turistas

Enero 600.837Febrero 612.189Marzo 850.370Abril 1.058.458Mayo 1.560.385Junio 1.328.681Julio 1.556.928Agosto 1.733.836Septiembre 1.476.737Octubre 1.218.956Noviembre 621.064Diciembre 566.271

33.999.306

SOLUCIÓN:

Como la serie cronológica del ejemplo son todos los meses del año,360"

dividimos= = 30 grados. Sobre los radios formados llevamos los1

valores de la serie; uniendo los puntos obtenidos tendremos el siguientediagrama polar.

DIAGRAMA POLAR

Abril

Marto Mayo

Febrero

Enero- ----- -

Diciembre

Noviembre Septiembre

Octubre

27

Page 30: Esta Di Stica

2.5. SUPERFICIES REPRESENTATIVAS

Es una representación gráfica, en la que los datos vienen sustituidos por super-ficies de área proporcional al valor de las frecuencias. Dentro de las diferentessuperficies que se pueden utilizar. los sectores circulares son los que se emplean conmayor frecuencia.

EJEMPLO

5. Los turistas que han visitado España durante 1989 han utilicado los siguien-tes medios de transporte:

Ferrocarril 2.635.587Carretera 32.603.437Barco 1.811.667Avión 17.006.664

El total de turistas que han visitado España durante 1989 ha sido de54.057.355.

Con estos datos, represéntalos mediante sectores circulares.

SOLUCIÓN:

Para construir el gráfico por sectores circulares, se reparten los 360grados de la circunferencia proporcionalmente a las cifras del problema:

x 2.635.587 = 17,56-54.057.355

x 32.603.437 = 217,12054.057.355

x 1.811.667 = 12,06°54.057.355

360

54.057.355x 17.006.664 = 113,26°

También se calculan los porcentajes que representan las cifras respecto deltotal, señalándolo en el gráfico.

x 2.635.587 = 4,87 %54.057.355

360

360

360

100

100

54.057.355x 32.603.437 = 60,31 %

Page 31: Esta Di Stica

loox 1.811.667 = 3,35 %

54.057.355

100 x 17.006.664 = 31,46 %

54.057.355

SECTORES CIRCULARES

I•11111UMIN=OI--MMINIIMEMINE/^ ^^^^t

^ ^^^^^^^^Í•^ =Sr• I=MIIINIMEMMIll

VCCCINCIT ^^^^^mmmIi ^ a /1111111111MIl•MIIMINIII:o o 1111•11111 r^ ^I0 ^^^ ^MII=."11=011•11111~ .3%

•2.6. PICTOGRAMAS Y CARTOGRAMAS

Los pictogramas consisten en representar mediante figuras alegóricas las canti-dades de la serie estadística. Cada figura representa un cierto número de unidades.Algunas veces el pictograma adopta otros métodos comparativos, especialmentecuando se trata de comparar dos o tres valores solamente. En estos casos se realizaun dibujo en tamaño proporcional a los valores. Este tipo de gráfico es más bien detipo publicitario que científico ya que muchas veces es poco preciso.

Los cartogramas son mapas en los que, mediante signos convenientes, se repre-senta la distribución geográfica de los hechos estudiados. Los signos que se empleanpueden ser colores, números, figuras geométricas, etc. Este tipo de gráfico tiene elinconveniente de que, instintivamente, a las zonas más extensas les asociamosintensidades mayores del fenómeno, y por tanto hay errores de interpretación.

2.7. DIAGRAMA DE RECTANGULOS

En la primera lección definimos el «atributo» como una característica cualitati-va, no susceptible de medida. También comentamos que un atributo toma distintas«modalidades». La representación gráfica de estadísticas de atributos se realizamediante diagrama de rectángulos. En el eje de abcisas se representan las distintas

Carretera60%

Ferrocarril

5%

Atoen

Barco31%

29

Page 32: Esta Di Stica

30

25

20

15

10

5

modalidades del atributo, tomando para cada una de ellas una base constante, sobrela cual se dibuja un rectángulo de altura igual a la frecuencia correspondiente.

EJEM PLO

6. Con los datos del ejemplo 5, ha: su representacdon gráfica mediante undiagrama de rectángulos.

SOLUCIÓN:

Millones d .laterosDIAGRAMA DE RECTANGULOS

Ferrocarril Carretera Barco Avón

30

Page 33: Esta Di Stica

EJERCICIOS

2.1. Durante dos meses, un sindicato investigó la recaudación real diaria de250 bares de otros tantos establecimientos hoteleros de la ComunidadAutónoma de Galicia. Estos son los datos:

L,-, — L, n,

10.000-15.000 3515.000-25.000 7825.000-30.000 10030.000-40.000 2740.000-45.000 10

REALIZA:

a) La representación gráfica mediante histogramas y polígonos de fre-cuencia.

b) El porcentaje de bares que ganan más de 30.000 ptas./día?

2.2. En un restaurante de León se ha realizado un estudio sobre la duración(en horas) de las 100 lámparas con que cuenta el local. Se obtuvo lasiguiente distribución de frecuencias:

Duración (horas) n,

350- 450 15450- 600 22600- 700 31700- 750 14750- 875 11875-1.000 5

1.000-1.250 2

CALCULA:

a) Las marcas de clase, así como la frecuencia relativa y la frecuenciarelativa acumulada.

b) El porcentaje de lámparas cuya duración es mayor de 600 horas,pero menor de 875.

e) Haz su representación gráfica mediante histogramas.

2.3. El número de pernoctaciones registradas en la Comunidad Autónomade Mádrid durante el año 1988, ha sido:

31

Page 34: Esta Di Stica

Pernoctacioneslen miles)

Pernoclocioneslen miles)

Enero 596,0 Julio 727,7

Febrero 574,2 Agosto 644,6Marzo 711.0 Septiembre 820,2

Abril 738.9 Octubre 875,6Mayo 778,2 Noviembre 708,0Junio 767,4 Diciembre 587,5

EJERCICIO:

a) Haz su representación gráfica mediante diagramas polares.b) Comenta los resultados obtenidos.

2.4. Durante el año 1989, las inversiones financieras en los principales sec-tores de la economía española fueron:

Millones de ptas.

Agricultura y ganaderia 298Energía y agua 2.004Minerales e industria química 9.583Industrias metalúrgicas electrónica 5.652Alimentación,/textil papel 6.225Construcción 390Comercio/turismo 11.856Transporte/comunicaciones 1.548Instituciones financieras 26.512Otros servicios 1.013

EJERCICIO:

a) Haz la representación gráfica mediante diagramas rectangulares.b) Comenta los resultados.

2.5. Un estudio sobre el nivel ocupacional en los hoteles revela que 88.3 mi-llones de pernoctaciones correspondieron a viajeros extranjeros y 48,9millones a viajeros nacionales. Por países, fueron los turistas del ReinoUnido quienes realizaron mayor número de pemoctaciones, con 31,2millones, seguidos por los alemanes con 24,6 millones, y por los fran-ceses con 7,5 millones. Otras naciones se reparten el resto.

EJERCICIO:

Realiza su representación gráfica por sectores circulares.

32

Page 35: Esta Di Stica

Millones de ptas.

Campañas de publicidadPublicacionesMedios audiovisualesAdquisición de material de

promoción. DistribuciónActividades de promoción

(ferias, congresos, pruebasprofesionales, actividadesde ONET, etc.)Total

2.516471,8258

229,1

1.2754.749,9

2.6. Un estudio realizado por la Generalitat de Cataluña sobre el medio detransporte utilizado por los turistas para entrar en esa autonomía a lolargo del año 1987, obtuvo los siguientes resultados:

Carretera 12.672.705Avión 1.221.985Ferrocarril 858.748Barco 69.766

OBTEN:

a) La representación gráfica mediante diagramas rectangulares.b) Asimismo, mediante sectores circulares.

2.7. Las inversiones en promoción exterior del turismo durante la campañade 1989 han sido:

OBTEN:

a) Su representación gráfica mediante diagramas rectangulares.h) Comenta los resultados.

2.8. El número de turistas que entraron mensualmente en España durantelos años 1988 y 1989 han sido:

Mes Año 1989 Año 1988

Enero 2.597.707 2.412.358

Febrero 2.335.168 2.362.577

Marzo 3.199.704 2.920.339

Abril 3.195.122 3.505.098

Mayo 4.219.202 4.000.187

Junio 4.475.617 4.515.161

Julio 8.513.964 8.735.355

Agosto 9.927.516 9.684.267

Septiembre 5.647.302 5.818.146

Octubre 4.057.131 4.243.678

Noviembre 2.577.443 2.624.818

Diciembre 3.311.479 3.356.166

33

Page 36: Esta Di Stica

OBTEN:

a) La representación gráfica de cada arto mediante diagramas rectan-gulares.

b) Comenta los resultados.

2.9. El control durante una semana de la velocidad con que los turismospasaron ante un cuartel de la Guardia Civil situado en Valencia, ofreciólos siguientes resultados len km/hora):

60 80 85 70 4365 45 64 65 5050 40 53 41 6870 43 56 60 8855 82 75 87 53

OBTEN:

a) Una distribución de tipo 111, con una amplitud constante de 10.b) Su representación gráfica mediante histogramas y polígonos de fre-

cuencias.

34

Page 37: Esta Di Stica

IIIMEDIDAS DE TENDENCIA O DE POSICION:

PROMEDIOS

3.1. CARACTERIZACION DEL VALOR CENTRAL

Recogidos los datos de un colectivo, es necesario obtener un conjunto de núme-ros que nos permitan, con mayor facilidad, hacer los estudios y comparacionesnecesarias. Nos encontramos con los promedios, motivo de la presente lección(medidas de centralización), y las desviaciones (medidas de dispersión), que se estu-diarán en la lección siguiente.

Para que un valor determinado de la escala pueda considerarse como promedioo valor central ha de tenerse en cuenta sobre todo que: a) debe estar rígidamentedefinido; h) debe basarse en todas las observaciones hechas; e) no debe tener uncarácter matemático muy abstracto; d) debe ser de fácil y rápido cálculo; e) debeestar lo menos afectado posible por las fluctuaciones de la selección; y]) debe seradaptable al cálculo algebraico.

3.2. LA MEDIA ARITMETICA. PROPIEDADES

La media aritmética se define como la suma de todos los valores dividida por elnúmero de ellos.

• Para distribuciones del tipo I:

• Para distribuciones tipo II y III:

E )(in,i=i

—N

35

Page 38: Esta Di Stica

EJE\IPI.OS

I Calcula la media aritmética de los siguientes calores:

x;

135

8II

SOLUCIÓN:

^ x' 1 + 3 + 5 + 8 + 11 x N

2. Calcula la media aritmética de la siguiente distribución:

x; n, .vin,

1 , 23 ' 215 5 258 4 32

11 I 11

19 91

SOLUCIÓN:

91

x =

N 9 = 4791

•Cuando una serie estadística presente valores de la variable muy grandes, se

pueden aplicar métodos abreviados de cálculo:

a) Para salto de la variable no constante o igual a la unidad:

L (x1 —i=i

N

5— 5,6

36

Page 39: Esta Di Stica

donde O, conviene que sea el valor central de los que toma la variable parareducir al máximo los cálculos.

b) Para salto de la variable constante:

^ (x1 — O,)n' = O + ^=i aa, N

donde a es el valor del salto de la variable.

I .I FAI PL(1N

3. Calcula la media aritmética de la distribución:

X, n,

40.000 340.100 240.300 540.600 I

SOLUCIÓN:

1.200x=40.100+

11

x = 40.209,09

(El problema está resuelto al considerar O, = 40.100.)

4. Calcula la media aritmética de la siguiente distribución, con salto de lavariable constante:

Vi n c — O,x, —O, Y,— O

`a

n,a

40.000 3 —200 —2 —640.100 2 —100 —1 —240.200 5 0 0 040.300 I 100 I 1

---7

37

Page 40: Esta Di Stica

SOLUCIÓN :

z = 40.200 + ( 117 ) • 100

z = 40.200 — 63,63 = 40.136,37

(El problema está resuelto al considerar O, = 40.200.)

Cuando todos los valores de la variable no tienen la misma importancia, lamedia aritmética se calcula afectando a cada valor de la variable de un factor,llamado coeficiente de ponderación, simbolizado como w;. La media aritméticaponderada la simbolizamos como

y x;w;

EJENIPLO

5. Calcula la media aritmética de /os sueldos que paga el siguiente hotel: a)considerando los sueldos de los empleados exclusivamente: b) considerandoel número de años de trabajo en el mismo.

x; (sueldos)¡años de trabajo\

N' /Ien la empresa

x;w,

100.000 2 200.000150.000 3 450.000220.000 6 1.320.000310.000 10 3.100.000780.000 21 5.070.000

SOLUCIÓN:

780.000a) x = =

4195.000

b) z, = 5.0 ^i000

— 241.428,57

•38

Page 41: Esta Di Stica

E (x, + a) E x1 Nomedia de (x, + a) = =

1 N ' = N + Ñ = x + a

media de (x, — a) =x' Na

_` _''^ =x— aN N N

E (x, — a) E

Propiedades de la media aritmética

En primer lugar, aunque no sea una propiedad matemática, vamos a comentar lainfluencia que tienen en la media las características de los valores de la serie. Enprincipio, se considera que la media es realmente significativa cuando la distribuciónes simétrica: sin embargo, cuando la distribución es claramente asimétrica, o cuandoexisten uno o varios valores claramente altos o bajos respecto de los demás, la mediase altera de manera notable y pierde representatividad. En estos casos, puede sermás representativa la mediana, cuyo cálculo veremos en esta lección.

Como propiedades matemáticas, vamos a destacar:

a) A la media aritmética se la considera el centro de gravedad de la distribución,ya que la suma de las desviaciones de los valores con respecto a su mediaaritmética es igual a cero. Se demuestra así:

E (x, — x)n, = E x,n, — E in, = Ni — iN = Oi=i i_ i = i

ya que,

E x,n,`_ =. Ni = E x,n,

N ,_,

h) Si se multiplican o dividen todos los valores de la variable por una constan-te, la media de los mismos queda multiplicada o dividida por dicha constan-te. Es decir:

media de ax, =

E• ax, E x,•

-1 = a' =` — axN N

.Y,x

media de x, = ,^, a — 1 ^ — xa N a N a

c) Si se suma o resta una constante a los valores de la variable de los N casosde una serie estadística, la media de la serie queda aumentada o disminuidaen ese mismo valor:

z =

39

Page 42: Esta Di Stica

d) La media aritmética de una suma de n variables, es igual a la suma de lasmedias aritméticas de cada una de las variables.

X + V + "' + Z = X + }' + ••• +

3.3. LA MEDIA GEOMETRICA

La media geométrica se define como la raíz, de índice igual al número defactores que se «promedian», del producto de todos ellos.

• Para distribuciones tipo I:

N = G X' .YZ'X3 ... .Tn

• Para distribuciones tipo II y Ill:

G = Z/A1' • e2

: • Al' ... x:°

EJEMPLOS

6. Calcula la media geométrica de la siguiente distribución:

s,

1358

11

La resolución de la media geométrica la realizaremos por dos métodos.Según el problema que nos presenten será más útil utilizar uno u otrométodo.

SOLUCIÓN:

l.° método

2.° método

log G = -5

log G = 5

[0,47

G = ,,/I • 3 5 . 8-11 = 1.320 = 4,2

G = ,/1 3 . 5 8.11;

1 + log 3 + log 5 + log 8 + log II];

+ 0,69 + 0,9 + 1,04];

40

Page 43: Esta Di Stica

x,

1 23 75 58 4

11 1

19

log G = 0,62 ; G = 100.62

G = 4,17

7. Calcula la media geométrica de la siguiente distribución:

SOLUCIÓN:

I.° método G = .V1 2. 3'•55 •8°• 11' = 4,02

2.° método G = .V1 2. 3 7 • 5' • 8°• Ill;

log G = 19 [2 log I + 7 log 3 + 5 log 5 + 4 log 8 + I log l l ]

log G = 0,6 ; G = 100.6= 3,98^_4 u

3.4. LA MEDIA ARMONICA

La media armónica se define como el inverso de la media aritmética de losinversos de los valores de la variable.

• Para distribuciones tipo I:

_ N

H

1^1 xl

• Para distribuciones tipo II y III:

N

H 1E - n i

+ _ x i

41

Page 44: Esta Di Stica

x;

1358

11

2754

19

t:J EN! NLoS

8. e au, ida la media armónica de la siguiente distribución:

358

11

SOLUCIóN:

H1 1 1 1 1 1.320 + 440 + 264 + 165 + 1201 + 3 + 5 + +8 11 1.320

5 5

5 6.600 — 2,852.309 2.3091.320

9. Calcula la media armónica de la siguiente distribución:

SOLUCIÓN:

— 19 _ 19H

2 7 5 4 1 2.640 + 3.080 + 1.320 + 660 + 1201 + 3 + 5 + 8 + 11 1.320

_ 19 _ 25.080 _ 3,27.820 7.8201.320

42

Page 45: Esta Di Stica

3.5. LA MEDIA CUADRATICA

La media cuadrática se define como la raíz cuadrada de la media aritmética delos cuadrados de los valores de la variable.

• Para distribuciones tipo 1:

C =

E xfi=s

N

• Para distribuciones tipo H y 111: •[ 1

xi niC = g=s

N

I•:.II.^II'I uti

10. Calcula la media cuadrática de la siguiente distribución.

3 95 258 64

II 121220

SOLUCIÓN:

C =xzi

i=s 220=f4-4 =6,63

N

I I. Calcula la media cuadrática de la siguiente distribución:

x i n, x? x¡n,

1 2 I 23 7 9 635 5 25 1258 4 64 256

11 1 121 12l

567

43

Page 46: Esta Di Stica

n,

1 23 75 58 4

II 1

SOLUCIÓN:

zi niC = =

567 = `/29.84 = 5,46

\ 1 9

3.6. COMPARACION ENTRE LAS DISTINTAS MEDIAS

Las medias vistas con anterioridad se limitan a condensar los datos de la serie enuno solo, como síntesis de todos ellos, y es la media aritmética la que mejor reúnelas condiciones vistas en el apartado de caracterización del valor central.

Si comparamos estas medias en cuanto a su ,,magnitud,. quedan ordenadas delsiguiente modo:

armónica < geométrica < aritmética < cuadrática

De los ejemplos vistos en los apartados anteriores, se observa claramente lasdiferencias existentes entre las diferentes medias en cuanto a su magnitud:

• En las distribuciones de tipo I quedaba:

H = 2,85 < G = 4,2 < x = 5,6 < C = 6.63

• Para las distribuciones de tipo II que hemos estudiado:

H= 3.2 < G= 4<x=4,79 <C= 5,46

3.7. LA MODA

La moda se define como el valor de la variable que más veces se repite. En unadistribución de frecuencias es el valor de la variable que viene afectado por lamáxima frecuencia de la distribución. Se simboliza como Mo.

EJE%IPLO

12. (ai,uia ia moda de la siguiente distribución:

44

Page 47: Esta Di Stica

L, _ — L, h = n,

a,

2

7

4

0- 1010- 3030- 5050- 8080-110

0,2

0,35

0,25

0,130,03

SOLUCIÓN:

Mo = 3, ya que es el valor de la variable que más se repite. al

ser su frecuencia absoluta igual a 7.

Para calcular la moda en distribuciones del tipo 111, es necesario calcular las

alturas h, = n'a,

, tal y como lo calculamos al hacer la representación de los histogra-

mas; la moda estará en el intervalo correspondiente al mayor valor de h,. Una vezque conocemos el intervalo donde se encuentra la moda, es necesario utilizar lasiguiente fórmula:

n, + 1

a,+1 Mo=L7 _ 1 + a,

n,+ 1 + n;-1 a, + a,-1

donde L,_, es el límite inferior del intervalo donde se encuentra la moda; n,,, y

a,,,, es la frecuencia y la amplitud del intervalo siguiente; n,_, y a,_,, la frecuencia yla amplitud del intervalo anterior, y a„ la amplitud del intervalo modal.

I.:.IENII'I.O

13. Calcula la moda de la siguiente distribución:

SOLUCIÓN:

El mayor valor de h, es 0,35; por tanto la moda se encuentra en el

intervalo 10-30.

0,25Mo = 10 +

0,25 + 0,2 20 = 21,11

Mo = 21,11 111

45

Page 48: Esta Di Stica

Si la distribución del tipo Ill que estamos estudiando presenta intervalos deamplitud constante, el método para obtener la moda se simplifica, ya que el inter-valo donde se encuentra la moda se puede fijar con sólo observar la columna defrecuencias sin necesidad de calcular las alturas, ya que todas las a; son iguales; unavez conocido el intervalo modal, la fórmula empírica que se utiliza es la siguiente(quedando eliminadas las amplitudes a ; , 1 y a_ 1 , por ser éstas iguales):

Mo = L1-1 +

n.+I a;

n;+, + ni_i

3.8. LA MEDIANA

La mediana se define como el valor central de los valores de la variable, una vezque éstos han sido ordenadas en sentido creciente o decreciente. Por tanto, lamediana, gráficamente, deja el 50 por 100 de los elementos a la izquierda, y el 50 por100 de elementos a la derecha. Cuando el número de valores de la variable es par, lamediana se calcula haciendo la media aritmética de los valores correspondientes.

La mediana se simboliza como M,..

l•:.1 1 \ I PLOS

14. Calcula la mediana de la siguiente distribución:

1

3

58

lI

SOLUCIÓN:

b1e = 5, ya que ordenados los valores de la variable (en este casoen sentido creciente) el valor 5 deja igual número de valores a su alre-dedor.

15. Calcula la mediana de la siguiente distribución:

.r;

3

58

1113

46

Page 49: Esta Di Stica

SOLUCIÓN:

M, = 5

2 8

= 6,5; como el número de valores de la variable es par,

calculamos la mediana haciendo la media aritmética de los dos valorescentrales. •

El cálculo de la mediana para distribuciones del tipo II se hace de la siguienteforma: se calculan las frecuencias absolutas acumuladas, y la mediana será el valorde la variable correspondiente a la primera frecuencia absoluta acumulada mayorque N/2.

EJEMPLO

16. Calcula la mediana de la siguiente distribución:

n, N,

1 2 2

3 7 95 5 14

8 4 1 8

11 I 19

SOLUCIÓN:

N 19=9,5

2 2

La frecuencia absoluta acumulada mayor que 2 es 14, por tanto, la

mediana es 5.

El cálculo de la mediana para distribuciones del tipo Ill se hace de formasemejante al definido para distribuciones del tipo II; una vez que conocemos elintervalo donde se encuentra la mediana, debemos calcular su valor utilizando lasiguiente fórmula:

N2

MQ= Li_,+ n i a,

47

Page 50: Esta Di Stica

L;_, es el limite inferior del intervalo donde se encuentra la mediana; n„ su frecuen-cia; a„ su amplitud; N el total de datos y Ni _ 1 , la frecuencia acumulada anterior delintervalo mediano.

EJEMPLO

1 - Calcula la mediana de la siguiente distribución:

L,_, — L, n; N.

0- 10 2 210- 30 7 930- 50 5 1450- 80 4 1880-110 I 19

SoLuciÓN:

N 19 -9 5

2 2

La frecuencia absoluta acumulada mayor que 2 es 14. por tanto, la

mediana está en el intervalo 30-50.

M, = 30+9'S

9 20= 325 •

3.9. IILLs

La generalización del concepto de mediana da lugar a unas nuevas medidas deposición llamadas cuantiles: las que más se utilizan son los cuarteles, deciles ypercentiles.

Existen tres cuartiles: el primer cuartil deja a su izquierda el 25 por 100 de loselementos y el otro 75 por 100 a su derecha; el segundo cuartil deja el 50 por 100 delos valores a la izquierda y el otro 50 por 100 a su derecha; y el tercero deja el 75 por100 de los valores a la izquierda y el 25 por 100 de valores a la derecha.

Existen nueve deciles: el octavo decil es, por ejemplo, aquel valor de la variableque deja el 80 por 100 de valores a la izquierda y d 20 por 100 de datos a la derecha.

Existen noventa y nueve centiles: el 30 centil es por ejemplo. aquel valor de lavariable que deja el 30 por 100 de valores a la izquierda y el 70 por 100 de valores ala derecha.

48

Page 51: Esta Di Stica

Como es evidente, la mediana coincide con el segundo cuartil, el quinto decil y elquincuagésimo centil.

El cálculo de los cuantiles se hace de forma semejante al cálculo de la mediana,pero con el cociente rN/4 para los cuartiles, rN/10 para los deciles, y rN/100 para loscentiles: r es el número del cuantil que queremos calcular.

I•:.IF:^II'I uti

18. Calcula el segundo cuartil, el quinto decil y el quincuagésimo centil de lasiguiente distribución:

n, N,

1 2 23 7 95 5 14

8 4 18

Il 1 19

SOLUCIÓN:

Segundo cuartil

rN 2•19= 4 =9.5 a Q z = 54

Quinto decil

rN_ 5 . 19 _. 10 10

Quincuagésimo centil

9,5 =. Ds = 5

rN 50• 19

100 = 9,5 ^ Cso = 5

100

19. Calcula el primer cuartil, el tercer decil y el septuagésimo centil de lasiguiente distribución:

L,_, — L, n; N,

0- 10 2 2

10- 30 7 9

30- 50 5 1450- 80 4 18

80-110 1 19

49

Page 52: Esta Di Stica

SOLUCIÓN:

a) Primer cuartil

rN _ 1 • 19 = 4,75

4 4

por tanto, el primer cuartil estará en el intervalo 10-30.

= 10+4, 75 — 2

20Q ' 7

Q, = 10 + 7,8 = 17,8

b) Tercer decil

rN _ 3.19

10 10 = 5,

El tercer decil estará en el intervalo 10-30.

—D 3 = 10 + 5'7 2 20 ; D 3 = 20,577

c) Septuagésimo centil

rN70 19 = 13,3

100 100

El septuagésimo centil estará en el intervalo 30-50.

C70 = 30 + 13,3— 9

20 ; C,o = 47,25

EJERCICIOS

3.1. Los datos expresados a continuación indican la distribución efectivaobtenida arrojando 10 monedas, 1.024 veces, y anotando el número decaras que salieron en cada ocasión:

N.° de caras: 0 1 2 3 4 5 6 7 8 9 10Frecuencias: 1 16 42 126 199 253 209 118 53 4 3

¡,Cuál es el promedio de caras que aparecieron en cada tirada?

50

Page 53: Esta Di Stica

3.2. En un ferrocarril de cercanías de Madrid, se controló el número depasajeros que recorrían un domingo cierto número de kilómetros. Laprimera columna indica la distancia recorrida en kilómetros, y la se-gunda el número de pasajeros que la cubrió:

L,_, — L, n,

Menos de 10 2

10-20 7

20-30 22

30-35 10

35-50 15

Más de 50 3

CALCULA:

a) Las medidas de tendencia que conozcas.b) Asimismo, la moda y la mediana.

3.3. En un parque de atracciones la media aritmética de gastos por visitantees de 4.000 ptas. Sabiendo que los adultos gastan una media de 4.300ptas. y los niños 3.500 ptas., calcula el porcentaje de adultos y niñosque visitan el parque.

3.4. Calcula dos números que cumplan las siguientes condiciones:

a) Su media aritmética es 10.b) Su media geométrica es 7.

3.5. En la primera semana del mes de mayo del año 1989, se realizó unestudio sobre el coste del menú en 6 restaurantes de la Costa Brava.Paralelamente se analizó la demanda de los mismos. Los datos resul-tantes son:

Menús PreciN.° de menús

solicitados

A 1.400 500

B 2.200 700

C 1.800 650

D 1.100 450

E 2.600 860

F 1.500 555

51

Page 54: Esta Di Stica

DETERMINA:

a) La media aritmética de los precios de los «menús» de estos restau-rantes.

b) La media aritmética considerando la demanda de las mismas.e) Comenta los resultados.

3.6. Un grupo de turistas ingleses visitó España durante quince días. Alfinal de su estancia se les preguntó sobre el dinero que habían gastadodurante dicho período:

Li_ , — L ; n,

50.000- 75.000 575.000-125.000 7

125.000-150.000 20150.000-225.000 12225.000-300.000 4300.000-500.000 2

CALCULA:

a) La media aritmética del dinero gastado por este grupo de extran-jeros.

b) La mediana, así como la nonagésima centila y séptima decila.

3.7. En una fábrica, un operario siguió la evolución de cinco productosdurante una semana. Los resultados fueron los siguientes:

Producto: 1 2 3 4 5

Oscilación: —5 2 I 0 6

CALCULA:

a) La media geométrica.b) La media cuadrática.c) Explica los resultados.

3.8. El precio de una determinada botella de vino de marca nacional, en 7establecimientos de la misma ciudad, es:

500, 525, 450, 610, 575, 600, 425

Realiza una comparación entre todas las medidas de tendencia cono-cidas.

52

Page 55: Esta Di Stica

3.9. Un grupo de cinco empresarios se reunió en 1989 para realizar elpresupuesto de un hotel de 4 estrellas en Murcia. Decidieron realizarel cálculo por separado y adoptar como válida la media de los cincovalores. Los datos aportados fueron:

Evaluador A E

Valor dado (millones) 30 37 25 31 40

Años experiencia 7 15 3 6 14

CALCULA:

a) La media aritmética.b) ¿Cuál hubiese sido la cifra adoptada si se hubieran ponderado esos

valores en función del número de años de experiencia de cadaempresario?

3.10. Calcula la frecuencia correspondiente al segundo intervalo de la si-guiente distribución, sabiendo que su media aritmética es igual a 20.Haz su representación gráfica. Calcula la moda y la mediana.

L,_, — L, n,

6- 8 2

8-12 ?

12-22 3

22-28 4

28-34 2

3.11. Calcula la moda de la siguiente distribución; así como la segundacuartila y octava decila.

L,_ , — L, n,

Menos de 4 24

4- 8 5

8-20 7

Más de 20 34

3.12. De un examen de estadística realizado por 60 personas en la EscuelaOficial de Turismo, los resultados fueron los siguientes:

53

Page 56: Esta Di Stica

a) Calcula la mediana de la distribución, así como la tercera cuartila,séptima decila y vigésima centila.

b) Haz su representación gráfica mediante un diagrama de barras.

3.13. En tres agencias de viaje de Barcelona, cuyo volumen de negocios enmillones se señala a continuación, el ingreso por ventas de billetes deavión representa el siguiente porcentaje sobre los ingresos totales.

Agencia % Volumen en millones

x 15 1.200

S 17 950_ 19 800

CALCULA:

El porcentaje medio sobre ingresos totales de estas agencias deviaje.

3.14. En un equipo de baloncesto de la liga americana, la altura en cm delos jugadores era:

L,_, — L, n;

170-175 2175-180 4180-185 7185-190 4190-200 2200-210 1

54

Page 57: Esta Di Stica

CALCULA:

La moda de esa distribución.

3.15. Calcula el sexto decil de una distribución, sabiendo que ésta es simé-trica, con seis intervalos de amplitud constante, y que:

N =n 3 =

150

30

n =n,+ 5

L 5 = 60

Qua = 43,5

55

Page 58: Esta Di Stica
Page 59: Esta Di Stica

IV

MEDIDAS DE DISPERSION

4.1. REPRESENTATIVIDAD DE LA MEDIA:CENTRALIZACION V DISPERSION

De todas las medidas de centralización vistas en el capitulo 3, es la mediaaritmética la que mejor reúne las características que debe tener un promedio; sinembargo, para completar esta información, es necesario calcular un coeficiente quenos indique el grado de dispersión de los valores de las variables respecto a la media.

Una media aritmética será más representativa cuanto más concentración presen-ten alrededor suyo los valores de la variable. Cuanto mayor dispersión exista entredichos valores y su media, menos fiable será el valor de la media.

El objeto de esta lección es el estudio de diferentes coeficientes, que nos van aindicar el grado de alejamiento o separación respecto de la media, de los casos uobservaciones de una serie estadística. Al igual que ocurría con las medidas detendencia o de posición, hay diferentes sistemas, más o menos usados, en función dela dificultad de cálculo y fiabilidad de la información que proporcionan.

4.2. RECORRIDO

El recorrido se define como la diferencia entre el valor de la variable numérica-mente superior y el inferior. Su cálculo es muy sencillo y, aunque su información esimperfecta, nos orienta en ciertas ocasiones de una forma rápida.

1=1I. Calcula el recorrido de la siguiente distribución:

xi

—4—2

o39

57

Page 60: Esta Di Stica

SOLUCIÓN:

Re = 9 — (-4) = 13 •

43. DESVIACION MEDIA

La desviación media se define como la media aritmética de los valores absolutosde las diferencias entre los valores de la variable y su media aritmética.

• Para distribuciones tipo I:

N

E iX,- XiDT — =I

N

• Para distribuciones tipo II y III:

N

E ix, —DT —

N

Tamhien es frecuente utilizar la desviación media con respecto a la mediana.

EJEMPLOS

2. Calcula la desviación media de la siguiente distribución, a/ respecto a lamedia aritmética, b) respecto a la mediana.

Ix; — xl Ix, — M•I

4,6 42,6 2

5 0,6 08 2,4 3

11 5,4 6

28 15,6 15

SOLUCIÓN:

28s = —5 5,6

M, = 5

58

Page 61: Esta Di Stica

a) Respecto a la media aritmética D, = 15,6 = 3,12

b) Respecto a la mediana D =5

= 3

3. Calcula la desviación media de la siguiente serie estadística: a) respecto ala media aritmética, b) respecto a la mediana.

x, n, x,n; N, Ix, — zln, Ix, — MeIn,

1 2 2 2 7,6 83 7 21 9 12,6 14

5 5 25 14 1 08 4 32 18 12,8 12

II 1 11 19 6,2 6

19 91 40,2 40

SOLUCIÓN:

91=

19-4,8

Me= 5

a) Respecto a la media aritmética D, =2

= 2,119

b) Respecto a la mediana Dm =40 = 2,119

•4.4. VARIANZA V DESVIACION ESTANDAR O TIPO

Dentro de las medidas de dispersión comúnmente utilizadas, la varianza y ladesviación estándar destacan claramente sobre las demás, al igual que ocurre entrelas medidas de posición con la media aritmética.

La varianza se define como la media aritmética de los cuadrados de las diferen-cias entre los valores de las variables y su media aritmética.

• Para distribuciones tipo I:

E (x( - X)2

S Z = N

59

Page 62: Esta Di Stica

3 95 258 64

11 121

28 220

• Para distribuciones tipo II y III:

(x, — x02/1,S2 =

Al desarrollar estas fórmulas obtenemos otras, más cómodas desde el punto devista de simplicidad de cálculo.

• Para distribuciones tipo I:

N N

E x+(1= E x ' l2

S2 = ; =N N /

• Para distribuciones tipo 11 y 111:N N

E x¡n; E xim 2

S 2 = '-'N = I N )

La desviación estándar o tipo se define como la raíz cuadrada positiva de lavarianza- Se simboliza con una S.

EJE M PLOS

4. Calcula la ttarian_a y la desviación estándar de la siguiente distribución.

SOLUCIÓN:

X = 58 =5,6

S 2 =250

- 5,62 =44-31,36= 12,64

S= `/12,64=3,55

N

60

Page 63: Esta Di Stica

5. Calcula la varianza y la desviación estándar de la siguiente distribución:

x; n, .Y;n, .Y? x?n;

I 2 2 I 23 7 21 9 635 5 25 25 1258 4 32 64 256

II I 11 121 121

91 567

SOLUCIÓN:

91x—

19=4,8

S Z = 19 — 4,8 2 = 6,80

S = J6,80 = 2,6

4.5. COEFICIENTE DE VARIACION

Para mejorar, en algunas ocasiones, la información que nos aporta la desviacióntípica acerca de una serie estadística, dividimos la desviación típica entre la media yobtenemos el llamado coeficiente de variación.

El coeficiente de variación de Pearson se define, por tanto, como el cociente entrela desviación estándar o tipo y la media aritmética, expresado en porcentaje. Esdecir:

V =S 100

Este coeficiente cumple el cometido de permitir comparar dos o más distribucio-nes entre sí, ya que al dividir la desviación estándar entre la media aritmética seelimina la influencia de la escala de medida, convirtiéndose en una medida abstracta,susceptible de comparaciones. También es un coeficiente que se utiliza con muchafrecuencia en el estudio de una distribución aislada.

El inconveniente de este coeficiente es que cuando la media aritmética sea igual acero, no nos aportará ninguna información.

61

Page 64: Esta Di Stica

.Y;

27

54

1

358

lI

19

t.1t \11'I U

6. Calcula el coeficiente de variación de Pearson de la siguiente distribución.

SOLUCIÓN:Como hemos calculado anteriormente la .r = 4,8 y la S = 2,6; por

tanto:

V2,6 100 = 54 %4.8

•4.6. TIPIFICACION DE UNA VARIABLE

A partir de una variable X, de media z y de desviación estándar S. podemoscalcular otra variable Z, mediante la siguiente transformación:

X—Z - S,

Esta transformación recibe el nombre de tipificación de una variable. La mediaaritmética de : y su desviación estándar son iguales a cero y a uno, respectivamente.

a) Media

x (x_ Y 1 xE _;n; E n E (x; — x)n;i_, _ _^ S

N N N

b) Desviación estándar

z

^x (x _ x z I v z

E (:; — 7 n; E ^ n; L n; z ^ (x; - x) n;S z = c ^ =i=c = = t S, _ S _1

N N N N1

= Si S; = I; de donde S. = 1

= 0

62

Page 65: Esta Di Stica

Las variables tipificadas son medidas abstractas, de gran valor en la compara-ción de distribuciones. Además, la tipificación de una variable tiene una granutilidad, que veremos en el próximo capítulo.

E.1 FMPLO

7. Calcula las variables tipificadas de la siguiente serie estadística y com-prueba las dos propiedades de las variables tipificadas.

x,x¡— x

z^ zz, =S

11

5,6

= —1,31 1,71

3

3,

3 5'6 = —0,74 0,54 3

5-5,65 37

5 = —0,17 0,029

8 — 5,60,688 0,463,5 =

11 — 5,61,54I I 2,37 =

3,5 5

E = 0 5,109

SOLUCIÓN:

Como hemos visto anteriormente la .r = 5,6 y Ss = 3,5.

a) Primera propiedad — ± = 0

Nzi

= `°' —0 - 0

N 5

b) Segunda propiedad S: = I

5 , 109= = ; S, _ ^1,02 =1,01 - I5

1 ^

63

Page 66: Esta Di Stica

— L;

—5-(--3)— 3-0

0-5

5-10

F.J M.R ('ICI ()S

4.1. Calcula la desviación media de la siguiente distribución; a) respecto d

la media aritmética y b) respecto a la mediana.

L,-, — L; n;

—10-(-5) 4—5-15 6

15-25 7

25-60 10

4.2. Calcula las medidas de dispersión conocidas de la siguiente serie esta-dística. Comenta los resultados:

4.3. La siguiente tabla de distribución de frecuencias representa los ingresosmensuales, en millones, de 200 hoteles de la Costa del Sol.

Ingresos mensuales(millones ptas.) n'

0- 30 1030- 50 3050- 70 5070-110 10

110-150 60150-200 40

CALCULA:

a) La varianza y el coeficiente de variación. ¿Es representativa lamedia aritmética de la distribución?

64

Page 67: Esta Di Stica

b) Si hay un aumento adicional de 10 unidades monetarias por hotel,¿qué te indica la varianza?

c) Si el incremento de los ingresos es de un 10 por 100 por hotel, ¿cuálsería la varianza?

4.4. En tres galerías de arte de una determinada población se han realizadosubastas de cuadros. Se han alcanzado las siguientes cifras en lasventas:

Galería A( x 103 ) Galería B ( x 10') Galeria C ( x 103)

L,_ , — L, n i L,_1 — L; n ; L,_, — L; n,

50- 100 15 25- 75 20 20- 50 25100- 250 25 75- 125 40 50- 150 10250- 500 20 125- 500 20 150- 400 30500-1.000 10 500-1.000 10 400-1.000 10

1.000-2.500 30 1.000-1.500 10 1.000-3.000 25

CALCULA:

En qué galería ha existido una menor dispersión de los precios.

4.5. La edad de un grupo de personas que acuden a un hotel de la CostaAzul durante las vacaciones se presenta en la siguiente tabla:

L,_ ^ — L, n;

18-25 525-30 1230-40 2340-50 3650-55 4255-65 5065-70 1570-80 15

CALCULA:

a) La edad media de este grupo de personas. ¿Qué te indica el coefi-ciente de variación de Pearson? ¿Qué te indican los resultados?

b) Haz la representación gráfica mediante histogramas.

4.6. El Ministerio de Transportes, Turismo y Comunicaciones ha realizado,en un hotel de cuatro estrellas de Palma de Mallorca, un estudio sobre

65

Page 68: Esta Di Stica

«pernoctaciones» y otro sobre «grado ocupacional» del restaurante. Alestudiar la variable «pernoctaciones» se ha obtenido una z = 125 yuna varianza S; = 36, mientras que el estudio sobre nivel ocupacionaldel restaurante del hotel dio una } = 285, con una desviación estándarS,=46.

EJERcicio:

iCuál de estas dos variables tiene mayor dispersión? Comenta losresultados.

4.7. En un estudio realizado sobre las provincias que ocupan los primerospuestos en cuanto a pernoctaciones anuales en hoteles, se han obtenidolos siguientes resultados:

37.949.13612.939.64611.159.71410.154.3528.529.4068.334.0868.146.6817.930.736

CALCULA:

1. La media que se ha registrado de pernoctaciones en dichas zonas.2. El coeficiente de variación. Comenta los resultados.3. Haz su representación gráfica.

4.8. El grado de ocupación de las zonas turisticas con más número deturistas, durante el arto 1989 ha sido:

Zonas turísticas Grado de ocupación

Costa de Alicante 62,61Costa Brava 44,44Costa del Sol 45,26Palma-Calviá 57,05Sur de Gran Canaria 67,98

CALCULA:

1. La media de ocupación de estas zonas.2. El coeficiente de variación.3. Comenta los resultados.

66

Page 69: Esta Di Stica

x, n,

—4 2

—2 4

—1 3

3 2

5 6

10 1

4.9. Una fábrica produce 3 tipos de bombillas para cafeterías: A, B y C. Decada tipo se ha calculado la duración media en horas y su desviacióntípica. Los resultados son:

Tipo de bombillas A B C

Duración media

Desviación típica1.000

40

1.080

60

850

30

CALCULA:

El tipo de bombilla que tiene menor variación y di en qué unidadviene expresada.

4.10. El director de una agencia de viajes de Burgos está estudiando losmercados en los que concentrar su oferta. En el caso de Alemania sabeque los turistas de ese país suelen pernoctar en los hoteles 6,5 noches demedia, con una dispersión relativa del 32 por 100.

CALCULA:

Cuál es la dispersión absoluta y su unidad de medida.

4.11. Tipifica los valores de la siguiente distribución, y demuestra, medianteeste ejemplo, la dos propiedades de las variables tipificadas:

4.12. Una agencia de viajes de Sevilla ha vendido durante un año 50.000

billetes de avión y 75.000 de tren. Se sabe que la media aritmética deventas de billetes de avión de las agencias en dicha población es de45.000 con una varianza de 2.500, y que las ventas de billetes de trenmuestra una media de 60.000 con una desviación de 1.000.

CALCULA:

En qué tipo de billetes se encuentra más aventajada esta agencia deviajes rtspecto de las demás.

67

Page 70: Esta Di Stica

4.13. Al final del aiñc, un hotel de Badajoz evalúa sus beneficios. En cuantoa pernoctaciones ha tenido un beneficio de 10 millones de ptas. Losbeneficios debidos al servicio del restaurante han sido de 2 millones.La media de los excedentes de los hoteles de la misma localidad, debidaa pernoctaciones, ha sido de 8 millones, con una desviación media deI millón. Los beneficios por servicios del restaurante han dado unamedia de 1,5 millones con una desviación de 100.000 ptas.

CALCULA:

Dónde ha obtenido mayor beneficio, comparativamente con losdemás hoteles de esa población.

68

Page 71: Esta Di Stica

v

MEDIDAS DE ASIMETRIA Y DE CURTOSIS

Cuando representamos una distribución de frecuencias, ésta puede presentar ono algún eje de simetría perpendicular al de la variable. Nos encontramos entoncesante una distribución simétrica o asimétrica, respectivamente.

En el epígrafe 5.1 vamos a estudiar la distribución normal, que corresponde auna distribución simétrica; en el siguiente estudiaremos las distribuciones asimétri-cas y los coeficientes de análisis. Estas medidas de asimetría nos van a proporcionaruna información complementaria respecto de la conseguida a través de la media yla desviación típica, para conocer las características de la distribución. Como sunombre indica, las medidas de asimetría también nos van a informar acerca de lamayor o menor simetría del histograma de frecuencias de la serie o distribución.

5.1. DISTRIBUCION NORMAL

Hay un gran número de fenómenos de la naturaleza que se rigen por unadistribución de frecuencias determinada y que, debido a su generalidad, se llamódistribución normal o Campana de Gauss.

OISTRIBUCION NORMAL

Debemos destacar de la distribución normal, que:

a) Es una curva simétrica.b) El área situada bajo la curva coincide con el tamaño de la muestra.c) Tiene una cota máxima en el centro y decrece constantemente hacia los

extremosa

69

Page 72: Esta Di Stica

d) No tiene limites hacia sus extremos, es decir, no corta nunca el eje deabcisas.

el Por lo dicho anteriormente, es evidente que en la distribución normal, lamedia aritmética, la mediana y la moda coinciden.

./1 La distribución normal tiene tres puntos de inflexión. El primer punto deinflexión coincide con el valor de la desviación estándar de la distribución(representada por a). El segundo con dos veces el valor de la desviaciónestándar y el tercer punto de inflexión coincide con el valor de la desviaciónestándar multiplicado por tres.

g) La probabilidad de que un valor de la variable esté comprendido entre p ± aes de 68,26 por 100. La probabilidad de que estuviese comprendido entrep ± 2a es del 95.44 por 100: y la probabilidad de que un valor de la variableestuviese entre la media y tres veces la desviación estándar o tipo es del 99,73por 100.

La utilidad de la distribución normal radica en que dada una población cuyadistribución de frecuencias respecto de una variable viene determinada por unacurva normal, cuya media y desviación estándar son conocidas, podemos calcular lafrecuencia relativa o probabilidad de que se dé un cierto suceso. Para lo cual.debemos tipificar nuestra variable, tal como se estudió en el capítulo anterior. Unavez tipificada la variable se recurre a unas tablas de la distribución normal de mediacero y desviación típica unitaria. N(0, 1) y se determina la probabilidad o frecuenciarelativa con que ocurre tal suceso.

Función de distribución:

1(1)(:

' -'e z dc

- ¢

I - m( = 1

=2rt

-z) =

m(=1 (I)(-)

0,0 0,50000 2,1 0.982140,1 0,53983 2,2 0,986100,2 0,57926 2,3 0,989280,3 0,61791 2,4 0,991800,4 0,65542 2,5 0,993790,5 0,69146 2,6 0,995340.6 0,72575 2,7 0.996530,7 0,75804 2,8 0.997440,8 0,78814 2,9 0,998130,9 0,81594 3.0 0,998651.0 0,84134 3,1 0.999031,1 0.86433 3,2 0,999311.2 0,88493 3,3 0,999521.3 0,90320 3,4 0,999661.4 0,91924 3.5 0,99977

70

Page 73: Esta Di Stica

1,5 0,93319 3,6 0,999841,6 0,94520 3,7 0,999891,7 0,95543 3,8 0,999931,8 0,96407 3,9 0,999951,9 0,97128 4,0 0,999972,0 0,97725

EJEMPLO

1. En un Parador de Turismo de la Comunidad Autónoma de Andalucía se harealizado un estudio sobre el grado de ocupación del mismo; se comportacomo una distribución normal. De un total de 100 habitaciones, la mediaaritmética de la ocupación fue de 90 y su desviación de 15.

Calcula la frecuencia relativa o probabilidad de que el hotel se encuentrelleno.

SOLUCIÓN:

x;— .Y 100-90z; = ; z; = 15

P(z; ) = 75 %

La frecuencia relativa o probabilidad de que el hotel se encuentre llenoes del 75 por 100.

5.2. ASIMETRIA Y SUS COEFICIENTES

En el epígrafe anterior hemos comentado que la distribución normal era unacurva simétrica. Sin embargo, nos vamos a encontrar con distribuciones que van apresentar un desplazamiento en mayor o menor grado a la izquierda o a la derecha;diremos que la distribución presenta una asimetría. Este desplazamiento lo vamos amedir mediante un parámetro denominado coeficiente de asimetría de Pearson. Estecoeficiente se define como la diferencia entre el valor de la media aritmética y lamoda, divididas por la desviación estándar. Como se observa, es una medida abs-tracta, susceptible de comparaciones.

As =Y —Mo

S

Cuando nos encontramos ante la distribución normal, al coincidir la media y lamoda, As = 0; si la distribución es asimétrica a la derecha, el valor de la media serámayor que el de la moda, y As > O; por el contrario, si la distribución es asimétricaa la izquierda, el valor de la media será inferior que el de la moda, y As < 0.

— 0,66

71

Page 74: Esta Di Stica

Yi n;

3 75 5

8 41

M. A

A, > O

A, = O

A M,

A,<O

Este coeficiente es válido para distribuciones de forma campanoide y unimodal;cuando no es así, se utiliza otro coeficiente, denominado coeficiente de asimetría deFisher: se simboliza como g l , cuya expresión es:

CNI E (x, —

_ i = l g ' S' N

EJENIPLO

2. Calcula el coeficiente de asimetría de Pearson de la siguiente distribuciónde frecuencias:

72

Page 75: Esta Di Stica

SOLUCIÓN:

Como hemos calculado anteriormente la z = 4,79, la Mo = 3 y laS = 2,6; por tanto

A' — —Mo 3 —4,79—

= 0,69 S 2,6

Este resultado nos indica que la distribución es asimétrica a la derecha.

^

5.3. RELACION EMPIRICA ENTRE MEDIA, MEDIANA Y MODA

En las distribuciones de frecuencias de forma campanoide, unimodal y tan sólomoderadamente asimétricas, se cumple la siguiente relación empirica:

z — Mo= 3(x— M,)

1:.II \IPLO

3. En una distribución, moderadamente asimétrica, se sabe que su media arit-mética es igual a 8 y su mediana igual a 8,9. ¿Cuál es el valor de la moda deesta distribución? ¿Cuál es el signo de asimetría de la misma?

SOLUCIÓN:

— Mo= 3(z— M,)

8 — Mo = 3(8 — 8,9) ; 8 — M, = — 2,7 ; Mo = 10,7

Como la x < Mo, el coeficiente de asimetría es negativo y, por tanto,la distribución es asimétrica a la izquierda.

•5.4. CURTOSIS Y SU COEFICIENTE

Cuando comparamos una distribución con la normal, nos interesa a veces sabersi es más o menos puntiaguda que ésta. Cuando una distribución presenta mayorapuntamiento, se la denomina leptocúrtica; si presentase un apuntamiento menor, sedenomina platocúrtica; aquellas distribuciones con un apuntamiento semejante alque presenta la distribución normal se denominan mesocúrticas.

Leptocuróca

Metocwuca

Platocurtrca

73

Page 76: Esta Di Stica

El parámetro que define esta característica se denomina coeficiente de apunta-miento o de curtosis. Se simboliza como g2.

N

E (x i — -Y14nii =1

Ng2 = S4

Para una distribución normal tipificada, el valor de este coeficiente es de tres.Por tanto, también se suele calcular este coeficiente según la siguiente fórmula:

N

E (x1 — x)4",i=

g2 =N

3S4

Al utilizar esta fórmula, se compara el apuntamiento de una distribución cual-quiera con el de la curva normal tipificada; si g 2 = 0, estaremos ante una distribu-ción con un apuntamiento igual al de la curva normal tipificada; si g 2 > 0, elapuntamiento será mayor que el de la normal, y se producirá una curva leptocúrtica;si g2 < 0, nos indicará una curva platocúrtica.

EJERCICIOS

5.1. Calcula la media aritmética, mediana, moda, segunda cuartila. quintadecila y quincuagésima centila de la siguiente distribución.

L1-1 — Li n,

—6-(-4) 3

— 4-0 4

0-8 108-12 2

¿Cuál es el signo de asimetría y por qué? ¿Cómo seria su represen-tación gráfica?

5.2. En el servicio de restaurante de un hotel, se ha realizado el inventario de50 lotes de cristalerías para desechar las piezas que presentan dañospor el uso. Se han obtenido los siguientes resultados:

74

Page 77: Esta Di Stica

x; n,

2 7

3 55 6

6 4

8 1

IO 1

12

a) ¿Cuál es el signo de asimetría de la distribución?h) Haz su representación gráfica.

5.3. Los beneficios en las agencias de viajes en una población de la CostaAzul han sido los siguientes:

Beneficios (x 103 ) n,

Menos de 1.000 31.000-2.000 42.000-3.000 63.000-5.000 10

Más de 5.000 4

Calcula el coeficiente de asimetría de la distribución.

5.4. Tras realizar un estudio del número de personas que acuden los lunesal campo de golf de El Escorial, se obtuvieron los siguientes resultados:

Media aritmética 100Mediana: 95,5Moda: 107,5

a) Determina si es grande o pequeño el grado de asimetría de dichadistribución.

b) ¿Cuál es el signo de asimetría de la misma? ¿Cómo seria aproxi-madamente su representación gráfica?

5.5. En un estudio comparativo de la retribución que reciben los empleadosde dos empresas dedicadas al mantenimiento de embarcaciones en unpuerto deportivo de la Costa Brava, se han obtenido los siguientesresultados:

75

Page 78: Esta Di Stica

Empresa A Empresa B

L,_ — L, a, L,_ i — L, a,

70.000-100.000 I 60.000-125.000 4100.000-150.000 3 125.000-200.000 3150.000-250.000 4 200.000-350.000 2250.000-500.000 2 350.000-500.000 1

a) ¿Cuál de las dos empresas presenta un mayor coeficiente de asime-tría? ¿Qué signos de asimetría presentan?

b) Haz la representación gráfica y comenta los resultados.

5.6. Una distribución normal tiene de media 5 y desviación típica 0,7.Queremos escoger el 80 por 100 de los elementos tomando aquéllos devalor más pequeño. ¿A partir de qué valor tenemos que eliminar?

5.7. Un Parador de Turismo de Cataluña instala para su iluminación 1.000bombillas. La duración de una bombilla sigue una distribución normalde media 284 días y desviación típica de 25 días. La empresa que lasha instalado se compromete a reemplazar el día de fin de año todaslas bombillas fundidas.

CALCULA:

¿Cuántas bombillas necesitará?

5.8. Un maitre tiene que pedir a la cocina menús de diferentes precios parauna convención de 500 personas. En un anuario de estadística lee quela media que un comensal paga por comer es de 2.500 ptas., y sudesviación típica de 150 ptas., y que sigue una distribución normal.

El cocinero le presenta los siguientes menús:

Menú 1Menú 2Menú 3Menú 4

1.750 ptas. 2.100 ptas. 2.600 ptas.- 3.200 ptas.

Calcular el número de menús de cada tipo que solicitará el maitre.

5.9. Dada una distribución normal, se conoce que su media aritmética vale1,5 y su varianza I.

Calcular la probabilidad de que un elemento sea positivo.

5.10. Se ha observado que las visitas de grupos de turistas con guía que serealizan a un determinado museo se comporta según una curva normal,cuya media es de 320 y su desviación típica es de 25. Se sabe que

76

Page 79: Esta Di Stica

dicho museo pierde dinero cuando el número de visitantes desciendede 175.

Calcular la probabilidad de que este museo sea deficitario.

5.11. Dada una distribución normal, se conoce que su media es 20 y sudesviación típica 5.

Calcular la frecuencia relativa del intervalo 17-19.

5.12. En un viaje organizado de 75 personas, el guía propone realizar unaexcursión y se responsabiliza de comprar los picnics para todos losturistas. Al preguntar sobre el precio de los mismos, le ofrecen cuatroposibilidades:

Picnic APicnic BPicnic CPicnic D

– 1.000 ptas.1.750 ptas.

2.500 ptas. 3.200 ptas.

El guía sabe que la media de gastos en comida de este tour es de 1.800ptas., con una desviación media de 250, y que sigue una distribuciónnormal.

Calcular cuántos picnics de cada precio deberá encargar el guía.

77

Page 80: Esta Di Stica
Page 81: Esta Di Stica

VI

MEDIDAS DE CONCENTRACION

6.1. INTRODUCCION Y REPRESENTACION GRAFICA:CURVA DE LORENZ

Cuando estudiamos las medidas de dispersión en la lección cuarta, definimos eltérmino de «dispersión», como el grado de alejamiento o separación respecto de lamedia, de los casos u observaciones de una variable estadística.

En este capítulo vamos a estudiar las medidas de concentración, pero el términode «concentración» no debe ser considerado como opuesto al de dispersión desde elpunto de vista de la Estadística Descriptiva. Cuando hablamos de «concentración»,se entiende la mayor o menor igualdad de reparto de una determinada magnitud;ejemplos: la renta, los salarios de una empresa, ventas en establecimientos comer-ciales, etc. Es decir, el término concentración tiene un significado opuesto al término«reparto igualitario».

El primer estadístico que se preocupó por este tema fue el italiano GINI.Si tenemos una distribución de frecuencias, con unos valores de la variable x 1 , y

unas frecuencias absolutas n, denominaremos P, al porcentaje acumulado de lasfrecuencias absolutas; y Q; al porcentaje acumulado de los productos de los valoresde la variable y sus respectivas frecuencias absolutas.

Gráficamente se establece un sistema de ejes de coordenadas, señalando enabcisas los valores Q, y en el eje de ordenadas los valores P. La diagonal delcuadrado representa la distribución igualitaria. La curva que se obtiene al represen-tar nuestros valores se denomina CURVA DE CONCENTRACION O CURVADE LORENZ (véase figura de la página siguiente).

Esta curva es un indicador de la concentración. Si la curva de Lorenz está cercade la diagonal nos indica que hay poca concentración; a medida que la curva deconcentración se va alejando de la diagonal, la concentración será mayor.

El área entre la curva de Lorenz y la diagonal recibe el nombre de AREA DECONCENTRACION.

6.2. INDICE DE GINI

El coeficiente que mide la mayor o menor concentración existente en una distri-bución se denomina indice de Gini o índice de concentración.

79

Page 82: Esta Di Stica

100%

/00%

Area de concentration

El indice de concentración es el cociente entre el área de concentración y el totaldel área del triángulo formado por la diagonal y las dos escalas.

Este indice puede oscilar entre los valores O (cuando la curva de Lorenz coincidecon la diagonal y por tanto el área de concentración es cero: reparto igualitario) y 1(cuando el área de concentración coincide con el área del triángulo: reparto noigualitario).

Como es dificil obtener el área de concentración, existe una fórmula aproximada,cuya expresión es:

N -1E (p - Qi)

C = !^ 1 N-1

.k:Jt:■11'1.()

I. Calcula el indice de concentración o indice de Gini de la siguiente distri-bución.

o,

80

Page 83: Esta Di Stica

L,_, — L 1 n, x1 x1n; % n 1 % x1n1

0-10 4 5 20 40 13,310-20 3 15 45 30 3020-30 2 25 50 20 33,330-40 I 35 35 10 23,3

A Q1N - I

E (P, - QJ1 =1

N-1E P,

1=1

40 13,3 26,7 4070 43,3 26,7 7090 76,6 13,4 90

100 100 66,8 200

SOLUCIÓN:

N - 1

E (P1 — Q1) 66,8C = 1=1 N_1 =

200 = 0, 334

E P;=1

EJERCICIOS

6.1. Los ingresos de un día por propinas de los camareros de dos restauran-tes de lujo de Málaga son los siguientes:

Restaurante A Restaurante B

L 1 _ , — L, n, L1_, — L 1 n,

500-1.000 2 300- 750 41.000-2.000 4 750-1.500 32.000-4.000 2 1.500-4.500 24.000-7.000 2 4.500-8.000 1

CALCULA:

La concentración, empleando la curva de Lorenz y el índice de Gini.

81

Page 84: Esta Di Stica

6.2. Estudia la concentración y la dispersión de las distribuciones siguientes;comenta los resultados.

Distribución A Distribución B

x, n; .v, n,

1090

I9

1090

9I

6.3. Los sueldos mensuales de un grupo de personas que han terminado losestudios de turismo en el mismo año en Las Palmas de Gran Canariason:

Sueldo (miles ptas.) n,

60- 90 1090-120 20

120-180 30180-220 20220-300 10300-500 5

a) ¿Es representativa la media aritmética de los sueldos de este grupode personas?

b) ¿Existe un reparto igualitario entre este grupo de personas?

6.4. El sueldo mensual que cobra el personal de un hotel de Marbella es elsiguiente:

L,_, — L, t7,

100.000-150.000 20150.000-200.000 25200.000-250.000 15250.000-300.000 5300.000-400.000 3

a) Calcula el índice de concentración o indice de Gini. Comenta losresultados.

b) Haz su representación gráfica.

82

Page 85: Esta Di Stica

6.5. Tras realizar un estudio sobre el sueldo mensual que reciben los em-pleados de dos compañías aéreas diferentes, se obtienen los siguientesgráficos.

P,

100%

100%

EArea de concentración

100%

100%

Area de concentración

a) Comenta los resultados.

a,

a,

83

Page 86: Esta Di Stica
Page 87: Esta Di Stica

r,

Y ,Y2

Y2

Y3

Y.

xixix2x3

x„

VII

SERIES ESTADISTICAS DE DOS VARIABLES

7.1. DEFINICION Y REPRESENTACION GRAFICA

En las lecciones anteriores hemos estudiado diferentes conceptos, pero siemprereferidos al estudio de UNA SOLA VARIABLE; en las próximas vamos a estudiarconjuntamente dos caracteres cuantitativos de una población. Nos encontramos anteestadísticas de DOS VARIABLES.

Frecuentemente se nos presentan dos variables que, sin estar ligadas entre sí poruna relación matemática, tienen una cierta dependencia estadística; ejemplo: altura ypeso; población de una ciudad y número de escuelas; demanda turística y estableci-mientos hoteleros, etc.

En estadísticas de una sola variable, definimos la frecuencia absoluta como elnúmero de veces que se repite el valor de una variable; en series estadísticas de dosvariables, las veces que se repite cada pareja de valores recibe el nombre de frecuen-cia absoluta conjunta. También podemos definir aquí la frecuencia absoluta acumu-lada conjunta y frecuencia relativa acumulada conjunta.

Las distribuciones de frecuencias de dos variables las podemos clasificar, asimis-mo, en:

• Distribuciones de tipo I, donde algunos valores de la variable X puede repetirse,pero con distinto valor de la variable Y, y viceversa.

85

Page 88: Esta Di Stica

• Distribuciones de tipo II, donde los valores de estas variables vienen acompa-ñadas de sus frecuencias; también aquí algunos valores de X puede repetirse, perocon distinto valor de Y, y viceversa.

x; y, n;

x 1 Y1 n,X2 Y2 n2x3 Y3 n3

r y„ n„

• Distribuciones de tipo III, en las cuales los datos se suelen presentar en tablasde doble entrada, donde en la primera fila se colocan los valores de la variable X, yen la primera columna se colocan los valores de la variable Y; en la confluencia de lacolumna x; con la fila de y, se coloca la frecuencia conjunta n ;; . Esta tabla secompleta frecuentemente con una última fila, que recoge el sumatorio de cadacolumna; y con una última columna, donde recoge el sumatorio de cada fila.

yir, x2 x3 x„ Totales

Y1 n1; n2, n31 n„ E n,

Y2 n12 n22 n32 n„3 E ni2

Y 3 1113 n23 n33 n„3 Z n,3

Yk nik n2k n3k n „k E n,k

Totales E n,;

n2; n3i E n„; N

En estas distribuciones, los valores de las variables pueden venir en valoressingulares o en intervalos L — L;. En este último caso, es necesario calcular lasmarcas de clase para posteriores cálculos. Estas distribuciones se pueden transfor-mar en distribuciones de tipo II, mediante la conversión de estas tablas de dobleentrada en tres columnas: x ;, yi,

86

Page 89: Esta Di Stica

La representación gráfica de este tipo de estadísticas suele ser en un sistema deejes cartesianos. Los valores de una de las variables se dispone en el eje de abcisas ylos de la otra en el eje de ordenadas; la confluencia de las dos variables se señala conun punto sobre el plano. El conjunto de puntos así obtenidos recibe el nombre de«nube de puntos».

7.2. DISTRIBUCIONES MARGINALES: MEDIAS, VARIANZASY DESVIACIONES ESTANDAR

Las distribuciones formadas por las columnas primera y última, por un lado, ypor la primera fila y la última fila, por otro, reciben el nombre de distribucionesmarginales. Son distribuciones de cada una de las variables consideradas por separa-do sin tener en cuenta los valores de la otra.

Distribución marginal de la Y Distribución marginal de la X

Yt n i X; n,

y,

Y2

Y3

Yk

ni,n;2n,3

ni,

x,X2

x3

xh

n, ,

n2j

n3j

net

Estas distribuciones así definidas son susceptibles del cálculo de los parámetrosvistos en las series estadísticas de una sola variable.

I:.IENIIPI.O

I. Calcula la media, varianza y desviación estándar marginales de la variableX y de la variable Y, respectivamente.

x

1'2 4 6 Total

10 4 3 2 9

5 1 3 1 5

3 2 2 1 5

Total 7 8 4 19

87

Page 90: Esta Di Stica

SOLUCIÓN:

Distribución marginal de X

x, n; x;n; x?n;

2 7 14 28

4 8 32 128

6 4 24 144

19 70 300

=

70

19=3,68

(7(J)2= —==2,22

= J2,22 1.5

Distribución marginal de y

►' n, ye!, Yi n,

10 9 90 900

5 5 25 125

3 5 15 45

19 130 1.070

130=6,84

19

S, = 1.070

= 9,5019 —

(130)

S,. = v 9 50 = 3,08

73. DEPENDENCIA FUNCIONAL O EXACTA Y DEPENDENCIAESTADISTICA. COVARIANZA

Cuando estudiamos la relación existente entre dos variables, nos podemosencontrar:

a) Con fenómenos totalmente independientes entre sí: por ejemplo, si la varia-ble X representa el «peso» de un conjunto de personas, y la variable Y el«nivel intelectual» de las mismas, sabemos de antemano que ambos fenóme-nos son absolutamente independientes y, por tanto, no existe ninguna rela-ción entre ellos.

88

Page 91: Esta Di Stica

b) Con fenómenos en que la relación existente entre las dos variables tiene unadependencia funcional o exacta; para cada valor de la variable X existe unsolo valor de la variable Y. Es decir, las dos variables estén relacionadas poruna función matemática; por ejemplo, masa de un cuerpo y gravedad delmismo.

e) Con fenómenos en que la relación existente entre las dos variables tiene unadependencia estadística; para cada valor de la variable independiente existendistintos valores de la variable dependiente; por ejemplo, si estudiamosdemanda turística y establecimientos hoteleros, vemos a priori que existeuna relación entre las dos variables, y que dicha dependencia no es funcionalo exacta, sino que estamos ante una dependencia estadística.

Por la simple observación de la nube de puntos resultante de representar lavariable X y la variable Y, podemos observar el tipo de dependencia existente entrelas dos variables.

Si la representación gráfica da lugar a una serie de puntos que unidos por unalínea da lugar a la expresión gráfica de una función matemática, estaremos ante unadependencia exacta entre las dos variables. Si lo que obtenemos es una nube depuntos de forma alargada y de inclinación positiva, la dependencia estadística seráde tipo lineal y recta; si la inclinación es negativa, la dependencia estadística será detipo lineal e inverso; si la nube de puntos presenta forma parabólica, la dependenciavendrá dada por una función parabólica; si la nube de puntos no presenta ningunaforma, diremos que las variables son independientes entre sí, están «incorrelaciona-das».

xDependencia lineal directa

: e [

e e [ [[ e [

[ e e e

X

Dependencia parabólica

xDependencia lineal inversa

[[ ea e[ e e

[

[ e a a a[

[ e e e e

Incorrelauón

89

Page 92: Esta Di Stica

El parámetro matemático que estudia la dependencia estadística entre las dosvariables se denomina COVARIANZA.

La covarianza se define como la media aritmética de los productos de lasdesviaciones de cada una de las variables con respecto a su media aritmética.

• Para distribuciones tipo I:

h k

N

E E (X; — X)(y) — Y-)

5,,. — N

• Para distribuciones tipo II y III:

h k

E E (x1 — X)(y; — })nuS = i=i J=1

^y

Para el cálculo, estas fórmulas se presentan de una forma más práctica:

• Para distribuciones tipo I:

h k

EEX,y;s=Y =

N

• Para distribuciones tipo 11 y III:

E-x, E y;i =i ;=t

N N

h k h k

i=i ^E, X i y^n(; L Xin+i ^E^ yin^ii=i

Sxy N N N

Cuando la covarianza dé 0, indica que no existe ningún tipo de dependenciaentre las dos variables. Una covarianza positiva implica una dependencia estadísticade tipo directo, mientras que una covarianza negativa supone una dependencia detipo inverso.

EJEM11PLOS

2. Calcula la covarianza de la siguiente serie estadística.

90

Page 93: Esta Di Stica

Y/I,j X,yInu

40 8030 12020 120

5 I015 60

5 306 126 24

3 18

130 474

.r,no

812122

126486

70

X, Y / XiYj

2 l0 204 10 406 10 602 5 104 5 206 5 302 3 64 3 126 3 18

36 54 216

SOLUCIÓN:

216 36 54= 9 9 9

S,,,=24-4 • 6= 0

3. Calcula la covarianza de los siguientes valores.

X i Y) no

2 10 44 10 36 1 0 22 5 1

4 5 36 5 1

2 3 24 3 26 3 1

19

SOLUCIÓN:

474 70 130

S" 19 19 19

S„ = —0,26 •

91

Page 94: Esta Di Stica

EJERCICIOS

7.1. ¿Qué tipo de dependencia estimas, a priori, en los siguientes ejemplos?¿Cómo sería. aproximadamente, su representación gráfica?

a) «Necesidad calórica» y «edad».b) «Punto geográfico» y «radiación solar».e) «Precios» e «IPC».d) «Salubridad en las playas» y «número de visitantes»:'e) «Masa de un cuerpo» y «gravedad del mismo».

7.2. Los resultados de la compañía Transmediterránea durante los últimosaños ha presentado los siguientes valores:

Años Resultados

1982 2791983 2731984 1181985 4121986 9151987 1.5811988 3.3681989 3.968

a) Haz su representación grafica y coméntala.

7.3. Se ha realizado un estudio sobre la edad de un grupo de extranjeros quevisitan nuestro país, y el dinero que gastan diariamente, obteniendo lossiguientes valores:

x(edad) y(ptas.) x(edad) y(ptas.) x(edad) y(ptas.)

25 5.000 46 8.000 25 4.80034 5.500 37 7.500 65 14.50050 10.000 26 5.500 45 8.60028 5.500 27 5.000 55 15.00054 12.500 35 7.500 50 12.00060 15.000 40 8.000 30 7.50045 10.000 50 8.000 40 8.000

a) Establece una tabla de doble entrada; los valores se pondrán enintervalos: los valores de la variable x con una amplitud constantede 10 y los valores de la variable y con una amplitud de 5.000.

b) Haz la representación gráfica.

92

Page 95: Esta Di Stica

7.4. Se ha realizado una encuesta a 100 personas, en edades comprendidasentre 25-60 años, sobre la frecuencia con que van al teatro y al cinedurante el año. Los resultados fueron los siguientes:

CineTeatro

0-5 5-10 10-20 20-40

0-5 15 20 6 1

5-10 10 10 6 9

10-15 5 3 2 4

15-30 2 7 -

a) Estudia la posible dependencia entre ambas variables.

7.5. Al estudiar la dependencia existente entre las inversiones realizadas porun establecimiento turístico y los beneficios de la misma, ha resultadouna covarianza, = — 356,5. Explica este dato. ¿Cómo sería, aproxi-madamente, su representación gráfica?

7.6. Dos agencias de viajes de la ciudad de Bilbao, y enclavadas en zonascomercialmente diferentes, han realizado un estudio sobre los billetes deavión que han vendido en los últimos años. Obtuvieron los siguientesresultados (en miles de billetes):

Altos Agencia A Agencia B

1984 15 301985 20 351986 22 451987 32 571988 35 601989 40 651990 42 70

a) ¿Existe una dependencia estadística entre los billetes vendidos porestas dos agencias de viaje? ¿Qué conclusión sacarlas del resultado?

b) ¿Cuál de las dos agencias ha presentado una mayor dispersión deventas durante el periodo estudiado?

93

Page 96: Esta Di Stica

7.7. Establece las distribuciones marginales de las variables x e ya partir dela siguiente tabla de doble entrada y calcula la media, varianza y desvia-ción estándar de cada una de las variables. La variable x indica losgastos de diversas empresas turísticas y la variable y los beneficios delas mismas (en millones de ptas.).

Gastos 250-350 350-450 450,550Beneficios -

10-15 4 5 115-30 6 10 230-50 2 5 4

94

Page 97: Esta Di Stica

VIII

ANALISIS DEL AJUSTE Y DE LA REGRESIONENTRE DOS VARIABLES

8.1. CONCEPTOS DE AJUSTE Y REGRESION

En el capítulo anterior hemos introducido los conceptos de dependencia funcio-nal o exacta y dependencia estadística. Cuando dos variables están ligadas por unaecuación matemática, decimos que entre ellas hay una «relación funcional» y cuandohay una relación estadística afirmamos que hay una «correlación». El parámetroestadístico que medía la dependencia existente entre las dos variables lo definimos«covarianza».

En esta unidad vamos a considerar aquellos fenómenos en los que la dependen-cia existente entre ambas variables es una «dependencia estadística».

Como ya indicamos, si representamos gráficamente la variación conjunta de lasdos variables, entre las que existe una correlación, nos da una nube de puntos odiagrama de dispersión con una cierta tendencia a agruparse más o menos y de unou otro modo. A partir de aquí, vamos a establecer una línea de regresión (objeto deeste capítulo), que va a ser una especie de línea media que discurre por el centro dela nube de puntos.

Por tanto, el concepto de «ajuste» lo podemos definir como la sustitución de ladependencia de tipo estadístico existente entre dos variables por una dependencia detipo funcional o exacto, que implica la determinación de los parámetros que caracte-rizan a tal función analítica.

El concepto de «regresión» es paralelo al concepto de ajuste, de forma que engeneral hablamos de rectas de regresión y, en general, de líneas de regresión.

8.2. UTILIZACION PRACTICA DE LA NUBE DE PUNTOS PARADETERMINAR EL TIPO DE DEPENDENCIA ESTADISTICA

La simple observación de la nube de puntos o diagrama de dispersión indica eltipo de dependencia estadística existente entre dos variables. Así, si la nube depuntos presenta una forma alargada y de inclinación positiva, deducimos que existeuna dependenciailineal y positiva; si la inclinación fuese negativa, la dependencia

95

Page 98: Esta Di Stica

seria inversa; si el diagrama no presentase ninguna forma, estaríamos ante dosvariables independientes entre sí, etc.

Aunque parezca un método «simple», a partir de aquí podemos elegir el tipo defunción matemática que mejor se ajusta a la dependencia estadística existente entrelas dos variables.

8.3. EL METODO DE LOS MINIMOS CUADRADOS Y LAS ECUACIONESNORMALES. COEFICIENTES DE REGRESION

De los diferentes métodos de ajuste existentes para sustituir una nube de puntospor una función matemática, trataremos del más usual, denominado «método de losmínimos cuadrados».

Vamos a considerar exclusivamente el ajuste de una nube de puntos a una recta,aunque este método es extensivo a cualquier función matemática.

Dicho método se basa en la condición de que sea mínima la suma de loscuadrados de las diferencias entre los valores observados y los valores ajustados, esdecir.

N

E (y; — y;`) 2 = mínimo

donde y; son los valores observados e };!, los valores ajustados. La diferencia entrelos valores observados (y,) y los valores ajustados (y') se denomina error o residuo.e;; por tanto, el método de los mínimos cuadrados se basa en que:

E e, = mínimo;=1

Si lo que se quiere es ajustar la nube de puntos a una recta del tipo y' = a + bx(objeto de nuestro estudio), a partir de esta expresión y mediante un tratamientomatemático llegamos al «sistema de ecuaciones normales».

f(a, b) = E {y, — a — bx] Z = mínimo

A continuación, minimizamos esta expresión, mediante la igualación a cero desus derivadas con respecto a a y a b. Por tanto, queda:

bf

672 = - 2 E (y;—a—bx;) = O

sf

N(I)

= — 2 E (vi — a — bx1 )x1 =(51)(51)

O

Estas expresiones se pueden expresar también:N N

E y; = Na +b E x;;=, i =i

N N N

E y;x; = a E x; + b E x?i =i i =i i =i

96

Page 99: Esta Di Stica

zs iY i -Y 1 x1Y1

2 9 4 18

4 6 16 24

6 3 36 18

12 18 56 60

Estas ecuaciones reciben el nombre de ecuaciones normales.El parámetro h recibe el nombre de «coeficiente de regresión» de la variable y

con respecto a la variable x e indica en cuánto variará y cuando x varíe en unaunidad. La dependencia de la y con respecto a la x, es de tipo directo o de tipoinverso, según el coeficiente de regresión sea positivo o negativo, respectivamente. Sieste coeficiente fuese igual a cero, la recta ajustada sería paralela al eje de abcisas;nos indica que los valores de y no cambian cualquiera que sea la variación de losvalores de la variable x.

A partir de las ecuaciones normales, podemos conocer los parámetros a y h de larecta con sólo despejarlos. Se obtiene:

h —

E x1Y11=1

N

E x1 E Yi1=1 1= 1

(2)N N N s,Y

sxN2

'N'

N( XI)

N N

E Yi E xi= 1=` b1=` =a

N Ny — hz

I .11 \II'I (1

1. Calcula, mediante el método de los mínimos cuadrados, la recta de regresiónde los siguientes valores:

SOLUCIÓN:

N

E y1=Na +b E x1 18=3a+h12i =1 1=1N N N

E y1x1 =a E x1+ h E x¡ 60=al2+h561 = 1 1 =1 1=1

=12

h= — 1,5

y* = 12 — 1,5x •

97

Page 100: Esta Di Stica

Hasta aquí hemos visto el ajuste de un diagrama de dispersión a una «recta»considerando siempre la variable x como variable independiente y la variable ycomo variable dependiente.

Si consideramos ahora la variable y como variable independiente y la x comovariable dependiente, la recta de regresión que deberíamos ajustar a nuestra nube depuntos sería:

x' =á +b'y

Tras un desarrollo semejante al anterior, nos quedaría el siguiente sistema decuaciones normales:

N N

E x; =áN+b' E y;,_1 ,_1

N NE x, y', =á E t^ + h' E yZi_, i_, y;i_,

A partir del cual, podemos obtener a' y b':

b' = Sx,.

Sy

a' =.I—b'9

Ahora h' seria el coeficiente de regresión, que nos indica en cuánto variará lavariable x cuando la y varíe en una unidad.

El valor b' = O daría lugar a una recta paralela al eje de ordenadas. Se concluyela no dependencia de las variaciones de x con respecto a las de y.

EJEMPLO

2. Calcula la recta de regresión de los siguientes valores, considerando lavariable x como dependiente y la variable y como independiente.

-Y, j', j'i -rJ';

2 9 81 184 6 36 246 3 9 18

12 18 126 60

(3)

98

Page 101: Esta Di Stica

N Nx, = d N + h' ^ y,

IN N N

x,y, =d y,+b' y¡+

x' = 7,96

12 = 3d + b' 18

60=d18+h'126 '

=

=

7,96

—0,66

— 0,66y

SOLUCIÓN:

•De las expresión (2) y (3) podemos sacar la conclusión de que ambos coeficientes

de regresión son siempre del mismo signo, ya que el denominador (S„ S», essiempre positivo, con lo cual, el signo de b y h' depende exclusivamente del signo dela covarianza. Una covarianza positiva implica unos coeficientes de regresión positi-vos, es decir, al crecer x, crece y y al crecer y crece x. Por el contrario, unacovarianza negativa implica unos coeficientes de regresión negativos: al crecer x,decrece y y al crecer y decrece x.

Con todo lo visto, llegamos a la conclusión de que el crecimiento o decrecimien-to paralelo entre ambas variables, así como el grado de variación de cada una deellas, aparece ligado íntimamente con el valor y el signo de covarianza, de modo quesi ésta es positiva, la dependencia será de tipo directo y, si es negativa, de tipoinverso. Podemos concluir que el signo de la dependencia estadística viene dado porel signo de la covarianza.

EJERCICIOS

8.1. Explica brevemente por qué estás o no de acuerdo con las siguientesafirmaciones:

a) Cuando obtenemos una función matemática del tipo y' = a + b ;el parámetro a nos indica por dónde corta la recta el eje de abcisas.

b) Si a = O la recta pasa por el punto (0, 0) de nuestro eje de coordena-das.

c) Cuando el coeficiente es negativo no existe dependencia entre lasvariables que estamos estudiando.

d) Los parámetros b y b' no tienen por qué tener el mismo signo.e) El signo del coeficiente de regresión depende del signo de la cova-

rianza y de la varianza.f) Si h = O, la recta ajustada sería paralela al eje de abcisas.g) Si h = 0, h' también valdrá 0.

8.2. Los diferentes hoteles de una estación de esqui de Huesca han realizadoun estudio sobre los beneficios obtenidos entre los años 1985-1990; se

99

Page 102: Esta Di Stica

ha observado que existe una relación lineal que, después de efectuado elajuste por mínimos cuadrados, da el siguiente resultado:

y'= 14 — 0,7x

(siendo y los beneficios obtenidos y x los años estudiados).

a) ¿Qué conclusiones pueden sacar este grupo de empresarios?b) ¿Cómo sería su representación gráfica?

83. En una determinada zona turística de Huelva se han realizado una seriede inversiones y se han visto los beneficios obtenidos de las mismas. Elgráfico obtenido de este estudio es el siguiente:

Beneinos

Inversiones

y = beneficios x = inversiones

a) ¿Qué conclusiones puedes sacar?b) ¿Cómo sería la ecuación matemática que explica este comporta-

miento? ¿por qué?

8.4. Establece la función matemática que explica la dependencia existenteentre los ingresos que ha obtenido RENFE durante los últimos añosdebido al concepto de viajeros y los gastos debido al personal (enmillones de ptas.).

Años Ingresos (viajeros) Gastos (personal)

1984 40.069 133.7941985 55.307 136.5861986 55.761 146.2421987 59.453 147.7911988 64.107 144.0631989 64.900 148.000

100

Page 103: Esta Di Stica

x Y

2 54

4 0

8 32

I0 9

14 22

20 '?

26 l 0

8.5. La tabla adjunta muestra los ingresos/día por servicio de restaurante (x)y por servicio de bar (y) de 10 hoteles de la misma categoría elegidos alazar entre un gran número de ellos: a) calcula la recta mínimo cuadráticaque se ajuste a los datos tomando x como variable independiente; h)igual que en el caso anterior, pero tomando la y como variable indepen-diente; e) si un hotel tiene unos ingresos/día por servicio de restaurantede 990.000 ptas. ¿cuál es el ingreso esperado por servicio de bar?; d) si losingresos por servicio de bar son de 250.000 ptas. ¿qué se esperaría ingresarpor el restaurante?

x y

1.200.000 350.000950.000 220.000

1.000.000 250.000850.000 180.000

1.120.000 300.000900.000 210.000

1.300.000 410.0001.150.000 320.0001.000.000 310.000920.000 220.000

8.6. Una agencia de viajes de Granada aplica diferentes precios por unpaquete turístico, según cual sea la cuantía del depósito inicial. Despuésde efectuar un análisis estadístico, se ha comprobado que la relaciónentre el precio del paquete y el depósito (ambos en miles de pesetas) esla siguiente:

y = 200 — 0,2x V x 10

¿Cuál sería esta relación si la unidad de medida fuera el dólar,sabiendo que I dólar = 95 ptas.? ¿Y en escudos, sabiendo que I escudo= 0.7 ptas.?

8.7. Se sabe que entre las variables x e y existe una relación de tipo lineal,pero de la variable y se desconocen los siguientes valores:

101

Page 104: Esta Di Stica

a) Estima los valores desconocidos.

8.8. Se han escogido 10 restaurantes al azar en Guipúzcoa, y se ha realizadoun estudio sobre el precio del menú y el beneficio obtenido del mismo.Los resultados han sido:

x /precio de! menú) V (beneficios)

2.500 500

2.900 870

3.500 1.000

2.200 5501.500 375

4.500 1.125

5.000 1.000

1.250 3123.000 600

3.500 875

a) ¿Existe una dependencia estadística entre ambas variables? En talcaso, establece la ecuación de la recta por el método de los mínimoscuadrados.

b) Haz la representación gráfica de las variables x e V. y a continuación.representa la ecuación de la recta.

c) Calcula el sumatorio de los errores.

102

Page 105: Esta Di Stica

IX

MEDIDAS DE LA DEPENDENCIAESTADISTICA. ANALISIS DE LA

CORRELACION

9.1. MEDIDAS DE LA DEPENDENCIA ESTADISTICAY DE LA CORRELACION

En el capítulo anterior hemos visto cómo podemos calcular una recta de regre-sión cuando tenemos dos variables de las que conocemos un conjunto de valores ysuponemos que existe una dependencia estadística entre ellas.

Esta recta de regresión nos va a permitir estimar los valores de la variabledependiente cuando conocemos los de la variable independiente, con la cual estácorrelacionada. Sin embargo, el estudio de la correlación no estaría completo si noconociésemos la fiabilidad del valor estimado mediante la recta de regresión. Así,cuando tenemos dos variables entre las que podemos establecer una relación funcio-nal, si tenemos un valor de una de ellas, no solamente podemos calcular el valorcorrespondiente de la otra sino que podemos afirmar, sin lugar a dudas, que el valorde la variable calculada es totalmente correcto. Sin embargo, cuando calculamos apartir de la recta de regresión el valor de una variable, ya sabemos que no se trata deun valor exacto sino de una aproximación, pero nos falta por saber la «calidad deesa aproximación». Si dos variables están muy correlacionadas, la aproximaciónrealizada a través de la recta de regresión será buena, pero si entre las variables lacorrelación es muy débil, la aproximación será mala.

Por tanto, para completar todos los objetivos vistos en las dos lecciones anterio-res, es preciso hallar unos «coeficientes» que indiquen el grado de representatividado bondad de ajuste de la función matemática ajustada a los datos obtenidos empíri-camente por observación.

9.2. LA VARIANZA RESIDUAL

Cuando ajustamos la línea de regresión y a una nube de puntos, vimos que seproducía una diferencia entre los valores ajustados y los valores observados, deno-minándose a esta diferencia error o residuo e,.

103

Page 106: Esta Di Stica

Por tanto, tenemos que

(vi — Y') = e

Una vez conocido este concepto, podemos definir la varianza residual como lavarianza de la serie de errores o residuos. Se simboliza como S.

E (e, — eTl2

Se = j=1

N

La media de los errores es cero ya que:

NE e,N

NComo vimos en el capitulo anterior, el E e, = 0, por tanto, la e = 0.

r =1Con lo cual, la varianza residual resulta:

N N

E e E ( y; — Y')2S 2 — '_' _ _'

N N

La utilización práctica de esta fórmula no es cómoda, ya que tendríamos quecalcular los errores y elevarlos al cuadrado, lo cual es bastante laborioso. Pero apartir de ésta podemos obtener otra fórmula, de mayor interés desde el punto devista práctico. Partiendo de la definición, aunque podemos llegar a la expresión de lavarianza residual correspondiente a diferentes tipos de dependencia, vamos a consi-derar el caso de la regresión lineal.

Después de un desarrollo matemático, que no se describe por no considerarlofundamental para el alumno, la fórmula de la varianza residual para la regresiónlineal queda:

Ql Si consideramos la variable x como variable independiente.

a) Para distribuciones de tipo I:

N N N N

E Eyz —aEyi—bEx,Y,Se = 1=i _ 1 =i t=i i = i N N

b) Para distribuciones del tipo II y III:

N N N

E en, E y! n, — a E y,n, — b E X,y,A,Se = _ =i i =i i_ ^

N N

=

104

Page 107: Esta Di Stica

x,

2 94 66 3

Si consideramos la variable x como variable dependiente.

a) Para distribuciones del tipo I:

N' N N

E x¡ —d E x,—b' E y,x,1=1' 1 =1

N

b) Para distribuciones del tipo II y III:

N' N' N

E x¡n, — a' E xin, — b' E y,x,n,S Z = 1 =1 1=1' 1=1

.

Como es lógico, una varianza residual grande indica que el sumatorio de loserrores al cuadrado es elevado, con lo cual la representatividad de la línea deregresión será pequeña, mientras que si obtenemos una varianza residual pequeña,la bondad de ajuste de la función a la nube de puntos será grande. Si este coeficientefuese cero, estaríamos ante una dependencia perfecta entre las variables x e y, puesto

N

que esto implicaría que E e¡ = 0, lo cual indica que no existe diferencia entre los1=1

valores observados y los ajustados.

I..11.% I I'LO

I. Calcula la varianza residual de las .siguientes calures:

SOLUCIÓN:

a) Si consideramos la variable x como variable independiente, vimos enel capítulo anterior, que y' = 12 — 1,5x, con lo cual

Sf =

126— 12 . 18—(-1,5)•60 —03

•gts indica que existe una dependencia perfecta entre las variables xe y.

S^z _ 1 =1

N

105

Page 108: Esta Di Stica

h) Si consideramos la variable x como dependiente, nos quedaba unalínea de regresión .x' = 7,96 — 0,66v

56 — 7,96 . 12 — ( —0,66) • 60S; = = 3 = 0,026- 0

^

9.3. RELACION ENTRE LAS VARIANZAS S;, Si z , S^

Es interesante conocer la relación existente entre la varianza de los valoresobservados, los valores ajustados y la varianza residual, ya que va a ser de utilidadpara el epígrafe siguiente: sin embargo, no creemos necesario considerar su demos-tración.

Podemos decir que «la varianza de los valores observados es igual a la suma delas varianzas de los valores ajustados y de los residuos». Por tanto, tenemos que

Sr = Sq + S^

Esta relación tiene validez general para cualquier tipo de función analiticaajustada, y precisamente en esta generalidad se fundamenta el coeficiente de determi-nación y su utilidad en el análisis de la dependencia entre dos variables, conceptoque estudiaremos en el siguiente apartado.

9.4. EL COEFICIENTE DE DETERMINACION

La medida cuantitativa de la bondad o representatividad del ajuste de la funcióna la nube de puntos nos lo da el »coeficiente de determinación»:

S2R — S i

teniendo en cuenta la relación vista en el epígrafe 9.3, nos queda que:

R2 Sis = S; —S^

5,.^ 5,.^

por lo tanto.

R 2 = 1 —S`S;

Al ser una medida de tipo abstracto, es susceptible de comparaciones con otrasdistribuciones bidimensionales. Es un coeficiente que muchas veces se expresa enporcentaje.

106

Page 109: Esta Di Stica

El cociente —s;

siempre positivo, puesto que se trata de un cociente entre

números positivos; por otra parte, podrá tomar como valor máximo el 1 ya quesiempre S, S; (se desprende de la relación S,^ = S,^ + SI ). Por tanto, elcoeficiente de determinación siempre estará comprendido entre los valores O y I.

Vamos a pasar a considerar cuándo este coeficiente toma estos valores extremosy su significación práctica.

Este coeficiente será igual a uno cuando la varianza residual sea cero, ya que:

oS;

Como indicamos en el epígrafe anterior, el que la varianza residual sea cero nosindica una dependencia perfecta entre las variables x e y, ya que no existen diferen-cias entre los valores observados y los valores ajustados. Con lo cual, si R 2 = I, ladependencia o correlación entre las dos variables está perfectamente representadapor la línea ajustada.

Este coeficiente será igual a cero cuando la varianza residual sea igual a lavarianza de los valores observados, ya que:

:=R^1— Sz

Al ser S, = SI, el cociente será igual a la unidad, y por tanto, I — I = 0.En este caso, la línea ajustada no representa en absoluto la posible relación de

dependencia entre las dos variables.Por tanto, podemos concluir que mayor será la bondad de ajuste cuanto más

cercano esté el coeficiente de determinación a la unidad; si este coeficiente es igual aO, no indica una «incorrelación» de la función a la nube de puntos; si fuese este

coeficiente igual a I, nos indica una dependencia exacta.Como hemos indicado anteriormente, es un coeficiente que se presenta frecuente-

mente en porcentajes, fijándose empíricamente el 75 por 100 como límite inferiorpara considerar la función representativa del fenómeno en estudio.

Un coeficiente de determinación bajo o nulo sólo nos indica que la funciónanalítica elegida no es adecuada para representar la posible dependencia entreambas variables, y que una modificación de dicha función podría aumentar el valorde este parámetro estadístico.

El coeficiente de determinación que mide el grado de dependencia de la variablex con respecto de la variable y toma la siguiente expresión:

R,2= S

o bien,

R'Z =S2

107

Page 110: Esta Di Stica

xi y^

2 94 66 3

Por último, diremos que para el ajuste lineal el coeficiente de determinación sepuede calcular también de la siguiente forma:

R 2 = S"

No vamos a considerar la demostración de cómo hemos llegado a esta expresióna partir de la fórmula primitiva, ya que no se considera necesario para la formacióndel alumno.

EJEMPLO

2. Calcula el coeficiente de determinación de la siguiente serie estadisticabidimensional. Explica los resultados.

SOLUCIÓN:

a) Considerando la variable x como variable independiente

RZ=1-SY

como vimos en el ejemplo anterior, esta serie estadística tenía unaS; = 0, con lo cual queda R 2 = 1, que indica que la dependenciaentre las dos variables está perfectamente representada por la líneaajustada.

b) Considerando la variable x como variable dependiente, R' 2 = I.ya que vimos que S;2 0. E

9.5. EL COEFICIENTE DE CORRELACION LINEAL

El coeficiente de correlación lineal es un coeficiente que sólo se aplica en caso deun ajuste lineal; y se define como el cociente entre la covarianza y el producto de lasdesviaciones estándar de la variable x y la variable y.

r = s„,S= ' Sr

108

Page 111: Esta Di Stica

x; II,

2 9

4 6

6 3

Este coeficiente varía entre los valores —1 y +1; de manera que cuando elcoeficiente vale + I la correlación es positiva y máxima, es decir, cuando la variableindependiente crece, también lo hace la variable dependiente, y viceversa. Cuando elcoeficiente vale cero, nos indica una falta de relación entre ambas variables. Si elcoeficiente vale — I, la correlación vuelve a ser máxima, pero negativa, cuando unavariable crece, la otra decrece y viceversa. Si el valor de este parámetro está próximoaloa — I, aunque no exista una correlación perfecta, se considera como válida.

Como se observa, es la raíz cuadrada del coeficiente de determinación, cuandoéste se utiliza en el ajuste lineal. El signo que se debe adoptar cuando el coeficientede correlación se calcula como la raíz cuadrada del coeficiente de determinación esel que corresponda al signo de la covarianza, que es el parámetro estadístico que nosindica el signo de la dependencia entre ambas variables.

El coeficiente de correlación lineal es una medida de tipo cualitativo que sólonos indica el grado de la intensidad de la relación lineal existente entre las dosvariables, mientras que el coeficiente de determinación es una medida de tipocuantitativo que mide el grado de dependencia estadística existente entre ambasvariables.

F.J F:M PLO

3. Calcula el coeficiente de correlación lineal de la siguiente distribución:

SOLUCIÓN:

Como hemos estudiado en el ejemplo 2, R 2 = I y R' 2 = I. En elajuste lineal, el coeficiente de correlación lineal se puede calcular como laraíz cuadrada del coeficiente de determinación len valores absolutos).Cuando calculamos sus ecuaciones normales, tenemos que:

y= 12— 1,5x

r• = 7,96 — 0,66y

Estas ecuaciones nos indican que los coeficientes de regresión (h y h')son negativas, por tanto la covarianza es negativa. Como hemos indicadoen el epígrafe 9.5, el signo que debe adoptar el coeficiente de correlaciónlineal cuando se calcula como la raíz cuadrada del coeficiente de deter-minación es el que corresponda al signo de la covarianza. Resulta que:

109

Page 112: Esta Di Stica

r = —I

Indica que existe una correlación máxima entre las dos variables.pero negativa, cuando una crece, la otra decrece y viceversa. u

EJERCICIOS RCICIOS

9.1. Explica brevemente por qué estás o no de acuerdo con las siguientesafirmaciones:

a) Un coeficiente de correlación +I entre x e y significa que x es causade y, pero un coeficiente de correlación —1 significa que x no escausa de y.

b) Si el coeficiente de determinación es cero, el coeficiente de correla-ción también es cero.

c) El coeficiente de determinación y el coeficiente de correlación linealtienen siempre el mismo signo.

d) El signo del coeficiente de determinación depende del signo de lavarianza residual.

e) Cuanto mayor sea el valor de la varianza residual, mayor represen-tatividad tendrá nuestra función.

f) Un coeficiente de determinación igual a + I, ó —1. nos indica unadependencia funcional entre las variables x e y.

9.2. Una serie cronológica viene dada por la siguiente expresión: y' = 4.¿Qué significa esta función matemática? ¿Cuánto vale el coeficiente dedeterminación y el coeficiente de correlación lineal? ¿Cuál es el signo dedependencia estadística?

9.3. En una determinada zona turística de Vigo se ha realizado un estudioestadístico sobre el incremento de precio de los establecimientos turísticosen los últimos años, y el número de turistas que han visitado el citadolugar. Se han obtenido las siguientes ecuaciones de regresión mínimo-cuadráticas:

20x + 10y = 540x + 24y = 8

Calcula el coeficiente de determinación y el coeficiente de correlaciónlineal. Comenta los resultados.

9.4. Al realizar unas competiciones atléticas en un albergue juvenil de Avila,se hizo un estudio sobre la posible dependencia estadística entre ganardichas pruebas y la altura de los concursantes. De las observaciones

110

Page 113: Esta Di Stica

correspondientes se ha obtenido una varianza de la variable indepen-diente de 8; y una varianza de la variable dependiente de 30. La co ya-fianza resultante fue de 28. Calcula el coeficiente de correlación linealentre dichas variables y discutir el resultado.

9.5. Ajustada una hipérbola a 10 parejas de valores, en que y es la variableindependiente y x la dependiente, se obtiene un coeficiente de determi-nación de 0,85. Hallar la varianza residual del ajuste sabiendo que los10 valores de x son los siguientes:

x, = 4, 6, 8, 10, 5, 3, I, 7, 2, 1 0

9.6. Un estudio sobre oferta y demanda hotelera en la ciudad de Valladolidse han obtenido los siguientes datos (en millones):

x (demanda) t • (oferta)

2 8

4 14

6 20

Calcula las ecuaciones de regresión mínimo -cuadráticas. ¿Podriascalcular la oferta, si la demanda fuese de 10? ,Cómo sería su representa-ción gráfica?

9.7. El número de visitantes entrados en España mensualmente durante losaños 1988 y 1989, se expone en la siguiente estadística:

Mes Año 1988 Año 1989

Enero 2.412.358 2.597.707Febrero 2.362.577 2.335.168Marzo 2.920.339 3.199.704Abril 3.505.098 3.195.122Mayo 4.000.187 4.219.202Junio 4.515.161 4.475.617Julio 8.735.355 8.513.964Agosto 9.684.267 9.927.516Septiembre 5.818.146 5.647.302Octubre 4.243.678 4.057.131Noviembre 2.624.818 2.577.443Diciembre 3.356.166 3.311.479

Fuente: Secretaria General de Turismo.

Page 114: Esta Di Stica

Y

20 2.00038 3.50022 2.40041 4.20040 4.00039 4.00034 3.40015 1.5001 9 1.90025 2.800

Se pide:

a) El coeficiente de correlación entre los turistas que han entrado enEspaña en los dos años citados. Comenta los resultados.

b) ¿Hay, entre las dos variables consideradas, otro tipo de relacióndistinto del lineal'

c) Si para estudiar la relación entre los turistas entrados en estos dosaños se hubiera decidido utilizar el análisis de regresión, ¿qué datosdeben tomarse como variable dependiente y cuáles como indepen-diente?

9.8. El director de un camping de Santander ha observado en las 10 semanasque ha permanecido abierto, la temperatura media de cada semana y lacantidad de refrescos consumidos. La información obtenida es la siguiente:

¿Puede planificar el servicio de bar del camping la cantidad derefrescos que necesita en función de la temperatura esperada? ¿Quécantidad de refrescos se necesitan para una temperatura previsible de 30grados?

112

Page 115: Esta Di Stica

X

SERIES CRONOLOGICAS O TEMPORALES

10.1. DEFINICION Y REPRESENTACION GRAFICA

En esta lección seguimos estudiando series estadísticas de dos variables, con lapeculiaridad de que ahora vamos a considerar «el tiempo» como variable indepen-diente de la serie estadística.

Cuando un fenómeno es dinámico, es necesario observarlo periódicamente siqueremos estudiarlo con profundidad, ya que su análisis en un determinado momen-to no nos aportaría toda la información que de la otra forma podemos conseguir.Cuando estamos ante series estadísticas de estas características, no basta conocer sucomportamiento actual o del pasado, sino que nos interesa «predecir» su comporta-miento en el futuro.

Cuando realizamos observaciones periódicas, vamos a obtener de cada una delas características observables del fenómeno un conjunto de valores que tienen unapropiedad común: medidas de una misma magnitud relacionadas con un mismofenómeno; y otra que las diferencia: cada observación se ha realizado en un momen-to diferente. El conjunto de estos valores se llama serie temporal o, también seriehistórica o temporal.

Por tanto, una serie cronológica o temporal se define como una serie estadísticacuyos valores se estudian en el tiempo; se trata de estadísticas de dos variables: eltiempo es la variable independiente.

La representación gráfica se obtiene generalmente mediante un sistema de ejes

cartesianos; el tiempo (variable independiente) viene expresado en el eje de abcisas y

la variable y (dependiente) se dispone en el eje de ordenadas. La confluencia entre los

valores de t, y los valores y, se marcan, y la línea quebrada resultante indica eldesarrollo del fenómeno en el tiempo.

F:JENIPI tl

I. Representa gráficamente la siguiente serie estadística temporal, referente alos ingresos que ha obtenido RENFE en los últimos años debido a viajeroslen millones de ptas.).

113

Page 116: Esta Di Stica

AnosRIngresos por

rrajeros

1980 28.8001981 33.1391982 38.3731983 42.2281984 48.0691985 55.3071986 55.7611987 59.4531988 64.1071989 64.900

SoLt1CIÓN:

Ingresos por viajeros

65 000

60 000

50 000

40 000

30 000

Años 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989

10.2. COMPONENTES DE LAS SERIES TEMPORALES

Los valores que toman las variables en el tiempo son consecuencia de múltiplesfactores o fuerzas que actúan a la vez. Pueden clasificarse en cuatro grandes compo-nentes:

114

Page 117: Esta Di Stica

I. Tendencia secular. La tendencia secular de una serie estadística temporal lapodemos definir como la dirección predominante de la serie observada en unespacio de tiempo suficientemente amplio. Mediante la representación gráfi-ca de la serie temporal, obtenemos un conjunto de puntos que nos orientasobre la dirección que lleva nuestro conjunto de valores en el tiempo. En elepígrafe siguiente estudiaremos diferentes métodos para aislar la influenciade la tendencia secular de una serie temporal.

2. Variaciones estacionales y periódicas. Las causas estacionales y periódicasproducen alteraciones de la tendencia de una serie temporal debidas afenómenos íntimamente ligados a motivos climáticos, sociales o sociorreli-giosos.

Los valores de las variables se ven influenciadas por las estaciones delaño. Se observan movimientos de tipo cíclico dentro del período anual. Porotra parte, los valores sufren variaciones periódicas dentro de un ciclo máscorto que el anual, y pueden ser diarias, semanales, mensuales, etc. Puedendarse multitud de ejemplos; el frío, las lluvias, las vacaciones de SemanaSanta, las vacaciones de Navidad, etc.

3. Variaciones cíclicas. Las causas cíclicas producen variaciones lentas de formamás o menos senoidal, primero son aumentos, después durante algún tiempodesaparecen, luego son disminuciones para volver a desaparecer y vuelve acomenzar el ciclo. Son variaciones que sufren las variables en intervalos detiempo superior al año. Son frecuentes en estudios de variables económicas.

4. Variaciones accidentales. Son variaciones que sufren las variables de unaforma ocasional. Se trata de fenómenos aislados, desconectados entre sítemporalmente y que producen desviaciones imprevisibles de la tendencia.

Existen dos hipótesis de cómo estas variaciones influyen para dar como resulta-do final un determinado valor:

a) Hipótesis multiplicativa. Esta hipótesis supone que la variable y es unaconjunción de las cuatro fuerzas o factores vistos anteriormente medianteproducto; por tanto,

y= T x E x C x A

(T = tendencia secular; E = variaciones estacionales y periódicas; C' =variaciones cíclicas y A = variaciones accidentales).

b) Hipótesis aditiva. Esta hipótesis supone que la variable y es una conjunciónde los cuatro factores vistos mediante suma o acumulación; por tanto,

y = T+ E+ C+ A

Una vez vista la definición y las componentes de las series temporales, vamos aanalizar estos factores o fuerzas. Nos centraremos en la tendencia secular y en lasvariaciones estacionales.

10.3. DETERMINACION DE LA TENDENCIA SECULAR

La dirección predominante de la serie observada en el tiempo se puede determi-nar mediante diiersos métodos más o menos precisos. A continuación sumos a

1IS

Page 118: Esta Di Stica

detallar el método de los puntos medios, el método mecánico de las medias móvilesy el método analítico de los mínimos cuadrados.

• Método de los puntos medios. Es un método gráfico; se representa la serie enestudio, y se unen mediante lineas los puntos máximos y mínimos, respectivamente.Se considerará la tendencia de la serie aquella línea que pasa por los puntos mediosde las distancias que existen entre la linea de máximos y la línea de mínimos paracada instante de tiempo. Es un método poco preciso, pero proporciona una orienta-ción de la tendencia de la serie temporal.

• Método de las medias móviles. Un primer sistema para mejorar el métodográfico consiste en moderar las oscilaciones de la variable con vistas a obtener unconjunto de puntos más agrupado y de esta forma disponer de una recta detendencia más representativa.

Este método trata, por tanto, de calcular la tendencia de la serie diluyendo laimportancia individual de cada observación, calculando el promedio mediante unamedia aritmética simple de dicho valor y de n valores posteriores. Siempre quedaránsin determinar algunos valores de la media móvil al principio y al final de la serie.

Si n = I, cada valor se substituirá por la media del anterior, del posterior y de élmismo, y así para los diversos valores que puede tomar n.

Cuanto mayor sea el valor de n, mayor pérdida de información tendremos; portanto, habrá que escoger un valor de n que nos permita un amortiguamiento de losvalores originales, pero que la pérdida de información sea la mínima.

F:JF:NIPLO

2. Calcula la tendencia secular por el método de las medias móviles de lasiguiente serie temporal, siendo n = 1.

AñosIngresos porviajeros (ye)

(en millones de ptas.)yi

1980 28.8001981 33.139

33.437,31982 38.373

37.913,31983 42.228

42.890,01984 48.069

48.534,61985 55.307

53.045,61986 55.761

56.840,31987 59.453

59.773,619881989

64.10764.900

62.820,0

116

Page 119: Esta Di Stica

SOLUCIÓN:

28.800+33.139+38.373 —33.437,3

33.139+38.373+42.228 Y: = 3 : Ya = 3 =37.913,3

38.373+42.228+48.069=42.890,0

42.228+48.069+55.307=48.534,6

Ya = 3 ; Ys = 3

56.840,3

55.761+59.453+64.10759.773,6

+ 64.107 + 64.900j79=

59.453; 62.820,0Ye = 3 — 3 =

E

• Método analítico de los mínimos cuadrados. Este método se basa en la utiliza-ción del método de los mínimos cuadrados, estudiado en el capítulo VIII.

Mediante el método de los mínimos cuadrados vamos a establecer una funciónmatemática que sea la que, de una manera global, se acerque lo más posible a lospares de valores dados, de manera que los cuadrados de las desviaciones entre losvalores teóricos de la recta y los valores reales de la tabla sean mínimos.

La recta de tendencia será y = a + bx. u y h son los parámetros a calcular (tal ycomo vimos en el capítulo VIII). Una vez calculada la recta de tendencia, podremosobtener el coeficiente de determinación, con lo cual tendremos la representatividaddel ajuste efectuado.

Vamos a detallar cómo, mediante un cambio de origen, podemos simplificar eneste caso concreto el cálculo de a y h.

Cuando la variable tiempo, t, toma valores correlativos formando una serie desalto constante e igual a la unidad, podemos sustituirla por otra 1, que nos simplifi-ca mucho los cálculos.

La técnica será la siguiente:

a) Si el número de valores de t es impar, el cambio de origen será:

s' = (t — Ot)

(Ot = el valor de t que ocupa el lugar central de nuestra serie).h) Si el número de valores de t es par, el cambio de origen será:

r' = 2(t — Ot )

(Ot = la media aritmética de los dos valores de t que ocupan los dos lugarescentrales de nuestra serie).

Hemos multiplicado por dos para evitar fracciones y de esta manera simplificaral máximo los sálculos.

48.069+55.307+55.761=53.045,6

59.453=

55.307+55.761Y6 = 3 ; Y , 3 =

117

Page 120: Esta Di Stica

Con este cambio de origen, las ecuaciones normales resultan:

,E y; = aN

1= 1

N N

yi t; = b E 1;2i= 1 i = I

con lo cual simplificamos mucho el cálculo, ya que al ser la variable independiente eltiempo, el cálculo de a y b sin un cambio de origen sería engorroso.

Como es fácil observar, de todos los métodos vistos para calcular la tendencia deuna serie temporal, el método analítico de los mínimos cuadrados es el más preciso ycorrecto.

EJI.NIPLO

3. Calcula la tendencia secular de la siguiente serie mediante el método de losmínimos cuadrados.

Iños /i; lIngresos porriajeros lp»

en millones de plas. ''?tí = 2/1 — I9843/ tir Vi

1980 28.800 8,29• 10" —9 8I —259.2001981 33.139 1,09 • 109 — 7 49 — 231.9731982 38.373 1,47 • 109 —5 25 — 191.8651983 42.22 1,78 . 10° — 3 9 — 126.6841984 48.069 2,3 - 109 —1 1 —48.0691985 55.307 3,05 - 10° I I 55.3071986 55.761 3,1 • 10° 3 9 167.2831987 59.453 3,5 • 10° 5 25 297.2651988 64.107 4,1 • 10° 7 49 448.7491989 64.900 4,2 • 109 9 81 584.100

490.13' 2,55 • 10 10 E = 0 330 694.913

SOLUCIÓN:

Nos queda que,

490.137 = IOa 1 a = 49.013,7

694.913 = 330b J b = 2.105,797

y = 49.013,7 + 2.105,797t'

^118

Page 121: Esta Di Stica

= 3.170.965

N

Sy = 1=1 1' 1 2,55 . 2s5 1010

N(49.013,7) 2 = 149.505.534

10

10.4. PREDICCION

Un objetivo fundamental de la confección y estudio de una serie cronológica esel intento de predecir el comportamiento futuro de dicho fenómeno, con la mayoraproximación posible. Para que esto sea posible, es necesario que el fenómenoaleatorio contemplado se comporte en el futuro (por lo menos en el período depredicción) de manera similar a como lo ha hecho en el pasado.

Como hemos explicado en el epígrafe anterior, mediante el método de losmínimos cuadrados vamos a obtener una recta de tendencia:

y=a+h,

por tanto, introduciendo nuevos valores de la variable independiente (tiempo),obtendremos los correspondientes valores de y. De esta forma podemos «predecir»el valor de y para distintos valores de la variable t. Esta predicción la podemos hacersiempre que el «coeficiente de determinación» indique un grado suficiente de repre-sentatividad en el ajuste efectuado.

Es necesario comentar que la predicción se debe limitar a un futuro próximo, yaque no sabemos si en un futuro más lejano se van a introducir fenómenos nuevosque influyan sobre la variable estudiada: eso provocaría que las predicciones fuesenerróneas.

1.11 \II'I ()

4. ¿Podrias predecir los ingresos de RENFE dehido a viajeros para el uño1993? ( Véanse los datos del ejemplo 1.) En tal caso, calcúlalo.

SOLUCIÓN:

Debemos calcular el coeficiente de determinación para ver si podemospredecir valores futuros.

NE yi - a E y 1 —b E tíylSz = 1-1 1-1 1-1 —

N

2,55 10 10 — 49.013,7 x 490.137 — 2.105,797 x 694.91310

R2 = 3.170.965R 1 —979

149.505.5340,

119

Page 122: Esta Di Stica

Como se ve, el coeficiente de determinación está muy cercano a uno. Esonos indica un grado suficiente de representatividad en el ajuste efectuado. Portanto, podemos predecir nuevos valores de la variable independiente. Ennuestro ejemplo,

y = 49.013,7 + 2.105,797r

Como 1' = 2(t — 1984'5), para el año 1993 =

= 2(1993 — 1984'5) = 17

y' = 49.013,7 + 2.105,797 x 17 = 84.812,2

Estos resultados nos indican que los ingresos de RENFE debido a viajerospara el año 1993 serán aproximadamente de 84.812,2 millones de pesetas.

^

105. VARIACION ESTACIONAL

En este epígrafe vamos a determinar la segunda de las componentes de las seriestemporales: la variación estacional. Nos basamos en la hipótesis multiplicativa vistaen el epígrafe 10.2, que explicaba cómo influían las componentes de una serietemporal para obtener un valor determinado de y.

Los pasos a seguir para el cálculo de este componente, eliminando la influenciade las restantes fuerzas son:

I. Dada una serie temporal, se calcula la tendencia de la misma mediante elmétodo de las medias móviles.

2. Considerando que la variación cíclica está incluida dentro de la tendenciasecular (puesto que el período utilizado para obtener la media móvil es losuficientemente corto para que se produzca la sintetización de ambas fuer-zas), podemos eliminar ambos componentes dividiendo los valores originalesde y entre los valores de la tendencia obtenidos según hemos dicho en I).

3. El paso siguiente será eliminar las variaciones accidentales: se calcula lamedia aritmética de los valores obtenidos anteriormente referidos a cadamomento de repetición anual.

4. Una vez obtenido los últimos valores, se calculan «los indices de variaciónestacional », en forma de porcentaje sobre la suma total de aquellos valores.

EJEMPLO

5. Calcula los indices de variación estacional de la siguiente serie temporal, querepresenta el número de turistas que han visitado un museo determinadodurante los últimos años según la diferentes estaciones.

120

Page 123: Esta Di Stica

1986 1987 1988 /989

Primavera 100.000 110.000 145.000 152.000Verano 145.000 147.500 162.000 175.000Otoño 85.000 80.000 89.000 90.000Invierno 57.000 60.000 58.000 69.000

SOLUCIÓN:

I. Primero calculamos la tendencia secular por el método de las mediasmóviles (n = 1).

1986 1987 1988 1989

Primavera - 104.833,3 122.333,3 128.333,3Verano 110.000 112.500 132.000 139.000Otoño 95.666,6 95.833,3 103.000 111.333,3Invierno 84.000 95.000 99.666,6 —

2. Dividimos los valores originales de y por los valores de la tendenciasecular obtenidos en el apartado anterior.

1986 /987 1988 /989

Primavera -- 1,05 1,18 1,18Verano 1,32 1,31 1,23 1,26Otoño 0,88 0,83 0,86 0,81Invierno 0,68 0,63 0,58 -

3. Se halla la media aritmética de los valores obtenidos anteriormentereferidos a cada momento de repetición anual, con el fin de eliminarlas variaciones accidentales.

Variación estacional

Primavera 1,13

Verano 1,28

Otoño 0,84

Invierno 0,63

121

Page 124: Esta Di Stica

4. Una vez conocidos los valores de variación estacional, podemos cono-cer los indices de variación estacional (IVE).

1'ariación estacional /VE

Primavera 1,13 116,5 %Verano 1,28 131,9 %Otoño 0,84 86,6Invierno 0,63 64,9 %

3,88

•10.6. DESESTACIONALIZACION

En este último epígrafe vamos a estudiar cómo podemos llegar al conocimientode una serie temporal eliminando la componente «variación estacional», es decir.calcular los valores de la variable y a lo largo del tiempo, como si no hubieseexistido la influencia estacional.

Una vez conocidos los índices de variación estacional, tal como hemos visto enel apartado 10.5, es muy sencillo «desestacionalizar» una serie temporal: nos basa-mos en la hipótesis multiplicativa, la cual exponía que y= T x Ex C x A.

Si dividimos los sucesivos valores de y entre los índices de variación estacionalcorrespondientes, obtendremos unos valores de la variable dependiente no influen-ciados por la variación estacional.

EJENIPLO

b. Ursesta,zww/1=u la serte temporal vista en el ejemplo

1986 1987 1988 1989

Primavera 100.000 110.000 145.000 152.000Verano 145.000 147.500 162.000 175.000Otoño 85.000 80.000 89.000 90.000Invierno 57.000 60.000 58.000 69.000

SOLUCIÓN:

Si dividimos los valores de t entre los indices de variación estacional(calculados en el ejemplo 5) habremos desestacionalizado nuestra serietemporal.

122

Page 125: Esta Di Stica

1986 1987 1988 /989

Primavera 86.206,9 94.827,6 125.000 131.034,48Verano 109.848,5 111.742,4 122.727,3 132.575,7Otoño 98.837,2 93.023,2 103.488,3 104,651,2Invierno 87.692,3 92.307,7 89.230,7 106.153,8

I.IfN(ICIOS

10.1. Representa gráficamente la siguiente estadística referente a la produc-ción de helados en España en los últimos años.

Años Millones de litros

1979 91,44

1980 89,77

1981 91,89

1982 96,93

1983 99,99

1984 97,93

1985 103,98

1986 116,35

1987 130,71

1988 146,79

10.2. Iberia tuvo unos beneficios de 6.215 millones de pesetas durante elaño 1989, frente a los cerca de 24.000 millones que se alcanzaron en1988. Sin embargo, desde 1973 hasta 1985 los resultados de la com-pañía reflejaron pérdidas que alcanzaron su punto culminante en 1983y que llegaron a sumar durante estos años 84.169 millones de pesetas.Con estos datos, ¿podrías predecir qué resultados obtendrá la com-pañía en años futuros? Razona la respuesta.

10.3. Unos promotores turísticos de la Rioja desean ampliar la oferta deplazas hoteleras. Antes de efectuar las inversiones necesarias, quierenconocer si la demanda será suficiente. Para ello contratan a una firmade investigación de mercados, obteniéndose como curva de demandaD = 1,5 + 0,l(r — 1986), donde D = demanda y r = año consi-derado.

Estos inversores efectuarán el desembolso si la demanda en 1990supera los 1,8 millones de visitantes. Señala si la inversión es factible.

123

Page 126: Esta Di Stica

10.4. Los resultados del INI durante el periodo 1982-1989 (en millones depesetas) han mostrado la siguiente evolución:

Años Resultados

1982 — 137.943

1983 —204.226

1984 — 185.989

1985 — 162.8841986 — 117.424

1987 —42.604

1988 30.5641989 82.335

Calcula la tendencia secular por los tres métodos conocidos. Ex-plica los resultados.

10.5. La exportación de la industria española ha registrado la siguientetendencia (en millones de ptas.):

Años Exportación

1968 4.6131972 11.5251980 91.5001985 224.5421986 255.8281987 286.7361988 382.701

¿Podrías predecir la exportación que se registrará en el año 1995?Razona la respuesta.

10.6. Una serie estadística temporal viene caracterizada por la siguienteexpresión: i = 2 — 4t'; R 2 = 35 por 100 (/' en origen en el año 1985).

Estima el valor de y para el año 1991. ¿Es válido el resultado?¿Cuál es el signo de dependencia estadística y por qué? ¿Cuánto valeel coeficiente de correlación lineal? ¿Qué valores puede tomar el coe-ficiente de determinación y el coeficiente de correlación lineal, y porqué?

10.7. Se conoce el precio de las comidas servidas en disersos restaurantesde Salamanca durante las siguientes estaciones y años (en miles depesetas):

124

Page 127: Esta Di Stica

1985 1986 1987 /988 1989

Primavera 2 2,2 2,2 2,4 2,5Verano 3,1 3,0 3,5 3,6 3,6Otoño 2,6 2,8 4,3 4,5 4,8Invierno 1,8 2,0 2,1 2,2 2,5

Los índices de variación estacional obtenidos con los datos ante-riores son:

IVE

Primavera 82,2 %

Verano 115,7%

Otoño 127,9 %

Invierno 74,1 %

Se pide:

a) Desestacionalizar la serie temporal.b) Representar gráficamente los IVE y la serie temporal desesta-

cionalizada.

10.8. El beneficio por acción (en ptas.) de un banco ha presentado lasiguiente evolución:

Tiempo Beneficio por acción

1975 191,61980 264,21987 5661988 5431989 7961990 927

Estima el beneficio que se espera para el año 1995. Comenta losresultados.

10.9. Una agencia de viajes de La Coruña declara los ingresos que obtienesegún las estaciones del año, durante el periodo 1986-1989 (en millo-nes dé pesetas).

125

Page 128: Esta Di Stica

/986 /987 1988 1989

Primavera 80 87 90 98Verano 120 140 150 190Otoño 60 82 92 90Invierno 35 45 40 42

Calcula los índices de variación estacional y represéntalos gráfi-camente.

10.10. La promoción pública de construcción de viviendas en la CAM hatenido el siguiente ritmo:

Años Promoción pública

1978 6731979 5.1391980 10.3711981 4.7481982 3.1931983 4.4881984 1.5381985 4.3851986 3.6431987 2.4441988 1.290

¡,Podrías predecir los datos para el año 1995? En tal caso, calcula latendencia secular por el método analítico de los minimos cuadrados.

126

Page 129: Esta Di Stica

X I

NUMEROS INDICES

11.1. CONCEPTO Y APLICACIONES

Cuando queremos comparar entre sí dos cantidades, lo más sencillo es dividiruna entre la otra para calcular el valor de una de ellas y tomar la otra como 100.Por ejemplo, si queremos analizar el número de extranjeros que han visitado Españadurante 1990, comparándolos con los que vinieron durante 1989, diremos, porejemplo, que son el 111 por 100. Esta forma de expresar los datos es más expresiva,ya que indica la evolución de la variable que estemos estudiando en el tiempo.

Esto significa que, de manera general, un indice consiste en el cociente (multipli-cado por 100) de la cantidad que estudiamos respecto de otra referencia.

De todas formas, cuando los conceptos que hemos de comparar son más compli-cados y en ellos están involucradas diferentes cantidades interrelacionadas entre sí,la utilidad de número indice adquiere mayor relevancia.

Podemos decir que el número indice es un número carente de unidades y cuyamisión es reflejar con porcentaje la variación de una o varias magnitudes relaciona-das entre sí, tomando como referencia el valor de las mismas magnitudes en otromomento o en otro lugar.

Las aplicaciones de los números índices son muy amplias, aunque es en el campode la economía donde más se utiliza; así, se habla frecuentemente de números índicesde producción, de precios, de valor, de cantidades, del coste de la vida, etc.

Una vez explicado el concepto de número índice y sus aplicaciones, vamos aesquematizar a continuación las denominaciones de los distintos números índicesque en los siguientes apartados vamos a estudiar:

SimplesDe la media aritmética simple

Sin ponderarDe la media agregativa simple

De LaspeyresPonderados De Paasche

De Fisher

ComplejosNúmerosindices

127

Page 130: Esta Di Stica

11.2. NUMEROS INDICES SIMPLES

Un número indice simple lo podemos definir como aquel que relaciona el valorde una única variable en un momento determinado con el valor de la variable en eltiempo de referencia.

Los números indices simples se obtienen dividiendo cada uno de los valores de lavariable y por un valor fijo correspondiente al momento que se toma como base ymultiplicando por 100 dichos cocientes.

I rNúmeros indices

simples = 1

O Yo 100

1 Y iYt— 100Yo

2 t•, }^Z 100Yo

n Y. Y.— 100Yo

EJEMPLO

I. Calcula los números indices simples con base en 1983 de los siguientesvalores referentes al valor de las importaciones que ha efectuado nuestropaís durante los últimos años (en miles de millones de pesetas).

SOLUCIÓN:

t r 1(1983 = 100)

1983 4.177.0 100 %1984 4.630.1 110,8 %1985 5.114,7 122,4 %1986 4.954.6 118,6 %1987 6.051.4 144.8 %1988 6.989.4 167,3 %

128

Page 131: Esta Di Stica

11.3. NUMEROS INDICES COMPLEJOS SIN PONDERAR

Como hemos visto en el apartado anterior, los números índices simples mostra-ban el cambio ocurrido en el tiempo de «una sola variable». Cuando queremosestudiar la evolución de un «conjunto de variables», utilizamos los números índicescomplejos, que resumen en una sola serie el conjunto de variables observadas en eltiempo.

Dentro de los números índices complejos, nos encontramos con números índicescomplejos ponderados o sin ponderar, en dependencia de que se tenga en cuenta ono algún tipo de coeficientes de ponderación.

En este apartado vamos a estudiar dos métodos para obtener los «númerosíndices complejos sin ponderar».

a) Método de la media aritmética simple. Indice de Sanerbeck

Partimos de un conjunto de variables cuya evolución conjunta queremos estu-diar. Lo primero que calculamos son los números indices simples correspondientes alos diferentes valores en cada periodo de tiempo (tomando un año como base), y acontinuación calculamos la media aritmética simple de todos los índices de lasdiferentes variables de un mismo período de tiempo. Se obtiene así el «índice deSanerbeck».

Todo lo expuesto queda sintetizado en la siguiente fórmula:

Yu100 ^Ii=1Yio = i°1 S, =

EME2. Calcula el indice de Sanerbeck de las siguientes variables, referentes a los

beneficios obtenidos por unas empresas de alquiler de vehiculos en los últimosaños (en millones de pesetas). [Periodo base 1987 = 100.]

Años A B C D

1987 120 140 110 1501988 230 210 175 2401989 310 280 220 3401990 350 390 280 360

n n

129

Page 132: Esta Di Stica

SOLUCIÓN:

Años A B C D

1987 100 % 100 % 100 % 100 %

1988 191,6 % 150 % 159 % 160 %

1989 258,3 % 200 % 200 % 226,6 %

1990 291,6 % 278,5 % 254,5 % 240

Año S, (1987 = 100)

1987 100 %1988 165,1

1989 221,2 %1990 266,1

b) Método de la media agregativa simple. Indice de Bradstrest y Dutot

Este método, que es muy sencillo, consiste en sumar o agregar todos los valoresy; para cada tiempo t ;, y con el agregado resultante se calculan los indices simples.

La fórmula para calcular el índice de Bradstrest y Dutot es:

EJEMPLO

3. Calcula el indice de Bradstrest y Dutot del conjunto de valores vistos en elejemplo 2.

SOLUCIÓN:

Año E y;, B, (1987 = 100)

1987 520 100 %1988 855 164,4 %1989 1.150 221,21990 1.380 265,4 %

B, =

130

Page 133: Esta Di Stica

11.4. NUMEROS INDICES COMPLEJOS DE PRECIOS Y CANTIDADES:LASPEYRES, PAASCHE Y FISHER

Los números índices complejos sin ponderar, en contra de la ventaja de lasencillez de su cálculo y del escaso número de datos que necesitan para el mismo,tienen el inconveniente de que en muchos casos son poco representativos; en ocasio-nes nos interesa conocer la importancia intrínseca de cada una de las variables quecomponen nuestro estudio. El diferente peso o importancia que tiene cada una denuestras variables viene expresado por unos coeficientes denominados «coeficientesde ponderación». En general se consideran como coeficientes de ponderación losprecios o las cantidades, según cuáles sean las variables en estudio. Si la variableque estamos estudiando son los precios, el coeficiente de ponderación será lascantidades; sin embargo, si estamos estudiando las cantidades de diferentes produc-tos, el coeficiente de ponderación será los precios de dichos productos.

Los diferentes índices complejos ponderados que vamos a estudiar se distinguenpor la diferente forma de ponderación.

a) Indice de Laspeyres

Para el cálculo de este índice, se considera siempre como coeficiente de pondera-ción para cada variable el del período base.

De esta forma tenemos el índice de Laspeyres para precios, cuya expresión es:

E Po ' 910

_ loo

L Pm' 9i01=1

La expresión para el indice de Laspeyres para cantidades es:

E 9u ' PioLQ = '' 100n

E 9io ' Pio

I II \II'I 11

4. Calcula el indice de Laspeyres de precios y de cantidades de los siguientesartículos (tomando como periodo base 1987).

Articulo A Articulo B Artículo C

Años P Q P Q P Q

1987 2 12 5 9 4 6

1988 4 15 7 10 5 4

1989 6 10 7 5 6 4

1990, 8 10 8 5 10 5

131

Page 134: Esta Di Stica

SOLUCIÓN:

a) Indice de Laspeyres de precios:

I L°

2 x 12 + 5 x 9 + 4 x 6=100—1987 100%

2 x 12+5 x 9+4 x 6

19884 x 12+7 x 9+5 x 6

100= 151,6"/°2x12+5x9+4x6

19896x12+7x9+6x6 =00 1 8 % 2 x 12+5 x 9+4 x 6183,

19908 x 12 + 8 x 9+ 10 x 6

100 = 245 % 2x12+5x9+4x6

b) Indice de Laspeyres de cantidades:

r LQ

12 x 2 + 9 x 5+ 6 x 41987 100 — 100 %

12x2+9x5+6x4

198815 x 2+lOx 5+4 x4

100= 103,2 %12x2+9x5+6x410 x 2+ 5 x 5+ 4 x 4

1 989 100 = 65,6 %12x2+9x5+6x4

1990110 x 2+ 5 x 5+ 5 x 4

1 00 - 69,9 %12x2+9x5+6x4

b) Indice de Paasche

Para el cálculo del índice de Paasche. se considera como coeficiente de pondera-ción para cada variable el correspondiente al de cada periodo en estudio.

Por tanto, el indice de Paasche para precios resulta ser:

E P. 4.='=' 100

E Pio ' 4u1=1

132

Page 135: Esta Di Stica

1..11.,N11'1.()

La expresión del índice de Paasche para cantidades es:

gil'PrPQ = ''i= 100r

9io • Pu

5. Calcula el indice de Paasche de precios y cantidades para los artículos vistosen el ejemplo 4.

SOLUCIÓN:

a) Indice de Paasche de precios:

t Ppr

9871982x 12 + 5 x 9 + 4 x 6

• I(X)—I(X)%2x12+5x9+4x6

4 x 15 + 7 x 10 + 5 x 41988 •= 156,2 %

2 x 15 + 5 x 10 + 4 x 4

119896x 10+ 7 x5+6X4

I1X1 =195%2x10+5x5+4x4

8 x 10 + 8 x 5 + 10 x 511990 I (X) = 269 %

2x10+5x5+4x5

b) Indice de Paasche de cantidades:

t P,Q

198712 x 2+ 9 x 5+ 6 x 4

100= 100 %12x2+9x5+6x4

198815 x 4+ 10 x 7+ 4 x 5

100 = 106,4 "/°12x4+9x7+6x510x6+5x7+4x6

1989 10X1-69'6%12 x 6+9 x 7+6 x 6

10 x 8 + 5 x 8 + 5 x 101990 100 = 74,5 %

12 x 8 + 9 x 8 + 6 x 10

•133

Page 136: Esta Di Stica

c) Indices de Fisher

El índice de Fisher se define como la media geométrica de los números indices deLaspeyres y de Paasche.

El indice de Fisher para precios seria.

F," = y LP• P,p

La expresión del índice de Fisher para cantidades es

FQ LQ • Pi()= ^ ^

^ b. l uia el urdr,e de fola de precios y cantidades de los ejemplos 4 } 5.

SOLUCIÓN:

t F,P

1987 100 %,./100 x 100 =

1988 ,/151,6 x 156,2 = 153,8 %

1989 ,/183,8 x 195 = 189,3 %1990 ,/245 x 269 = 256,7 %

r 119

1987 100 %,/100 x 100 =

1988 ,/103,2 x 106,4 = 104,8 %

1989 s/65,6 x 69,6 = 67,6 %

1990 .j69.6 x 74,5 = 72,2 %

^

Por último, vamos a considerar las diferencias existentes entre los indices com-plejos ponderados que acabamos de estudiar.

El indice de Laspeyres tiene la ventaja de que su cálculo es sencillo: sin embargo.presenta el inconveniente de que considera siempre como «peso» el del año base. Sinos encontramos con un ceso «muy dinámico», la situación puede cambiar rápida-

134

Page 137: Esta Di Stica

mente. Al utilizar coeficientes de ponderación que poco nos dicen de la situaciónactual, la solución puede resultar falseada.

El índice de Paasche no presenta el inconveniente del índice de Laspeyres, ya quelos coeficientes de ponderación utilizados están siempre actualizados; sin embargo,su cálculo es más complicado y se necesita mayor información.

El índice de Fisher es el más costoso de elaborar, pero también se le considera elmás perfecto.

11.5. CAMBIO DEL PERIODO BASE. RENOVACION Y EMPALME

Una vez obtenida una serie de números índices tomando como base un periododeterminado, es interesante considerar los cambios ocurridos en esta variable ogrupo de variables en relación con otro período como año base.

El método para realizar el cambio del período base es muy sencillo. Se debedividir los índices originales entre el valor del número índice que se considera en laactualidad como año base y expresar los resultados en porcentaje.

Con este cambio del período base se consigue una actualización de nuestrosvalores, y por tanto la información recibida a través de los índices será más fiable.

I .II N IP1.()

7. Realiza un cambio del período base de la serie de valores vistos en el ejem-plo 1, tomando corno to = 1986.

SOLUCIÓN:

Año 1(/983 = 100) 1(1986 = 100)

1983 100 84,3 %

1984 110,8 93,4

1985 122,4 96,8 %

1986 118,6 100 %

1987 144,8 122,1 %

1988 167,3 141,1 %

•Cuando queremos realizar un cambio del periodo base de los números indices

complejos, debemos efectuar dos operaciones, denominadas renovación y empalme.La operación de renovación nos indica que deberemos realizar el mismo cálculo

que el visto anteriormente para indices complejos, pero desde el periodo que ahoraestamos considerando como año base. Una vez que hemos calculado los nuevosíndices desde el período que se toma como año base, debemos «empalmar» con losaños anteriores; esto se realiza dividiendo los índices originales entre el nuevo índiceque ahora se considera como base.

135

Page 138: Esta Di Stica

EJt:NIPLO

8. Remata el indice de precios de Laspevres con base en 1987, obtenido en elejemplo 4. tomando como nuevo año base 1989.

SOLUCIÓN:

tLP

(1987=100)LQ

(1989=100)Empalme

(1989=100)

1987

1988

1989

1990

100

151,6

183,8

245

6 x 10+7 x 5+6 x 4 100=100%

83, 100 =

100 =

54,4

82,5•

%

%

1

151,61 83,8

6x10+7x5+6x48x 10+8x5+10x4

100%=1346x10+7x5+6x4

11.6. NUMEROS INDICES DE VALOR

Si multiplicamos el precio de un producto por su cantidad (consumida, produci-da, etc.) obtendremos una nueva cifra, que tiene carácter de «valor» de dichoproducto. El valor de un articulo o producto puede ser expresado por

E Pa

Si aplicamos el concepto de número índice simple. visto en apartados anteriores,obtendremos los llamados «números indices de valor».

t

E Pa 9ao loo=

E Pro "9a

E Po 911loo1

E P. 9.

E P. 9n2 —_— lo0

E Pa ' 9a

E P= 90II t--- loo

E Pa 9.

136

Page 139: Esta Di Stica

Es conveniente en este apartado, en el que estamos considerando series cronoló-gicas de valor, distinguir entre valor nominal y valor real. El valor nominal vienedado por la cifra monetaria observada, mientras que el real es este mismo una vezefectuada una operación para eliminar la influencia de la depreciación monetaria. Esdecir, el valor nominal viene expresado en monedas de cada alto, mientras que elvalor real viene expresado en moneda constante.

Si queremos convertir los valores nominales en reales debemos realizar unaoperación denominada «deflación».

Lo que nosotros queremos realizar es pasar esta serie de valores nominales:

a estos valores reales:

Pio 9»,

Si dividimos los valores nominales por el indice de precios de Paasche, obtendre-mos nuestro objetivo:

9u N' gis

P°— _ P,o ' Mi

Pn ' 9ti

Ino • 9«

Al índice de precios de Paaschc se le denomina «coeficiente dellacionador».Este método,técnicamente correcto, presenta la dificultad de que muchas veces

137

Page 140: Esta Di Stica

no conocemos el indice de precios de Paasche. Este problema se resuelve utilizandoel indice de coste de la vida iIPCI, que aunque no es del todo correcto, es muchomás asequible.

EJENIPLO

9. Dejlaciona la serie temporal del ejemplo 4 (periodo base = 1987).

Años

Articulo .4 A rticulo B A rticulo C

P Q P Q P Q

1987 2 12 5 9 4 61988 4 15 7 10 5 41989 6 10 7 5 6 41990 8 10 8 5 10 5

SOLUCIÓN:

1. Calculamos los indices de valor para cada año.

Años t1987 2x 12+5x 9+ 4x6= 931988 4x 15+7x 10+ 5x4=1501989 6x10+7x 5+ 6x4=1191990 8 x 10+8 x 5+10 x 5=170

2. Dividimos los indices de valor por el indice de precios de Paasche(calculado en el ejemplo 5). y asi obtenemos la serie temporaldeflacionada.

Años Valor real (1987 = 100)

1987 93 1,00 = 93,001988 150 1,56 = 96,151989 119 1,95 = 61.021990 170 2,69 = 63,19

•138

Page 141: Esta Di Stica

EJERCICIOS

11.1. Los resultados que ha presentado RENFE en los últimos años hansido los siguientes (déficit en millones de pesetas):

Años Déficit

1980 64.431

1981 79.857

1982 128.980

1983 159.810

1984 156.311

1985 159.064

1986 201.838

1987 191.951

1988 185.919

1989 189.685

a) Calcula los números indices simples, tomando como año base1980.

h) Realiza un cambio del período base: ahora debe ser el año 1986.

11.2. En un estudio realizado sobre depósitos del sistema bancario del PakVasco se han obtenido los siguientes valores (en millones de pesetas):

Sector público

1988 Bancos Cajas Cooperativas

I trimestre 64.057 110.797 7.150II trimestre 78.626 114.075 9.288I II trimestre 103.029 176.229 11.853I V trimestre 136.762 159.365 12.964

Calcula los números índices complejos sin ponderar (periodobase = I trimestre del año 1988).

11.3. De un cierto producto tenemos los siguientes números indices simplesde precios y de valor:

139

Page 142: Esta Di Stica

AñoIndice de precios

(base /982 = 100)Indices de valor

(base 1980 = 100)

1982 100 200

1983 120 215

1984 130 260

1985 150 300

Calcula los números indices de cantidad, tomando como base elaño 1982.

11.4. La facturación de energía eléctrica en la CAM ha presentado lasiguiente evolución en estos últimos años:

Doméstico Alumbrad Tracción Reventa C •cos industrialest' otros

1985 299,3 I12,5 35.6 0,7 403.7

1986 311,7 112,8 37,5 0,6 440,2

1987 309,8 125,0 39,5 0,7 479,9

1988 322,6 129,5 40,9 0,7 526,9

Calcula los índices simples conocidos y comenta los resultados(periodo base = 1985).

115. Una agencia de viajes de Santa Cruz de Tenerife ha realizado unestudio sobre distintos paquetes turísticos que ha ofertado en losúltimos años. Ha obtenido los siguientes resultados:

Paquete 1.° Paquete 2.° Paquete 3.°

Años Precio Cantidad Precio Cantidad Precio Cantidad

1986 120.000 10 158.000 5 220.000 81987 135.000 7 195.000 7 225.000 81988 160.000 15 210.000 10 235.000 61989 195.000 5 240.000 10 280.000 51990 210.000 9 290.000 15 300.000 3

Calcular los índices de Laspeyres, Paasche y Fisher. de cantidadestomando como año base 1986.

140

Page 143: Esta Di Stica

11.6. En un albergue juvenil de Asturias hay establecidos tres tipos demenús diferentes. Se ha realizado un cuadro de sus precios y de lacantidad consumida por día, estudiándose la evolución en los últimosaños.

Menú l.° Menú 2.° Menú 3.°

Años P Q P Q P Q

1986 550 10 675 25 825 301987 590 30 800 17 975 201988 610 25 850 15 1.025 101989 650 15 945 14 1.100 101990 725 5 1.000 4 1.250 5

a) Calcula el índice de Paasche de precios y cantidades (período base= 1986).

b) Realiza un cambio del período base (1988 = 100), y calcula elindice de Paasche de precios y cantidades.

11.7. En la tabla que se presenta a continuación, se señala el número deplazas de diferentes establecimientos turísticos, así como los precios/día de los mismos en el año 1985 y 1990 (los precios están expresadosen pesetas de cada año). a) Calcula el incremento de los precios deestos establecimientos turísticos (el año 1985 se considera año base).b) ¿A cuántas pesetas del período base equivalen 2.500 ptas. del períodot? Se considera que la oferta de estos establecimientos no ha sufridovariación.

Oferta(q10 )( x /0') Pio (85) P„ (90)

Apartamentos 2.429 3.100 4.4.00Hoteles 229 4.800 6.500

Campings 282 1.500 2.100

11.8. El salario medio por hora en pesetas de los operarios de una ciertacategoría dentro de un establecimiento turístico es el que figura acontinuación. Estudia la modificación del valor real del salario.

141

Page 144: Esta Di Stica

Años ptas./horaIPC (1983 = 100)

medio

1984 450 111,3

1985 520 121,0

1986 630 131,7

1987 840 138,6

1988 920 145,3

1989 1.300 154,4

11.9. En la estructura de costes de una compañía turística de Alicante losgastos de personal representaban el 40 por 100 en 1985. Supuesto queesta estructura de costes se mantiene, ¡,Cuál debería haber sido elincremento de los gastos de personal para que el incremento de loscostes totales en el periodo 1985-1989 no superase el 30 por 100?(1983 = 100)

Costes Participación 1985 1989

PersonalResto

0.40,6

120,0

120,4160,2( 56,8

11.10. Los ingresos en pesetas por turismo según el registro de caja delBanco de España ha sido el siguiente en los últimos años (ingresos enm. millones de ptas.):

Año Ingresos IPC

83 990,0 99,184 1.247,8 110,385 1.374,7 120,086 1.671,9 130,587 1.819,8 137,488 1.944,3 144,089 1.924,3 153,8

Cuáles serían los ingresos en pesetas de 1983?

142

Page 145: Esta Di Stica

XII

ESTADISTICAS DE ATRIBUTOS

12.1. DEFINICION Y REPRESENTACION GRAFICA

En el capítulo primero vimos que el objeto de la estadística descriptiva era elestudio de los elementos que componen una población, sean éstos susceptibles demedida o no.

Es interesante terminar considerando aquellos caracteres cualitativos de unapoblación o lo que es lo mismo, caracteres «no susceptibles de medida».

Estos caracteres los denominamos ATRIBUTOS y se representan con las prime-ras letras del abecedario en mayúsculas (A, B, C, ...). Las distintas modalidades quepuede tomar un atributo determinado se representa utilizando las minúsculas co-rrespondientes (a,, 0 2 , ..., a,,; h„ b2 , c 1 , c2 ...., c„).

El número de veces que se repite el valor de un atributo recibe el nombre defrecuencia absoluta, y se simboliza como n,. La suma de todas las frecuenciasabsolutas será el número total de elementos que componen el colectivo o la muestra,que se simboliza como N. Puesto que los atributos no admiten ordenación cuantita-tiva, no tiene sentido hablar aquí de frecuencias acumuladas.

Modalidades (a,) Frecuencias (ni)

a, n,a2 nZa3 n3

a„ n,,

La representación gráfica de atributos es muy sencilla, y ya la comentamos en elapartado 2.7 del capítulo II: se realiza mediante el diagrama de rectángulos. En el ejede abcisas se representan las distintas modalidades del atributo, tomando para cadauna de ellas una base constante, sobre la cual se dibuja un rectángulo de altura iguala la frecuencia Correspondiente.

143

Page 146: Esta Di Stica

12.2. ESTADISTICAS DE DOS ATRIBUTOS

Al igual que estudiamos en el caso de dos variables, las estadísticas de dosatributos son el resultado de observar conjuntamente dos caracteres cualitativos, esdecir, no susceptibles de medida.

De forma semejante a lo que estudiamos en el capítulo VII, los datos se disponenen una tabla de doble entrada, recibiendo el cuerpo central el nombre de «tabla decontingencia»; al igual que vimos, se pueden establecer las distribuciones marginalespara cada uno de los atributos.

Atribulo AAtributo B a

az an Totales

b, nll n21 nnl L n11

b2 n12 n22 ...nn2 L n,2

hk n i k rl 2k...

nnk L 'la

Totales L n 11 L n 21 ^ n n N

Distribución marginal de A Distribución marginal de B

Atributo A Frecuencia Atributo B Frecuencia

al

a z

a,

L n 11

n21

n,

b1

b2

bk

L n,,

L ni2

L na

123. INDEPENDENCIA Y ASOCIACION

Cuando estudiamos dos caracteres cuantitativos de una población, hablamos dela posibilidad de que existiera una dependencia funcional. o bien, una dependencia

144

Page 147: Esta Di Stica

estadística. También nos encontramos con casos en que existía una interdependenciaentre las dos variables.

Cuando estudiamos dos caracteres cualitativos, nos encontramos con la posibili-dad de que exista una «asociación» entre estos caracteres o, por el contrario, una«independencia» entre los mismos.

La asociación entre dos atributos puede ser de atracción o de repulsión. Así, porejemplo, si estudiamos los atributos «nacionalidad» y «color del coche», existirá, apriori, una independencia entre las modalidades de dichos atributos. Ante los atribu-tos «nacionalidad» y «color de la piel», existirá una asociación; entre la modalidad«africano» y «piel negra» existe una asociación de atracción, mientras que entre lamodalidad «africano» y «piel blanca» existirá una asociación de repulsión.

Existe una expresión matemática para conocer el tipo de asociación o la inde-pendencia existente entre dos modalidades de dos atributos distintos, cuyo desarro-llo no vamos a exponer.

La expresión nos queda que,

atracciónnnk >n

"N` : independenciarepulsión

F:.1 1E N 1 P1 .0

I. Estudia la asociación o independencia existente entre ser de un sexo deter-minado y comprar una marca de coche determinado.

Sexo

Marca de cocMujer Hombre Totales

Fiat 15 10 25

Peugeot 9 9 18

Ford 20 6 26

Mercedes 10 8 18

BMW 3 10 13

Volvo 4 12 16

Totales 61 55 116

SOLUCIÓN:

«Mijer» con «Fiat»:25 x 61

15 > 16 : Atracción1

145

Page 148: Esta Di Stica

18 x 61Independencia«Mujer» con «Peugeot»: 9 =- :

1126 x 61

Atracción« Mujer» con «Ford»: 20 > 16 :1118 x 61

Independencia«Mujer» con «Mercedes »: 10 _ 1116 :

13 x 61«Mujer» con «BMW»: 3 < Repulsión

16 :1116 x 61

Repulsión«Mujer» con «Volvo»: 4 < :1611655x25

«Hombre» con «Fiat »: 10 < Repulsión16 :11

«Hombre» con «Peugeot »: 9 — 1855 :Independencia 116

«Hombre» con «Ford » : 6 <26 x 5

Repulsión16 :116

5x18 5Independencia«Hombre» con «Mer cedes»: 8 ' l6 :116

5 5x13Atracción«Hombre» con «BMW»: 10 >

16 :1165x16 5

Atracción«Hombre» con «Volvo»: 12 > 16 :11 ^

Lo visto hasta este momento sirve únicamente para conocer la independencia oasociación existente entre dos modalidades. A continuación vamos a estudiar cómopodemos conocer la independencia o asociación entre «dos atributos».

Para conocer la posible relación entre dos atributos se debe emplear la siguienteexpresión:

^ (nkk — n¡,k)

n¡^

donde n>< representa las frecuencias empíricas u observadas y n;„ las frecuenciasteóricas.

Una vez realizada esta operación es necesario comparar este resultado con elvalor de la DISTRIBUCION DE x 2 DE PEARSON que viene dado en la tabla dela página 146.

Los grados de libertad vienen dados en estos casos por el producto del númerode filas menos uno, por el número de columnas menos uno; E, que es el nivel designificación, suele ser del 5 por 100 o del 1 por 100, a menos que el problemaseñale otra cifra.

Con todo lo expuesto decimos que se acepta la hipótesis de independencia si,

2 > E ( nkk - n4 2k)

nk,

146

Page 149: Esta Di Stica

La hipótesis de asociación entre dos atributos se acepta si,

X (nhk -

n )22 n

2. L.ctudia la posible asociación o independencia entre los atributos del ejemplovisto en el caso 2.

n kk nkk (n,,,,- nkk)2

z(nhk - nkk)

nkk

15 13,14 3,46 0,269 9,46 0,21 0,02

20 13,67 40,06 2,9310 9,46 0,29 0,02

3 6,83 14,66 2,154 8,41 19,45 2,31

10 11,85 3,42 0,299 8,53 0,22 0,036 12,33 39,69 3,238 8,53 0,28 0,03

10 6,16 14,74 2,3912 7,58 19,53 2,58

16,24

SOLUCIÓN:

Los grados de libertad serán igual al número de modalidades delatributo A menos uno, por las modalidades del atributo B menos uno.En consecuencia,

(6 - 1)(2 - I) = 5

Si c= 5%;° X2=11,070

X 2 (11,070) < 16,24

se acepta, por tanto la hipótesis de asociación.Si c = 1 %; = 15,06

X 2 (15,06) < 16,24

A este nivel de significación también se acepta la hipótesis de asociación.

•147

Page 150: Esta Di Stica

DISTRIBUCION z2 DE PEARSON

P(7 2 > /2) = e

z'

GradosJr lt6rctud

n

/1 ,onto Junúon de n y c

c= 99 98 90 80 70 50 30 20 10 5 1 1 0,1

I 0,000 0,001 0,004 0,016 0,064 0,148 0.455 1,074 1,642 2,706 3,841 5,412 663 5 10,827

2 0,020 0,040 0,103 0,211 0,446 0,713 1,386 2,408 3,219 4,605 5,991 7,824 9.210 13,815

3 0,115 0,185 0,352 0.584 1,005 1,424 2,366 3,665 4.642 6.251 7,815 9,837 11,341 16,268

4 0,297 0.429 0,711 1,064 1,649 2,195 3.357 4,878 5,989 7,779 9,488 11,668 13,277 18,465

5 0,554 0,752 1.145 1,610 2,343 3,000 4,351 6.064 7,289 9.236 11,070 13,388 20,517

6 0,872 1,134 1,635 2,204 3,070 3.828 5.348 7.231 8.558 10.645 12,592 15.033 16,812 22.4577 1,239 1.564 2,167 2,833 3,822 4,671 6,346 8,383 9,803 12,017 14,067 16,622 18,475 24,322

8 1,646 2,032 2,733 3,490 4,594 5,527 7,344 9,524 11,030 13,362 15,507 18,168 20,090 26,125

9 2,088 2,532 3,325 4,168 5,380 6,393 8,343 10,656 12.242 14,684 16,919 19.679 21,666 27,877

10 2,558 3,059 3,940 4,865 6,179 7,267 9,342 11,781 13.442 15,987 18,307 21.161 23,209 29,588

1 1 3,053 3,609 4,575 5,578 6,989 8,148 10,341 12,899 14,631 17,275 19,675 22,618 24,725 31,264

12 3,571 4,178 5,226 6,304 7.807 9,034 11,340 14,011 15,812 18,549 21,026 24,054 26,217 32,900

13 4,107 4,765 5,892 7,042 8,634 9,926 12,340 15.119 16,985 19,812 22.362 25,472 27.688 34,528

14 4,660 5,368 6,571 7,790 9,467 10,821 13,339 16,222 18,151 21.064 23,685 26.873 29,141 36,123

15 5,229 5,985 7,261 8,547 10,307 11,721 14339 17,322 19,311 22,307 24,996 28,259 30,578 37,697

16 5.812 6,614 7,962 9,312 11,152 12,624 15.338 18,418 20.465 23,542 26,296 29,663 32,00 39.25217 6,408 7,255 8,672 10,085 12,002 13,531 16,338 19,511 21,615 24,769 27,587 30,995 33.409 40,79018 7,015 7,906 9,390 10,865 12,857 14,440 17,338 20.601 22,760 25.989 28,869 32,345 34.805 42.31219 7,633 8,567 10,117 11,651 13,716 15.352 18.338 2I,689 23,900 27,204 30.144 33,687 36,191 43,82020 8,260 9,237 10,851 12,443 14,578 16,266 19,337 22,775 25,038 28.412 31,410 35,020 37,566 45,315

21 8.897 9,915 11,591 13,240 15,445 17,182 20,337 23,858 26.171 29,615 32,671 36,343 38,932 46.79722 9,542 10,600 12,338 14,041 16,314 18,101 21,337 24,939 27,30 1 30,813 33,924 37,659 40.289 48,26823 10,196 11.293 13,091 14,848 17,187 19,021 22.337 26,018 28.429 32,007 35,172 38,968 41,638 49.72824 10,856 11,992 13,848 15,659 18,062 19,943 23,337 27.096 29,553 33,196 36.41 5 40,270 42,980 51,17925 11,524 12,697 14,611 16,473 18,940 20,867 24,337 28,172 30,675 34.382 37,652 41,566 44,314 52,620

26 12,198 13,409 15,379 17.292 19,820 21,792 25,336 29.246 31,795 35,563 38.885 42,856 45.642 54,05227 12,879 14,I2 5 16,151 18,114 20,703 22,719 26,336 30,319 32,912 36,741 40,113 44,140 46,963 55,47628 13,565 14,847 16,928 18,939 21.588 23.647 27.336 31,391 34,027 37,916 41,337 45,419 48,278 56.89329 14,256 15,574 17,708 19,768 22.475 24,577 28,336 32,461 35,139 39,087 42,557 46,693 49,588 58.30230 14,953 16,306 18,493 20.599 23.364 25,508 29,336 33,530 36,250 40,256 43.773 47.962 50.892 59,703

12.4. ESTADISTICAS MIXTAS

Podemos encontrar estadísticas compuestas por un carácter cualitativo y otrocuantitativo; las denominamos estadísticas o distribuciones mixtas. Sobre éstas no

148

Page 151: Esta Di Stica

vamos a hacer ninguna consideración especial, ya que su estudio es similar al rea-lizado hasta ahora. Los datos se sitúan en tablas de doble entrada, y si queremosanalizar cada carácter por separado lo haremos una vez obtenidas las distribucionesmarginales correspondientes.

12.1. Representa gráficamente la siguiente estadística referente a las inver-siones de filiales francesas en España durante el período 1989-1992 (enmillones de pesetas).

Renault 100.000Peugeot-Talbot 17.000Mahou-Grupo BSN 12.000Cristalería Española 10.000Alcatel España 7.450Citroen Hispania 7.000Sodial (Yoplait) 2.000

Michelin España 1.323Moulinex España 500

Bull 500

12.2. En un camping de Málaga se ha realizado un estudio sobre la «clasesocial» de las personas que acuden al mismo (x) y el dinero que suelengastar diariamente en concepto de bar (t• ). Se ha obtenido los siguientesresultados:

r y x y x y

Cl. media 2.400 Cl. media 4.200 C. baja 3.800Cl. media 1.300 Cl. baja 3.700 Cl. baja 1.200Cl. alta 2.500 Cl. baja 2.800 Cl. media 1.800Cl. baja 1.000 Cl. media 2.900 Cl. media 1.950Cl. baja 1.800 Cl. media 4.000 Cl. media 2.400Cl. alta 3.200 Cl. alta 2.500 Cl. alta 2.100Cl. alta 3.500 Cl. alta 4.000 Cl. baja 2.400Cl. media 1.900 Cl. baja 1.100 Cl. baja 3.100Cl. media 3.400 Cl. baja 2.900 Cl. alta 1.500

a) Establece la tabla de doble entrada (la variable y en intervalos dea; = 1.000).

b) 1 Establece las distribuciones marginales de x e y.

149

Page 152: Esta Di Stica

12.3. Se ha realizado un estudio sobre categorías de establecimientos hote-leros y número de pernoctaciones realizadas por turistas nacionales yextranjeros. Se ha obtenido el siguiente resultado:

A'acinnultdad

CategoricEspañoles E.Vranieras

Cinco estrellas 140.212 195.401

Cuatro estrellas 596.501 1.012.905

Tres estrellas 1.090.629 1.294.260

Dos estrellas 525.839 379.562

Una estrella 170.813 101.535

a) Determinar el tipo de dependencia entre las modalidades de ambosatributos. Comenta los resultados.

b) Calcula la asociación o independencia entre los atributos.

12.4. Un estudio sobre personal empleado según categoria hotelera ha mos-trado los siguientes resultados:

PersonalCategoric Personal fijo Personal eventual

Cinco estrellas 7.224 2.558Cuatro estrellas 16.737 6.174Tres estrellas 15.347 8.068Dos estrellas 4.931 2.756Una estrella 1.842 922

a) Determina el tipo de dependencia entre las modalidades de ambosatributos. Comenta los resultados.

125. Se ha hecho un estudio sobre procedencia de los turistas y tipo dealojamiento turístico que utilizan (cifras en miles de pernoctaciones)•

ContinenteCategoría

Europa América Oceania Asia Africa

4 estrellas 3.100 2.700 210 500 1.3003 estrellas 3.800 2.100 424 550 1.6002 estrellas 2.500 1.350 380 390 1.200Camping 1.375 1.200 340 280 980

150

Page 153: Esta Di Stica

a) Estudia la dependencia existente entre la procedencia de los turis-tas y el hecho de alojarse en un hotel de 4 estrellas. Comenta losresultados.

b) Estudia la asociación o independencia entre «continente» y «tipode alojamiento turístico».

151

Page 154: Esta Di Stica
Page 155: Esta Di Stica

SOLUCIONARLO DE PROBLEMAS

I. CONCEPTOS 1'ItF.VIOS

I.I . c, n, N, j F,

I 4 4 0,25 0.252 4 8 0,25 0,503 3 II 0,18 0,684 4 15 0,25 0,935 I 16 0,06 0,99 _ 1

1.2. a) 164.h) 182.

13. a) 76,7 %.h) 612.

1.4. L - L, n, r N, j F,

2.500- 3.500 9 3.000 9 0,225 0,2253.500- 4.500 2 4.000 I I 0,050 0,2754.500- 5.500 2 5.000 13 0,050 0,3255.500- 6.500 6 6.000 19 0,150 0,4756.500- 7.500 2 7.000 21 0,050 0,5257.500- 8.500 3 8.000 24 0,075 0,6008.500- 9.500 2 9.000 26 0,050 0,6509.500-10.500 4 10.000 30 0,100 0,750

10.500- 11.500 I 11.000 31 0,025 0,775I1.500- 12.500 2 12.000 33 0,050 0,82512.500-13.500 2 13.000 35 0,050 0,87513.500-14.500 2 14.000 37 0,050 0,92514.500-I5.500 3 15.000 40 0,075 I

c) 19.1

153

Page 156: Esta Di Stica

1.5. L _ , — L; n, N,

1 -2 5 5 0,05 0,052-3 19 24 0,19 0,243-4 36 60 0,36 0,604-5 13 73 0,13 0,735-6 23 96 0,23 0,966-7 4 100 0.04 1

1.6. a)b)

Cualitativa.

0,2100,3500,0980,1400,1400,050

e) Como la variable que estamos estudiando es cualitativa no tiene sentido elhablar de frecuencias acumuladas, ya que es una variable no susceptible demedida.

2. REPRESENTACION GRAFICA DE LAS SERIES ESTADISTICAS

2.1. b) 14,8 %.

2.2. a)

z; N, f, F.

400 15 0,15 0,15525 37 0,22 0,37650 68 0,31 0,68725 82 0,14 0,82812,5 93 0,11 0,93937,5 98 0,05 0,98

1.125 100 0,02 I

6) 56 %.

2.9.

L; _, — L, n,

40-50 S50-60 660-70 670-80 380-90 5

154

Page 157: Esta Di Stica

3. MEDIDAS DE TENDENCIA O DE POSICION: PROMEDIO

3.1. 5.

3.2. a) No se puede calcular la z, G, H y C, al no poder calcular las marcas de clase.b) M0 = 27,4.

M, = 29,3.

33. Adultos = 62,5 %.Niños = 37,5 %.

3.4. x = 17,14.y = 2,86.

33. a) x = 1.766,6.b) xp = 1.877,1.c) Los menús más caros son los más solicitados, quedando reflejado cuando se

calcula la media aritmética ponderada.

3.6. a) x = 157.250 ptas.b) M, = 141.250.

C90 = 243.750.D, = 168.750.

3.7. Cuando los valores de la variable presentan signo negativo, el cálculo de estos prome-

dios carecen de representatividad.

3.8. H = 517,56 < G = 522,03 < x = 526,4 < C = 530,7.

3.9. a) x = 32,6.b) xp = 35,2.

3.10. n 2 = 0,7.M, = 22,225.M0 = 8.

3.11. Q2 = 18,28.La moda y la octava decila no se pueden calcular.

3.12. M. = 5.Q3 = 8.D, = 7,5.

Ceo = 1,5.

3.13. 16,7 %.

3.14. M0 = 182,5.

3.15. D6 = 52,5.

4. MEDIDAS DE DISPERSION

4.1. a) D„ = 15,97.b) D„,%= 15,70.

155

Page 158: Esta Di Stica

4.2. R, = 15.D. = 3,87.S = = 18,9.S = 4,35.V = 386,6 %.

43. a) S, = 2.701,2.V = 51,8 %.La media aritmética no tiene mucha representatividad. puesto que es grande ladispersión de los valores del colectivo alrededor de ella.

b) S; = 2.701,2.Ambas series tienen la misma varianza, ya que hemos sumado el mismo valor acada uno de los valores de la variable x.

c) S; = 3.268,4.

4.4. VA < Vc < VB.

4.5. a) _r = 51,54.t" = 25,8 %.La media aritmética no carece de representatividad en este caso, aunque tampocoposee plenamente dicha propiedad.

4.6. G v = 4.8 % < L ni.o) «^w = 16.14 %.

Las medias aritméticas de ambas variables no carecen de representatividad, aunque lamedia aritmética de la variable ',pernoctaciones» presenta menor dispersión queaquella que estudia el agrado ocupacional ') del restaurante.

4.7. a) .r = 13,142970 len millones).hl 1' = 72,42 %

Existe una gran dispersión, motivada por el peso significativo que tiene Balearesen el total.

4.8. a) .ü = 55.47 %.b) V = 16,83 %. La dispersión es medianamente aceptable.

4.9. a) LÁ = 4 %.L é = 5,5 %. Vc < VA < VeL^ = 3.53 %.Es adimensional.

4.10. S, = 4.32. La unidad es noches.

4.11.

— 1,69—1.08—0,77

0,461,082,62

==0S_ = 1

156

Page 159: Esta Di Stica

4.12. Esta agencia se encuentra más aventajada en los billetes de avión respecto de losdemás.

4.13. Este hotel ha obtenido un mayor beneficio debido al servicio del restaurante.

5. MEDIDAS DE ASIMETRIA V DE CURTOSIS

5.1. z = 1,95.Ma = —4.M'=Q2=Os= Cso=2.As > 0. Asimetría a la derecha.

5.2. As > 0. Asimetría a la derecha.

53. Este coeficiente no se puede calcular ya que los intervalos primero y último no estándefinidos, y por tanto, no se puede calcular la media aritmética, ni la moda, ni ladesviación media.

5.4. a) El grado de asimetría de dicha distribución es grande.b) As < 0. Asimetría a la izquierda.

53. As.mp,... A = 0,98 > As x = 0,56.

Ambas empresas presentan un signo de asimetría positivo.

5.6. Tenemos que eliminar todos los valores a partir del 5,63.

5.7. Número de bombillas = 999.

5.8. Menú I = 0.Menú 2 = 27.Menú 3 = 310.Menú 4 = 163.

5.9. P[m , 0] = 93,3 %.

5.10. P[m < 175] = 0.

5.11. P[ 17 5 m 5 19] = 14,6 %.

5.12. Picnic A = 0.Picnic B = 31.Picnic C = 44.Picnic D = 0.

6. MEDIDAS DE CONCENTRACION

6.1. CA = 0,426.

C'e = 0,46.

157

Page 160: Esta Di Stica

6.2. C ,, = 0,88. C, = 0,44.

S;,, = 576. Sse = 576.

Mientras que la dispersión de ambas distribucions es igual, la concentración quepresenta la distribución B es bastante menor que la presentada por la distribución A.Queda reflejado en este problema la diferencia de ambos conceptos.

6.3. V=45%.C = 0,19.

6.4. C = 0,12. Existe un reparto bastante igualitario en el sueldo mensual del personalde dicho hotel.

6.5. La empresa A presenta una concentración mayor en el sueldo que paga a susempleados, es decir, un menor reparto igualitario que la empresa B.

7. SERIES ESTADISTICAS DE DOS VARIABLES

7.1. a) Dependencia lineal directa hasta una determinada edad, a partir de la cual habríauna dependencia lineal inversa. Estamos ante una dependencia estadística.

b) Dependencia funcional o exacta.e) Dependencia estadística, de tipo lineal directa.d) Dependencia estadística, de tipo lineal inversa.e) Dependencia funcional o exacta.

7 ,3.

r 25-35 35-45 45-55 55-65 65-75 Totales

5.000-10.000 7 4 3 0 0 14

10.000-15.000 O 0 4 0 I 5

15.000-20.000 0 0 0 2 0 2

Totales 7 4 7 2 t 21

7.4. 5,„ = 12,41.

7.5. Este dato nos refleja que a mayor inversión realizada por dicho establecimientoturístico, menores beneficios obtiene. Se trata de una dependencia estadística, de tipoinverso.

7.6. a) S,, = 136.17. Existe una dependencia estadística, de tipo directo.b) V, = 32,9 % > V, = 27,5 %.

158

Page 161: Esta Di Stica

7.7.

x, n, y) ni

300 12 12,5 10400 20 22,5 18500 7 40 11

X = 387,2. 9 = 24,87.S; = 4691,5. S= = 106,5.S, = 68,5. S, = 10,3.

8. ANALISIS DEL AJUSTE Y DE LA REGRESION ENTRE DOS VARIABLES

8.1. a) Falso. El parámetro «a» de la función de una recta nos indica por dónde cortael eje de ordenadas.

b) Verdadero.e) Falso. Cuando el coeficiente de regresión es negativo nos indica que la depen-

dencia existente entre las variables es de tipo inverso.d) Falso. Los parámetros «b» y «b'» presentan siempre el mismo signo, ya que entre

las variables existe, bien una dependencia directa, bien una dependencia inversa.e) Falso. El signo del coeficiente de regresión depende exclusivamente del signo de

la covarianza. La varianza (por definición) es siempre positiva.f) Verdadero. Si b es cero, nos indica que la variable dependiente no varía cuando

lo hace la variable independiente.g) Verdadero.

8.2. a) Esta función nos indica que los beneficios han disminuido en el transcurso deltiempo estudiado. Es decir, existe una dependencia de tipo inverso (h es negativo)entre los años estudiados y los beneficios obtenidos por estos hoteles.

8.3. a) No existe correlación entre las inversiones realizadas y los beneficios obtenidos

de las mismas. Este gráfico nos indica que h = 0, y como h = 3 ; implica que

S„ = 0.b) y' = a.

8.4. y = — 113.761,985 + 1,19346x.

8.5. u) y = —220.035 + 0,478378x.b) x = 501.582 + 1,94014y.e) 253.559,22 ptas.A) 986.617 ptas.

8.6. a) y = 2,1 — 0,2x.b) y = 285,7 — 0,2x.

8.7. Los valores desconocidos son: 44,15; 33,8; 16.57.

159

Page 162: Esta Di Stica

8.8. a) S„ = 286.850. Efectivamente existe una dependencia estadística entre ambasvariables

P•

e) E e, = 0.

9. MEDIDAS DE LA DEPENDENCIA ESTADISTICA.ANALISIS DE LA CORRELACION

9.1. a) Falso. En ambos casos, el coeficiente de correlación nos indica que x es causade v cuando r = + I, nos señala que la correlación es de tipo directo; y cuandor = —1 la correlación existente entre las variables es de tipo inverso.

b) Verdadero.e) Falso. El coeficiente de determinación (por definición) tiene un valor compren-

dido entre 0-1 (siempre positivo); sin embargo, el coeficiente de correlación linealestá comprendido entre los valores —1 y +1.

d) Falso. El coeficiente de determinación es siempre positivo.e) Falso. Cuanto mayor sea el valor de la varianza residual, menor representa-

tividad tendrá nuestra función.f) Verdadero.

9.2. Esta función nos indica que el coeficiente de regresión es 0, con lo cual, la recta esparalela al eje de abcisas. El coeficiente de determinación y el coeficiente de correla-ción lineal son igual a cero. Como no hay dependencia estadística, no tiene signifi-cado el hablar del signo de la misma.

93. R 2 = 0.83: r = —0,91.Las ecuaciones de regresión son representativas de nuestro estudio: la dependenciaexistente es de tipo inverso.

9.4. r = 1,8; lo cual es imposible ya que el valor del coeficiente de correlación lineal estásiempre entre —1 y + I; los datos obtenidos son falsos.

9.5. S; = 1.356.

9.6. r'=2+ 3x. R 2 = I.Si la demanda fuese de 10, la oferta seria igual a 32.

9.7. a) e = 0,996612. Este coeficiente implica una relación lineal entre las variables.Cuando e vale 1 o próximo a 1 indica que la covariación es precisamente linealy tanto más perfecta cuanto más se aproxime a I. En nuestro caso vemos quela relación es lineal y casi perfecta.

b) Por lo expuesto en el apartado al, podemos concluir que no hay otro tipo derelación distinto del lineal.

c) El año 1989 seria la variable dependiente, y el año 1988 la variable independiente.

9.8. r • = 143.438 + 96,4697x. R 2 = 0.975.y• = 3.037.529. Es la cantidad de refrescos que se necesitaría para una temperaturaprevisible de 30 grados.

= 64,8407 + 0,2197x.

160

Page 163: Esta Di Stica

10. SERIES CRONOLOGICAS O TEMPORALES

10.2. La cifra de resultados parece reflejar un comportamiento errático. No obstante habríaque efectuar pruebas con distintas variables que inciden en los resultados y deter-minar la bondad del ajuste.

103. Si se efectuará el desembolso, ya que D = 1,9 millones de visitantes.

IQ Método de lamedia móvil

O Método analítico

— 176.053—184.366 y = —92.271,4 + 18.997,1:'—155.432—107.637— 43.155

23.432

103. y = —3,39917 • 10' + 17.250,81. R 2 = 0,88.y i99s = 423.646.

En principio podemos predecir la exportación para 1995 ya que cl valor del coefi-ciente de determinación es válido en este problema.

10.6. No podemos estimar el valor de y para el año 1991 ya que la ecuación carece derepresentatividad (R 2 = 0,35). El signo de dependencia estadístico es negativo, yaque h es negativo.r = —0,59.R 2 puede tomar valores comprendidos entre O y I.r toma valores comprendidos entre — I y +I.

10.7. a)

1985 1986 1987 1988 /989

2,4 2,7 2,7 2,9 3,02,7 2,6 3,0 3,1 3,12,0 2,2 3,4 3,5 3,82,4 2,7 2,8 3,0 3,4

10.8. v • = —87.032,2 + 44,12471.r = 0,918.)i99s = 996.577.Existe una dependencia lineal directa en los beneficios que presenta el banco duranteel período estudiado.

PVO

161

Page 164: Esta Di Stica

P 99,48V 146,6O 94,24

59.69 %

10.9.

10.10. y= 549.315— 275.091r. R 2 = 0.1187.No podemos predecir los datos para el año 1995, ya que la recta de regresiórcarece de representatisidad.

II. NUMEROS INDICES

11.1. a) I 1 1980 = 1001 b) I 1 1986 = 100)

100,0123,9200.2248,0242,6246,9313.3297.9288.6294,4

31,939.663,979,277,478,8

100.095,192.194.0

11.2. a) Indice de Sanerbeck. b) Indice de Bradstrest y Dutot.

S. B,

100 100118,5 110,9161,9 159.9179,5 169.8

113.

162

IQ 11982 = 100)

10089.6

100,0100,0

Page 165: Esta Di Stica

L;l P,u t,Q

100 100 10098,8 99,6 99,2

125,3 130,5 127,987,5 88,6 88,0

109,6 120,0 114,7

b)

11.4. a) Indice de Sanerbeck. b) Indice de Bradstrest y Dutot.

S, B,

100 100100,8 105,9108,9 112,1113,6 119,8

pe Plt

84,0 152,095,9 140,0

100,0 100,0108,6 82,0119,9 30,4

pr Pv

100 100114,2 92,1119,1 65,8130,9 53,8144,9 19,9

11.7. a) Incremento medio anual

Apartamentos + 7,3 %Hoteles 6,3 %

Campings 7,0 %b) 1.772 ptas.

11.8.

peas. /hora

404,3429,8478,4606,1633,2842,0

163

Page 166: Esta Di Stica

ptas. 1983

999,01.131,31.145,61.281,11.324,51.350,21.251,2

11.9. 29,7 %.

11.10.

12. ESTADISTICAS DE ATRIBUTOS

12.1. a)

xy 1.000-2.000 2.000-3.000 3.000-4.000 4.000-5.000

Clase alta 4 3 3 0

Clase media 4 3 1 2

Clase alta I 3 2 I

Distribución marginal de x

.r; n,

Clase baja 10Clase media 10Clase alta 7

Distribución marginal de y

r, n,

1.500 92.500 93.500 64.500 3

b)

12.3. a) 5 estrellas y españoles: 140.212 < 153.801,41. Repulsión.4 estrellas y españoles: 596.501 < 737.542,5. Repulsión.3 estrellas y españoles: 1.090.629 ^ 1.092.923,1. Independencia.2 estrellas y españoles: 525.839 > 414.918,1. Asociación de atracción.1 estrella y españoles: 170.813 > 124.808,9. Asociación de atracción.5 estrellas y extranjeros: 195.401 > 181.811,6. Asociación de atracción.4 estrellas y extranjeros: 1.012.905 > 871.863,5. Asociación de atracción.3 estrellas y extranjeros: 1.294.260 z 1.291.965,9. Independencia.2 estrellas y extranjeros: 379.562 > 490.482,8. Repulsión.I estrella y extranjeros: 101.535 < 147.539. Repulsión.

164

Page 167: Esta Di Stica

Según estos datos, los extranjeros frecuentan establecimientos hoteleros de mayorcategoria que los españoles.

b) z 9,488 < E (n" , ",a)'.ny

Podemos afirmar con una probabilidad del 95 % de no equivocarnos, que entrelos atributos «categoria de establecimientos hoteleros» y «pernoctaciones deturistas nacionales y extranjeros» no existe independencia.

12.4. 5 estrellas y personal fijo: 7.224 > 6.772,4. Atracción.4 estrellas y personal fijo: 16.737 > 15.862,0. Atracción.3 estrellas y personal fijo: 15.347 < 16.210,9. Repulsión.2 estrellas y personal fijo: 4.931 < 5.321,9. Repulsión.1 estrella y personal fijo: 1.842 1.913,6. Independencia.5 estrellas y personal eventual: 2.558 < 3.009,6. Repulsión.4 estrellas y personal eventual: 6.174 < 7.048,9. Repulsión.3 estrellas y personal eventual: 8.068 > 7.204,0. Atracción.2 estrellas y personal eventual: 2.756 2.365,0. Independencia.I estrella y personal eventual: 922 > 850,4. Atracción.Según estos datos, los establecimientos de mayor categoría son los que tienen mayorcantidad de personal fijo.

12.5. a) Europa y 4 estrellas: 3.100 3.202,3. Independencia.América y 4 estrellas: 2.700 > 2.184,4. Atracción.Oceania y 4 estrellas: 210 < 402,4. Repulsión.Asia y 4 estrellas: 500 511,17. Independencia.Africa y 4 estrellas: 1.300 < 1.509,7. Repulsión.

b) y; 21,026 < E (n,, — n,a)2

nti,Podemos afirmar con una probabilidad del 95 % de no equivocarnos, que entrelos atributos «continente» y «tipo de alojamiento turístico» no existe indepen-dencia.

165

Page 168: Esta Di Stica
Page 169: Esta Di Stica

BIBLIOGRAFIA

GARCIA BARBANCHO, A.: «Estadística elemental moderna». Ed. Ariel. Barce lona.GARCIA BARBANCHO, A.: «Ejercicios de estadistica descriptiva para economistas». Ed. Ariel.

Barce lona.LóPEz URQUTA, 1., y CASA ARUTA, E.: «Estadística Intermedia». Ed. Vicens Vives. Barce lona.TOMEO PERUCHA, V., y UÑA JUAREZ, J.: «Diez lecciones de estadística descriptiva ». Editorial

AC. Madrid.URIEL, E., y Mugtz, M.: «Estadística económica y empresarial». Editorial AC. Madrid.

167

Page 170: Esta Di Stica
Page 171: Esta Di Stica
Page 172: Esta Di Stica

EDITORIAL

SINTESIS

^ll

I

'^111'' ?69884738d cEDOC_5T\

\\ll\\\ll\\\l