Jesus Tapia Enero 2006 - Estadística Inferencial · Cap tulo 1 Estad stica e Investigaci on 1.1....

95
Nociones b´ asicas de Estad´ ıstica Jes´ us Tapia Enero 2006

Transcript of Jesus Tapia Enero 2006 - Estadística Inferencial · Cap tulo 1 Estad stica e Investigaci on 1.1....

Page 1: Jesus Tapia Enero 2006 - Estadística Inferencial · Cap tulo 1 Estad stica e Investigaci on 1.1. Los or genes Los or genes de la estad stica se pueden decir tiene su nacimiento en

Nociones basicas de Estadıstica

Jesus Tapia

Enero 2006

Page 2: Jesus Tapia Enero 2006 - Estadística Inferencial · Cap tulo 1 Estad stica e Investigaci on 1.1. Los or genes Los or genes de la estad stica se pueden decir tiene su nacimiento en

ii

Page 3: Jesus Tapia Enero 2006 - Estadística Inferencial · Cap tulo 1 Estad stica e Investigaci on 1.1. Los or genes Los or genes de la estad stica se pueden decir tiene su nacimiento en

Indice general

1. Estadıstica e Investigacion 1

1.1. Los orıgenes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

1.2. Elementos teoricos . . . . . . . . . . . . . . . . . . . . . . . . 2

1.2.1. ¿Cuando utilizar la estadıstica en la investigacion? . . . 7

1.2.2. Problemas que pueden ser solucionados mediante meto-dos estadısticos. . . . . . . . . . . . . . . . . . . . . . . 7

1.2.3. Proceso estadıstico en la investigacion cientıfica . . . . 8

1.2.4. Poblacion y Muestra . . . . . . . . . . . . . . . . . . . 9

1.2.5. Variables . . . . . . . . . . . . . . . . . . . . . . . . . . 9

2. Estadıstica descriptiva univariada 11

2.1. Definiciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

2.2. Medidas de tendencia central . . . . . . . . . . . . . . . . . . 16

2.3. Medidas de posicion . . . . . . . . . . . . . . . . . . . . . . . 17

2.4. Medidas de dispersion . . . . . . . . . . . . . . . . . . . . . . 18

2.5. Medidas de forma . . . . . . . . . . . . . . . . . . . . . . . . 20

2.6. Ejercicio Practico . . . . . . . . . . . . . . . . . . . . . . . . . 26

iii

Page 4: Jesus Tapia Enero 2006 - Estadística Inferencial · Cap tulo 1 Estad stica e Investigaci on 1.1. Los or genes Los or genes de la estad stica se pueden decir tiene su nacimiento en

iv INDICE GENERAL

3. Introduccion a la teorıa de probabilidad 27

3.1. Conceptos basicos . . . . . . . . . . . . . . . . . . . . . . . . . 27

3.2. Variables aleatorias . . . . . . . . . . . . . . . . . . . . . . . . 30

3.3. Algunas distribuciones discretas de interes . . . . . . . . . . . 34

3.4. Algunas distribuciones continuas de interes . . . . . . . . . . . 37

3.5. Teorıa de muestreo . . . . . . . . . . . . . . . . . . . . . . . . 43

3.5.1. Tamano de la muestra . . . . . . . . . . . . . . . . . . 43

3.5.2. Tipos de Muestreo . . . . . . . . . . . . . . . . . . . . 46

3.5.3. Clases de Muestreo . . . . . . . . . . . . . . . . . . . . 46

4. Introduccion a la Inferencia 49

4.1. Preliminares . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

4.2. Teorema central del Lımite . . . . . . . . . . . . . . . . . . . . 50

4.3. Distribucion muestral . . . . . . . . . . . . . . . . . . . . . . . 50

4.4. Distribucion muestral de la media . . . . . . . . . . . . . . . . 50

4.5. Distribucion muestral de las varianza . . . . . . . . . . . . . . 51

4.6. Distribucion muestral de la diferencia de medias . . . . . . . 52

4.7. Estimacion de parametros . . . . . . . . . . . . . . . . . . . . 54

4.7.1. Propiedades de los estimadores . . . . . . . . . . . . . 55

4.8. Pruebas de Hipotesis . . . . . . . . . . . . . . . . . . . . . . . 60

4.9. La prueba t de Student. . . . . . . . . . . . . . . . . . . . . . 61

4.9.1. Prueba t de student para una muestra . . . . . . . . . 61

4.10. Prueba t de Student para dos muestras . . . . . . . . . . . . 63

4.10.1. Dos muestras relacionadas . . . . . . . . . . . . . . . . 63

Page 5: Jesus Tapia Enero 2006 - Estadística Inferencial · Cap tulo 1 Estad stica e Investigaci on 1.1. Los or genes Los or genes de la estad stica se pueden decir tiene su nacimiento en

INDICE GENERAL v

4.10.2. Dos Muestras Independientes . . . . . . . . . . . . . . 66

5. Estadıstica bivariante 71

5.1. Estadıstica descriptiva bivariante . . . . . . . . . . . . . . . . 71

5.2. Variables cualitativas frente a cualitativas . . . . . . . . . . . 71

5.3. Variable cualitativa frente a cuantitativa . . . . . . . . . . . . 77

5.4. Variable cuantitativa frente a cuantitativa . . . . . . . . . . . 80

5.4.1. Analisis de correlacion . . . . . . . . . . . . . . . . . . 80

5.4.2. Analisis de regresion lineal simple . . . . . . . . . . . . 85

Page 6: Jesus Tapia Enero 2006 - Estadística Inferencial · Cap tulo 1 Estad stica e Investigaci on 1.1. Los or genes Los or genes de la estad stica se pueden decir tiene su nacimiento en

Capıtulo 1

Estadıstica e Investigacion

1.1. Los orıgenes

Los orıgenes de la estadıstica se pueden decir tiene su nacimiento en laepoca de las civilizaciones mas antiguas, desde el momento en que existio lanecesidad de conocer el numero de habitantes y el recurso material para susubsistencia, de allı que practicaran recuentos rudimentarios de la poblacion yde las riquezas a los fines de su administracion. Con el transcurso del tiempo,los avances en la organizacion del estado, hicieron necesario conocer conmayor exactitud los hechos que afectan a la poblacion y a sus recursos, comoeran los nacimientos, muertes, numero de pobladores, tierras en explotacionagrıcola, produccion de alimentos, viviendas, etc. Con lo cual se da inicio a losprimeros registros estadısticos Pero el origen de la estadıstica como cienciaactual, lo constituyen los juegos de azar.

En los paıses europeos los juegos de dados, cartas, ruletas, etc., tomarongran auge a partir del siglo XVI, algunos apasionados jugadores solicitaron elauxilio de matematicos de la epoca para tratar de obtener nuevas gananciasde los juegos. Es aquı, cuando, matematicos como Pascal y Fermat, trataronde darle solucion a algunos problemas planteados por los jugadores, dandoorigen al futuro calculo de Probabilidades. Sin embargo el calculo de probabil-idades como ciencia alcanza su plenitud a principio del siglo XIX gracias a lostrabajos de matematicos como Laplace, Bernoulli, Poison y Gauss, quienesconstruyeron la base fundamental de la teorıa de Probabilidades. Es esta, laepoca de la estadıstica asociada a la recoleccion y descripcion de datos.

A partir de la segunda guerra mundial, la utilizacion de metodos es-tadısticos mas sofisticados de inferencia estadıstica y la aplicacion de ellos adiferentes areas del saber generan nuevas posturas en el campo estadıstico.

1

Page 7: Jesus Tapia Enero 2006 - Estadística Inferencial · Cap tulo 1 Estad stica e Investigaci on 1.1. Los or genes Los or genes de la estad stica se pueden decir tiene su nacimiento en

Por otra parte la revolucion cibernetica de la segunda mitad el siglo XX, haintroducido cambios en el tratamiento estadıstico de datos, asociados a latelematica, con el uso de paquetes estadısticos en microcomputadores, quepermiten el procesamiento de gran flujo de datos en poco tiempo.

1.2. Elementos teoricos

La investigacion cientıfica como aplicacion del metodo cientıfico requierecomo factor de suma importancia de los metodos estadısticos, a fin de llegarrealmente al conocimiento cientıfico, en el cual tiene como condiciones basicasser objetivo, preciso y general; de igual manera todo conocimiento sobrela realidad es probabilıstica, esto nos muestra claramente la utilidad de laestadıstica en el proceso cientıfico.

Cada una de las etapas de la investigacion cientıfica estan ıntimamenterelacionadas con la estadıstica, a grandes rasgos esta relacion se pueden iden-tificar como:

Formulacion del problema:

Determinar los requerimientos cualitativos

Diseno del experimento:

• Definir variables → Escala de mediciones

• Formular Hipotesis → H0, H1, α

• Seleccion de instrumentos −→ Validez, contabilidad, sensibilidad.

• Diseno muestral −→ Universo, poblacion, muestra, unidades demuestreo.

• Analisis estadıstico−→ Estadıstica analıtica e inferencial.

Recoleccion de datos

• Diseno y Prueba de instrumentos para recoleccion de datos.

• Aplicacion de instrumentos para recoleccion de datos.

Clasificacion, tabulacion y descripcion de datos

• Distribuciones y medidas estadısticas de los datos obtenidos

Inferencia final

2

Page 8: Jesus Tapia Enero 2006 - Estadística Inferencial · Cap tulo 1 Estad stica e Investigaci on 1.1. Los or genes Los or genes de la estad stica se pueden decir tiene su nacimiento en

• Estimaciones estadısticas de parametros: Pruebas parametricas yno parametricas.

• Inferencia sobre resultados obtenidos.

• Distribuciones muestrales

Elaboracion y publicacion de Informes

• Elaboracion de graficas.

• Tablas

El esquema anterior muestra la relacion intrınseca existente entre la in-vestigacion cientıfica y la estadıstica.

Los metodos de analisis de los datos obtenidos a traves de la aplicacionde los instrumentos, dependen de tres factores:

1. El nivel de medicion de las variables

2. La manera como se haya formulado las hipotesis

3. El interes del investigador.

Los metodos de analisis aplicados a una variable nominal, no son los mismosque se puedan aplicar a una variable cuantitativa por intervalos. En general,el investigador busca en primer lugar describir los datos, luego efectua laspruebas de analisis para determinar las relaciones existentes entre las varia-bles, para luego inferir, la extrapolacion de los resultados obtenidos sobre lamuestra, a la poblacion total. Cabe senalar, que el analisis de los datos no esindiscriminado, cada metodo posee una razon de ser y un proposito especifico,tampoco se deber efectuar mas analisis de los necesarios. La estadıstica noes un fin en si misma, es una herramienta para el analisis de datos.

Los principales analisis que se pueden efectuar son:

Estadıstica descriptiva.

Normalizacion de variables.

Razones y tasas

Estadıstica Inferencial.

Pruebas parametricas

3

Page 9: Jesus Tapia Enero 2006 - Estadística Inferencial · Cap tulo 1 Estad stica e Investigaci on 1.1. Los or genes Los or genes de la estad stica se pueden decir tiene su nacimiento en

Pruebas no parametricas

Analisis multivariado.

Un resumen de cada uno de estos metodos sera dado a continuacion; el estudiodetallado de ellos se realizara posteriormente.

Estadıstica descriptiva la descripcion de los elementos que componen unproblema de investigacion, las caracterısticas de cada uno de los ele-mentos, es el inicio del analisis de los datos, esta tarea es la funcionde la estadıstica descriptiva, es decir, la estadıstica descriptiva es unatecnica de reduccion de informacion, un metodo que permite la selec-cion presentacion y caracterizacion de los datos, con la finalidad deespecificar las caracterısticas que ellos presentan.

Las funciones de la estadıstica descriptiva son: la descripcion de los ele-mentos que componen un problema de investigacion, las caracterısticasde cada uno de los elementos, es el inicio del analisis de los datos, estatarea es la funcion de la estadıstica descriptiva, es decir, la estadısticadescriptiva es una tecnica de reduccion de informacion, un metodo quepermite la seleccion presentacion y caracterizacion de los datos, conla finalidad de especificar las caracterısticas que ellos presentan. Lasfunciones de la estadıstica descriptiva son:

Reducir los datos a proporciones manuales, para su empleo enmedida de calculo.

Determinar los valores que se identifican mejor, o representan lageneralidad de los posibles valores asignados a las variables.

La especificacion de los datos y el analisis estadıstico de ellos reportan,es fundamental en el estudio de la informacion acerca de la muestra enestudio. Entre la informacion mas importante que se puede obtener, seresena:

Identificar las caracterısticas mas resaltantes de la muestra.

Proveer una base para conocer los valores poblacionales

Estimar la magnitud de la relacion entre dos o mas conjuntos dedatos.

Proveer una base de datos para establecer predicciones del com-portamiento de la poblacion.

Ası, la estadıstica descriptiva estudia los caracteres o variables quedefinen un conjunto de personas objetos de una naturaleza especificaLas distintas herramientas empleadas en la estadıstica descriptiva para

4

Page 10: Jesus Tapia Enero 2006 - Estadística Inferencial · Cap tulo 1 Estad stica e Investigaci on 1.1. Los or genes Los or genes de la estad stica se pueden decir tiene su nacimiento en

resumir la informacion contenida en una muestra son: son tablas, grafi-cos, medidas de tendencia central, medidas de dispersion medidas deposicion, etc. El estudio en detalle de cada una de ellas se efectuara em-pleando paquetes estadısticos, pero una descripcion simple, en funcionde la escala de medicion empleada se presenta en la tabla siguiente:

Variable Descripcion Estadısticos y graficasNominal Valores no numericos

con ausencia de ordenentre ellos

Distribucion de frecuencias

Moda, Diagrama de barras ode sector

Ordinal Valores no numericoscon presencia de ordenentre ellos

Mınimo, Maximo, Mediana,Cuartiles Percentiles, Rangointercuartılico, Diagramas decaja y bigote

CuantitativaDiscretas: unica-mente puede tomaruna cantidad finita devalores numericos

Media, Rango, Mediana, Cuar-tiles, Coeficiente de variacion,Coeficiente de asimetrıa, Coe-ficiente de Kurtosis, Histogra-mas, Graficos de tallo y hojas

Continuas: puedeasumir cualquier va-lor numerico en unintervalo

Estadıstica inferencial frecuentemente, el proposito de la investigacion vamas alla de la descripcion de las variables, se pretende generalizar los re-sultados obtenidos de la muestra a la poblacion o al universo. Los datoscasi siempre son recolectados de una muestra, sus resultados estadısti-cos se denominan estadıgrafos, la media, la varianza de la distribucionde una muestra son estadıgrafos; a las estadısticas de la poblacion ouniverso se les conoce como parametros. Los parametros no son calcu-lados porque no se recolectan datos de toda la poblacion, pero puedenser inferidos de los estadıgrafos, de ahı el nombre de .estadıstica inferen-cial”. La inferencia de los parametros se lleva a cabo mediante tecnicasestadısticas apropiadas para ello, las cuales seran discutidas en detallesposteriormente.

La estadıstica inferencial se emplea en dos procedimientos diferentes,los cuales son:

Pruebas de hipotesis una hipotesis en el contexto de la estadısticainferencial es una proposicion respecto a uno o varios parametros,y lo que el investigador hace a traves de la prueba de hipotesis esdeterminar si la hipotesis es consistente con los datos obtenidos

5

Page 11: Jesus Tapia Enero 2006 - Estadística Inferencial · Cap tulo 1 Estad stica e Investigaci on 1.1. Los or genes Los or genes de la estad stica se pueden decir tiene su nacimiento en

en la muestra. Si la hipotesis es consistente con los datos, esta esretenida como un valor aceptable del parametro. Si la hipotesisno es consistente con los datos se rechaza esta, pero los datos nose descartan. Para entender en detalles el concepto de hipotesisestadıstica es necesario revisar los conceptos de distribucion mues-tral y nivel de significancia, los cuales seran estudiados posterior-mente.Cuando se efectuan las pruebas de hipotesis, existen dos tiposde analisis que se pueden realizar: los analisis parametricos y losanalisis no parametricos. Cada tipo posee caracterısticas que losustentan y la eleccion del investigador sobre que clase de anali-sis a efectuar depende de estas presuposiciones. Asimismo cabedestacar que en una misma investigacion pueden aplicarse anali-sis parametricos para algunas hipotesis y variables y analisis noparametricos para otras.

Estimar parametros un aspecto muy interesante en la inferencia es-tadıstica es la estimacion de parametros, esta tecnica consiste eestimar o representar los diferentes parametros de la poblacion(media, varianza, mediana, etc.) a partir de su correspondienteestadıgrafo, el cual como se dijo, es obtenido de la muestra que seselecciono de la poblacion en estudio.La estimacion de parametros se puede expresar de dos formas:

Estimacion puntual la estimacion puntual es un valor unico,que representa la estimacion del parametro sometido a estu-dio. Por ejemplo, cuando se dice que el sueldo promedio deun grupo de obreros es de 150.00 bolıvares al mes, se esta enpresencia de un estimador puntual

Estimacion por intervalos La estimacion por intervalos es, co-mo su nombre lo indica, un intervalo formado por valoresmuestrales, los cuales representan los lımites del intervalo enel cual se supone que esta ubicado el verdadero valor pobla-cional que se pretende estimar, por ejemplo, cuando se diceque la nota promedio del curso de estadıstica basica esta com-prendida entre 13y 15.5 puntos, se esta efectuando una esti-macion por intervalos.

En el caso de estimacion por intervalos, se emplea el valor proba-bilıstico que nos da la confianza de nuestra estimacion, este valorprobabilıstico es conocido como el nivel de significancia. Por ejem-plo, cuando se dice que la nota promedio del curso de estadısticabasica esta comprendida entre 13y 15.5 puntos, con una confianzade 98 %, se esta efectuando una estimacion por intervalos con unnivel de significancia establecido por el investigador.

Metodos multivariados cuando se desea establecer la relacion simultaneaentre un conjunto de mas de dos variables medidas sobre un gran

6

Page 12: Jesus Tapia Enero 2006 - Estadística Inferencial · Cap tulo 1 Estad stica e Investigaci on 1.1. Los or genes Los or genes de la estad stica se pueden decir tiene su nacimiento en

numero de individuos se recurre a los metodos estadısticos multivaria-dos o multivariantes, la complejidad de estos metodos amerita un cursoparticular para el estudio de ellos.

1.2.1. ¿Cuando utilizar la estadıstica en la investigacion?

Las tecnicas estadısticas de analisis de datos se emplean en la investi-gacion cientıfica cuando esta presenta:

Variables que son cuantificables mediante conteo o alguna escala par-ticular de medicion empleada por el investigador.

Cuando las unidades de muestreo son muy numerosas.

Cuando las unidades son heterogeneas en cuanto a las variables deinvestigacion.

Cuando existe dificultad de controlar todas las variables que influyensobre el fenomeno en estudio.

Cuando la poblacion sobre la cual se desea efectuar la investigacion esdifıcil de observar de manera integral.

1.2.2. Problemas que pueden ser solucionados medi-ante metodos estadısticos.

La estadıstica como tecnica en el analisis de datos permite resolver situa-ciones problematicas que satisfacen ciertas caracterısticas particulares como:

1. Precisar la frecuencia con que se presenta un fenomeno o varias clasesde fenomenos que caracterizan una situacion problematica estudiada.

2. Determinar el valor, elemento o clase de elementos mas representativosde un conjunto de observaciones.

3. Precisar el grado de relaciones que pueden existir entre dos o mas vari-ables.

4. Expresar mediante formulas matematicas la relacion existente entrelas variables y ası predecir una a partir del conocimiento del compor-tamiento de otra u otras,

7

Page 13: Jesus Tapia Enero 2006 - Estadística Inferencial · Cap tulo 1 Estad stica e Investigaci on 1.1. Los or genes Los or genes de la estad stica se pueden decir tiene su nacimiento en

5. Definir el nivel de confianza que se puede tener en un resultado es-tadıstico obtenido.

6. Extrapolar la informacion que se tiene sobre una muestra, en estudio,a la poblacion o universo total.

7. Comparar el comportamiento de diferentes grupos ante un fenomenode estudio particular

8. Comparar el rendimiento laboral de diferentes grupos en una empresaparticular.

9. Determinar conductas comunes sobre diferentes grupos humanos.

10. Cualquier otro problema en el cual sea necesario el manejo, descripcionclasificacion comparacion de grandes cantidades de datos.

1.2.3. Proceso estadıstico en la investigacion cientıfica

El proceso estadıstico en la investigacion cientıfica se puede resumir entres pasos fundamentales:

Elaboracion de la matriz de datos: la matriz de datos es un arreglorectangular de m filas y n columnas, una columna por cada variable, quecaracteriza al problema de investigacion, el numero de filas representalas observaciones estudiadas durante el proceso de investigacion, cadavariable debe ser definida en terminos de la escala de medicion, tipo devariable y etiqueta que describa parcialmente los valores de la variable

Cargar la matriz de datos: la matriz de datos en la interseccion de lafila i con la columna j posee como valor de posicion ij el valor de laobservacion i que se asigno a la variable j, por tanto la matriz de datosposee n × m valores.

Procesar la matriz de datos: en esta etapa de la investigacion cientıficaes necesario aplicar las tecnicas estadıstica, previamente seleccionadaspor el investigador, la aplicacion de estas se efectua mediante el uso deun paquete estadıstico computarizado.

De manera general la matriz de datos se puede representar como:

8

Page 14: Jesus Tapia Enero 2006 - Estadística Inferencial · Cap tulo 1 Estad stica e Investigaci on 1.1. Los or genes Los or genes de la estad stica se pueden decir tiene su nacimiento en

V1 V2 · · · Vp

1 v11 v12 · · · v1p

2 v21 v22 · · · v2p...

.... . .

...n vn1 vn1 · · · vnp

1.2.4. Poblacion y Muestra

Poblacion el conjunto de unidades fısicas (personas u objetos) a las cualesse les mide una o mas caracterısticas, constituyen el universo, pudiendoobtenerse diferentes poblaciones de caracterısticas distintas; a saber: laspoblaciones de pesos, tallas, calificaciones, etc. Algunos autores suelenconsiderar universo y poblacion como sinonimos, solo puede ser correctoen caso que se defina de esta manera.

Muestra un subconjunto de la poblacion (o universo) seleccionado ade-cuadamente de forma tal, que sea representativa de la poblacion deorigen, se denomina muestra estadıstica y el proceso de seleccionarla seconoce como muestreo estadıstico.

1.2.5. Variables

Definicion 1.1 Se conoce como variable a cualquier caracterıstica de unindividuo: persona, region u objeto, que toma valores o modalidades diferentesen un conjunto de observaciones o datos

Las variables pueden ser clasificadas de distintas maneras segun la natu-raleza que tengan sus valores o modalidades:

Variables cualitativas tambien conocidas como atributos, son aquellas vari-ables cuyas modalidades no son numericas, es decir son cualidades ocaracterısticas, se clasifican a su vez en:

Nominales son aquellas variables cuyas modalidades no admiten or-denacion, Por ejemplo: Sexo, estado civil, Postgrado que realiza,Sector laboral, etc.

Ordinales son variables no numericas cuyas modalidades admiten unaordenacion, por ejemplo: semestre que cursa, nivel de estudios,grado de satisfaccion, grado de aceptacion, etc.

9

Page 15: Jesus Tapia Enero 2006 - Estadística Inferencial · Cap tulo 1 Estad stica e Investigaci on 1.1. Los or genes Los or genes de la estad stica se pueden decir tiene su nacimiento en

Variables cuantitativas son aquellas variables cuyas modalidades son nu-mericas, ejemplo edad, estatura, peso, numero de hijos, ingreso mensualdel grupo familiar, etc. Se clasifican a su vez en:

Discretas asumen un numero finito de valores, por ejemplo: numerode hijos, Miembros del grupo familiar, dıas de entrenamiento enun deporte particular, etc.

Continuas son aquellas variables numericas que pueden tomar infini-tos valores, por ejemplo: estatura, peso, edad, ingreso mensual,gasto mensual en alimentacion, etc.

10

Page 16: Jesus Tapia Enero 2006 - Estadística Inferencial · Cap tulo 1 Estad stica e Investigaci on 1.1. Los or genes Los or genes de la estad stica se pueden decir tiene su nacimiento en

Capıtulo 2

Estadıstica descriptivaunivariada

2.1. Definiciones

Definicion 2.1 La estadıstica descriptiva univariada esta constituida por unconjunto de tecnicas cuyo objetivo es clasificar, describir, resumir y analizarlos datos relativos a una variable, es decir, a una caracterıstica de los indi-viduos de la poblacion.

Para lograr sus fines la estadıstica descriptiva de basa en dos tipos detecnicas:

Tecnicas graficas estan conformados por un conjunto de tablas y gaficosque resumen una caracterıstica particular de un conjunto de datos, lasmas utilizadas son:

Tablas de frecuencias la forma mas simple de resumir la informacion con-tenida en conjunto de datos es la tabla de frecuencias, que consiste enpresentar para cada valor de una variable el numero de casos que serepiten en la muestra y el porcentaje que dicho numero representa enel total de la misma. Las tablas de frecuencias se utilizan cuando lavariable es cuantitativa o cualitativa discreta. Ası, por ejemplo, para lavariable Sexo, su tabla de frecuencias es:

11

Page 17: Jesus Tapia Enero 2006 - Estadística Inferencial · Cap tulo 1 Estad stica e Investigaci on 1.1. Los or genes Los or genes de la estad stica se pueden decir tiene su nacimiento en

Porcentaje PorcentajeFrecuencia Porcentaje Valido acumulado

Valido Hombre 778 47.2 47.2 47.2Mujer 871 52.8 52.8 100Total 1649 100 100

Las tablas de frecuencias se pueden construir utilizando SPSS, al eje-cutar la secuencia de comandos:

Analizar -->Estadısticos descriptivos --> Frecuencias

La cual activa la caja de dialogo:

Cuando la variables es continua, esta se debe discretizar o categorizarpara poder construir su tabla de frecuencias.

Graficos de Sectores al igual que las tablas de frecuencias, los graficos desectores sirven para representar variables cualitativas o cuantitativasdiscretas, cada modalidad o valor de la variable esta representado porun sector circular de area proporcional a su frecuencia o porcentaje.

Los graficos de sector se pueden construir utilizando SPSS, al ejecutarla secuencia de comandos:

Analizar -->Estadısticos descriptivos --> FrecuenciasGraficos--> sector

12

Page 18: Jesus Tapia Enero 2006 - Estadística Inferencial · Cap tulo 1 Estad stica e Investigaci on 1.1. Los or genes Los or genes de la estad stica se pueden decir tiene su nacimiento en

La cual activa la caja de dialogo:

o mediante

Graficos--> sectores

El grafico obtenido es de la forma:

� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � �

� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � �

55,00Mujer

45,00Hombre

Graficos de barras cada modalidad o valor de la variable esta representa-do por un rectangulo cuya altura corresponde a una frecuencia o unporcentaje.

Los graficos de barras se pueden construir utilizando SPSS, al ejecutarla secuencia de comandos:

Analizar -->Estadısticos descriptivos --> FrecuenciasGraficos--> Barras

13

Page 19: Jesus Tapia Enero 2006 - Estadística Inferencial · Cap tulo 1 Estad stica e Investigaci on 1.1. Los or genes Los or genes de la estad stica se pueden decir tiene su nacimiento en

La cual activa la caja de dialogo:

o mediante

Graficos--> Barras

El grafico obtenido es de la forma:

SEXO

SEXO

Mujer Hombre

Frec

uenc

ia

12

10

8

6

4

2

0

11

9

Histogramas representacion grafica de la distribucion de valores. Los his-togramas son adecuados para variables cuantitativas continuas (porejemplo salario o edad). Al seleccionar Con curva normal, se super-pone en el histograma una curva normal. Se agrupan los valores de lavariable en intervalos de la misma amplitud y en un sistema de ejescartesianos se elevan sobre cada intervalo un rectangulo de altura iguala la frecuencia o porcentaje del mismo. En los diagramas de barras,los rectangulos se exponen separados, en los histogramas se dibujan

14

Page 20: Jesus Tapia Enero 2006 - Estadística Inferencial · Cap tulo 1 Estad stica e Investigaci on 1.1. Los or genes Los or genes de la estad stica se pueden decir tiene su nacimiento en

los rectangulos unidos entre si, indicando de este modo que existe con-tinuidad en la escala de los valores de la variable.

Los histogramas se pueden construir utilizando SPSS, al ejecutar lasecuencia de comandos:

Analizar -->Estadısticos descriptivos --> FrecuenciasGraficos--> Histogramas

La cual activa la caja de dialogo:

o mediante

Graficos--> Histogramas

El grafico obtenido es de la forma:

Tecnicas numericas es posible condensar aun mas la informacion conteni-da en un conjunto de datos, con la ayuda de los estadısticos, que soncantidades numericas calculables en la distribucion de los datos, loscuales informan de alguna manera de sus caracterısticas. Los estadısti-cos tratan de reflejar numericamente distintos aspectos de la variable enestudio. Se pueden distinguir cuatro mediada o estadısticos asociadosa una distribucion de datos:

1. Medidas de tendencia central

2. Medidas de posicion

3. Medidas de dispersion

4. Medidas de Forma

15

Page 21: Jesus Tapia Enero 2006 - Estadística Inferencial · Cap tulo 1 Estad stica e Investigaci on 1.1. Los or genes Los or genes de la estad stica se pueden decir tiene su nacimiento en

ingreso mensual

2200000,0

2000000,0

1800000,0

1600000,0

1400000,0

1200000,0

1000000,0

800000,0

600000,0

ingreso mensual

Frec

uenc

ia

5

4

3

2

1

0

Desv. típ. = 566970,8

Media = 1289806,0

N = 20,00

2.2. Medidas de tendencia central

Por tendencia central se entiende un valor que representa al conjunto devalores de la distribucion de una variable. De acuerdo a la naturaleza decada variable existen diferentes procedimientos para obtener una medida detendencia central, los mas comunes son:

La moda valor que posee la mayor frecuencia en una distribucion de datos,la denotamos por M0; es el valor que mas se repite. Aunque puedecalcularse para cualquier tipo de variables, tiene mas sentido cuando setrata de variables cualitativas o cuantitativas discretas

La mediana valor que ocupa la posicion central de una distribucion orde-nada por sus valores. En consecuencia no tiene sentido calcularla enel caso de variables nominales. En otras palabras, la mediana puedeentenderse como aquel valor que divide a la distribucion en dos partesiguales, se denota por Me.

Dado un conjunto de observaciones ordenadas de la variable X, deno-tado por

x1, x2, x3, · · · , xn

la posicion en la cual se ubica la mediana esta definida por

Kme=

n + 1

2

16

Page 22: Jesus Tapia Enero 2006 - Estadística Inferencial · Cap tulo 1 Estad stica e Investigaci on 1.1. Los or genes Los or genes de la estad stica se pueden decir tiene su nacimiento en

si n es un numero impar, entonces Kmees u numero entero, y la mediana

se alcanza sobre una de las n observaciones de X, en caso contrario,cuando n es par, Kme

= S,5, donde S es un numero entero; y el valor dela mediana no se alcanza sobre alguna observacion, pero esta definidocomo:

Me =xS + xS+1

2

es decir, el punto medio entre las observaciones de posicion S y posicionS + 1.

La media es un promedio de los valores de la distribucion obtenido medi-ante la division de la suma de todos los valores por el numero total decasos. La cantidad estimada por la media es el valor que tendrıan todoslos individuos si todos tuvieran que tener un mismo valor, se denotapor X, y se valor es:

X =1

n

n∑

i=1

xi

2.3. Medidas de posicion

Las medidas de posicion son estadısticos de localozacion que indican elvalor que ocupa un determinado orden en la distribucion, se denominan demanera general como Cuantiles. La medida mas simple de posicion es lamediana, ya que ella ocupa la posicicon central de la distgribucion.

Otras medidas de posicion son:

Cuartiles se define como cuartiles a los tres valores que dividen a la dis-tribucion en cuatro partes iguales, se denotan por Q1, Q2, Q3. Ası, elprimer cuartil tiene un 25 % de los casos por debajo de dicho valor, elsegundo cuartil coincide con la media y por tanto, deba por debajo el50 % de los caso, mientras que el tercer cuartil deja por debajo al 75 %de los casos.

Para estimar los cuartiles se debe determinar la posicion de cada unode ellos y luego se calcula su valor. La posiciones de cada cuartil las

17

Page 23: Jesus Tapia Enero 2006 - Estadística Inferencial · Cap tulo 1 Estad stica e Investigaci on 1.1. Los or genes Los or genes de la estad stica se pueden decir tiene su nacimiento en

denotamos por K1, K2, K3 respectivamente y estan definidas por:

K1 =n + 1

4

K2 =n + 1

2

K2 = 3n + 1

4

Si Kj = S.α, donde α es la parte decimal de la posicion del j-esimocuartil j = 1, 2, 3, entonces el valor del cuartil Qj es

Qj = (1 − α)xs + αxs+1 j = 1, 2, 3

Deciles se define como deciles a los nueve valores que dividen a la dis-tribucion en diez partes iguales, se denotan por D1, D2, · · · , D9. Ası, elprimer decil tiene un 10 % de los casos por debajo de dicho valor, elquinto decil coincide con la media y por tanto, deja por debajo el 50 %de los caso, mientras que el noveno decil deja por debajo al 90 % de loscasos.

Para estimar los deciles se debe determinar la posicion de cada unode ellos y luego se calcula su valor. La posiciones de cada decil lasdenotamos por Kj j = 1, 2, 3, · · · , 9 respectivamente y estan definidaspor:

Kj = jn + 1

10j = 1, 2, · · · , 9

Si Kj = S.α, donde α es la parte decimal de la posicion del j-esimocuartil j = 1, 2, 3, entonces el valor del cuartil Qj es

Qj = (1 − α)xs + αxs+1 j = 1, 2, 3, · · · , 9

Percentiles son 99 valores que dividen a la dstribucion en 100 partes iguales,se denotan por P1, P2, · · · , P99. Su estimacion es analoga a los cuartilesy deciles.

2.4. Medidas de dispersion

Las medidas de dispersion indican cuan alejados estan los valores de ladistribucion de aquel valor que los representa. En general se tomo comoelemento de referencia a la media.

18

Page 24: Jesus Tapia Enero 2006 - Estadística Inferencial · Cap tulo 1 Estad stica e Investigaci on 1.1. Los or genes Los or genes de la estad stica se pueden decir tiene su nacimiento en

Las medidas de dispersion mas usadas son:

Mınimo corresponde al menor valor de las observaciones asociada a la vari-able en estudio.

Maximo corresponde al mayor valor asumido por la variable entre el con-junto de datos estudiados

Rango se define como la diferencia entre los valores extremos de la variableestudiada, es decir, la diferencia entre el maximo y el mınimo valor.Puede estar muy condicionado por un solo valor extremo poco repre-sentativo de la magnitud estudiada. Se recomienda en tal caso estudiarel rengo intercuartilıco.

Rango intercuartılico es la diferencia entre el tercer y primer cuartil, in-dica entre cuantos valores se encuentra el 50 % de los casos centralesde la distribucion. Se expresa como:

IQ = Q3 − Q1

Varianza es la media aritmetica de las desviaciones cuadraticas de los valo-res con respecto a la media aritmetica, asume siempre valor positivo,esta definida por:

S2 =1

n

n∑

i=1

(xi − X)2

Los paquetes estadısticos calculan la varianza utilizando la expresion:

S2 =1

n − 1

n∑

i=1

(xi − X)2

conocido como cuasi-varianza

Desviacion tıpica o estandar es la raız cuadrada positiva de la varianza,se utiliza para devolver el valor de la varianza a sus unidades originales,se estima como:

S =

1

n

n∑

i=1

(xi − X)2

Los paquetes estadısticos estiman con frecuencia la cuasidesviacion tıpi-ca

S =

1

n − 1

n∑

i=1

(xi − X)2

19

Page 25: Jesus Tapia Enero 2006 - Estadística Inferencial · Cap tulo 1 Estad stica e Investigaci on 1.1. Los or genes Los or genes de la estad stica se pueden decir tiene su nacimiento en

Coeficiente de variacion es una medida de dispersion relativa, definidacomo el cociente entre la desviacion tıpica y el valor absoluto de mediaaritmetica. Al ser un cociente carece de unidades de medida, y, enconsecuencia se utiliza para comparar la dispersion entre variables quetengan distintas unidades de medida o distintas medias. Su valor es

CV =S

|X|

2.5. Medidas de forma

Existen otras medidas cuyo proposito es expresar a traves de un numerola forma de la distribucion, las cuales se clasifican en dos tipos:

1. Medidas de simetrıa atiende a la forma horizontal de la distribucion,es decir, si la parte izquierda de la distribucion es semejante a su partederecha. Su estudio se realiza mediante la estimacion del coeficiente deasimetrıa AS

2. Medidas de apuntalamiento expresan la forma vertical de la distribu-cion, es decir, si las frecuencias de los valores centrales son mayores quelas de los valores extremos. Su estudio se realiza mediante la estimaciondel coeficiente de Kurtosis K.

Coeficiente de asimetrıa AS es el indicado del grado de simetrıa de ladistribucion de los datos, puede estimarse mediante diferentes formulas:

AS =3(X − Me)

SPearson

AS =Q3 − 2Q2 + Q1

SBowley

AS =m3

S3Momentos

donde

m3 =1

n

n∑

i=1

(xi − X)3

Si AS = 0 se dice que la distribucion es simetrica y se cumple

X = M0 = Me

20

Page 26: Jesus Tapia Enero 2006 - Estadística Inferencial · Cap tulo 1 Estad stica e Investigaci on 1.1. Los or genes Los or genes de la estad stica se pueden decir tiene su nacimiento en

Distribución simétrica

Si AS < 0 se dice que la distribucion es asimetrica a la derecha yse cumple la siguiente condicion

X < Me < M0

es decir, mas del 50 % de los datos son mayores que la media.

Distribución asimétrica a laderecha

M0Pro

Si AS > 0 se dice que la distribucion es asimetrica a la izquierday se cumple la condicion

X > Me > M0

es decir, mas del 50 % de los datos son menores que la media.

Distribución asimétrica a laderecha

M0 Pro

Los paquetes estadısticos emplean un coeficiente de asimetrıa estandariza-do definido por

As =

(

n

(n − 2)

m3

S3

)

21

Page 27: Jesus Tapia Enero 2006 - Estadística Inferencial · Cap tulo 1 Estad stica e Investigaci on 1.1. Los or genes Los or genes de la estad stica se pueden decir tiene su nacimiento en

Ademas los momentos son calculados como

mj =1

n − 1

n∑

i=1

(xi − X)j j = 1, 2, 3, · · ·

Coeficiente de Kurtosis K las medidas de apuntalamiento indican cuancentradas o dispersas estan las frecuencias de los valores en relacion conel punto medio de la distribucion. Si las frecuencias estan concentradasen el centro, la distribucion se denomina leptoKurtica, si las frecuenciasmayores se ubican en los extremos es platikurtica, en el caso intermedioserıa una distribucion mesoKurtica. El indicador del grado de apunta-lamiento de la distribucion es el coeficiente de Kurtosis, definido por:

K =m4

S4

donde

m4 =1

n

n∑

i=1

(xi − X)4

En terminos de K las distribuciones se clasifican como:

K > 3 leptokurticas

K = 3 mesokurticas

K < 3 platikurticas

Kurtosis

K>3

K=3

K<3

22

Page 28: Jesus Tapia Enero 2006 - Estadística Inferencial · Cap tulo 1 Estad stica e Investigaci on 1.1. Los or genes Los or genes de la estad stica se pueden decir tiene su nacimiento en

Los paquetes estadısticos emplean un coeficiente de Kurtosis estandarizadodefinido por

Ks = 3 − K

pero en la mayorıa de los casos la formula utilizada es

Ks =

(

n(n + 1)

(n − 2)(n − 3)

m4

S4

)

−(

3 ∗ (n − 1)2

(n − 2)(n − 3)

)

ası, cuando

Ks =

{

> 0 Leptokurtica= 0 Mesokurtica< 0 Platicurtica

Ejemplo 2.1 Estimar las medidas de tendencia central, dispersion, posiciony forma par la distribucion de datos: 10,15,20,15,10

Los datos ordenados se expresan como:

10, 10, 15, 15, 20

La posicion de la mediana la podemos calcular como:

KMe=

5 + 1

2=

6

2= 3

es decir, la mediana es el valor de posicion 3, entonces

Me = x3 = 15

El valor Me = 15 nos indica que el 50 % de los datos son menores que el,mientras que el 50 % restante son mayores o iguales a este valor

Como los valores 10 y 15 se repiten dos veces entonces la distribucion dedatos posee dos modas

La media aritmetica de la distribucion de datos es

X =10 + 10 + 15 + 15 + 20

5= 14

23

Page 29: Jesus Tapia Enero 2006 - Estadística Inferencial · Cap tulo 1 Estad stica e Investigaci on 1.1. Los or genes Los or genes de la estad stica se pueden decir tiene su nacimiento en

es decir, si se desea asignar un unico valor a todas las observaciones, estevalor debe ser igual a 14.

Los cuartiles de la distribucion de datos estan ubicados en las posiciones:

K1 =n + 1

4=

5 + 1

4= 1,5

K2 =n + 1

2=

5 + 1

2= 3

K3 = 3n + 1

4=

18

4= 4,5

K1 = 1,5 indica que el primer cuartil es el punto medio entre las dosprimeras observaciones, K2 = 3 corrobora el calculo de la mediana, mientrasque K3 = 4,5 indica que el tercer cuartil es el promedio entre la cuarta yquinta observacion.

Ası, los valores de los cuartiles son:

Q1 = (1 − 0,5)x1 + 0,5 ∗ x2

= 0,5 ∗ 10 + 0,5 ∗ 10 = 10Q2 = x3 = 15Q3 = (1 − 0,5)x4 + 0,5 ∗ x5

= 0,5 ∗ 15 + 0,5 ∗ 20 = 17,5

Q1 = 10 indica que el 25 % de las observaciones es menor o igual a 10,como Q2 = 15 el cincuenta por ciento de la observaciones no superan el valorde 15, mientras que, Q3 = 17,5 indica que solo el 25 % final supera el valorde 17.5

Para calcular la varianza, el coeficiente de asimetrıa y el coeficiente deKurtosis se necesita estimar los momentos respecto de la media, se constru-ira una tabla que contenga toda la informacion requerida:

X Xi − X (Xi − X)2 (Xi − X)3 (Xi − X)4

10 -4 16 -64 25615 1 1 1 120 6 36 216 129615 1 1 1 110 -4 16 -64 256

Suma 70 0 70 90 1810

24

Page 30: Jesus Tapia Enero 2006 - Estadística Inferencial · Cap tulo 1 Estad stica e Investigaci on 1.1. Los or genes Los or genes de la estad stica se pueden decir tiene su nacimiento en

Ahora

S2 =1

n − 1

5∑

i=1

(Xi − X)2 =70

4= 17,5

El coeficiente de variacion esta dado por

CV =17,5

14= 1,25

El tercer y cuarto momento respecto de la media se calcula como:

m3 =1

4

5∑

i=1

(Xi − X)3 =90

4= 22,5

m4 =1

4

5∑

i=1

(Xi − X)4 =1810

4= 452,5

de esta manera, el coeficiente de asimetrıa y de Kurtosis estan dados por

As =

(

n

(n − 2)

m3

S3

)

=5 ∗ 22,5

3 ∗ 4,183= 0,5122

K =

(

n(n + 1)

(n − 2)(n − 3)

m4

S4

)

−(

3 ∗ (n − 1)2

(n − 2)(n − 3)

)

=5 ∗ 6 ∗ 452,5

3 ∗ 2 ∗ 17,5 ∗ 17,5− 3 ∗ 16

3 ∗ 2= 7,39 − 8 = −0,6122

Como AS > 0 entonces la distribucion de los datos es sesgada a la izquierda,es decir, mas del 50 % de los datos son mayores que la media. Por otraparte como K < 0 entonces la mayorıa de las observaciones se ubican en losextremos de la distribucion, es decir, las colas de la distribucion son ma ligerasque las de la distribucion normal y la curva es plantikurtica

Los estadısticos estimados manualmente puede ser calculados medianteel SPSS, al ejecutar la secuencia de comandos:

Analizar --> Estadısticos descriptivos --> FrecuenciasEstadısticos:

Cuartiles

25

Page 31: Jesus Tapia Enero 2006 - Estadística Inferencial · Cap tulo 1 Estad stica e Investigaci on 1.1. Los or genes Los or genes de la estad stica se pueden decir tiene su nacimiento en

mediamedianamodavarianzaAsimetrıaKurtosis

Obteniendose la tabla de resumen:

n validos 5Perdidos 0

Media 14.00Mediana 15.00Moda 10.00Varianza 17.50Asimetrıa 0.512Kurtosis -0.612Cuartiles

25 10.0050 15.0075 17.50

2.6. Ejercicio Practico

El archivo Estadısticas.sav contiene las calificaciones del primer parcialde estadıstica I presentado por 70 alumnos cursantes. Utilizar los datos apor-tados para realizar la actividad siguiente:

1. Determine los cuartiles, media, mediana varianza coeficiente de varaicion,asimetrıa y Kurtosis de la variable calificaciones

2. Determine el valor que deja por debajo al 65 % de los casos

3. ¿Que calificacion obtuvo como mınimo el 34 de los mejores alumnos?

4. Entre que valores se ubicara el 60 % central de la distribucion de lascalificaciones

5. Entre hombres y mujeres ¿Cual grupo presenta mayor variabilidad?

6. ¿Mas del 50 % de las calificaciones estan por encima o por debajo de lamedia?

————————————————————

26

Page 32: Jesus Tapia Enero 2006 - Estadística Inferencial · Cap tulo 1 Estad stica e Investigaci on 1.1. Los or genes Los or genes de la estad stica se pueden decir tiene su nacimiento en

Capıtulo 3

Introduccion a la teorıa deprobabilidad

3.1. Conceptos basicos

Despues de estudiar los elementos asociados a la estadıstica descriptiva,se abordaran los topicos basicos de la teorıa de probabilidades necesariospara el estudio de la teorıa de muestreo e inferencia estadıstica.

Tipos de experimentos

Experimento deterministico es aquel experimento que realizado bajo lasmismas condiciones produce los mismos resultados, es decir, una mismacausa produce un mismo efecto.

Experimento aleatorio es aquel experimento que realizado bajo las mis-mas condiciones produce distintos e impredecibles resultados, es decir,se rompe la relacion unıvoca causa-efecto.

La teorıa de probabilidades es la ciencia que se ocupa del estudio de fenomenosaleatorios.

Asociados a la teorıa de probabilidad existe un conjunto de fundamentosbasicos, que enunciaremos a continuacion

Espacio muestral se define como espacio muestral al conjunto de todos losposibles resultados de un experimento aleatorio

27

Page 33: Jesus Tapia Enero 2006 - Estadística Inferencial · Cap tulo 1 Estad stica e Investigaci on 1.1. Los or genes Los or genes de la estad stica se pueden decir tiene su nacimiento en

Ejemplo 3.1 El lanzar de un dado balanceado es un experimento aleato-rio con espacio muestral

S =

{

1, 2, 3, 4, 5, 6

}

Espacio muestral discreto se dice que un espacio muestral es discreto sisus valores pueden ponerse en correspondencia uno a uno con el con-junto de los numeros naturales.

Ejemplo 3.2 El numero de llamadas telefonicas recibidas por una cen-tralista entre las 10:00 y 11:30 am, es un experimento aleatorio discreto,co espacio muestral

S =

{

0, 1, 2, 3, 4, 5, 6, · · ·}

Espacio muestral continuo se dice que un espacio muestral es continuosi sus resultados consiste de un intervalo de los numeros reales.

Ejemplo 3.3 La concentracion de partıculas solidas en las aguas deun rıo es un experimento aleatorio con espacio muestral continuo

Evento es cualquier subconjunto de un espacio muestral, cuyos miembrosposeen una caracterıstica comun.

Ejemplo 3.4 El lanzar de un dado balanceado es un experimento aleato-rio con espacio muestral

S =

{

1, 2, 3, 4, 5, 6

}

un evento asociado a este experimento lo constituye aquellos valoresrepresentados por numeros pares, es decir

E =

{

2, 4, 6

}

Probabilidad es la medida de la ocurrencia de los resultados de un experi-mento.

La teorıa de probabilidades se ha desarrollado siguiendo diferentes interpreta-ciones:

28

Page 34: Jesus Tapia Enero 2006 - Estadística Inferencial · Cap tulo 1 Estad stica e Investigaci on 1.1. Los or genes Los or genes de la estad stica se pueden decir tiene su nacimiento en

Interpretacion Laplaciana se define la probabilidad de un evento como larazon entre el numero de casos favorables y el total de todos los casosposibles, esta basada fundamentalmente en situaciones generadas porlos juegos de azar.

Ejemplo 3.5 Al lanzar un dado cual es la probabilidad que salga unnumero par.

El espacio muestral esta definido por

S =

{

1, 2, 3, 4, 5, 6

}

mientras que el evento de salida de un numero par es

E =

{

2, 4, 6

}

de manera que el numero de casos favorables es tres y el total de posiblescasos es seis, ası, la probabilidad de salir par se define como:

P (es par) =3

6=

1

2= 0, 5

en otras palabras existe un 50% de posibilidades de obtener un numeropar al lanzar el dado.

Interpretacion frecuentista se fundamenta en la ley empırica de regulari-dad estadıstica: la frecuencia relativa de un suceso o evento tiende aestabilizarse cuando el numero de experimentos crece indefinidamente,Entonces definimos la probabilidad como el numero al que tiende lafrecuencia relativa, es decir, se define como el lımite de la frecuencia:

P (A) = lımn→∞

fr(A)

se basa en las teorıas de Von Mises (1920) y la definicion axiomaticade Kolmogorov (1933).

Interpretacion subjetiva o personal en este contexto, la probabilidad deocurrencia de un suceso se interpreta como el grado de creencia que parauna persona determinada tiene, en base a informacion a priori sobreel mismo, esta tendencia es conocida como el enfoque Bayesiano

Sea cual fuese el enfoque con que se estudie la probabilidad de ocur-rencia de un evento E, esta debe cumplir la condicion

0 ≤ P (E) ≤ 1

29

Page 35: Jesus Tapia Enero 2006 - Estadística Inferencial · Cap tulo 1 Estad stica e Investigaci on 1.1. Los or genes Los or genes de la estad stica se pueden decir tiene su nacimiento en

3.2. Variables aleatorias

En la teorıa de probabilidad es muy importante conocer las caracterısticasdel comportamiento de los posibles rebultados de un experimento aleatorio,este comportamiento es descrito por las variables aleatorias:

Variable aleatoria es toda funcion que permite asignar un unico numeroreal a todos y cada uno de los elementos del espacio muestral de un ex-perimento aleatorio. En otras palabras, es una caracterıstica numericaque resume los resultados de un experimento aleatorio y los cuantificaen terminos de probabilidad.

Variables discretas una variable aleatoria es discreta si la cantidadde valores que puede asumir es contable, ya sea finita o infinita.

Variables Continuas una variable aleatoria es continua cuando losvalores que ella asume forman un conjunto infinito, es decir, nocontable

Las variables aleatorias se acostumbran denotar con letras mayusculasX,Y, Z, · · · , mientras que los valores que ellas asumen se denotan conletras minusculas x, y, z, · · ·

En general, una variable aleatoria discreta X representa los resultados de unespacio muestral en forma tal que por P (X = x) se entendera la probabilidadde que X tome el valor x.

Definicion 3.1 sea x una variable aleatoria discreta, se denomina funcionde probabilidad o densidad de X a la funcion f(x) = P (X = x), la cualsatisface las siguientes propiedades

1. f(x) ≥ 0 para todo valor x de X

2.∑

x f(x) = 1

Definicion 3.2 La funcion de distribucion acumulada de la variable aleato-ria discreta X es la probabilidad de que X sea menor o igual a un valorespecifıco de x y esta definida por

F (x) = P (x ≤ x) =∑

xi≤x

f(xi)

30

Page 36: Jesus Tapia Enero 2006 - Estadística Inferencial · Cap tulo 1 Estad stica e Investigaci on 1.1. Los or genes Los or genes de la estad stica se pueden decir tiene su nacimiento en

Por lo tanto, en el caso discreto, una variable aleatoria X esta caracteri-zada por una funcion de probabilidad puntual f(x), la cual determina laprobabilidad puntual de que X = x, y por la funcion de distribucion acumu-lada F (x), la que representa la suma de las probabilidades puntuales hastael valor x de la variable X, inclusive.

Ejemplo 3.6 Se lanzan al aire tres monedas, considere el evento numerosde cara. Determine la funcion de densidad y distribucion de probabilidadesasociada al evento.

Solucion

Si denotamos por c la aparicion de una cara y por s un sello, entonces elespacio muestral esta definido por:

S =

{

ccc, ccs, css, sss, scc, ssc, scs, csc

}

la variable X = numero caras, asume los siguientes valores

no de caras evento0 sss1 css, ssc, scs2 ccs, scc, csc3 ccc

entonces tenemos

f(0) = P (X = 0) =1

8

f(1) = P (X = 1) =3

8

f(2) = P (X = 2) =3

8

f(3) = P (X = 3) =1

8

31

Page 37: Jesus Tapia Enero 2006 - Estadística Inferencial · Cap tulo 1 Estad stica e Investigaci on 1.1. Los or genes Los or genes de la estad stica se pueden decir tiene su nacimiento en

de manera analoga se tiene

F (0) = P (X = 0) =1

8

F (1) = P (X ≤ 1) = P (X = 0) + P (X = 1) =1

8+

3

8=

4

8=

1

2

F (2) = P (X ≤ 2) =1

8+

3

8+

3

8=

7

8

F (3) = P (X ≤ 3) =1

8+

3

8+

3

8+

1

8= 1

la funcion de probabilidad f(x) puede ser representada como:

x

f(x)

0 1 2 3

* *

* *

1/8

3/8

Definicion 3.3 Dada X una variable aleatoria continua, si existe una fun-cion f(x) tal que

1. f(x) ≥ 0 cuando −∞ < x < +∞

2.∫

+∞−∞ f(x)dx = 1

3. P (a ≤ x ≤ b) =∫ b

af(x)dx para cualquier a y b, entonces f(x) es la

densidad de la variable aleatoria X.

Puesto que el area total bajo la curva f(x) es uno, la probabilidad del in-tervalo a ≤ x ≤ b es el area acotada por la funcion de densidad y las rectasX = a y X = b, como se ilustra en la gafica siguiente

32

Page 38: Jesus Tapia Enero 2006 - Estadística Inferencial · Cap tulo 1 Estad stica e Investigaci on 1.1. Los or genes Los or genes de la estad stica se pueden decir tiene su nacimiento en

� � � � � � � � � � � �� � � � � � � � � � � �� � � � � � � � � � � �� � � � � � � � � � � �� � � � � � � � � � � �� � � � � � � � � � � �� � � � � � � � � � � �� � � � � � � � � � � �� � � � � � � � � � � �� � � � � � � � � � � �� � � � � � � � � � � �� � � � � � � � � � � �� � � � � � � � � � � �� � � � � � � � � � � �� � � � � � � � � � � �� � � � � � � � � � � �

ba

f(x)

Al igual que en el caso discreto, la funcion de distribucion acumulada deuna variable aleatoria continua X es la probabilidad de que X tome un valormenor o igual a algun x especıfico, esto es

F (x) = P (X ≤ x) =

∫ x

−∞f(t)dt

Por lo tanto, la funcion de distribucion acumulada F (x) es el area acotadapor la funcion de densidad que se localiza a la izquierda de la recta X = x,como se ilustra en la figura siguiente:

� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � �

F(X)x

La distribucion de probabilidades es una funcion continua no decrecientede los valores de la variable aleatoria con las siguientes propiedades

1. F (−∞) = 0

2. F (∞) = 1

3. P (a ≤ x ≤ b) = F (b) − F (a)

4. ddx

F (x) = f(x)

33

Page 39: Jesus Tapia Enero 2006 - Estadística Inferencial · Cap tulo 1 Estad stica e Investigaci on 1.1. Los or genes Los or genes de la estad stica se pueden decir tiene su nacimiento en

3.3. Algunas distribuciones discretas de in-teres

Dentro del conjunto de distribuciones discretas de probabilidad se desta-can las distribuciones Binomial y de Poisson.

Distribucion Binomial una variable aleatoria X se dice que posee unadistribucion Binomial con parametros n ∈ {0, 1, 2, 3, · · · } y p ∈ [0, 1] sisu espacio muestral esta definido por S = {0, 1, 2, · · · , n} y para cadak ∈ S se tiene:

P (X = k) =(

nk

)

pk(1 − p)n−k

La funcion de distribucion de una variable binomial es:

F (X = k) =k

j=0

(

nj

)

pj(1 − p)n−j

La media y la varianza de una distribucion Binomial son:

µ = np

σ2 = np(1 − p)

La variable X es dicotomica, es decir, solo puede asumir dos valores,por ejemplo el lanzar al aire una moneda.

Ejemplo 3.7 Una prueba de opcion multiple consta de 24 ıtem y cadauno de ellos posee 4 opciones.

1. Determine la probabilidad de contestar exactamente 12 respuestascorrectas

2. Determine la probabilidad de contestar no mas de 5 respuestascorrectas

3. Determine la predecibilidad de contestar al azar mas de la mitadde respuestas incorrectas

Solucion

34

Page 40: Jesus Tapia Enero 2006 - Estadística Inferencial · Cap tulo 1 Estad stica e Investigaci on 1.1. Los or genes Los or genes de la estad stica se pueden decir tiene su nacimiento en

La respuesta de cada ıtem puede ser contestada de dos formas: correctao erronea, ası, podemos definir una variable aleatoria:

X =

{

1 respuesta correcta

0 respuesta erronea

es decir, X es una variable aleatoria Binomial; como existen 4 opcionesde respuesta y solo una es correcta, entonces

probabilidad de exito : p =1

4

probabilidad de fracaso : q = 1 − p =3

4

ademas, el total de ocurrencias de X es n = 24, de donde

X ∼ Bin

(

x, 24,1

4

)

Ahora

P (X = 12) =(

2412

) (1

4

)12(3

4

)24−12

= 0,0051

en otras palabras, solamente el 051 % contesta exactamente 12 pregun-tas correctas

La probabilidad de contestar no mas de 5 respuestas correctas, es lasuma de las probabilidades de contestar n respuestas correctas cuandon = 1, 2, 3, 4, 5, ası,

P (X ≤ 5) =5

k=0

P (X = k)

=5

k=0

(

24k

)(1

4

)k(3

4

)24−k

= CDF.Bin

(

5, 24,1

4

)

= 0,422

es decir, el 42,2 % contesta no mas de 5 respuestas correctas.

35

Page 41: Jesus Tapia Enero 2006 - Estadística Inferencial · Cap tulo 1 Estad stica e Investigaci on 1.1. Los or genes Los or genes de la estad stica se pueden decir tiene su nacimiento en

Para determinar la probabilidad de contestar mas de la mitad de lasrepuestas incorrectas, usando complemento, calculamos:

1 − P (x ≤ 11) = 1 − CPF : Bin

(

11, 24, ,25)

= 1 − 0,9928 = 0,0072

es decir, solo el 0.72 % contesta mas de la mitad de las respuestas in-correctas.

Distribucion Poisson en estadıstica y probabilidad se dice que una vari-able discreta X se distribuye Poisson, cuando la densidad de X expresala probabilidad de que un numero de eventos ocurran en un periodode tiempo determinado, suponiendo que son independientes y que seconoce su promedio λ, esta distribucion fue desarrollada por Simeon-Dennis Poisson, su distribucion de probabilidad esta dada por

P (X = x, λ) =λxe−λ

x!x = 0, 1, 2, 3, · · ·

La funcion de distribucion de una variable binomial es:

F (X = k) =k

j=0

λje−λ

j!

La media y la varianza de la distribucion Poisson son

µ = λ

σ2 = λ

Ejemplo 3.8 En el proceso de Admision los aspirantes al Postgrado enGerencia general, la proporcion de aspirantes rechazados es p = ,01. Se eligeuna muestra al azar de 30 aspirantes:

1. cual es la probabilidad de rechazar 2 aspirantes

2. cual es la probabilidad de rechazar un maximo de 5 aspirantes

Solucion

La variable rechazados en el proceso de admision asume solo valores en-teros, discretos, entonces dicha variable X se distribuye Poisson.

36

Page 42: Jesus Tapia Enero 2006 - Estadística Inferencial · Cap tulo 1 Estad stica e Investigaci on 1.1. Los or genes Los or genes de la estad stica se pueden decir tiene su nacimiento en

Como la proporcion de rechazados es p = 0,1 y la muestra la conforman30 aspirantes, entonces el promedio de la muestra es

λ = n ∗ p = 30 ∗ 0,1 = 3

Ası, X ∼ Poisson(3)

Luego:

P (X = 2) =e−3 ∗ 32

2!

=9

2 ∗ e3= 0,1120

ası, podemos concluir que existe un 11.20 % de posibilidades de rechazarexactamente 2 aspirantes de la muestra.

Por otra parte:

P (X ≤ 5)5

k=0

P (X = k)

=5

k=0

e−3 ∗ 3k

k!

= CDF.Poisson(5, 3) = 0,9161

3.4. Algunas distribuciones continuas de in-teres

Dentro de la amplia gama de distribuciones continuas de reducibilidadesconsideraremos algunas de ellas, las de mayor interes en el ambito de lasaplicaciones estadısticas; citaremos: la distribucion normal, la distribucionchi-cuadrado χ2, la distribucion F y la distribucion t de student.

Distribucion normal la distribucion normal es indudablemente las masimportante y la de mayor uso de todas las distribuciones continuas deprobabilidad, es la piedra angular de las aplicaciones de la inferenciaestadıstica en el analisis de datos, puesto que las distribuciones mues-trales tienden a la distribucion normal, conforme crece el tamano dela muestra. La apariencia de la distribucion normal es una campana

37

Page 43: Jesus Tapia Enero 2006 - Estadística Inferencial · Cap tulo 1 Estad stica e Investigaci on 1.1. Los or genes Los or genes de la estad stica se pueden decir tiene su nacimiento en

simetrica que se extiende sin lımite tanto en la direcion positiva comonegativa.

Se dice que una variable aleatoria continua X esta normalmente dis-tribuida si su funcion de densidad probabilıstica esta definida por:

f(x) =1

σ√

2πe−

(x−µ)2

2σ2 −∞ ≤ x, µ ≤ +∞, σ > 0

Los parametros de la distribucion son la media y la varianza µ, σ2

respectivamente.

La apariencia geometrica de la distribucion normal con media 0 yvarianza 1 se ilustra en la figura siguiente:

La funcion de distribucion de probabilidad para una variable X dis-tribuida normalmente es

F (x) =1

σ√

∫ x

−∞e−

(t−µ)2

2σ2 dt

Cuando µ = 0, σ = 1 existen tabla que resumen las probabilidadesacumuladas para la distribucion normal.

La distribucion normal N(0, 1) presenta una caracterıstica muy impor-tante y de gran utilidad en la inferencia estadıstica, la cual describe elporcentaje de informacion contenida en intervalos simetricos al rededorde la media, ası, −1 ≤ x ≤ 1 contiene el 68.27 % de la informacion,−2 ≤ x ≤ 2 contiene 95.45 % y finalmente −3 ≤ x ≤ 3 contiene el99.73 % de la informacion total, intervalos simetricos centrados en elorigen con extremos mayores o iguales que 4 contienen el total de lainformacion.

Ejemplo 3.9 Las calificaciones acumuladas en la escala 1-100 de 70alumnos del curso de Estadıstica se distribuyen normal con media 54 ydseviacion estandar 9.

Se desea saber:

38

Page 44: Jesus Tapia Enero 2006 - Estadística Inferencial · Cap tulo 1 Estad stica e Investigaci on 1.1. Los or genes Los or genes de la estad stica se pueden decir tiene su nacimiento en

N(0,1)

0 1-168.27%

2-2

95.45%99.73%

3-3

1. Cual es la probabilidad de obtener una puntuacion igual o inferiora 49

2. cual es la probabilidad de su calificacion varıe entre 61 y 74

3. La amplitud intercuartilıca

4. Cuantos participantes tiene un puntaje mayor o igual que 51

Solucion

Por definicion X ∼ N(54, 9), entonces

P (X ≤ 49) = CDF.Normal(49, 54, 9) = 0,2893

es decir, el 28.93 % de la calificaciones son menores o iguales a 49 puntos

P (61 ≤ X ≤ 74) = CDF.Normal(74, 54, 9) − CDF : Normal(61, 54, 9)= 0,9869 − 0,7817 = 0,2052

ası, el 2o.52 % de las calificaciones se ubican entre 61 y 74 puntos.

Para calcular el rango intercuartilıco se deben estimar el primer y tercercuartil ası,

Q1 = IDF : Normal(0,25, 54, 9) = 47,93

Q3 = IDF : Normal(0,75, 54, 9) = 60,07

luego el rango intercuartilıco es

IQ = Q3 − Q1 = 60,070 − 47,93 = 12,14

39

Page 45: Jesus Tapia Enero 2006 - Estadística Inferencial · Cap tulo 1 Estad stica e Investigaci on 1.1. Los or genes Los or genes de la estad stica se pueden decir tiene su nacimiento en

el 50 % de las calificaciones centrales difieren en 12.14 puntos. Final-mente se debe estimar la probabilidad P (X > 51); la cual esta definidapor:

P (X > 51) = 1 − P (X ≤ 51)

= 1 − CDF.Normal(51, 54, 9)= 1 − 0,369 = 0,6306

Luego, la cantidad de alumnos con calificaciones mayores a 51 puntoses

n = P (X > 51) ∗ 70 = 44,14

entonces 44 de los 70 participantes poseen calificaciones mayores a 51puntos

Distribucion χ2 supongamos se tienen X1, X2, · · · , Xk; k variables nor-males con media cero y varianza uno, definimos

Z = X2

1 + X2

2 + · · · + X2

k

la variable Z se distribuye como una χ2 con k grados de libertad y sufuncion de densidad probabilıstica esta definida por:

f(x) =

{

1

Γ

(

k2

)

2k2x

k2−1e−

x2 si x > 0

0 otros casos

Γ(x) es la funcion gamma, los parametros de la distribucion χ2 son:

µ = k

σ2 = 2k

la grafica de la disribucion χ2 para ciertos valores de k se ilustra acontinuacion:

Distribucion F si U es una variable χ2 con n grados de libertad y V esotra χ2 con m grados de libertad entonces la variable

X =UnVm

posee una distribucion F con n,m grados de libertad, cuando U y Vson independientes

40

Page 46: Jesus Tapia Enero 2006 - Estadística Inferencial · Cap tulo 1 Estad stica e Investigaci on 1.1. Los or genes Los or genes de la estad stica se pueden decir tiene su nacimiento en

k=2k=3

k=4

k=6

La funcion de densidad probabilıstica de una variable X distribuidaFn,m, es de la forma:

f(x) =1

β(

n2, m

2

)

x

(

nx

nx + m

)n2(

1 − nx

nx + m

)m2

donde β(t) es la funcion matematica beta.

La distribucion Fn,m se caracteriza completamente por los grados delibertas n,m, de manera tal que.

µ =m

m − 2m > 2

σ2 =m2(2m + 2n − 4)

n(m − 2)2(m − 4)m > 4

La distribucion Fn,m es asimetrica positiva para cualquier valor de n,m,su grafica es de la forma:

Distribucion t de student dadas U una variable distribuida normal conmedia 0 y varianza 1, V una variable aleatoria χ2 con n grados de

41

Page 47: Jesus Tapia Enero 2006 - Estadística Inferencial · Cap tulo 1 Estad stica e Investigaci on 1.1. Los or genes Los or genes de la estad stica se pueden decir tiene su nacimiento en

libertad, independientes, la variable aleatoria

X =U

Vn

posee una distribucion t de student con n grados de libertad y su funcionde densidad de probabilidad esta definida por

f(x) =Γ(

n+1

2

)

√nπ Γ

(

n2

)

[

1 +x2

n

]−n+12

la media y la varianza de una variable tn son

µ = 0 n > 1

σ2 =n

n − 2n > 2

Geometricamente, la distribucion t se asemeja a una normal, cuandon > 30 la similitud se acentua, por ejemplo, para n = 3 en la graficasiguiente comparamos t3 con la curva normal estandar:

N(0,1)

t3

42

Page 48: Jesus Tapia Enero 2006 - Estadística Inferencial · Cap tulo 1 Estad stica e Investigaci on 1.1. Los or genes Los or genes de la estad stica se pueden decir tiene su nacimiento en

Ası, como la distribucon normal es de gran importancia en la teorıa deinferencia estadıstica, las distribuciones t, F, χ2 son elementos funda-mentales en la formulacion de pruebas de bondad de ajuste, razon porla cual son citadas en estas notas.

3.5. Teorıa de muestreo

Un subconjunto de la poblacion (o universo) seleccionado adecuadamente,de forma tal que sea representativa de la poblacion de origen, se denominamuestra estadıstica y el proceso de seleccionarla se conoce como muestreoestadıstico.

La teorıa de muestreo se realiza de manera tal que los elementos carac-terısticos de la poblacion pueden ser estimados a partir de la informacionobtenida de la muestra, tambien es de gran utilidad cuando se desea deter-minar si las diferencias que se pueden observar entre las caracterısticas devarias muestras, se deben a cuestiones del azar o si son reales o verdadera-mente significativas; tales decisiones de toman mediante la aplicacion de losllamados ensayos o hipotesis de significancia.

Por otra parte, la utilizacion de las muestras posee entre otras ventajas:

1. La calidad de la informacion obtenida, debido a que se necesitan menoscolaboradores, se pueden elegir de mejor nivel.

2. El costo es menor y se puede obtener un mejor rendimiento del capitalinvertido

3. Se obtiene una disminucion notable del tiempo necesario para levantarla informacion deseada

3.5.1. Tamano de la muestra

El tamano de la muestra depende de cuatro elementos:

1. El tamano de la poblacion: finita o infinita; una poblacion se considerafinita si no posee mas de 100.000 individuos, e infinita en caso contrario

2. El nivel de confianza adoptado asociada a este factor se determina lavarianza muestral, utilizando los niveles de informacion contenidos enintervalos simetricos de area en la curva normal.

43

Page 49: Jesus Tapia Enero 2006 - Estadística Inferencial · Cap tulo 1 Estad stica e Investigaci on 1.1. Los or genes Los or genes de la estad stica se pueden decir tiene su nacimiento en

3. El error de estimacion permitido

4. La proporcion en que se encuentra en la poblacion la caracterısticaestudiada, cuando no es posible mediante una prueba piloto estimaresta proporcion, se adotara el supuesto de que dicha proporcion es del50 %

Para poblaciones con mas de 100.000 individuos, el tamano de la muestrase calcula mediante la formula

n =σ2pq

E2

mientras que para poblaciones con menos de 100.000 individuos la identidadutilizada es

n =Nσ2pq

E2(N − 1) + σ2pq

donde

n : tamano de muestraN : tamano de poblacionE : error de estinacion permitido 0 < E < 1p : probabilidad de seleccionar a cada individuoq : probabilidad de ser rechazado cada individuoσ : cuantil de la distribucion normal asociada al nivel de confianza

Por lo general, el nivel de confianza se ubica por encima del 95 %, ası,cuando el nivel de confianza esta ubicado entre 95.5 % y 99.5 % el valor deσ = 2, mientras que para niveles de confianzas superiores al 99.5 % se eligeσ = 3

Ejemplo 3.10 Para establecer una clasificacion de las playas del litoral cen-tral, en playas aptas y no aptas para el uso de los temporadistas, se deseaseleccionar una muestra de ellas con un nivel de confianza del 99.8%, unerror maximo de esrimacion del 3%, a partir del 75 playas existentes.

De la informacion aportada, sabemos que:

La poblacion total sobre la cual se realizara el muestreo es de 75 playasexistentes en el litoral central, es decir,N = 75 y la poblacion es finita

44

Page 50: Jesus Tapia Enero 2006 - Estadística Inferencial · Cap tulo 1 Estad stica e Investigaci on 1.1. Los or genes Los or genes de la estad stica se pueden decir tiene su nacimiento en

El nivel de confianza esperado es del 99.9 %, de donde σ = 3

El error de estimacion permitido es del 3 %

Como no existen indicios acerca de la proporcion de playas seleccionadasy no seleccionadas, se considera p = q = 50 %

ası, el tamano de la muestra esta definido por

n =Nσ2pq

E2(N − 1) + σ2pq

=75 ∗ 32 ∗ 50 ∗ 50

32 ∗ (75 − 1) + 32 ∗ 50 ∗ 50

=1686500

23166= 72, 85

la muestra esta conformada por 72 playas

Ejemplo 3.11 Con el fin de desarrollar un plan piloto de educacion ambi-ental en los ninos de la primera y segunda etapa de Educacion Basica enel estado Barinas, se seleccionaron 420 escuelas en los 11 municipios delestado, cada escuela posee en promedio 240 alumnos de la primera y segun-da etapa en el turno de la manana. Determine el tamano de la muestra dealumnos con los cuales se trabajara en el plan piloto, si el nivel de error deestimacion maximo permitido es del 4% y el nivel de confianza esperado esdel 96.7%

El estudio se realizara en 420 escuelas, cada una con 240 alumnos enpromedio, ası, la poblacion total es de 240 ∗ 420 = 100,800 alumnos, es decir,la poblacion es infinita, el error de estimacion maximo permitido es el 4 %,es decir, E = 4, por otra parte, el nivel de confianza es del 96,7 %, entoncesσ = 3, ademas, como no esta definida la proporcion entre seleccionados y noseleccionados, se concederan p = q = 50 %, el tamano estimado de la muestraes:

n =σ2pq

E2

=32 ∗ 50 ∗ 50

42

=22500

16= 1406,25

ası, el numero total de alumnos seleccionados en las 420 escuelas es 1406.

45

Page 51: Jesus Tapia Enero 2006 - Estadística Inferencial · Cap tulo 1 Estad stica e Investigaci on 1.1. Los or genes Los or genes de la estad stica se pueden decir tiene su nacimiento en

3.5.2. Tipos de Muestreo

Muestreo probabilıstico: Cuando la seleccion de las unidades muestralesse realizan aleatoriamente o al azar, se debe conocer de antemano laprobabilidad de obtencion de cada una de las muestras posibles deseleccionar (por lo general se da el caso de considerar igual probabilidadde seleccion).

Muestreo Intencional: En este caso, el encargado de seleccionar la mues-tra es quien procura que sea representativa, debe tener conocimientode la poblacion en estudio, lo que contribuye a eliminar en algo la sub-jetividad, pero aun ası esta influida por las preferencias o tendenciasde quien realiza el muestreo.

Muestreo sin Norma: Se selecciona la muestra de cualquier forma por ra-zones de comodidad o circunstancias; se logra representatividad solocuando la poblacion es muy homogenea.

3.5.3. Clases de Muestreo

Muestreo Aleatorio Simple: Es realizado al azar y cada elemento de lapoblacion tiene igual probabilidad de integrar la muestra (Equiproba-bilidad de Seleccion). Puede ser efectuado en dos formas:

1. Con reemplazamiento: Cada elemento es devuelto a la poblaciondespues de anotar sus caracterısticas, coincide con el muestreo depoblacion infinitas.

2. Sin reemplazamiento. El elemento seleccionado para integrar lamuestra deja de ser seleccionable, por tanto la poblacion es agotabley por supuesto finita, se suele llamar muestreo irrestrictamentealeatorio.

Ejemplo 3.12 En el ejemplo 7 fue estimado el tamano de la muestra,obteniendo 72 seleccionados de un total de 75, para seleccionar cadaplaya que pertenezca al estudio, se procede de la forma siguiente

se enumeran las 77 playas de manera ascendente

se generan 72 numeros aleatorios del 1 al 77, mediante cualquiermecanismo, por ejemplo un bombo, o mediante series de numerosaleatorios siguiendo alguna distribucion probabilıstica de interes.

las playas de interes para nuestro estudio son aquellas que coinci-dan con la serie de numeros aleatorios creadas en el paso anterior.

46

Page 52: Jesus Tapia Enero 2006 - Estadística Inferencial · Cap tulo 1 Estad stica e Investigaci on 1.1. Los or genes Los or genes de la estad stica se pueden decir tiene su nacimiento en

Muestreo Estratificado: A fin de disminuir la variabilidad de la poblacion,esta se divide en subgrupos o estratos, buscando mayor homogeneidaddentro de cada estrato (menor variabilidad).

El reparto de la muestra entre los diferentes estratos se denomina Afi-jacion y esta puede ser:

Arbitraria: Cuando se distribuye la muestra en cada estrato indepen-dientemente del total de elementos que compone a cada uno deellos.

Igual: Cuando se reparte la muestra por igual a cada estrato.

Proporcional: Cuando se reparte proporcionalmente al numero deelementos que componen la poblacion de cada estrato.

Optima: Cuando se distribuye la muestra en forma proporcional alnumero de elementos y a la desviacion tıpica de cada estrato.

Ejemplo 3.13 Para el ejemplo 7 el litoral central se divide en tres re-giones, sector sur, sector central y sector norte, el tamano de la muestrase divida entre tres para obtener la cuota de seleccion en cada sector

C =72

3= 24

en cada sector se seleccionan al azar 24 playas, mediante muestreo alazar

Muestreo por Conglomerados: Las unidades de muestreo se sustituyenpor un grupo de ellas, se trata de que cada conglomerado sea represen-tativo en lo posible de la poblacion.

Muestreo Bietapico: Es una modificacion del muestreo por conglome-rados, aquı no forma parte de la muestra todas las unidades de losconglomerados, sino que una vez seleccionados estos, se efectua unsubmuestreo dentro de cada conglomerado.

Muestreo Polietapico: Es una generalizacion del Bietapico, los con-glomerados seleccionados en la primera etapa puede estar forma-do por nuevos conglomerados, de tal forma que se pueda sub-muestrear unidades de conglomerados dentro de conglomerados.

Ejemplo 3.14 Siguiendo con el ejemplo 8, el procedimiento para laseleccion de la muestra mediante conglomerados es el siguiente:

se ordenan alfabeticamente las 420 escuelas

47

Page 53: Jesus Tapia Enero 2006 - Estadística Inferencial · Cap tulo 1 Estad stica e Investigaci on 1.1. Los or genes Los or genes de la estad stica se pueden decir tiene su nacimiento en

como la muestra a elegir consta de 1406 alumnos y cada escuelaposee en promedio 240 alumnos se establece el numero de escuelasa seleccionar (conglomerados) definido por:

k =1406

240= 5,85

es decir, se seleccionan al azar 5 escuelas para el plan piloto, deellas se seccionan los 1406 alumnos

Muestreo Sistematico: Se toman los elementos de la poblacion que vana formar la muestra en forma sistematica de K en K a partir de unelemento tomado al azar.

Muestreo Bifasico: Se toma una muestra grande en forma rapiday sencilla y con la informacion obtenida de ella, se disena unamuestra mas pequena para referirnos a la caracterıstica objeto deestudio.

Muestreo Polifasico o Multiple: Es una extension del anterior atres o mas fases.

Ejemplo 3.15 Siguiendo con el ejemplo 8, para aplicar muestreo sis-tematico, se recomienda seguir el siguiente procedimiento:

se divide el tamano de la poblacion entre el tamano de la muestrapara obtener la longitud de la cota de seleccion

K =100,800

1406= 71,69 ≈ 71

se elige al azar un numero entre 1 y 100.800, primer caso selec-cionado en la muestra, digamos 17

se enumera de manera ascendente la poblacion

la serie seleccionada la conforman

17, 88, 159, 230, 301, 372, · · ·

Metodos Mixtos: En la practica, de acuerdo con las necesidades del estu-dio se suelen realizar disenos mixtos que son combinaciones de los antesexpuestos. Existen algunos otros tipos de muestreo de caracterısticas es-peciales no contemplados aquı (submuestras interpenetrantes, muestreorepetido, etc.).

48

Page 54: Jesus Tapia Enero 2006 - Estadística Inferencial · Cap tulo 1 Estad stica e Investigaci on 1.1. Los or genes Los or genes de la estad stica se pueden decir tiene su nacimiento en

Capıtulo 4

Introduccion a la Inferencia

4.1. Preliminares

Frecuentemente, el proposito de cualquier investigacion va mas alla dedescribir las distribuciones de las variables por si solas, se pretende generalizarlos resultados obtenidos en la muestra a la poblacion o universo. Los datosobtenidos casi siempre son recolectados de una muestra y sus resultadosestadısticos se conocen como estadıgrafos, la media la desviacion estandar,la varianza, etc. Son estadıgrafos. A los valores estadısticos de la poblacionse le conocen como parametros. Los parametros no son calculados porquelos datos sobre la poblacion no siempre se pueden recolectar en la mayorıade los casos; pero pueden ser inferidos en funcion de los estadısticos de lamuestro. Ası una herramienta fundamental de la inferencia estadıstica es larecoleccion de datos en las muestras o muestreo.

La inferencia de los parametros poblacionales se lleva a cabo mediantetecnicas estadısticas apropiadas para ello. Estas tecnicas se estudian en estaseccion. La estadıstica inferencial puede ser utilizada para dos fines diferentes:

1. Estimar parametros

2. Probar hipotesis.

Ambos procedimientos se basan en la informacion estadıstica extraıda delestudio de muestras , razon por la cual se hace imprescindible el conocimientoteorico del muestreo.

49

Page 55: Jesus Tapia Enero 2006 - Estadística Inferencial · Cap tulo 1 Estad stica e Investigaci on 1.1. Los or genes Los or genes de la estad stica se pueden decir tiene su nacimiento en

4.2. Teorema central del Lımite

Teorema 4.1 Sean X1, X2, · · · , Xn un conjunto de n variables aleatoriasindependientes con distribucion normal con media µ y varianza σ2 considerela variable

Y =1

n

n∑

i=1

Xi

es decir la media muestral, entonces Y posee una distribucion lımite

N

(

µ,σ2

n

)

Este resultado se cumple sin importar la forma de la distribucion de proba-bilidad de las variables en estudio.

Del teorema central del lımite se tiene el siguiente resultado equivalente:

Z =

√n

(

Y − µ

)

σ∼ N

(

0, 1

)

4.3. Distribucion muestral

Una distribucion muestral consiste de un conjunto de valores de un es-tadıstico calculado sobre todas las muestras posibles de un determinadotamano. Por ejemplo el valor de la medias de todas las muestras de tamanocuatro tomadas de una poblacion cualquiera. Las distribuciones muestrales sepueden determinar para cada uno de los estadısticos asociados a una muestracomo son: media, mediana, desviacion estandar, varianza, cuartiles, deciles,percentiles, etc. las distribuciones muestrales de medias son probablementelas mas conocidas, pero es necesario conocer el concepto de distribucion mues-tral asociado a cualquier estadıstico S asociado a las muestras de tamano nextraıdas de una poblacion dada.

4.4. Distribucion muestral de la media

Supongase que en una poblacion se extraen K muestras de tamano n, acada una de las muestras en cada una de las muestras se determina la media

50

Page 56: Jesus Tapia Enero 2006 - Estadística Inferencial · Cap tulo 1 Estad stica e Investigaci on 1.1. Los or genes Los or genes de la estad stica se pueden decir tiene su nacimiento en

de la media obteniendose un conjunto de observaciones X1, X2, · · · , Xk a lascuales se les pueden calcular los estadısticos mas comunes como son la media,la desviacion estandar y la varianza, los cuales se denotan como:

µX , σX , σ2

X

respectivamente, conocidos los valores de la media, la desviacion estandar y lavarianza de la poblacion, entonces los estadısticos de la distribucion muestralde la media se definen como:

µX = µ

σX =1√n

σ

σ2

X=

1

nσ2

en tales condiciones utilizando el teorema central del lımite se tiene que :

X ∼ N

(

µ,σ2

n

)

de manera tal que

Z =X − µ

σ√n

∼ N(

0, 1)

4.5. Distribucion muestral de las varianza

Dentro de las estadısticas empleadas en la inferencia estadıstica respectoa la varianza poblacional es la varianza muestral denominada por recuerdeseque es una medida de variabilidad e indica la dispersion existente entre lasobservaciones. Dado que la dispersion es considerada tan importante comola tendencia central la distribucion muestral de varianza es tan importantecomo lo es la distribucion muestral de medias.

Se desea desarrollar la distribucion muestral de S2 cuando el muestreo selleva a cabo sobre una poblacion distribuida normal con media µ conocida yvarianza σ2 desconocida.

Como S2 se define mediante

S2 =1

n

n∑

i=1

(xi − µ)2

51

Page 57: Jesus Tapia Enero 2006 - Estadística Inferencial · Cap tulo 1 Estad stica e Investigaci on 1.1. Los or genes Los or genes de la estad stica se pueden decir tiene su nacimiento en

Para determinar la distribucion muestreo que permita efectuar inferenciasobre σ2 con base a S2 se debe considerar la variable aleatoria

Y =1

σ

n∑

i=1

(xi − µ)2

La cual posee distribucion chi-cuadrado con n grados de libertad. Desdeel punto de vista practico, la varianza muestral tal como fue definida poseepoco uso, ya que en la mayorıa de los casos no se conoce el valor de la mediapoblacional µ la cual es sustituida por la media muestral X dando pie a laidentidad

Y =1

σ

n∑

i=1

(xi − X)2

Como la variable

Y =1

σ

n∑

i=1

(xi − µ)2

posee una distribucion χ2n, entonces

n − 1

σ2S2 = Y

es una variable χ2n−1 , en conclusion el producto de un factor de correccion

por la varianza muestral posee distribucion χ2n−1 .

4.6. Distribucion muestral de la diferenciade medias

En muchas ocasiones surge la necesidad de comparar las medias de dosdistribuciones distintas. En particular si

X ∼ N

(

µX , σ2

)

Y ∼ N

(

µY , σ2

)

52

Page 58: Jesus Tapia Enero 2006 - Estadística Inferencial · Cap tulo 1 Estad stica e Investigaci on 1.1. Los or genes Los or genes de la estad stica se pueden decir tiene su nacimiento en

es decir, son dos variables aleatorias con distribuciones normales con igualesvarianza pero diferentes medias, el interes recae en formular una inferenciacon respecto a la diferencia µX − µY entre las dos medias desconocidas.

El enfoque viable para este problema es formular la inferencia sobre labase de la informacion existente con relacion a las medias muestrales X,Yde las cuales se conoce que

X ∼ N

(

µX ,σ2

n

)

Y ∼ N

(

µY ,σ2

m

)

respectivamente. Por otra parte utilizando las propiedades de la media y dela varianza se tiene que:

µX−Y = µX − µY

σ2

X−Y=

σ2

n+

σ2

m

es decir, conocida la varianza, la diferencia de las medias define una vari-able aleatoria

Z =X − Y − (µX − µY )

σ√

1

n+ 1

m

∼ N(0, 1)

La relacion anterior supone el conocimiento previo del valor de σ2 pero enla practica este valor es desconocido, es decir, se hace necesario desarrollar untest estadıstico para X−Y cuando la varianza es desconocida. Para cada unade las muestras aleatorias se puede estimar las varianzas muestrales S2

X , S2Y

mediante las relaciones

S2

X =1

n − 1

n∑

i=1

(xi − µX)2

S2

Y =1

m − 1

m∑

i=1

(yi − µY )2

Ademas es sabido que

n − 1

σ2S2

X ,m − 1

σ2S2

Y

53

Page 59: Jesus Tapia Enero 2006 - Estadística Inferencial · Cap tulo 1 Estad stica e Investigaci on 1.1. Los or genes Los or genes de la estad stica se pueden decir tiene su nacimiento en

son variables aleatorias χ2n−1 y χ2

m−1 respectivamente, entonces la variablealeatoria

W =n − 1

σ2S2

X +m − 1

σ2S2

Y ∼ χ2

n+m−2

Usando la definicion de la distribucion t de student, se tiene que la variable

T =Z

Wn+m−2

∼ tn+m−2,α

Desarrollando la relacion anterior se tiene:

T =

X − Y −(

µX − µY

)

SP

1

n+ 1

m

Donde

S2

p =(n − 1)S2

X + (m − 1)S2Y

n + m − 2

es el estimador combinado de la varianza comun.

4.7. Estimacion de parametros

La estimacion de parametros involucra el uso de datos muestrales enconjuncion con algunas estadısticas. Existen dos maneras de llevar a cabola estimacion de un parametro: la estimacion puntual y la estimacion porintervalos, en la primera se busca estimador que, con base en los datos obser-vados en la muestra, permita obtener un estimador univaluado del parametropoblacional desconocido, para el segundo caso se determina un intervalo enel que, en forma probable, se encuentre el valor del parametro. Este intervalorecibe el nombre de intervalo de confianza.

Estimacion puntual A menudo es necesario conocer el valor de un parametropoblacional y se dispone solo de una o varia observaciones de la poblacion.Por ejemplo, se quiere conocer el peso promedio de cierta raza de ani-males salvajes. Resulta practicamente imposible pesar a todos individu-os de la raza en cuestion que conforman la poblacion y luego determinarel peso promedio. Una solucion es tomar una muestra, determinar la

54

Page 60: Jesus Tapia Enero 2006 - Estadística Inferencial · Cap tulo 1 Estad stica e Investigaci on 1.1. Los or genes Los or genes de la estad stica se pueden decir tiene su nacimiento en

media muestral y adoptarla como valor aproximado de la media pobla-cional, se dice que la media muestral X es una estimacion de la mediapoblacional µX desconocida.

Es decir, la funcion

f(x1, x2, ·, xn) =1

n

n∑

i=1

xi

es un estimador para µX

Analogamente la varianza muestral S2 es un estimador para la varianzapoblacional σ2

X . Es decir que la funcion

g(x1, x2, ·, xn) =1

n − 1

n∑

i=1

(

xi − X

)2

es un estimador puntual de σ2.

4.7.1. Propiedades de los estimadores

Los estimadores de los parametros poblacionales deben cumplir conuna serie de condiciones, con el objeto de ser buenos estimadores delvalor que representan, de hecho puede darse el caso que existan variosestimadores para un mismo parametro, pero de ellos indudablemente,se debe seleccionar el mejor, en tal sentido es necesario precisar cualesson las condiciones que define al mejor estimador de un parametropoblacional cualquiera.

Estimador insesgado Un estimador θ de un parametro poblacionalV es un estimador insesgado sı el primer momento respecto delorigen del estimador θ es igual al parametro.En el caso de la media poblacional, es sabido que la media muestralX es igual a µ la media poblacional, por lo tanto la media muestrales un estimador insesgado para la media poblacional

Estimador eficiente Sean θ1, theta2 , dos estimadores de un parametropoblacional V , si ambos estimadores poseen la misma media mues-tral, pero S2

θ1< S2

θ2entonces se dice que θ1 es un estadıstico efi-

ciente del parametro V .

Estimador consistente Sean θ1 es un estimador consistente de unparametro poblacional V , si al aumentar el tamano de la muestrano existe diferencia significativa entre el valor del estimador y elvalor del parametro. Par muestras pequenas esta propiedad de losestimadores carece importancia.

55

Page 61: Jesus Tapia Enero 2006 - Estadística Inferencial · Cap tulo 1 Estad stica e Investigaci on 1.1. Los or genes Los or genes de la estad stica se pueden decir tiene su nacimiento en

Estimador suficiente Un estimador se considera suficiente si aportatoda la informacion sobre el parametro considerado, de maneratal que cualquier otro estimador difıcilmente puede aportar infor-macion adicional.

Intervalos de confianza La estimacion puntual permite determinar el val-or univaluado de un estimador. La estimacion por intervalo permitedeterminar un intervalo en la recta real en el cual debe estar contenidoel parametro estimado con cierto error de estimacion conocido comonivel de significancia, el nivel de significancia es un numero real com-prendido entre cero y uno, es decir un valor probabilistico que mide elerror cometido al efectuar la estimacion parametrica por intervalos.

La estimacion de la mayorıa de los parametros poblacionales se efectuaclasificando las muestras en funcion del numero de observaciones, mues-tras grandes cuando el numero de observaciones es mayor o igual a 30,muestras pequenas cuando el numero de observaciones es menor que30 observaciones.

Cuando la muestra es grande se emplea en la mayorıa de los casos ladistribucion normal, mientras que para muestras pequenas se utiliza ladistribucion t de Student.

Se consideran los intervalos de confianza para la media poblacionalconocida la varianza poblacional y desconocida esta. Ademas se estu-diaran los intervalos de confianza para la diferencia de medias y parala varianza y para el cociente de varianzas poblacionales.

Intervalos de confianza para µ desconocida σ2 Desconocido el val-or de la varianza poblacional, se puede estimar un intervalo deconfianza para la media poblacional utilizando la distribucion delestadıstico

T =X − µ

S√n

el cual posee una distribucion t de student con n−1 grados de lib-ertad, pero como la distribucion t de student es simetrica respectodel origen es posible resolver la desigualdad

X − µS√n

≤ t1−α2

para el percentil t1−α2

de la distribucion t de student con n −1 grados de libertad, de esta manera el conjunto solucion de ladesigualdad es el conjunto de valores de la media muestral que

56

Page 62: Jesus Tapia Enero 2006 - Estadística Inferencial · Cap tulo 1 Estad stica e Investigaci on 1.1. Los or genes Los or genes de la estad stica se pueden decir tiene su nacimiento en

satisfacen la relacion

X − σ√n

t1−α2≤ µ ≤ X +

σ√n

t1−α2

El cual representa un intervalo de confianza para la media pobla-cional desconocida la varianza poblacional.Nota para muestras grandes el intervalo de confianza de la mediapoblacional desconocida la varianza es

X − σ√n

Z1−α2≤ µ ≤ X +

σ√n

Z1−α2

Ya que en tal caso la distribucion t de student se aproxima a ladistribucion normal estandar.

Ejemplo 4.1 Sobre una poblacion de varianza desconocida se efectuaun muestreo, seleccionandose una muestra de 16 observaciones conmedia muestral 15, determinar un intervalo de confianza para lamedia poblacional con un nivel de significancia del 10%, sabiendoque la varianza muestral es igual a 12.

Solucion

De la informacion contenida en el problema se tiene:

n = 16S2 = 12X = 15α = 10 % = 0,01

intervalo de confianza

X − σ√n

Z1−α2≤ µ ≤ X +

σ√n

Z1−α2

en nuestro caso como se tiene:

X − σ√n

t0,95 ≤ µ ≤ X +σ√n

t0,95

El percentil t0,95 de la distribucion t de student con n−1 = 15, gra-dos de libertad, posee un valor igual a t0,95 = 1,75, ası el intervalode confianza en este caso es.

15 − 12√16

∗ 1,75 ≤ µ ≤ 15 +12√16

∗ 1,75

Es decir, el valor de la media poblacional esta ubicado entre losvalores 9.75 y 20.25.

57

Page 63: Jesus Tapia Enero 2006 - Estadística Inferencial · Cap tulo 1 Estad stica e Investigaci on 1.1. Los or genes Los or genes de la estad stica se pueden decir tiene su nacimiento en

Intervalos de confianza para σ2 Es bien sabido que el estadıstico

Y =n − 1

σ2S2

posee una distribucion χ2n−1 la cual no es simetrica respecto la

media, entonces un intervalo de confianza para la varianza pobla-cional se puede estimar como:

n − 1

χ21−α

2

S2 ≤ σ2 ≤ n − 1

χ2α2

S2

Donde los valores χ21−α

2, χ2

α2

representan los percentiles 1α2

y α2

respectivamente de una distribucion χ2n−1.

Como la raız cuadrada es una funcion creciente, entonces al tomarla raız cuadrada a la expresion que define el intervalo de confian-za para la varianza, se obtiene un intervalo de confianza para ladesviacion estandar poblacional σ el cual esta definido como:

n − 1

χ21−α

2

S2 ≤ σ ≤√

n − 1

χ2α2

S2

Ejemplo 4.2 Sobre una poblacion distribuida normalmente se efectuaun muestreo, seleccionandose una muestra de 23 casos con varian-za muestral S2 = 121, determinar un intervalo de confianza parala varianza poblacional con un nivel de significancia del 5%.

Solucion

De la informacion contenida en el problema se tiene:

n = 23S2 = 121α = 0,05

intervalo de confianza

n − 1

χ21−α

2

S2 ≤ σ2 ≤ n − 1

χ2α2

S2

en nuestro caso como se tiene:

n − 1

χ20,975

S2 ≤ σ2 ≤ n − 1

χ20,025

S2

58

Page 64: Jesus Tapia Enero 2006 - Estadística Inferencial · Cap tulo 1 Estad stica e Investigaci on 1.1. Los or genes Los or genes de la estad stica se pueden decir tiene su nacimiento en

Para la distribucion chi-cuadrado con n − 1 = 22 grados de liber-tad, se tiene

χ2

0,975,22 = 36,8

χ2

0,025,22 = 11,0

ası, el intervalo de confianza en este caso es:

22 ∗ 121

36,8≤ σ2 ≤ 22 ∗ 121

11

72,34 ≤ σ2 ≤ 242

Es decir el valor de la varianza poblacional esta ubicado entre losvalores 72.34y 242.

Intervalos de confianza para la diferencia de medias Como el es-tadıstico

T =

X − Y −(

µX − µY

)

SP

1

n+ 1

m

posee una distribucion tn+m−2 entonces un intervalo de confianzapara la diferencia de medias esta definido mediante la relacion:

X − Y − Sp

1

n+

1

m≤ µX − µY ≤ X − Y + Sp

1

n+

1

m

donde

S2

p =(n − 1)S2

X + (m − 1)S2Y

n + m − 2es el estimador combinado de la varianza comun.

Ejemplo 4.3 Ser aplica simultaneamente una evaluacion de es-tadıstica a dos grupos de alumnos, del primer grupo se seleccionauna muestra de 15 alumnos, obteniendose un rendimiento prome-dio de 15 puntos, del segundo grupo se selecciona a azar una mues-tra de 17 alumnos obteniendose un promedio de 11 puntos. Si am-bas muestras poseen desviacion estandar muestral S = 6 puntos,las poblaciones se distribuyen normal. Determine un intervalo deconfianza al 99% para la diferencia de medias de los grupos.

SolucionIntervalo de confianzaEl percentil , ası el intervalo de confianza esta definido como:en otras palabras la diferencia de las medias poblacionales se en-cuentra ubicada entre los valores - 2,63 y 10.63.

59

Page 65: Jesus Tapia Enero 2006 - Estadística Inferencial · Cap tulo 1 Estad stica e Investigaci on 1.1. Los or genes Los or genes de la estad stica se pueden decir tiene su nacimiento en

4.8. Pruebas de Hipotesis

Una hipotesis estadıstica es una afirmacion respecto a alguna caracterısti-ca desconocida de una poblacion de interes. La escencia de contrastar unahipotesis estadıstica es decidir si la afirmacion se encuentra apoyada por laevidencia experimental contenida en una muestra aleatoria. En forma gener-al, la afirmacion involucra ya sea algun parametro o alguna forma funcionaldo conocida de la distribucion de interes a partir de la cual se obtienelamuestra en estudio. La decision acerca de si los datos muestrales apoyan es-tadısticamente la afirmacion se toman con base en la probabilidad, y, si estaes mınima, entonces sera rechazada.

Las pruebas de decision estadıstica estan relacionadas con algunos con-ceptos fundamentales, como son:

Hipotesis estadıstica Es una conjetura o supuesto que se realice con re-specto a un parametro de la poblacion, mas concretamente a un parametroque cuantifica una caracterıstica de ella.

Hipotesis nula Se denota por H0 y es la hipotesis establecida en funcionde un parametro de la poblacion, con el proposito de ver su posiblerechazo o nulificacion.

Hipotesis alterna Se denota por H1 es cualquier hipotesis diferente a lahipotesis nula, es decir, es una conclusion que es aceptada cuando losdatos de la muestra no respaldan la hipotesis nula.

Nivel de significancia Es la probabilidad de rechazar la hipotesis nulacuando esta es cierta. Sı la hipotesis es correcta, entonces el nivel designificancia indicara el porcentaje de estadısticos de muestras que caenfuera de ciertos lımites.

Error tipo I Es el error cometido cuando se rechaza la hipotesis nula siendoesta cierta.

Error tipo II Es el error que se incurre al aceptar la hipotesis nula cuandoesta es falsa. P-Valor: Se define como la probabilidad de que el estadısti-co de contraste sea mayor o igual al valor calculado cuando la hipotesisnula es cierta, es decir

p = Pr(T ≥ Tobs)

Entonces la conclusion de rechazar o no la hipotesis nula H0 puede basarseen una region crıtica de tamano α, con el p-valor proporcionando una medidade que la decision sea correcta. De acuerdo con lo anterior:

60

Page 66: Jesus Tapia Enero 2006 - Estadística Inferencial · Cap tulo 1 Estad stica e Investigaci on 1.1. Los or genes Los or genes de la estad stica se pueden decir tiene su nacimiento en

Si p − valor > α se rechaza la hipotesis nula

Si p − valor > α no se rechaza la hipotesis nula

Definido el nivel de significancia se establece la regla de decision, se aceptao rechaza la hipotesis segun el estadıstico de contrate calculado, se encuentreen la region de aceptacion o rechazo, para una prueba de dos colas las regionesson:

Acptación

Rechazar

Analogamente para pruebas de una cola se tiene

4.9. La prueba t de Student.

4.9.1. Prueba t de student para una muestra

Supongamos que se dispone de una muestra de tomada sobre una poblacionde interes, y sobre cada individuo de la muestra, se mide una variable X condistribucion normal. La prueba t de Student sobre una muestra se utilizapara contrastar la hipotesis nula de que la muestra procede de una poblacionen la que la media de X es igual a un determinado valor, es decir: µ = Θ; siel p-valor asociado al estadıstico de contraste es menor que α, se rechaza lahipotesis nula a un nivel de significancia α:

61

Page 67: Jesus Tapia Enero 2006 - Estadística Inferencial · Cap tulo 1 Estad stica e Investigaci on 1.1. Los or genes Los or genes de la estad stica se pueden decir tiene su nacimiento en

Planteamiento del problema Sea una muestra aleatoria de una dis-tribucion normal con media desconocida. El interes de la investigacion recaeen probar uno de los siguientes conjuntos de hipotesis:

Hipoteisis nula Hipotesis alternaH1 : µ 6= Θ

H0 : µ = Θ H1 : µ > ΘH1 : µ < Θ

El mejor estadıstico de prueba posee una distribucion t de Student, eneste caso bajo la hipotesis nula H0 : µ = Θ , el estadıstico de prueba se definecomo:

T =

√n(

X − Θ)

S

Donde X es la media de la muestra, Θ es el valor hipotetico de la mediapoblacional, S la desviacion estandar muestral, n el tamano de la muestra, Tposee una distribucion t de Student con n−1 grado de libertad. Los criteriosde rechazo de la hipotesis nula a un nivel de significancia α para la pruebade hipotesis nula H0 : µ = Θ, se resumen en la siguiente tabla:

Hipotesis alterna Se rechaza H0 cuandoH1 : µ 6= Θ t ≤ tα

2,n−1 o t ≥ t1−α

2,n−1

H1 : µ > Θ t ≥ t1−α,n−1

H1 : µ < Θ t ≤ tα,n−1

Ejemplo 4.4 Durante la aplicacion de la prueba de seleccion de la carrerade Educacion surgio una interrogante sobre el promedio de bachillerato conque ingresan los participantes a la licenciatura, para dar respuesta a la mismase selecciono una muestra al azar de 25 participantes, a partir de los datosobtenidos se estimo X = 12,75 y S = 3. Basandose en esta muestra, ¿ existealguna razon para creer, a un nivel de significancia de 0.05, que el promediode bachillerato de los aspirantes es igual a 13 puntos?

Solucion Se observa la existencia de una sola variable continua, un valorpreestablecido para el parametro promedio(media poblacional), entonces lavıa para rechazar o no rechazar la afirmacion es empleando la prueba t deStudent para una muestra. Es decir, se desea contrastar las hipotesisis:

H0 : µ = 13H1 : µ 6= 13

62

Page 68: Jesus Tapia Enero 2006 - Estadística Inferencial · Cap tulo 1 Estad stica e Investigaci on 1.1. Los or genes Los or genes de la estad stica se pueden decir tiene su nacimiento en

al nivel de significancia α = 5 % = 0,05

Por otra parte

T =

√n(

X − Θ)

S∼ t24

El valor del estadıstico de prueba, observado en la muestra es

Tobservado =

√n(

X − Θ)

S

=

√25

(

12,5 − 13

)

3= −0,8333

Para estimar el p-valor asociado al nivel de significancia del 5 %, se debecalcular

P (T > −0,833) = 1 − P (T ≤ −0,833)

= 1 − CDF.t(−0,833, 24) = 0,4130

como p − valor > α se acepta H0 al nivel de significancia del 5 %.

Conclusiones: Si los supuestos acerca de la forma de la poblacion sonciertos, entonces se puede concluir basandose en informacion aportada por lamuestra, que el promedio de bachillerato de los aspirantes a la Licenciaturaen Educacion es de 13 puntos, un nivel de significancia del 5 %.

4.10. Prueba t de Student para dos muestras

El objetivo fundamental es comparar la distribucion de una variable cuan-titativa en las subpoblacines determinadas por las modadlidades de una car-acterıstica cualitativa, es decir comparar las medias de la variable cuantitativaen cada subpoblacion.

4.10.1. Dos muestras relacionadas

Supongamos que se dispone de una muestra selecionada sobre una poblacionde interes y sobre cada individuo de la muestra, se mide dos variables X e

63

Page 69: Jesus Tapia Enero 2006 - Estadística Inferencial · Cap tulo 1 Estad stica e Investigaci on 1.1. Los or genes Los or genes de la estad stica se pueden decir tiene su nacimiento en

Y con distribucion normal, cuyos valores son comparables. La prueba t deStudent para dos muestras comparables o relacionadas, se utiliza para con-trastar la hipotesis nula sobre la igualdad de las medias poblacionales de lasdos variables, es decir, se desea contrastar la hip!‘otesis nula H0 : µX = µY

Si el p − valor asociado al estadıstico de contraste es menor que α, serechaza la hipotesis nula a un nivel de significancia α.

Planteamiento del problema Sean X, Y dos variables aleatorias aleato-rias relacionadas, con distribucion normal, con medias µX , µY respectiva-mente. A partir de n valores de X, Y relativos a una misma muestra, con-sideramos la variable D = Y − X, de la cual se disponen n observacionesdefinidas por Di = Yi − Xi la cual sigue una distribucion normal con mediaµD = µY − µX y varianza σ2

D.

El interes de la investigacion recae en probar uno de los siguientes con-juntos de hipotesis:

Hipoteisis nula Hipotesis alternaH1 : µX 6= µY

H0 : µX = µY H1 : µX > µY

H1 : µX < µY

El mejor estadıstico de prueba posee una distribucion t de Student,conn − 1 grados de libertad, en este caso bajo la hipotesis nula H0 : µX = µY ,el estadıstico de prueba se define como:

T =√

nD

SD

Donde n el tamano de la muestra X, T posee una distribucion t de Studentcon n − 1 grado de libertad. Los criterios de rechazo de la hipotesis nulaH0 : µX = µY , a un nivel de significancia α, se resumen en la siguiente tabla:

Hipotesis alterna Se rechaza H0 cuandoH1 : µX 6= µY t ≤ tα

2,n−1 o t ≥ t1−α

2,n−1

H1 : µX > µY t ≥ t1−α,n−1

H1 : µX < µY t ≤ tα,n−1

Ejemplo 4.5 Durante las evaluaciones de los cursos Estadıstica los par-ticipantes se han quejado del factor tiempo. Para solventar este impase se

64

Page 70: Jesus Tapia Enero 2006 - Estadística Inferencial · Cap tulo 1 Estad stica e Investigaci on 1.1. Los or genes Los or genes de la estad stica se pueden decir tiene su nacimiento en

decidio entrenar a los participantes en el uso de computadoras de bolsillo. Seselecciono una muestra aleatoria a la cual se le aplico una evaluacion sin elentrenamiento, las calificaciones obtenidas se denotaron como X, luego delentrenamiento se aplico otra evaluacion para determinar si el entremanien-to con las computadoras de bolsillo mejoraba el rendimiento del curso, lascalificaciones conforman la variable Y . Los resultados obtenidos fueron:

µX = 12µY = 13,5D = Y − X

µD = 1,5SD = 0,75n = 16

Decidir a un nivel de significancia del 1% si existe diferencia significativa en-tre las calificaciones de los participantes antes y despues de haber participadoen el entrenamiento con las computadoras de bolsillo.

Solucion para setablecer alguna conclusion acerca de la afirmacion ante-rior se utilizara una prueba t para dos muestras relacionadas, la cual contrastalas hipotesis:

H0 : µD = 0H1 : µD 6= 0

El valor del estadıstico de prueba es:

T =√

nD

SD

=√

16 ∗ 1,5

0,75= 4 ∗ 2 = 8

Ası, el p− valor de contraste de hipotesis al nivel de significancia del 1 %, es

p = P (T > 8) = 1 − P (T ≤ 8)

= 1 − CDF.t(8, 15)= 0,000

ası, p − valor < α, entonces se rechaza H0, al nivel de significancia del 1 %.De la informacion anterior se puede concluir que el rendimiento entre los

65

Page 71: Jesus Tapia Enero 2006 - Estadística Inferencial · Cap tulo 1 Estad stica e Investigaci on 1.1. Los or genes Los or genes de la estad stica se pueden decir tiene su nacimiento en

participantes del curso de estadıstica es afectado por el entrenamiento en elmanejo de computadoras de bolsillo.

Conclusion: Si los supuestos acerca de la forma de la distribucion de lapoblacion son ciertos, entonces se puede concluir basandose en informacionaportada por la muestra, que el promedio de calificaciones de los participantesdel curso de estadıstica es afectado por el entrenamiento en el manejo decomputadoras de bolsillo, a un nivel de significancia 1 %.

4.10.2. Dos Muestras Independientes

Supongamos que se dispone de una muestra de dos subpoblaciones y quesobre cada individuo de la muestra, se mide una variable X con distribucionnormal. La prueba t de Student para dos muestras independientes se utilizapara contrastar la hipotesis nula de que la muestra procede de dos subpobla-ciones en la que las media de X son iguales, es decir: se desea verificarsi lamedia de la variable cuantitativa X es igual en cada uno de los dos gruposestablecidos por los valores de una variable cuantitativa dicotomica.

El estadıstico de contraste para la prueba t de Student para dos muestrasindependientes, dependiendo sı las subpoblaciones presentan o no la mismaVarianza, puede asumir dos expresiones. En consecuencia, un paso previo alcontraste de igualdad de medias se contrasta, mediante la prueba de Levene,la igualdad de Varianza

Si el p − valor asociado al estadıstico de contraste es menor que α, serechaza la hipotesis nula a un nivel de significancia α.

Planteamiento del problema Sea X,Y dos variables aleatorias inde-pendiente, X con distribucion normal N(µ, σ), Y una variable dicotomica,con valores 1 y 2 la cual descompone la muestra en dos grupos mutuamenteexcluyentes y, exhaustivos digamos G1, G2

El interes de la investigacion recae en probar uno de los siguientes con-juntos de hipotesis:

Hipoteisis nula Hipotesis alternaH1 : µ1 6= µ2

H0 : µ1 = µ2 H1 : µ1 > µ2

H1 : µ1 < µ2

El mejor estadıstico de prueba posee una distribucion t de Student, eneste caso bajo la hipotesis nula H0 : µ1 = µ2, el estadıstico de prueba se

66

Page 72: Jesus Tapia Enero 2006 - Estadística Inferencial · Cap tulo 1 Estad stica e Investigaci on 1.1. Los or genes Los or genes de la estad stica se pueden decir tiene su nacimiento en

define como:

T =X2 − X1

SP

1

n+ 1

m

Cuando las varianzas de los grupos son diferentes, X1, X2 son las mediade las muestras respectivas, n el tamano del grupo 1, m el tamano del grupo 2;Sp es el estimador combinado de la varianza muestral comun definido como:

S2

p =(n − 1)S2

X + (m − 1)S2Y

n + m − 2

Cuando las varianzas son iguales en los dos grupos el estadıstico de pruebase define como:

T =X2 − X1√

S1

n+ S2

m

En cualquiera de los dos casos T posee una distribucion t de Student conn + m − 2 grado de libertad. Los criterios de rechazo de la hipotesis nulaH0 : µ1 = µ2 a un nivel de significancia α, se resumen en la siguiente tabla:

Hipotesis alterna Se rechaza H0 cuandoH1 : µX 6= µY t ≤ tα

2,n−1 o t ≥ t1−α

2,n−1

H1 : µX > µY t ≥ t1−α,n−1

H1 : µX < µY t ≤ tα,n−1

Para determinar cual de los dos estadısticos se debe utilizar, es necesariorealizar una prueba de Levene

La prueba de Leven es un test estadıstico formulado por Levene en1960, cuyo objetivo es verificar el supuesto de hocedasticidad o homogenei-dad de las varianzas entre dos o mas grupos, es decir, dada X una variablenormal, Y una variable dicotomica que descompone la muestra en dos gruposexcluyente y exhaustivo, se desea constrastar el conjunto de hipotesis:

H0 : σ2

1 = σ2

2

H1 : σ2

1 6= σ2

2

El estadıstico de prueba, cuando la hipotesis nula es verdadera, se definecomo:

T =S1

S2

67

Page 73: Jesus Tapia Enero 2006 - Estadística Inferencial · Cap tulo 1 Estad stica e Investigaci on 1.1. Los or genes Los or genes de la estad stica se pueden decir tiene su nacimiento en

donde Si es la desviacion tıpica muestral del grupo i, i = 1, 2; el cual sedistribuye Fn−1,m−2, es decir, T sigue una distribucion F con n−1 grados delibertad en el numerador y m − 1 grados de libertad en el denominador.

El p − valor del test se define como

p = P (F > tobservado)

se acepta H0 si p − valor > α, en caso contrario se rechaza.

Ejemplo 4.6 El sindicato de obreros de la compania “Nuevos horizontes.acusaa la gerencia de recursos humanos de discriminar a los obreros en el pago delsalario mensual, con el fin de aclarar tal situacion la gerencia de recursos hu-manos, selecciono una muestra aleatoria de 14 hombres y 16 mujeres, el suel-do promedio en los hombres fue de 850 mil bolıvares con desviacion estandarde 4 mil bolıvares, para el grupo de mujeres el promedio fue 860 mil bolıvaresy desviacion estandar 4.5 mil bolıvares. ¿Existen evidencias significativas alnivel del 5% de confianza para aceptar la afirmacion del sindicato?

Solucion

Para medir la discrepancia entre la diferencia de la media observada y lmedia teorica, se aplicara una prueba t de student para muestras independi-entes, basada en la informacion:

X1 = 850n = 14

σ1 = 4

X2 = 860σ2 = 4,5m = 16

Para elegir el estadıstico de contraste apropiado es necesario realizar unaprueba de Levene de hocedasticidad o homogeneidad de la varianza:

H1 : σ2

1 = σ2

2

H2 : σ2

1 6= σ2

2

El valor observado para el estadıstico de prueba es

Fobservado =S1

S2

=5

4,5= 1,11

68

Page 74: Jesus Tapia Enero 2006 - Estadística Inferencial · Cap tulo 1 Estad stica e Investigaci on 1.1. Los or genes Los or genes de la estad stica se pueden decir tiene su nacimiento en

luego el p − valor asociado al contraste de hipotesis es

p = P (F13,15 > 1,11

= 1 − CDF.F (1,11, 13, 15) = 0,4190

Como p − valor > α, entonces se acepta la hipotesis nula de igualdad delas varianzas al nivel del 5 % de significancia.

Bajo la hipotesis de homocedasticidad, el estadıstico de prueba para dosmuestras independientes esta definido por:

T =X2 − X1√

S1

n+ S2

m

el valor observado de el es:

Tobservado =860 − 850

16

14+ 20,25

16

=10

2, 408= 4, 15

El p − valor asociado al estadıstico t de prueba esta dado por:

p = P (t28 > 4,15

= 1 − CDF.t(4,15, 28) = 0,000

como p−valor < α se rechaza H0, es decir, al nivel de significancia del 5 % elsindicato tiene razon al afirmar que existe discriminacion sexual al cancelarel sueldo mensual

Conclusion Si los supuestos acerca de la forma de la poblacion son cier-tos, entonces se puede concluir basandose en informacion aportada por lamuestra, que existen diferencias significativas el salario mensual entre hom-bres y mujeres al 5 %

69

Page 75: Jesus Tapia Enero 2006 - Estadística Inferencial · Cap tulo 1 Estad stica e Investigaci on 1.1. Los or genes Los or genes de la estad stica se pueden decir tiene su nacimiento en

70

Page 76: Jesus Tapia Enero 2006 - Estadística Inferencial · Cap tulo 1 Estad stica e Investigaci on 1.1. Los or genes Los or genes de la estad stica se pueden decir tiene su nacimiento en

Capıtulo 5

Estadıstica bivariante

5.1. Estadıstica descriptiva bivariante

El analisis estadıstico de dos variables puede hacerse desde dos aproxima-ciones diferentes, por un lado se pueden comparar sus caracterısticas, biensean sus medias, sus varianzasa o sus distribuciones: simetrıa, forma. Porotro, se pueden estudiar sus relaciones, es decir, si los valores de una variableestan conectados de alguna forma con los valores de la otra variable. La natu-raleza: nominal, ordinal o continua de las caracterısticas objeto de estudiodeterminara la herramienta estadıstica mas adecuada para su analisis.

5.2. Variables cualitativas frente a cualitati-vas

El interes del analisis se concreta en saber si existen asociaciones o depen-dencia entre las variables cualitativas y de ser ası, cual es el grado y sentidode la asociacion. Por ejemplo ¿ la naturaleza de los contaminantes de los rıosesta relaciona al estado?

El analisis se puede extender a variables cuantitativas cuando estas tomanpocos valores, o cuando sean discretizado o categorizado.

Los elementos de la estadıstica bivariante en este caso son: Tablas decontingencia, representaciones graficas mediante diagramas de barras y re-sumenes numericos.

71

Page 77: Jesus Tapia Enero 2006 - Estadística Inferencial · Cap tulo 1 Estad stica e Investigaci on 1.1. Los or genes Los or genes de la estad stica se pueden decir tiene su nacimiento en

Frecuentemente surge la necesidad de determinar si existe alguna relacionentre dos variables diferntes en los que una poblacion ha sido clasificada y endonde cada variable asume un numero finito de valores, enotras palabras, lapoblacion se descompone mediante cada variable en al menos dos categorıasexhaustiva y mutuamente excluyentes, cuando una muestra aleatoria se ob-tiene de una muestra de una poblacion clasificada de esta manera, el resultadorecibe el nombre de tabla de contingencia de dos criterios de clasificacion.

Sea una muestra aleatoria de tamano n de una poblacion que se clasificade acurdo a dos caracterısticas A y B, cada una de las cuales contiene unnumero r y c de categorıas, respectivamente; ademas, sea oij el numero deobservaciones en la categorıa (i, j) i = 1, 2, · · · , r y j = 1, 2, · · · , c, entonces

Tablas de contingencia una tabla de contingencia es un arreglomatricialde r× c, donde la entradas de la tabla corresponden a las realizacionesdel par de variables, es decir se trata de cruzar dos variables en unatabla de doble entrada; en la primera fila se disponen las modalidadesde una variable, mientras que en la primera columna las modalidadesde la otra variable, en cada interseccion fila-columna se muestran lafrecuencia y/o el porcentaje de cada par de modalidades.

A1 A2 · · · Ar TotalesB1 O11 O12 · · · O1r n1.

B2 O21 O22 · · · O2r n2.... Oij

Bc Oc1 Oc2 · · · Ocr nc.

Totales n,1 n,2 · · · n.r n

Donde:

ni. =r

j=1

Oij i = 1, 2, · · · , c

n.j =c

i=1

Oij j = 1, 2, · · · , r

El procedimiento Tablas de contingencia en SPSS, crea tablas de clasi-ficacion doble y multiple y, ademas, proporciona una serie de pruebas ymedidas de asociacion para las tablas de doble clasificacion. La estruc-tura de la tabla y el hecho de que las categorıas esten ordenadas o nodeterminan las pruebas o medidas que se utilizaban. Los estadısticosde tablas de contingencia y las medidas de asociacion solo se calculanpara las tablas de doble clasificacion. Si especifica una fila, una colum-na y un factor de capa (variable de control), el procedimiento Tablas

72

Page 78: Jesus Tapia Enero 2006 - Estadística Inferencial · Cap tulo 1 Estad stica e Investigaci on 1.1. Los or genes Los or genes de la estad stica se pueden decir tiene su nacimiento en

de contingencia crea un panel de medidas y estadısticos asociados paracada valor del factor de capa (o una combinacion de valores para doso mas variables de control).

Una tabla de contingencia se representa como:

Por ejemplo, si GENERO es un factor de capa para una tabla de CASA-DO (sı, no) en funcion de VIDA (vida emocionante, rutinaria o aburri-da), los resultados para una tabla de doble clasificacion para las mujeresse calculan de forma independiente de los resultados de los hombres yse imprimen en paneles uno detras del otro.

El procedimiento Tablas de contingencia se ejecuta mediante la secuen-cia de comandos:

Analizar --> Estadısticos descriptivos--> Tablas de contingencia

como se ilustra en la figura siguiente:

al hacer doble clic, se activa la caja de dialogo:

La caja de dialogo anterior contiene los siguientes campos:

Filas Las variables seleccionadas se muestran como las filas de la tabu-lacion cruzada. Las variables seleccionadas deben ser categoricas(variables con un numero limitado de valores diferentes). Se generauna tabla de contingencia para cada combinacion de variables defila y columna.

Columnas Las variables seleccionadas se muestran como las colum-nas de la tabulacion cruzada. Las variables seleccionadas debenser categoricas (variables con un numero limitado de categorıasdiferentes). Se genera una tabla de contingencia para cada combi-nacion de variables de fila y columna.

73

Page 79: Jesus Tapia Enero 2006 - Estadística Inferencial · Cap tulo 1 Estad stica e Investigaci on 1.1. Los or genes Los or genes de la estad stica se pueden decir tiene su nacimiento en

Capas Las variables seleccionadas dividen la tabla de contingencia ensubgrupos. Por ejemplo una tabla de contingencia de region yrentabilidad podrıa subdividirse por lınea de producto. Las vari-ables seleccionadas deberıan ser categoricas (variables con unospocos valores diferentes).

Mostrar los graficos de barras agrupados Muestra un grafico debarras agrupadas para cada combinacion de variables de fila ycolumna, dentro de las categorıas de cada variable de capa.

suprimir tablas Muestra las medidas estadısticas relativas a la tablade contingencia sin llegar a mostrar la propia tabla. Si no se selec-ciona ningun estadıstico en el cuadro de dialogo Estadısticos detablas de contingencia, entonces no se generara ningun resultado.

Exactas Solicita el metodo exacto o el de Monte Carlo para el calculode los niveles de significacion de los estadısticos seleccionados. Soloesta disponible si ha instalado la opcion de pruebas exactas.

Estadısticos Solicita estadısticos y medidas de asociacion. Los es-tadısticos disponibles son:

Chi-cuadrado Contrasta la hipotesis de que las variables de filay de columna son independientes, sin indicar la magnitud o di-reccion de la relacion. Se muestran el chi-cuadrado de Pearson,el chi-cuadrado de la razon de verosimilitud y el chi-cuadradode la asociacion lineal-por-lineal. En las tablas 2x2, se cal-cula el estadıstico exacto de Fisher cuando una tabla que nosea resultado de columnas o filas perdidas de una tabla mayorpresente una casilla con una frecuencia esperada menor que 5.Para todas las restantes tablas 2x2 se calcula el chi-cuadrado

74

Page 80: Jesus Tapia Enero 2006 - Estadística Inferencial · Cap tulo 1 Estad stica e Investigaci on 1.1. Los or genes Los or genes de la estad stica se pueden decir tiene su nacimiento en

corregido de Yates. El estadıstico χ2 esta definido por

χ2 =∑ (oij − eij)

2

eij

donde

oij : valores observados de la variable

eij : valores esperados de la variable

Correlaciones El coeficiente de correlacion de Pearson, r, es unamedida de la asociacion lineal entre dos variables, y el coefi-ciente de correlacion de Spearman es una medida de la aso-ciacion entre los ordenes de los rangos. Los valores de am-bos varıan entre -1 (relacion negativa perfecta) y +1 (relacionpositiva perfecta). Un valor de 0 indica que no existe relacionlineal alguna.El coeficiente de correlacion muestral de Pearson esta definidopor

r =

∑n

i=1(xi − X)(yi − Y )

∑n

i=1(xi − X)2

∑n

i=1(yi − Y )2

este coeficiente se utiliza cuando las variables son continuas.para variables nominales realmente se utilizan los estadısticos

Coeficiente de contingencia Medida de asociacion basada enchi-cuadrado. El valor siempre esta comprendido entre 0 y 1.El valor 0 indica que no hay asociacion entre la fila y la colum-na. Los valores cercanos a 1 indican que hay gran relacion en-tre las variables. El valor maximo posible depende del numerode filas y columnas de la tabla.Se define mediante la relacion

C =

χ2

N + χ2

donde N es el numero de casos estudiados.Phi y V de Cramer Medida de cuanto varıan las observaciones

respecto a la media, expresada en las mismas unidades que losdatos. Estos estadısticos se definen como:

φ =χ2

N

V =χ2

N [mın(f, c) − 1]

75

Page 81: Jesus Tapia Enero 2006 - Estadística Inferencial · Cap tulo 1 Estad stica e Investigaci on 1.1. Los or genes Los or genes de la estad stica se pueden decir tiene su nacimiento en

donde

f : numero de filas en la tablac : numero de columnas en la tabla

Cuando las varaibles son ordinales las medidas de asociacion disponiblesson

Tau-b de Kendal Medida no parametrica de asociacion paravariables ordinales o de rangos que tiene en consideracionlos empates. El signo del coeficiente indica la direccion de larelacion y su valor absoluto indica la magnitud de la misma,de tal modo que los mayores valores absolutos indican rela-ciones mas fuertes. Los valores posibles van de -1 a 1, peroun valor de -1 o +1 solo se puede obtener a partir de tablascuadradas.El estadıstico τb se define como:

τb =P − Q

(P + Q + TF ) ∗ (P + Q + TC)

Tau-c de Kendal Medida no parametrica de asociacion para vari-ables ordinales que ignora los empates. El signo del coeficienteindica la direccion de la relacion y su valor absoluto indica lamagnitud de la misma, de tal modo que los mayores valoresabsolutos indican relaciones mas fuertes. Los valores posiblesvan de -1 a 1, pero un valor de -1 o +1 solo se puede obtenera partir de tablas cuadradas.El estadıstico τc se define como:

τc =2 ∗ mın(f, c) ∗ (P − Q)

[N2 ∗ mın(f, c) − 1]

Gamma Medida de asociacion simetrica entre dos variables or-dinales cuyo valor siempre esta comprendido entre menos 1y 1. Los valores proximos a 1, en valor absoluto, indican unafuerte relacion entre las dos variables. Los valores proximosa cero indican que hay poca o ninguna relacion entre las dosvariables. Para las tablas de doble clasificacion, se muestranlas gammas de orden cero. Para las tablas de tres o mas fac-tores de clasificacion, se muestran las gammas condicionales.El estadıstico Γ se define como:

Γ =P − Q

P + Q

76

Page 82: Jesus Tapia Enero 2006 - Estadística Inferencial · Cap tulo 1 Estad stica e Investigaci on 1.1. Los or genes Los or genes de la estad stica se pueden decir tiene su nacimiento en

donde:

P : es el numero de pares concordantesQ : es en numero de pares discordantes

TF : es el numero de pares igualados en la variable filaTC : es el numero de pares igualados en la variable columna

Un par de observaciones se considera par concordante si losvalores que toma una de las observaciones en las dos variablesson mayores que los que toma en la otra observacion.Un par de observaciones se considera par disconcordante si elvalore que toma una de las observaciones en las dos variablesson mayor que los que toma en la otra observacion, pero larelacion se invierte en la otra variable.En el caso de que los valores de una o ambas variables coin-cidieran, el par se considerarıa como un par igualado

Casillas Controla los estadısticos mostrados en las casillas de la tabla.Puede mostrar los porcentajes de fila, de columna y totales, losvalores esperados y los residuos.

5.3. Variable cualitativa frente a cuantitativa

Si la variable cualitativa es dicotomica, es decir, asume solo dos valores, serecomienda aplicar la prueba t de student para dos muestras independientes.Cuando la variable cualitativa es del ordinal o admite mas de dos valores, elanalisis recomendado es Analisis de la varianza de un factor

Mediante el analisis de la varianza a un factor se determina si existeuna variacion o desvicion significativa en los valores de una varaiblecontinua denominada variable dependiente, en los k grupos definidos por losvalores de una variable categorica, denominada variable independiente.

El objetivo del analisis de la varianza a un factor es generalizar la pruebat para deos nuestras independientes. Se esperea determinar si la diferenciaentre las medias de la variable dependiente en los grupos establecidos porlas combinaciones de los valores de la varaible independeinte son estadıstica-mente significativos.

Para lograr tal objetivo se contrasta las hipotesis:

H0 : µ1 = µ2 = · · · = µk

H1 : al menos dos medias son distintas

Supuestos teoricos

77

Page 83: Jesus Tapia Enero 2006 - Estadística Inferencial · Cap tulo 1 Estad stica e Investigaci on 1.1. Los or genes Los or genes de la estad stica se pueden decir tiene su nacimiento en

1. Sobre cada una de las k subpoblaciones definidas por los valores de lavariable independiente, la variable dependeiente se distribuye normal

2. Existe homogeneidad en la varianza, es decir, σ21 = σ2

2 = · · · = σ2k

3. Las observaciones son independientes

Al hablar de Variacion nos referimos a la diferencia entre los valores obser-vados de la variable dependiente y su promedio.

En el analisis de la varianza a un factor existen tres tipos de de variacionesen estudio:

Varianza Total SST se refiere a la varianza de las observaqciones de lavariable dependiente sin considerar los grupos, es decir, la variacionque resulta de comparar los datos con respecto de su promedio general,su valor de expresa como:

SST =k

i=1

ni∑

j=1

(

yij − µ)2

donde:

µ : media de la variable dependienteni : numero de observaciones en el grupo i

k : numero de grupos

Varianza intragrupos SSB es la variacion existente entre los diferentesgrupos definidos por los valores de la variable independiente, es decir,la dispersion de las medias de los grupos con relacion a la media total.Se expresa como:

SSB =k

j=1

(

Y .j − µ)2

donde

Y .j =1

nj

nj∑

i=1

yij

el promedio de la variable Y estimado sobre el grupo j.

Se prueba que:

G =SSB

k − 1∼ χ2

k−1

G se conoce como la media cuadratica intragrupos

78

Page 84: Jesus Tapia Enero 2006 - Estadística Inferencial · Cap tulo 1 Estad stica e Investigaci on 1.1. Los or genes Los or genes de la estad stica se pueden decir tiene su nacimiento en

Varianza entre grupos SSW es la variacion que existe los datos por grupoque no estan siendo considerados en el modelo de ANOVA y por ellose denomina no explicada. Puede verse como la dispersion de las ob-servaciones dentro de un mismo grupo, se expresa como

SSW =k

j=1

(

yij − Y .j

)2

Se prueba que:

W =SSW

N − k∼ χ2

N−k

W es la media cuadratica entre grupos.

Usando la definicion de la distribucion F , se tiene que

G

W∼ Fk−1,N−k

el cual define el estadıstico de prueba para el analisis de la varianza.

La informacion completa del analisis de la varianza se resume en la tablade ANOVA:

Fuente de Suma de Grados de MediaVariacion Cuadrados libertad Cuadratica F P-valorIntragrupos SSB k − 1 GEntregrupos SSW N − k W Fk−1,N−k pTotal SST N − 1

Fijado el nivel de significancia α, si

P − valor > α, entonces se acepta H0

En caso contrario se rechaza H0 y es necesario aplicar alguna pruebaPost hoc para detectar en cual grupo existen diferencias significativas.La prueba Post hoc mas simple y efectiva es la prueba de las mınimasdiferencias significativas de Tukey(MDS)

MDS Utiliza pruebas t para llevar a cabo todas las comparacionespor pares entre las medias de los grupos. No se efectua ningunacorreccion de la tasa de error para el hecho de realizar multiplescomparaciones.

79

Page 85: Jesus Tapia Enero 2006 - Estadística Inferencial · Cap tulo 1 Estad stica e Investigaci on 1.1. Los or genes Los or genes de la estad stica se pueden decir tiene su nacimiento en

Genera un conjunto de contraste de los niveles de cada una de losgrupos contra los grupos restante identificando en que grupos exis-ten diferencias significativas de las media, nuevamente el elementoclave en la conclusion es el p-valor asociado a cada contraste.

El Analisis de la varianza se obteiene en SPSS, ejecutando la siguiente se-cuencia de comandos

5.4. Variable cuantitativa frente a cuantitati-va

El objetivo principal, es detectar posibles relaciones lineales entre las vari-ables (Analisis de correlacion) y, si estas presentan un fuerte grado decorrelacion, buscar la forma funcional que mejor explique la variable depen-diente a partir de la independiente(Analisis de regresion)

5.4.1. Analisis de correlacion

El campo cientıfico es variadısimo, sin embargo, uno de los aspectos o finesde mayor importancia de la ciencia, es el hecho de poder predecir un fenomenoa traves del conocimiento de los factores que intervienen en el, la magnitudy la relacion de dependencia entre ellos, de tal forma que dicha relacion seaexpresada funcionalmente, es decir, mediante un modelo matematico.

Para establecer la magnitud de la relacion entre los fenomenos, su utilizael concepto de Correlacion; ası, la correlacion es el grado de dependenciaque existe entre dos o mas variables, si la relacion se establece entre dosvariables, esta se denomina correlacion simple, por otra parte si, la relacionde dependencia entre las dos variables representa una lınea recta, entoncesla correlacion es lineal.

El indicador del grado de correlacion lineal simple, es el coeficiente decorrelacion de Pearson r, definido por

r =

∑n

i=1(xi − X)(yi − Y )

∑n

i=1(xi − X)2

∑n

i=1(yi − Y )2

como ya sabemos, varia entre -1 (relacion negativa perfecta) y +1 (relacionpositiva perfecta). Un valor de 0 indica que no existe relacion lineal alguna.

80

Page 86: Jesus Tapia Enero 2006 - Estadística Inferencial · Cap tulo 1 Estad stica e Investigaci on 1.1. Los or genes Los or genes de la estad stica se pueden decir tiene su nacimiento en

El coeficiente de correlacion lineal de Pearson r, proporciona la siguienteinformacion

1. La existencia o no de una realciaon lineal entre las dos variables

2. La direccion de esta relacion, si es que existe

3. El grado o fortaleza de la relacion

Por ejemplo, un coeficiente de correlacion de Pearson r = −0,96 establecela existencia de una correlacion inversa entre las dos variables en estudio, yaque el signo de r es negativo, por otra parte, la correlacion es altamentesignificativa, puesto que, el valor absoluto de r es proximo a 1. si por elcontrario, r = 0,92, la relacion que existe entre las variables es directa, locual es indicado por el signo positivo de r, y altamente significativa; casocontrario si r = 0,005 no existe relacion lineal entre las variables.

Es de hacer notar, que a causa de varias interpretaciones injustificablesque ha sufrido r, es imperioso que el lector comprenda que r por sı mismono puede probar ni desmentir una relacion causal entre las variables, yaque, la manifestacion de una relacion causa-efecto es posible solo a travesde la compresnsion de la relacion natural entre las variables, y esta no debemanifestarse solo por la existencia de una fuerte correlacion lineal entre ellas.

En SPSS, el analisis de correlacion se realiza mediante la siguiente se-cuencia de comandos:

Analizar --> Correlacion --> Bivariada

como se ilustra en la figura siguiente:

Al hacer clic se activa la caja de dialogo siguiente:

La informacion generada por este comando esta contenida en una tablade la forma:

Existe un criterio comun entre los entendidos en el area, el cual estableuna escala para el grado de correlacion entre las variables en terminos de lamagnitud de r, el cual se resume en la tabla siguiente:

81

Page 87: Jesus Tapia Enero 2006 - Estadística Inferencial · Cap tulo 1 Estad stica e Investigaci on 1.1. Los or genes Los or genes de la estad stica se pueden decir tiene su nacimiento en

Magnitud grador = ±1 Prefecta±0.81 a ±0,99 Muy alta±0.61 a ±0,80 Alta±0.41 a ±0,60 Moderada±0.21 a ±0,40 Baja±0.01 a ±0,20 Muy bajar = 0 Nula

El coeficiente de correlacion lineal simple de Pearson r, es un estimadormuestral del coeficiente de correlacion lineal poblacional ρ, el cual es unamedida del grado de asociacion lineal que depende del tamano de la muestra:un mismo valor del coeficiente de correlacion muestral, calculado a partir dedistintos tamano de dos pares de variables no coresponden a un mismo gradode asociacion lineal. Para determinar si la asociacion es estadısticamentesignificativa, se debe formulas una prueba de hipotesis, definida por:

H0 : ρ = 0H1 : ρ 6= 0

La conclusion a cerca de aceptar o rechazar H0 se toma en funcion al niv-el de significancia α, fijado por el investigador y al p-valor del la prue-ba de hipotesis, este elemento se encuentra en la tabla de correlaciones(sig.bilateral).

Un elemento geometrico de gran utilidad para el estudio de la existenciade correlaci’on lineal es el diagrama de dispersion o nube de puntos; una nubede puntos alineados aproximadamente lineal, induce a afirmar la existencia

82

Page 88: Jesus Tapia Enero 2006 - Estadística Inferencial · Cap tulo 1 Estad stica e Investigaci on 1.1. Los or genes Los or genes de la estad stica se pueden decir tiene su nacimiento en

Corelaciones

X

Y

X Y

Correlaciones

Sig (bilateral)

N

Correlaciones

Sig (bilateral)

N

1.000

1.0000.921

0.921

50 50

50 50

0.042

0.042

de una correlacion lineal simple, en caso contrario, las variables no estancorelacionadas linealmente.

Ademas, del coeficiente de correlacion lineal de Pearson, es frecuente apo-yarnos en un disgrama de dispersion o nube de puntos como elemento graficopara establecer la correlacion entre dos veriables.

Diagrama de dispersion Grafico que representa dos variables en dos ejesde escala. Una variable define el eje horizontal y la otra define el ejevertical. Para cualquier caso dado, los valores en las variables sirvencomo coordenadas del punto para ese caso.

Un diagrama de dispersion se obtiene en SPSS, ejecutando la secuenciade comandos:

83

Page 89: Jesus Tapia Enero 2006 - Estadística Inferencial · Cap tulo 1 Estad stica e Investigaci on 1.1. Los or genes Los or genes de la estad stica se pueden decir tiene su nacimiento en

Graficos-->Dispersion

como se ilustra en la figura siguiente:

al ejecutar el campo Definir, se activa la caja de dialogo:

La cual contiene los campos:

Eje x Variable que determina la posicion horizontal de cada punto.Esta variable debe ser numerica.

Eje Y Variable que determina la posicion vertical de cada punto. Estavariable debe ser numerica.

Establecer Marcas por Variable de control que determina las cate-rıas mostradas en el grafico. En el diagrama de dispersion, cadavalor de la variable se representa por un marcador de color distin-tivo o por un sımbolo.

84

Page 90: Jesus Tapia Enero 2006 - Estadística Inferencial · Cap tulo 1 Estad stica e Investigaci on 1.1. Los or genes Los or genes de la estad stica se pueden decir tiene su nacimiento en

Etiquetar los casos mediante Variable utilizada para etiquetar lospuntos del diagrama de dispersion. Despues de seleccionar unavariable, seleccione Mostrar el grafico con las etiquetas de caso,del cuadro de dialogo Opciones, para mostrar una etiqueta juntoa cada punto. Si lo prefiere, puede mostrar u ocultar las etiquetasde los puntos individuales, mediante la edicion del diagrama dedispersion despues de que este aparezca en el Visor.

5.4.2. Analisis de regresion lineal simple

Establecido mediante el analisis de correlacion el grado y direccion de larelacion lineal entre dos variables continuas, se debe proceder a establecerel modelo lineal que expresa la relacion, este procedimiento se conoce comoAnalisis de regresion. El tipo de regresion con el que se trabajara quı, es laregresion lineal simple, derivada del analisis de correlacion lineal simple, lacual intervienen solo dos variable: la variable dependiente o respuesta y lavariable independiente o predictor.

Considere las variables X; Y y una muestra de tamano n, es decir, se tiene:x1, y1, · · · , xn, yn, se trata de aproximar los valores de Y , variable dependientemediante una funcion lineal de los valores de la variable independiente X,que exprese la asociacion lineal existente entre ellas, en otra palablras, sedesea construir un modelo matematicos de la forma:

Y = A + BX + e

donde

A; B : parametros desconocidos a estimar

e : variable aleatorio, o errores distribuida N(0, σ2)

En particular, para cada observacion se debe tener:

yi = A + Bxi + ei

Como la informacion conocida es a nivel de la muestra, realmente losparametros A; B, son estimados mediante sus equivalentes muestrales a, b,entonces el modelo debe cumplir condiciones adicionales a la linealidad parapoder hacer inferencia sobre los parametros de la poblacion, estos supuestosson:

1. El modelo esta bien especificado:

85

Page 91: Jesus Tapia Enero 2006 - Estadística Inferencial · Cap tulo 1 Estad stica e Investigaci on 1.1. Los or genes Los or genes de la estad stica se pueden decir tiene su nacimiento en

a) La relacion es lineal

b) la correlacion es significativa

2. Los errores deben cumplir

a) Los errores se distribuye N(0, σ2)

b) E(ei) = 0

c) E(e2i ) = σ2 para todo i

d) E(eixi) = 0 para todo i

e) E(eiej) = 0 para todo i 6= j

Geometricamente, los supuestos acerca de los errores se ilustran en la graficasiguente:

X

Y

En conclusion ei ∼ N(0, σ2) y de la ecuacion del modelo matematico sededuce que yi ∼ N(µi, σ

2), donde µi = a + bxi.

Los coeficientes del modelo a, b son estimados mediante el metodo demınimos cuadrados, usando los formulas de normalidad

a = y + bx

b =

∑n

i=1(yi − y)(xi − x)

∑n

i=1(xi − x)2

Los parametros muestrales se pueden interpretar como:

86

Page 92: Jesus Tapia Enero 2006 - Estadística Inferencial · Cap tulo 1 Estad stica e Investigaci on 1.1. Los or genes Los or genes de la estad stica se pueden decir tiene su nacimiento en

El parametro a representa la intersepcion de la recta de regresion linealsimple con el eje y, es decir representa el valor de la variable dependientecuando la variable independiente se anula

El parametro b representa la tsa de cambio unitaria de la variable depen-diente por cada unidad de cambio en la variable independiente

Una vez obtenidos los coeficientes del modelo de regresion lineal simplese debecompletar el proceso interpretando adecuadamente los resultados obtenidos,esto implica al menos dos cosas:

1. Conocer la significancia de los valores de a y b obtenidos

2. Analizar la bondad de ajuste

La significancia de los coeficientes del modelo se realiza de dos forma:

Significancia conjunta la significancia conjunta realiza la inferencia acercade la nulidad o no del vector de coeficeintes

β =(

ab

)

mediante la prueba de hipotesis

H0 : β = 0H1 : β 6= 0

Las conclusiones se obtienen mediante una tabla de analisis de la varian-za.

Modelo Suma de Cuadrados Gl Media Cuadratica F SigRegresion 4.38E+09 1 4.38E+09 112.45 0.000Residual 1.75E+09 24 48963

Total 7.13E+09 25

Significancia individual la significancia individual estudia si por separadocada coeficente es nulo o no, se realizan dos pruebas de hipotesis unapara cada coeficeinte:

87

Page 93: Jesus Tapia Enero 2006 - Estadística Inferencial · Cap tulo 1 Estad stica e Investigaci on 1.1. Los or genes Los or genes de la estad stica se pueden decir tiene su nacimiento en

Prueba de significancia para a esta prueba esta formulada como

H0 : a = 0H1 : a 6= 0

el estadıstico de prueba se define como:

ta =a

Sa

donde Sa el error tıpico de estimacion del parametro, el cual con-stituye una valoracion de los errores que se han cometido en laestimacion o de la parte que se dejo sin explicar.

Prueba de significancia para b esta prueba esta formulada como

H0 : b = 0H1 : b 6= 0

el estadıstico de prueba se define como:

tb =b

Sb

donde Sb el error tıpico de estimacion del parametro.

A partir de la informacion contenida en la tabla del analisis de la varianza,se puede estimar el coeficiente de determinancia R2 mediante la expresion

R2 =SCR

SCT

donde

SCR : suma de cuadrados de la regresionSCT : suma de cuadrados totales

es un valor comprendido entre 0 y 1, se interpreta como: el porcentaje devariabilidad de la variable dependiente explicado por la variable independien-te.

El analisis de regresion lineal simple, aun cuando, la mayorıa de los proble-mas Causa-efecto, ameritan de mas de dos variables independientes, en situa-ciones particulares pued ser de utilidad par la prediccion de respuestas enfuncion de un conjunto de pares de valores o muestra bivariada, modelos deregresion lineal mas complejos pueden ser considerados y estudiados con el

88

Page 94: Jesus Tapia Enero 2006 - Estadística Inferencial · Cap tulo 1 Estad stica e Investigaci on 1.1. Los or genes Los or genes de la estad stica se pueden decir tiene su nacimiento en

apoyo de software, los paquetes estadısticos permiten estimar otros modelosde regresion no lineales, donde las expresiones matematicas son polinomio,funciones racionales o expresiones exponenciales.

Para obtener el analisis de regresion lineal simple, utilizando SPSS, seejecuta la secuencia de comandos:

Analizar -->Regresion --> Lineal

La cual activa la caja de dialogo:

Los campos de interes son:

Dependiente Variable cuyos valores se desea predecir o resumir.

Independientes Variables utilizadas para predecir el valor de la variabledependiente. Tambien se denominan variables predictoras o variablesexplicativas. Para poder ejecutar este procedimiento, la lista debe con-tener al menos una variable.

Estadısticos Solicita resultados estadısticos opcionales, incluyendo los co-eficientes de regresion, descriptivos, estadısticos de ajuste del modelo,la prueba de Durbin-Watson y diagnosticos de la colinealidad.

89

Page 95: Jesus Tapia Enero 2006 - Estadística Inferencial · Cap tulo 1 Estad stica e Investigaci on 1.1. Los or genes Los or genes de la estad stica se pueden decir tiene su nacimiento en

Graficos Solicita graficos opcionales, incluyendo: graficos de dispersion, his-togramas, graficos de probabilidad normal y diagramas de los valoresatıpicos.

Guardar Permite guardar los valores pronosticados, los residuos y medidasrelacionadas como nuevas variables que se anaden al archivo de datosde trabajo. En los resultados, una tabla muestra el nombre de cadanueva variable y su contenido.

90