Analisis Estad stico de Datos Biom...

64
Universidad Aut ´ onoma de Baja California Facultad de Ingenier´ ıa, Arquitectura y Dise˜ no Bioingenier´ ıa An ´ alisis Estad ´ ıstico de Datos Biom ´ edicos Dra. Dora-Luz Flores Dr. David Cervantes Ensenada, Baja California, M´ exico 2016

Transcript of Analisis Estad stico de Datos Biom...

Universidad Autonoma de Baja CaliforniaFacultad de Ingenierıa, Arquitectura y Diseno

Bioingenierıa

Analisis Estadıstico de Datos Biomedicos

Dra. Dora-Luz Flores

Dr. David Cervantes

Ensenada, Baja California, Mexico 2016

Indice general

1. Estadıstica Descriptiva 21.1. Conceptos basicos de estadıstica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21.2. Teorema de Bayes aplicado a datos biomedicos . . . . . . . . . . . . . . . . . . . . . 31.3. Distribuciones de probabilidades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

1.3.1. Distribucion de probabilidad de variables discretas . . . . . . . . . . . . . . . 61.3.2. Distribuciones de probabilidad de variables continuas . . . . . . . . . . . . . 10

2. Estadıstica inferencial 142.1. Intervalos de confianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

2.1.1. Intervalo de confianza para la media de una poblacion . . . . . . . . . . . . . 142.1.2. Distribucion t . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172.1.3. Intervalo de confianza para la diferencia entre dos medias poblacionales . . . 19

2.2. Prueba de hipotesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 222.2.1. Conceptos basicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 222.2.2. Prueba de hipotesis para la media de una sola poblacion . . . . . . . . . . . 242.2.3. Prueba de hipotesis para la diferencia entre las medias de dos poblaciones . . 312.2.4. Comparacion por parejas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

3. Analisis de varianza 403.1. Diseno completamente al azar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 413.2. Prueba de comparacion de medias . . . . . . . . . . . . . . . . . . . . . . . . . . . . 493.3. Diseno por bloques al azar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

4. Modelos de regresion 574.1. Regresion y correlacion lineal simple . . . . . . . . . . . . . . . . . . . . . . . . . . 57

4.1.1. Modelo de regresion lineal simple . . . . . . . . . . . . . . . . . . . . . . . . 574.1.2. Ecuacion de regresion simple . . . . . . . . . . . . . . . . . . . . . . . . . . . 584.1.3. Coeficiente de regresion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

1

Unidad 1

Estadıstica Descriptiva

1.1. Conceptos basicos de estadıstica

1. Media. Se obtiene sumando todos los valores (xi) en una poblacion (µ) o muestra (x) ydividiendo entre el numero de valores sumados (N o n). La media de una poblacion estadada por:

µ =

∑Ni=1 xiN

.

Para la media se una muestra se tiene:

x =

∑ni=1 xin

.

2. Mediana. De un conjunto finito de valores es aquel valor que divide al conjunto en dos partesiguales. Si el numero de valores es impar, la mediana es el valor medio o central, siempre ycuando esten ordenados. Cuando el numero de valores es impar, la mediana es la media delos dos numeros centrales.

3. Moda. Es aquel valor que ocurre con mayor frecuencia.

4. Varianza. Es la dispersion en funcion del esparcimiento de los valores alrededor de su media.La varianza de una muestra esta dada por:

s2 =

∑ni=1(xi − x)2

n− 1.

Para la varianza de una poblacion es:

σ2 =

∑ni=1(xi − µ)2

N.

2

5. Desviacion estandar. Para obtener la medida de dispersion en unidades originales, seutiliza la raız cuadrada de la varianza.

s =√s2 =

√∑ni=1(xi − x)2

n− 1.

6. Teorema del lımite central. Dada una poblacion de cualquier forma funcional no normalcon una media µ y varianza σ2, la distribucion muestral de x, calculada a partir de muestrasde tamano n de dicha poblacion, sera casi normal con media µ y varianza σ2/n cuando lamuestra es muy grande.

1.2. Teorema de Bayes aplicado a datos biomedicos

Definicion 1.2.1 Un falso positivo resulta cuando una prueba indica que el estado es positivo,cuando en realidad es negativo.

Definicion 1.2.2 Un falso negativo resulta cuando una prueba indica que un estado es negativo,cuando en realidad es positivo.

Posibles preguntas:

1. Dado que un individuo tiene la enfermedad, ¿que probabilidad existe de que la prueba resultepositiva?

2. Dado que un individuo no tiene la enfermedad, ¿que probabilidad existe de que la pruebaresulte negativa?

3. Dada una prueba positiva de deteccion, ¿que probabilidad existe de que el individuo tengala enfermedad?

4. Dado el resultado negativo de una prueba de deteccion, ¿cual es la probabilidad de que elindividuo no tenga la enfermedad?

Definicion 1.2.3 La sensibilidad de una prueba es la probabilidad de un resultado positivo dela prueba dada la presencia de la enfermedad.

Definicion 1.2.4 La especificidad de una prueba es la probabilidad de un resultado negativo dela prueba dada la ausencia de la enfermedad.

Para obtener la estimacion del valor que predice la positividad o negatividad de una prueba (osıntoma) se utiliza el teorema de Bayes. Para obtener el valor que predice la positividad de unaprueba de deteccion se utiliza la ecuacion 1.2.1.

P (D | T ) =P (T | D)P (D)

P (T | D)P (D) + P (T | D)P (D)(1.2.1)

3

¿Diagnostico de Alzhaimer?Resultado dela prueba Si (D) No (D) TotalPositivo (T ) 436 5 441Negativo (T ) 14 495 509Total 450 500 950

Para obtener el valor que predice la negatividad de una prueba de deteccion se utiliza laecuacion 1.2.2

P (D | T ) =P (T | D)P (D)

P (T | D)P (D) + P (T | D)P (D)(1.2.2)

Donde D representa la presencia de la enfermedad, T representa un resultado positivo de laprueba, D es la ausencia de la enfermedad y T es el resultado negativo de la prueba.

Ejemplo 1.2.1 Un equipo de investigacion medica pretende evaluar una prueba de deteccionpropuesta para la enfermedad de Alzhaimer. La prueba se basa en una muestra aleatoria de 450enfermos y en otra muestra aleatoria independiente de 500 pacientes que no presentan sıntomasde la enfermedad. Las dos muestras se obtuvieron de una poblacion de individuos con edades de65 anos o mas. Los resultados son los siguientes:

Se estima la prueba de sensibilidad, P (T | D) = 436/450 = 0.9689. La especificidad es P (T |D = 495/500 = 0.99. Con esto se calcula el valor que predice la positividad de la prueba.

P (D | T ) =P (T | D)P (D)

P (T | D)P (D) + P (T | D)P (D)

P (D | T ) =(436/450)P (D)

(436/450)P (D) + (5/500)P (D)

P (D | T ) =(0.9689)P (D)

(0.9689)P (D) + (0.01)P (D)

De acuerdo con Evans et al. se estima que el 11.3 % de la poblacion de 65 anos o mas en EstadosUnidos tiene la enfermedad de Alzhaimer, esto representa la tasa de la enfermedad en la poblaciongeneral mas representativa, P (D). Con esto, se obtiene:

P (D | T ) =(0.9689)(0.113)

(0.9689)(0.113) + (0.01)(1− 0.113)= 0.93

4

EnfermedadResultado del examen Presente AusentePositivo 490 70Negativo 160 1130

Por lo que se observa, el valor predictivo de la prueba es muy alto.

Ejercicio 1.2.1 Un equipo de investigacion medica pretende evaluar la utilidad de cierto sıntoma(llamado S) para el diagnostico de determinada enfermedad. En una muestra aleatoria indepen-diente de 775 pacientes con esa enfermedad, 744 presentaron el sıntoma. En una muestra aleatoriaindependiente de 1380 individuos sin la enfermedad, 21 presentaron el sıntoma.

1. Para el contexto de este ejercicio, ¿que es un falso positivo?

2. ¿Que es un falso negativo?

3. Calcule las sensibilidad de los sıntomas.

4. Calcule la especificidad de los sıntomas.

5. Suponga que se sabe que la tasa de la enfermedad en la poblacion en general es 0.001. ¿Cuales el valor que predice la positividad del sıntoma?

6. ¿Cual es el valor que predice la negatividad del sıntoma?

7. Calcular los valores que predicen la positividad y la negatividad del sıntoma para las siguien-tes tasas hipoteticas: 0.0001, 0.01 y 0.1.

8. Con base en los resultados que se ibtuvieron en el inciso anterior, ¿que se puede concluiracerca de los valores que predicen el sıntoma?

Ejercicio 1.2.2 La siguiente tabla muestra los resultados de la evaluacion de la prueba de de-teccion en la que participaron una muestra aleatoria de 650 individuos con la enfermedad y unasegunda muestra aleatoria independiente de 1200 individuos sin la enfermedad.

1. Calcule las sensibilidad de la prueba.

2. Calcule la especificidad de la prueba.

3. Si la tasa de la enfermedad en la poblacion en general es 0.002. ¿Cual es el valor que predicela positividad de la prueba?

4. ¿Es una estimacion satisfactoria 650/1850 de la tasa de la enfermedad en la poblacion general?Explique su respuesta.

5

Tabla 1.3.1: Prevalencia del consumo de medicamentos prescritos y no prescritos durante el emba-razo entre mujeres dadas de alta despues del parto en un hospital de EUA

Numero de medicamentos Frecuencia0 14251 13522 7933 3484 1565 586 287 158 69 310 112 1

Total 4185

1.3. Distribuciones de probabilidades

La distribucion de probabilidad muestra la relacion que existe entre lo valores de la variablealeatoria y las probabilidades de su ocurrencia, esta se puede expresar en forma de tabla, graficao formula y proporciona al experto y al investigador herramientas poderosas para simplificar ydescribir un conjunto de datos para llegar a conclusiones acerca de la poblacion de datos sobre labase de una muestra.

1.3.1. Distribucion de probabilidad de variables discretas

Para iniciar el estudio de las distribuciones de probabilidad, se considera la distribucion deprobabilidad de una sola variable discreta:

Definicion 1.3.1 La distribucion de probabilidad de una variable aleatoria discreta es una tabla,una grafica, una formula u otro sistema utilizado para especificar todos los valores posibles de unavariable aleatoria discreta junto con sus probabilidades respectivas.

Ejemplo 1.3.1 En un hospital de EUA, entre 1980 y 1982, se estudio la asociacion del uso demedicamentos con varias caracterısticas de la madre. Sus hallazgos sugieren que la mujer quemuestra un comportamiento mas propenso a correr riesgos durante el embarazo, tambien es maspropensa a utilizar medicamentos durante el mismo. La tabla 1.3.1 muestra la prevalencia delconsumo de medicamentos prescritos y no prescritos durante el embarazo entre las mujeres estu-diadas. Se construye la distribucion de probabilidad de la variable discreta X que indica el numerode medicamentos prescritos y no prescritos consumidos por ellas.

En la tabla 1.3.1 se muestra la distribucion de probabilidad del numero de medicamentosconsumidos con y sin prescripcion durante el embarazo entre las mujeres descritas en la tabla 1.3.1.

6

Tabla 1.3.2: Distribucion de probabilidad del numero de medicamentos consumidos con y sinprescripcion durante el embarazo entre las mujeres descritas en la tabla 1.3.1

Numero de medicamentos (x) P (X = x)0 0.34051 0.32282 0.18953 0.08324 0.03735 0.01396 0.00677 0.00368 0.00149 0.000710 0.000212 0.0002

Total 1.0000

Algunas veces es mas conveniente trabajar con la distribucion de probabilidad acumulada. Estaresulta de sumar sucesivamente las probabilidades P (X = x). La tabla 1.3.1 muestra la distribucionde la probabilidad acumulada de la tabla 1.3.1.

Distribucion binomial

Esta distribucion es una de las mas utilizadas en estadıstica aplicada. Se deriva de un procedi-miento conocido como ensayo de Bernoulli. Cuando en un procedimiento aleatorio o experimento,llamado ensayo, puede ocurrir solo uno de dos resultados mutuamente excluyentes, como vida omuerte, enfermo o sano, masculino o femenino, el ensayo se llama ensayo de Bernoulli.

Una secuencia de ensayos de Bernoulli forma un proceso de Bernoulli si cumplen las siguientescondiciones:

1. En cada ensayo ocurre uno de dos posibles resultados, mutuamente excluyentes (exito ofracaso).

2. La probabilidad de un exito, denotado por p, permanece constante de un ensayo a otro, y laprobabilidad de fracaso, 1− p, se denota con q.

3. Los ensayos son independientes, el resultado de algun ensayo no es afectado por el resultadode otro ensayo.

La distribucion binomial esta dada por la ecuacion 1.3.1.

f(x) =n Cxqn−xpx =n Cxp

xqn−xpara x = 0, 1, 2, . . . , n

= 0, en caso contrario(1.3.1)

7

Tabla 1.3.3: Distribucion de probabilidad acumulada del numero de medicamentos consumidos cony sin prescripcion durante el embarazo entre las mujeres descritas en la tabla 1.3.1

Numero de medicamentos (x) Frecuencia acumulada P (X ≤ x)0 0.34051 0.66332 0.85283 0.93604 0.97335 0.98726 0.99397 0.99758 0.99899 0.999610 0.999812 1.0000

Tabla 1.3.4: Distribucion binomialNumero de exitos (x) Probabilidad f(x)

0 nC0qn−0p0

1 nC1qn−1p1

2 nC2qn−2p2

......

x nCxqn−xpx

......

n nCnqn−npn

Total 1

en donde:

nCx =n!

x!(n− x)!

es el numero de combinaciones de n objetos que pueden formarse tomando x a la vez. Enla ecuacion 1.3.1 f(x) = P (X = x), donde X es la variable aleatoria, el numero de exitos es nensayos. Se puede presentar en forma tabular como se muestra en la tabla 1.3.1.

Ejemplo 1.3.2 Suponga que se sabe que 30 por ciento de cierta poblacion es inmune a algunaenfermedad. Si se escoge una muestra aleatoria de 10 elementos de entre esta poblacion, ¿cual esla probabilidad de que dicha muestra contenga exactamente cuatro personas inmunes?.

f(4) =10 C4(0.7)6(0.3)4

8

f(4) =10!

4!6!(0.117649)(0.0081)

f(4) = 0.2001

Ejercicio 1.3.1 Un estudio reporta que cerca del 26 % de personas adultas en EUA tienen sobre-peso. Si se extrae una muestra aleatoria de 20 adultos, encuentre la probabilidad de que el numerode personas con sobrepeso sean: a) Exactamente tres personas. b) Tres o mas personas. c) Menosde tres y d) Entre tres y siete, inclusive.

Ejercicio 1.3.2 La probabilidad de que una persona que sufre migrana tenga alivio con un farma-co especıfico es de 0.9. Se seleccionan aleatoriamente a tres personas con migrana a las que se lesadministra el farmaco. Encuentre la probabilidad de que el numero de personas que logran aliviosean: a) Exactamente cero, b) Exactamente uno, c) Mas de uno, d) Dos o menos, e)Dos o tres yf) Exactamente tres.

Distribucion de Poisson

Esta distribucion ha sido empleada extensamente en biologıa y medicina como modelo deprobabilidad.

Si x es el numero de ocurrencias de algun evento aleatorio en un intervalo de espacio o tiempo,la probabilidad de que x ocurra esta dada por la ecuacion 1.3.2.

f(x) =e−λλx

x!, para: x = 0, 1, 2, . . . (1.3.2)

La letra λ es el parametro de la distribucion y es el numero promedio de ocurrencias del eventoaleatorio dentro del intervalo. El sımbolo e, es la constante 2.7183.

Una caracterıstica de la distribucion de Poisson es que la media y la varianza son iguales.

Ejemplo 1.3.3 En un estudio de suicidas, se encontro que la distribucion mensual de adolescentessuicidas en el condado de Cook, Illionis, entre 1977 y 1987 siguio una distribucion de Poisson conparametro λ = 2.75. Encuentre la probabilidad de que en un mes seleccionado aleatoriamente seauno en el que ocurrio el suicidio de tres adolescentes.

Con la ecuacion 1.3.2 se encuentra la respuesta:

P (X = 3) =e−2.752.753

3!=

(0.063928)(20.796875)

6= 0.221584

Ejercicio 1.3.3 Suponga que se sabe que en cierta area de una gran ciudad el numero promediode rata por manzanas es de cinco. Suponga que el numero promedio de ratas sigue una distribucionde Poisson, calcule la probabilidad de que en una manzana elegida aleatoriamente a) Exista exac-tamente cinco rata, b) Existan mas de cinco ratas, c) Existan menos de cinco ratas y d) Existanentre cinco y siete ratas, inclusive.

9

Ejercicio 1.3.4 En cierta poblacion, cada ano se diagnostica un promedio de 13 nuevos casos decancer esofagico. Si la incidencia anual de este tipo de cancer sigue una distribucion de Poisson,calcule la probabilidad de que en un ano determinado el numero de nuevos casos sea: a) Exac-tamente 10, b) Al menos ocho, c) No mas de 12, d) Entre nueve y 15, inclusive y e)Menos desiete.

1.3.2. Distribuciones de probabilidad de variables continuas

Definicion 1.3.2 A una funcion no negativa f(x) se le llama distribucion de probabilidad para lavariable aleatoria continua X, si el area total delimitada por su curva y el eje de las x es igual a 1y si la subarea delimitada por la curva, el eje de las x, y por las lıneas perpendiculares levantadassobre los puntos cualesquiera a y b da la probabilidad de que X este entre los puntos a y b.

Distribucion normal

La densidad normal esta dada por

f(x) =1√2πσ

e−(x−µ)2/2σ2

, −∞ < x <∞ (1.3.3)

donde π y e son constantes conocidas, 3.14159. . . y 2.71828. . ., respectivamente. Los dos parame-tros de la distribucion son µ, la media, y la desviacion estandar, σ.

Caracterısticas de la distribucion normal:

1. Es simetrica respecto a su media µ (figura 1.3.2).

2. La media, la mediana y la moda son todas iguales.

3. El area bajo la curva sobre el eje x es igual a uno.

4. El area bajo la curva con lımites a una desviacion estandar, es 0.68; a dos desviacionesestandar, es 0.95 y a tres, el area es 0.997, aproximadamente.

5. Los µ y σ determinan completamente la distribucion normal.

La distribucion normal estandar tiene una media igual a cero y una desviacion estandar iguala 1. Se puede obtener a partir de la ecuacion 1.3.3, creando una variable aleatoria z = (x− µ)/σ.Esta ecuacion se escribe:

f(z) =1√2πe−z

2/2, −∞ < z <∞ (1.3.4)

Ejemplo 1.3.4 Suponga que se sabe que la estatura de cierta poblacion de individuos sigue unadistribucion aproximadamente normal con media de 70 pulgadas y una desviacion estandar de 3pulgadas. ¿Cual es la probabilidad de que una persona seleccionada al azar de este grupo tengaestatura entre 65 y 74 pulgadas? Si se supone que la poblacion es de 10000 personas, ¿cuantaspersonas se espera que tengan una estatura de 6 pies y 5 pulgadas o mas?

10

Figura 1.3.1: Grafica de la distribucion normal.

Para x = 65, z es:

z =x− µσ

=65− 70

3= −1.67

Para x = 74, z es:

z =74− 70

3= 1.33

Utilizando la tabla de probabilidad z, se obtiene el area entre −∞ y −1.67 que es de 0.0475 y elarea entre −∞ y 1.33 es de 0.9082. El area deseada es la diferencia entre 0.9082− 0.0475 = 0.8607

Para la segunda pregunta, primera se calcula la probabilidad de que una persona, elegida alazar de esa pobalcion, tenga una estatura de 77 pulgadas. Esto es:

P (x ≥ 77) = P

(z ≥ 77− 70

3

)= P (z ≥ 2.33) = 1− 0.9901 = 0.0099

Se puede esperar que de las 10000 personas, 10000(0.0099) = 99 tengan una estatura de 77pulgadas o mas.

Ejercicio 1.3.5 Si la capacidad de la cavidad craneana de una poblacion tiene una distribucionaproximadamente normal, con una media de 1400 cc y una desviacion estandar de 125 cc, calculela probabilidad de que una persona, elegida al azar entre esa poblacion, tenga una capacidad decavidad craneana:

1. Mayor que 1450 cc

2. Menor que 1350 cc

11

3. Entre 1300 y 1500 cc

Ejercicio 1.3.6 Si el nivel total de colesterol en cierta poblacion tiene una distribucion aproxi-madamente normal, con una media de 200 mg/100 ml y una desviacion estandar de 20 mg/100ml. Calcule la probabilidad de que un individuo, elegido al azar de esa poblacion, tenga un nivelde colesterol:

1. Entre 180 y 200 mg/100 ml

2. Mayor que 225 mg/100 ml

3. Menor que 150 mg/100 ml

4. Entre 190 y 210 mg/100 ml

Distribuciones muestrales

Las distribuciones de probabilidad sirven para dos propositos: 1) permiten responder preguntasde probabilidad acerca de estadısticas muestrales y 2) proporcionan la teorıa necesaria para hacervalidos los procedimientos de inferencia estadıstica.

Definicion 1.3.3 La distribucion de todos los valores posibles que puede asumir una estadıstica,calculados a partir de muestras del mismo tamano, seleccionadas aleatoriamente de la mismapoblacion, se llama distribucion muestral de esa estadıstica.

Las distribuciones muestrales pueden construirse empıricamente a partir de poblaciones finitasy discretas. Para ello, se procede como sigue:

1. De una poblacion finita de tamano N , se extraen de manera aleatoria todas las muestrasposibles de tamano n.

2. Se calcula la estadıstica de interes para cada muestra.

3. Se ordenan en una columna los distintos valores observados de la estadıstica y, en otracolumna, las frecuencias de ocurrencia correspondientes de cada valor observado.

Algunas distribuciones muestrales mas frecuentes son:

1. Distribucion de la media de la muestra.

2. Distribucion de la diferencia entre las medias de dos muestras.

3. Distribucion de la proporcion de la muestra.

4. Distribucion de la diferencia entre las proporciones de dos muestras.

12

Tabla 1.3.5: Todas las posibles muestras de tamano n = 2 de una poblacion de tamano N = 5.Las medias de las muestras estan entre parentesis

Segunda seleccion6 8 10 12 14

Primera seleccion

6 6,6 (6) 6, 8 (7) 6, 10 (8) 6, 12 (9) 6, 14 (10)8 8,6 (7) 8, 8 (8) 8, 10 (9) 8, 12 (10) 8, 14 (11)10 8,6 (8) 10, 8 (9) 10, 10 (10) 10, 12 (11) 10, 14 (12)12 8,6 (9) 12, 8 (10) 12, 10 (11) 12, 12 (12) 12, 14 (13)14 8,6 (10) 14, 8 (11) 14, 10 (12) 14, 12 (13) 14, 14 (14)

Tabla 1.3.6: Distribucion muestral de x calculada a partir de las muestras de la tabla 1.3.2

x FrecuenciaFrecuencia

relativa6 1 1/257 2 2/258 3 3/259 4 4/2510 5 5/2511 4 4/2512 3 3/2513 2 2/2514 1 1/25Total 25 25/25

Ejemplo 1.3.5 Considere una poblacion de tamano N = 5, la cual se compone de las edades de5 ninos que son pacientes externos de una clınica de salud mental. Las edades son: x1 = 6, x2 =8, x3 = 10, x4 = 12, x5 = 14. La media µ = 10 y la varianza es σ2 = Σ(xi − µ)2/N = 40/5 = 8.Elaborar la distribucion muestral de la media de la muestra, µ, con base en las muestras de tamanon = 2 seleccionadas de esta poblacion.

En la tabla 1.3.2 se encuentran todas las muestras posibles de tamano n = 2 de esta poblacion.Se puede construir la distribucion muestral de x ordenando los diferentes valores de x en unacolumna y sus frecuencias de ocurrencia en la otra, esto se puede ver en la tabla 1.3.2.

Ejercicio 1.3.7 Una empresa tiene 2000 empleados. Durante un ano reciente, el gasto medio porempleado debido a servicios medicos personales fue de $31.50 y la desviacion estandar de $6.00.¿Cual es la probabilidad de que una muestra aleatoria simple de 36 empleados proporcione unamedia entre $30.00 y $33.00.

13

Unidad 2

Estadıstica inferencial

La estadıstica inferencial o inferencia estadıstica se define como el procedimiento por medio delcual se llega a conclusiones acerca de una poblacion con base en la informacion que se obtiene apartir de una muestra seleccionada de esa poblacion.

2.1. Intervalos de confianza

El proceso de estimacion implica calcular, a partir de los datos de una muestra, alguna es-tadıstica que se ofrece como una aproximacion del parametro correspondiente de la poblacion dela cual fue extraıda la muestra.

Para cada uno de los parametros a estudiar (media, proporcion, etc.) es posible calcular dostipos de estimacion: puntual y por intervalos.

Una estimacion puntual es un solo valor numerico utilizado para estimar el parametro corres-pondiente de la poblacion.

Una estimacion por intervalos consta de dos valores numericos que definen un intervalo que,con un grado especıfico de confianza, se considera que incluye al parametro por estimar.

2.1.1. Intervalo de confianza para la media de una poblacion

Si el muestreo se realiza a partir de una poblacion con distribucion normal, la distribucionmuestral de la media de la muestra presentara una distribucion normal con una media µx igual ala media de la poblacion µ y varianza σ2

x igual a σ2/n.Se supone que se forman intervalos a partir de todos los valores posibles de x calculados a partir

de todas las muestras posibles de tamano n de la poblacion de interes. De esa forma se tendrıanun gran numero de intervalos (x1, x2, x3, x4, x5) de la forma x± 2σx, con amplitudes todas igualesa la del intervalo en torno a la µ desconocida, como se observa en la figura 2.1.1.

Ejemplo 2.1.1 Suponga que un investigador, interesado en obtener una estimacion del nivel pro-medio de alguna enzima en cierta poblacion de seres humanos, tomando una muestra de 10 in-dividuos, determinar el nivel de la enzima en cada uno de ellos y calcula la media de la muestra

14

Figura 2.1.1: Intervalo de confianza de 95 % para µ.

x = 22. Ademas que la variable de interes sigue una distribucion aproximadamente normal, conuna varianza de 45. Se desea estimar el valor de µ.

Un intervalo de confianza de aproximadamente 95 % para µ esta dado por:

x± 2σx

22± 2√

45/10

22± 2(2.1213)

17.76, 26.24

Se dice que existe 95 por ciento de confianza de que la media de la poblacion este entre 17.76y 26.24. �

En general, una estimacion por intervalos se expresa como se observa en la ecuacion 2.1.1.

estimador± (coeficiente de confiabilidad)× (error estandar) (2.1.1)

En particular, cuando el muestreo se realiza a partir de una distribucion normal con variacionconocida, una estimacion por intervalos para µ se expresa con la ecuacion 2.1.2.

x± z(1−α/2)σx (2.1.2)

15

donde z(1−α/2) es el valor de z a la izquierda de donde esta 1 − α/2 y a la derecha en que seencuentra α/2 del area bajo la curva. A la cantidad 1−α se le conoce como coeficiente de confianzay al intervalo x± z(1−α/2)σx como intervalo de confianza para µ. Los investigadores pueden utilizarcualquier coeficiente de confianza; los mas utilizados son 0.90, 0.95 y 0.99 a los cuales se asocianfactores de confiabilidad, de 1.645, 1.96 y 2.58, respectivamente.

A la cantidad que se obtiene al multiplicar el factor de confiabilidad por el error estandar dela media se le llama precision de la estimacion. Tambien, se le llama margen de error.

Ejemplo 2.1.2 Un fisioterapeuta desea estimar, con un 99 % de confianza, la media de fuerzamaxima de un musculo particular en cierto grupo de individuos. Se inclina a suponer que losvalores de dicha fuerza muestran una distribucion aproximadamente normal con una varianza de144. Una muestra de 15 individuos que participaron en el experimento presento una media de 84.3.

El valor para z que corresponde a un coeficiente de confianza de 0.99 es 2.58. Este es el coeficientede confiabilidad. El error estandar es de σx = 12/

√15 = 3.0984. Por lo tanto, el intervalo de

confianza de 99 % para µ es:

84.3± 2.58(3.0984)

84.3± 8.0

76.3, 92.3

Se dice que se tiene un 99 % de confianza de que la media de la poblacion este entre 76.3 y92.3, porque al repetir el muestreo, 99 % de todos los intervalos que pueden construirse en la formadescrita, incluyen a la media poblacional. �

Con frecuencia, cuando la muestra es lo suficientemente grande para aplicar el teorema dellımite central, la varianza de la poblacion se desconoce. En este caso, se sustituye esta varianzacon la de la muestra en la formula para construir el intervalo de confianza para la media de lapoblacion.

Ejemplo 2.1.3 Los siguientes datos corresponden a los valores de la actividad (micromoles porminuto por gramo de tejido) de cierta enzima medida en el tejido gastrico normal de 35 pacientescon carcinoma gastrico.

.360 1.189 .614 .788 .273 2.464 .5711.827 .537 .374 .449 .262 .448 .971.372 .898 .411 .348 1.925 .550 .622.610 .319 .406 .413 .767 .385 .674.521 .603 .533 .662 1.177 .307 1.499

Se pretende construir un intervalo de confianza de 95 % para la media de la poblacion. Supongaque la varianza de la poblacion es igual a 0.36.

Utilizando una herramienta computacional (ejemplo de codigo desarrollado en R), se obtieneque la media de la poblacion se encuentra entre 0.519 y 0.917 con 95 % de confianza.

16

# Codigo en R

x <- c(0.360,1.189,0.614,.788,.273,2.464,.571,1.827,.537,.374,

.449,.262,.448,.971,.372,.898,.411,.348,1.925,.550,.622,.610,.319,

.406,.413,.767,.385,.674,.521,.603,.533,.662,1.177,.307,1.499)

N <- length(x) # tama~no de la muestra

media <- mean(x) # media de la muestra

de <- sd(x) # desviacion estandar de la muestra

eem <- sqrt(0.36) / sqrt(N) # error estandar de la media

cc <- qnorm(0.975) # coeficiente de confiabilidad al 95%

error <- cc * eem

izq <- media - error

der <- media + error

Ejercicio 2.1.1 Se pretende estimar el numero promedio de latidos del corazon por minuto paracierta poblacion. Se encontro que el numero promedio de latidos por minuto para 49 personas erade 90. Considere que esos 49 pacientes constituyen una muestra aleatoria y que la poblacion sigueuna distribucion normal, con una desviacion estandar de 10. Construir el intervalo de confianza ala)90 %, b)95 % y c)99 % d)Explique por que los tres intervalos no tienen la misma amplitud.

Ejercicio 2.1.2 Algunos estudios acerca de la enfermedad Alzheimer (EA) han mostrado un in-cremento en la produccion de 14CO2 en pacientes con ese padecimiento. Durante un estudio, seobtuvieron los siguientes valores de 14CO2 a partir de 16 biopsias de neocorteza de pacientes conla enfermedad (EA):

1009 1280 1180 1255 1547 2352 1956 10801776 1767 1680 2050 1452 2857 3100 1621

Considerese que la poblacion sigue una distribucion normal con una desviacion estandar de350. Construir el intervalo de confianza al a)90 %, b)95 % y c)99 % d)Explique por que los tresintervalos no tienen la misma amplitud.

2.1.2. Distribucion t

Aun cuando la estadıstica

z =x− µσ/√n

presenta una distribucion normal cuando la poblacion tambien tiene una distribucion normal ysigue una distribucion aproximadamente normal cuando n es muy grande, independientemente dela forma funcional de la poblacion, no se puede hacer uso de este hecho porque σ se desconoce. Lasolucion mas logica para este problema es utilizar la desviacion estandar de la muestra

s =√

Σ(xi − x)2/(n− 1)

17

para sustituir σ. Cuando el tamano de la muestra es mayor que 30, s es una buena aproximacionde σ por lo que se justifica la utilizacion de la teorıa de la distribucion normal para construir unintervalo de confianza para la media de la poblacion.

Cuando se tienen muestras pequenas, se dispone de una alternativa conocida como distribuciont de Student (resultado del trabajo de Gosset bajo el seudonimo de Student), con frecuenciaabreviada como distribucion t.

La cantidad de la ecuacion 2.1.3 sigue esa distribucion.

t =x− µs/√n

(2.1.3)

Propiedades de la distribucion t:

1. Tiene una media de 0.

2. Es simetrica con respecto a la media.

3. En general, tiene una varianza mayor que 1, pero esta tiende a 1 a medida que aumenta eltamano de la muestra. Para df > 2, la varianza de la distribucion t es df/(df − 2), donde dfrepresenta los grados de libertad. En forma alterna, puesto que df = n − 1 para n > 3, sepuede escribir la varianza de la distribucion t como (n− 1)/(n− 3).

4. La variable t va de −∞ a +∞.

5. La distribucion t es realmente una familia de distribuciones, puesto que hay una distribuciondiferente por cada valor de la muestra de n− 1, que es el divisor que se utiliza para calculars2.

6. Comparada con la distribucion normal, la distribucion t es menos espigada en el centro ytiene colas mas largas.

7. La distribucion t se aproxima a la distribucion normal a medida que n − 1 se aproxima alinfinito.

Para construir el intervalo de confianza se utiliza la ecuacion 2.1.1 con la diferencia de que elcoeficiente de confiabilidad esta dado por la ecuacion 2.1.4.

x± t(1−α/2)s√n

(2.1.4)

Ejemplo 2.1.4 Se realizo un estudio para evaluar el trabajo mecanico de 15 individuos, se alcanzouna calificacion media de 11.53 en la evaluacion con una desviacion estandar de 3.681. Calcular elintervalo de confianza con 95 %.

Se puede utilizar la media de la muestra, 11.53, como una estimacion puntual de la media de lapoblacion, el error estandar es s/

√n = 3.681/

√15 = 0.9504. El valor de t asociado al coeficiente

18

de confianza de 0.95 y a los n− 1 = 14 es t0.975 = 2.1448. Finalmente, el intervalo de confianza de95 % se construye como sigue:

11.53± 2.1448(0.9504)

11.53± 2.04

9.49, 13.57

Puede asegurarse que, con un 95 %, que la media correcta de la poblacion se encuentra entre9.49 y 13.57. �

Ejercicio 2.1.3 Construya un diagrama de flujo para decidir cuando utilizar z o t como factor deconfiabilidad para construir un intervalo de confianza para la media de una poblacion.

Ejercicio 2.1.4 Una muestra de 16 ninas de 10 anos pesan en promedio 71.5, con una desviacionestandar de 12 libras. Considere el calculo de intervalos de confianza de 90, 95 y 99 por ciento paraµ.

2.1.3. Intervalo de confianza para la diferencia entre dos medias po-blacionales

Si se desea estimar la diferencia entre la media de dos poblaciones. Se extrae una muestra alea-toria independiente de cada poblacion, se calculan las medias muestrales, x1 y x2, respectivamente.El estimador

x1 − x2ofrece una estimacion insesgada de la diferencia entre las medias de las poblaciones, µ1 − µ2. Lavarianza del estimador es

(σ21/n1) + (σ2

2/n2).

Cuando se conocen las varianzas de la poblacion, el intervalo de confianza del 100(1−α) por cientopara µ1 − µ2 esta dado por la ecuacion 2.1.5.

(x1 − x2)± z(1−α/2)

√σ21

n1

+σ22

n2

(2.1.5)

Ejemplo 2.1.5 A un equipo de investigacion le interesa conocer la diferencia entre las concentra-ciones de acido urico en pacientes con y sin el sındrome de Down. En un gran hospital, una muestrade 12 individuos con el sındrome presenta una media de x1 = 4.5mg/100 ml. En un hospital generalse encontro que una muestra de 15 individuos sin el sındrome de la misma edad y sexo, presentanun nivel medio de x2 = 3.4mg/100 ml. Si es razonable suponer que las dos poblaciones de valoresmuestran una distribucion normal y sus varianzas son iguales a 1 y 1.5, calcule el intervalo deconfianza de 95 % para µ1 − µ2.

19

Para una estimacion puntual de µ1 − µ2 se utiliza x1 − x2 = 4.5− 3.4 = 1.1. El coeficiente deconfiabilidad de 0.95 para z es 1.96. El error estandar es

σx1−x2 =

√σ21

n1

+σ22

n2

=

√1

12+

1.5

15= 0.4282

Por lo tanto, el intervalo de confianza de 95 % es:

1.1± 1.96(0.4282)

1.1± 0.84

0.26, 1.94

Se dice que se tiene una confianza de 95 % de que la diferencia real, este entre 0.26 y 1.94. Pues-to que el intervalo no incluye al cero, se concluye que las dos poblaciones tienen diferentes medias. �

Ejemplo 2.1.6 En un estudio, el numero promedio de celulas CD4+ para 112 individuos coninfeccion por VIH fue de 401.8 con una desviacion estandar de 226.4. Para los 75 individuos sininfeccion por VIH, la media y la desviacion estandar fueron de 828.2 y 274.9, respectivamente.Se pretende elaborar un intervalo de confianza de 99 % para la diferencia de las medias de laspoblaciones.

El tamano de las muestras es grande, por lo que se justifica el uso de la estadıstica z. No hayinformacion acerca de las desviaciones estandar, por lo que se pueden utilizar las de las muestraspara estimarlas. La diferencia de las medias es, 828.2− 401.8 = 426.4. El facor de confiabilidad es2.58. La estimacion del error estandar es:

sx1−x2 =

√274.92

75+

226.42

112= 38.2786

El intervalo de confianza de 99 % para la diferencia entre las medias de la poblacion es

426.4± 2.58(38.2786)

327.6, 525.2

Se tiene la seguridad de 99 % de que el promedio de celulas CD4+ en varones con VIH positivodifieren de la media para los varones con VIH negativo por 327.6 a 525.2. �

Cuando no se conocen las varianzas y se pretende estimar la diferencia entre las medias de dospoblaciones con un intervalo de confianza es posible utilizar la distribucion t para suministrar elfactor de confiabilidad si se conocen ciertas suposiciones, las dos poblaciones muestreadas siguenuna distribucion normal y si las varianzas son iguales o no.

Si se supone que las varianzas poblacionales son iguales, la estimacion conjunta de la varianzacomun esta dada por la ecuacion 2.1.6.

20

s2p =(n1 − 1)s21 + (n2 − 1)s22

n1 + n2 − 2(2.1.6)

Ası la estimacion del error estandar esta dada por la ecuacion 2.1.7.

sx1−x2 =

√s2pn1

+s2pn2

(2.1.7)

y el intervalo de confianza de 100(1−α) por ciento para µ1−µ2 esta dado por la ecuacion 2.1.8

(x1 − x2)± t1−α/2

√s2pn1

+s2pn2

(2.1.8)

El numero de grados de libertad utilizado para determinar el valor de t que se usa para construirel intervalo es n1 + n2 − 2, que es el denominador de la ecuacion 2.1.6.

Cuando las varianzas poblacionales son distintas, el calculo del factor de confiabilidad se obtienecon la ecuacion 2.1.9.

t′1−α/2 =ω1t1 + ω2t2ω1 + ω2

(2.1.9)

donde ω1 = s21/n1, ω2 = s22/n2, t1 = t1−α/2, para n1 − 1 grados de libertad, y t2 = t1−α/2 paran2 − 1 grados de libertad. Un intervalo aproximado de confianza del 100(1 − α) por ciento paraµ1 − µ2 esta dado por la ecuacion 2.1.10.

(x1 − x2)± t′1−α/2

√s21n1

+s22n2

(2.1.10)

Ejemplo 2.1.7 Se realizo un estudio para determinar los efectos del ejercicio por un tiempoprolongado a ciertos individuos. Se registraron datos de 13 individuos que se registraron en unprograma de acondicionamiento fısico, otro grupo de 17 decidieron no inscribirse. Las calificacionesdel acondicionamiento muscular se muestran en la siguiente tabla:

Muestra n Media Desviacion estandarGrupo deportista 13 4.5 0.3Grupo sedentario 17 3.7 1.0

Se pretende construir un intervalo de confianza de 95 % para la diferencia entre las medias detodas las calificaciones de acondicionamiento muscular para las dos poblaciones representadas porlas muestras.

Se utiliza t′ para calcular el factor de confiabilidad. Con 12 grados de libertad, t1 = t0.975 =2.1788 y con 16 grados de libertad t2 = 2.1199. Se calcula:

t′ =(2.1788)(.32/13) + (2.1199)(1.02/17)

.32/13 + 1.02/17=

0.139784

0.065747= 2.1261

21

Con la ecuacion 2.1.10 se construye el intervalo de confianza de 95 %:

(4.5− 3.7)± 2.1261

√.32

13+

1.02

17

0.8± 2.1261(0.25641101)

0.25, 1.34

Puesto que el intervalo no incluye a cero, se concluye que las medias de las dos poblaciones sondiferentes. �

Ejercicio 2.1.5 Veinticuatro animales de laboratorio con deficiencia de vitamina D fueron di-vididos en dos grupos iguales. El grupo 1 recibio un tratamiento consistente en una dieta queproporcionaba vitamina D. El segundo grupo no fue tratado. Al termino del periodo experimental,se midieron las concentraciones de calcio en suero obteniendose los siguientes resultados:

x (mg/100 ml) sGrupo tratado 11.1 1.5

Grupo sin tratamiento 7.8 2.0

Considere que las poblaciones siguen una distribucion normal con varianzas iguales. Construirintervalos de confianza de 90, 95 y 99 por ciento para las diferencias entre las medias poblacionales.

Ejercicio 2.1.6 El tiempo promedio de estancia de una muestra de 20 pacientes dados de altade un hospital general es de siete dıas, con una desviacion estandar de dos dıas. Una muestra de24 pacientes dados de alta de un hospital de enfermedades cronicas tuvo un tiempo promedio deestancia de 36 dıas con una desviacion estandar de 10 dıas. Suponga que la poblacion sigue unadistribucion normal con varianzas desiguales. Construir intervalos de confianza de 90, 95 y 99 porciento para las diferencias entre las medias poblacionales.

2.2. Prueba de hipotesis

Como ocurre con la estimacion, el proposito de la prueba de hipotesis es ayudar al medico,investigador o administrador a tomar una decision acerca de una poblacion mediante el examende una muestra de ella.

2.2.1. Conceptos basicos

Definicion 2.2.1 Una hipotesis se define simplemente como una proposicion acerca de una o maspoblaciones.

Se pueden observar dos tipos de hipotesis: de investigacion y estadıstica. La primera es laconjetura o suposicion que motiva la investigacion; la segunda, se establece de tal forma que puedeser evaluada por medio de tecnicas estadısticas adecuadas.

Pasos para la prueba de hipotesis:

22

1. Datos. Conocer la naturaleza de los datos. Por ejemplo, si provienen de conteos o medidas.

2. Supuestos (restricciones). Un procedimiento general se puede modificar segun las suposi-ciones. Por ejemplo, suposicion respecto a la normalidad de la distribucion de la poblacion,igualdad de varianzas e independencias de las muestras.

3. Hipotesis. Se trabaja con dos hipotesis estadısticas, que deben anunciarse explıcitamente.La primera es la hipotesis que debe probarse, mejor conocida como hipotesis nula (H0). Engeneral, esta se establece con el proposito de ser rechazada. La hipotesis alternativa (HA) secreera cierta si los datos de la muestra llevan al rechazo de la hipotesis nula.

4. Estadıstica de prueba. Es alguna estadıstica que se puede calcular a partir de los datos

de la muestra. Un ejemplo es la cantidad z =x− µ0

σ/√n

, donde µ0 es un supuesto de la media

de una poblacion.

5. Distribucion de la estadıstica de prueba. La clave para inferencia estadıstica es la distri-bucion muestral. Es necesario recordar esto cuando sea necesario especificar la distribucion deprobabilidad de la estadıstica de prueba. Por ejemplo, la distribucion z sigue una distribucionnormal estandar si la hipotesis nula es verdadera y si satisface las suposiciones.

6. Regla de decision. Todos los valores posibles que la estadıstica de prueba puede asumirson puntos sobre el eje horizontal de la grafica de la distribucion para esta estadıstica. unode ellos se conoce como region de rechazo y el otro como region de no rechazo. La regla dedecision senala que se debe rechazar la hipotesis nula si el valor de la estadıstica de pruebaque se calcula a partir de la muestra es uno de los valores de la region de rechazo. El nivel designificancia (α) designa el area bajo la curva de la distribucion de la estadıstica de pruebaque esta por encima de los valores, sobre el eje horizontal, que constituyen la region derechazo.

7. Calculo de la estadıstica de prueba. A partir de los datos contenidos en la muestra, secalcula un valor de la estadıstica de prueba y se compara contra las regiones de no rechazoy rechazo.

8. Decision estadıstica. Consiste en el rechazo o no de la hipotesis nula. Se rechaza si el valorcalculado de la estadıstica de prueba cae en la region de rechazo.

9. Conclusion. Si H0 se rechaza, se concluye que HA es verdadera. Si H0 no se rechaza, seconcluye que HA puede ser verdadera.

10. Valor de p. Es la probabilidad de obtener, cuando H0 es verdadera, un valor de la estadısticade prueba tan extremo o mas que el valor calculado en realidad. Si el valor p es menor oigual que α, es posible rechazar la hipotesis nula; si el valor p es mayor que α no es posiblerechazar la hipotesis nula.

Reglas para establecer la hipotesis estadıstica:

23

1. La conclusion a la que se desea o espera llegar como resultado de la prueba generalmente seusa como hipotesis alternativa.

2. La hipotesis nula debe contener una proposicion de igualdad, ya sea =,≤ o ≥.

3. La hipotesis nula es la que debe ser comprobada.

4. La hipotesis nula y alternativa son complementarias. Es decir, las dos contemplan de maneraexhaustiva todos los valores posibles que los parametros de suposicion pueden asumir.

Por ejemplo, suponga que se requiere responder a la pregunta: ¿Se puede concluir que la mediade una poblacion es diferente de 50? La hipotesis nula es:

H0 : µ = 50

y la hipotesis alternativa es:

HA : µ 6= 50.

La formula general para la estadıstica de prueba es la que se muestra en la ecuacion 2.2.1.

estadıstica de prueba =estadıstica relevante− parametro supuesto

error estandar de la estadıstica relevante(2.2.1)

Definicion 2.2.2 El nivel de significancia α es la probabilidad de rechazar una hipotesis nulaverdadera.

Dado que rechazar una hipotesis nula verdadera serıa un error, es razonable que se deba hacerpequena la probabilidad de cometerlo. Se elige un valor pequeno de α para evitar este tipo deerror, comunmente son 0.01, 0.05 y 0.10. A este tipo de error se le conoce como error del tipo I(β). El error del tipo II se comete cuando no se rechaza una hipotesis nula falsa.

La figura 2.2.1 muestra un diagrama de flujo de los pasos a seguir cuando se aplica una pruebade hipotesis.

2.2.2. Prueba de hipotesis para la media de una sola poblacion

Como se ha visto, las situaciones en las que la variable de interes sigue una distribucion normalcon varianza conocida son poco comunes. Se muestra un ejemplo para ilustrar el procedimiento.

Ejemplo 2.2.1 Un grupo de investigadores esta interesado en conocer la edad media de ciertapoblacion. ¿Se puede concluir que la edad media de la poblacion es diferente de 30 anos?

1. Datos. Se tienen las edades de una muestra simple aleatoria de 10 individuos extraıda de lapoblacion de interes. La media de la muestra es:

x = 27.

24

Figura 2.2.1: Pasos del procedimiento para prueba de hipotesis.

25

2. Supuestos. Se supone que los valores de las edades de la poblacion tienen una distribucionaproximadamente normal y que la varianza es:

σ2 = 20.

3. Hipotesis. La hipotesis por probar o hipotesis nula es: la edad media de la poblacion esigual a 30.

H0 : µ = 30

HA : µ 6= 30

4. Estadıstica de prueba. Dado que se esta probando una hipotesis acerca de la media deuna poblacion y que se supone sigue una distribucion aproximadamente normal y puesto quese conoce la varianza, la estadıstica de prueba es:

z =x− µ0

σ/√n

5. Distribucion de la estadıstica de prueba. Se sabe que la estadıstica de prueba tiene unadistribucion normal, con una media de 0 y una varianza de 1, si H0 es verdadera.

6. Regla de decision. Suponga que se quiere que la probabilidad de rechazar una hipotesisnula verdadera sea de α = 0.05. Dado que la region de rechazo esta formada por dos partes,los valores suficientemente pequenos y los valores suficientemente grandes de la estadısticade prueba. En otras palabras, ¿cual es el valor de z a la derecha del cual esta 0.025 del areabajo la distribucion normal estandar? Para este caso, z = 1.96, conocido como valor crıtico,y se puede establecer la regla de decision como sigue:

Rechazar H0 si el valor calculado de la estadıstica de prueba es ≥ 1.96 o ≤ −1.96

7. Calculo de la estadıstica de prueba. A partir de la muestra se calcula

z =27− 30√20/√

10=−3

1.4142= −2.12

8. Decision estadıstica. Con base en la regla de decision se puede rechazar la hipotesis nulaporque −2.12 esta en la region de rechazo

9. Conclusion. Se concluye que µ no es igual que 30.

10. Valor de p. Cuando H0 es verdadera, la probabilidad de obtener un valor de z ≥ 2.12 es0.170 y la probabilidad de observar un valor de z ≤ −2.12 es 0.170, La probabilidad de queocurra cualquiera de estos dos casos, es igual a la suma de las dos probabilidades, por lo queel valor de p = 0.340. �

26

Figura 2.2.2: Regiones de rechazo y no rechazo para el ejemplo 2.2.1.

Ejemplo 2.2.2 En este ejemplo se muestra como se hubiera podido llegar a la misma conclusionmediante el uso de un intervalo de confianza de 100(1−α) por ciento. El intervalo de confianza de95 % para µ es

27± 1.96√

20/10

27± 1.96(1.4142)

27± 2.7718

24.2282, 29.7718

Dado que este intervalo no incluye al 30, se dice que 30 no es un candidato para la media quese esta estimando y por lo tanto, µ no es igual a 30 y se rechaza H0. �

Cuando el muestreo se realiza a partir de una poblacion que sigue una distribucion normalcon una varianza desconocida la estadıstica de prueba H0 : µ = µ0 es la que se observa en laecuacion 2.2.2.

t =x− µ0

s/√n

(2.2.2)

la cual, cuando H0 es verdadera, sigue una distribucion t de Student con n − 1 grados delibertad.

Ejemplo 2.2.3 Se hizo un estudio a 14 adultos varones sanos representativo de un rango ampliode pesos corporales. Una de las variables de medicion fue el ındice de masa corporal (IMC) = peso(kg) / estatura2(m2). Los resultados se muestran en la tabla 2.2.2. Se pretende saber si es posibleconcluir que la media del IMC para la poblacion de la que se extrajo la muestra no es 35.

27

Tabla 2.2.1: Indice de masa corporal (IMC) para los individuos del ejemplo 2.2.3Individuo IMC Individuo IMC Individuo IMC

1 23 6 21 11 232 25 7 23 12 263 21 8 24 13 314 37 9 32 14 455 39 10 57

Se lograra concluir que la media de la poblacion no es 35 si los investigadores pueden rechazarla hipotesis nula que dice que la media de la poblacion es igual a 35.

1. Datos. Consisten en las mediciones del IMC de los 14 individuos.

2. Supuestos. Los 14 individuos constituyen una muestra aleatoria de una poblacion de indi-viduos con las mismas caracterısticas.

3. Hipotesis.H0 : µ = 35

HA : µ 6= 35

4. Estadıstica de prueba. Dado que se desconoce la varianza de la poblacion, la estadısticade prueba es:

t =x− µ0

s/√n

5. Distribucion de la estadıstica de prueba. Sigue una distribucion t de Student, conn− 1 = 14− 1 = 13 grados de libertad, si H0 es verdadera.

6. Regla de decision. Sea α = 0.05. Dado que se tiene una prueba bilateral, α/2 = 0.025.Lo valores para t a la derecha y a la izquierda de los cuales esta 0.025 del area son 2.1604y −2.1604. La regla de decision indica que es necesario calcular un valor para t y se deberechazar H0 si este valor es menor o igual que −2.1604 o mayor o igual que 2.1604.

7. Calculo de la estadıstica de prueba. A partir de los datos de la muestra, se tiene x = 30.5y una desviacion estandar s = 10.6392, con lo que se puede calcular:

t =30.5− 35

10.6392/√

14=−4.5

2.8434= −1.58

8. Decision estadıstica. No se rechaza H0 ya que −1.58 cae en la region de no rechazo.

9. Conclusion. La media de la poblacion de la cual se extrajo la muestra puede ser 35.

10. Valor de p. El valor de p es 7.928e− 08. �

28

Si la muestra proviene de una poblacion que no presenta una distribucion normal y si esta es

grande, es posible utilizar el teorema del lımite central y usar z =x− µ0

σ/√n

como la estadıstica de

prueba. Si no se conoce la desviacion estandar de la poblacion, es comun que se use la desviacionestandar de la muestra y la estadıstica de prueba para H0 : µ = µ0 es

z =x− µ0

s/√n.

La razon por la cual s sustituye a σ es que proporcionara una desviacion estandar de la muestraque se acerca lo suficiente a σ, cuando la muestra es lo suficientemente grande.

Ejemplo 2.2.4 Los objetivos de un estudio de los investigadores Wilbur et al., eran descubrir losestados menopausicos, los sıntomas, la energıa utilizada y la condicion fısica aerobica en mujeres deedad madura y, ademas, determinar las relaciones entre estos factores. Entre las variables medidasestaba el consumo maximo de oxigeno (V o2max). La calificacion media de V o2max para una muestrade 242 mujeres fue de 33.3 con una desviacion estandar de 12.14 (Fuente: Family and CommunityHealth, Vol. 13:3, p. 73, Aspen Publishers, Inc.). Se pretende saber si, con base en estos datos, esposible concluir que la calificacion media para una poblacion de mujeres con estas caracterısticases mayor que 30. (α = 0.05)

Si se puede rechazar la H0 que dice que la media es menor o igual que 30 entonces se puedeconcluir que la media de la poblacion es mayor que 30.

1. Datos. Para las 242 mujeres, la media de V o2max es x = 33.3 y s = 12.14.

2. Supuestos. Se considera que la poblacion asume una distribucion aproximadamente normal.

3. Hipotesis.H0 : µ ≤ 30

HA : µ > 30

4. Estadıstica de prueba. Dado que se desconoce σ, la estadıstica de prueba esta dada por:

z =x− µ0

s/√n.

5. Distribucion de la estadıstica de prueba. Por el teorema del lımite central, la estadısticade prueba sigue una distribucion aproximadamente normal con µ = 0 si H0 es verdadera.

6. Regla de decision. Con α = 0.05, el valor crıtico es 1.645. Los valores de rechazo y norechazo se muestran en la figura 2.2.2. Se rechaza H0 si se calcula z ≥ 1.645.

7. Calculo de la estadıstica de prueba.

z =33.3− 30

12.14/√

242= 4.23.

29

Figura 2.2.3: Regiones de rechazo y no rechazo para el ejemplo 2.2.4.

8. Decision estadıstica. Se rechaza H0 porque 4.23 > 1.645.

9. Conclusion. Se concluye que el valor medio de V o2max para la poblacion muestreada esmayor que 30.

10. Valor de p. El valor de p para esta prueba es < 0.001. �

Ejercicio 2.2.1 En el estado de Florida, Estados Unidos, se reportaron los datos correspondientesa 8 casos de prolapso del cordon umbilical. Las edades de las madres eran de 25, 28, 17, 26, 27,22, 25 y 30 anos. Se pretende saber si es posible concluir que la media de la poblacion de la que sesupone fue extraıda la muestra es mayor a 20 anos. Sea α = 0.01.

Ejercicio 2.2.2 Una muestra aleatoria de 20 profesores universitarios aparentemente sanos pro-porciono los siguientes valores de capacidad respiratoria maxima. ¿Es posible concluir que la mediamaxima de respiracion no es de 110 litros por minuto? Sea α = 0.01. ¿Que supuestos se debencumplir?

132, 33, 91, 108, 67, 169, 54, 203, 190, 133,96, 30, 187, 21, 63, 166, 84, 110, 157, 138

Ejercicio 2.2.3 Es posible concluir que la edad media de defuncion por la enfermedad de celulasfalciformes homocigotica es menor que 30 anos? Una muestra de 50 pacientes proporciona lassiguientes edades en anos:

30

15.5 2.0 45.1 1.7 0.8 1.1 18.2 9.7 28.1 18.227.6 45.0 1.0 66.4 2.0 67.4 2.5 61.7 16.2 31.76.9 13.5 1.9 31.2 9.0 2.6 29.7 13.5 2.6 14.4

20.7 30.9 36.6 1.1 23.6 0.9 7.6 23.5 6.3 40.223.7 4.8 33.2 27.1 36.7 3.2 38.0 3.5 21.8 2.4

Ejercicio 2.2.4 Suponga que las calificaciones para el IQ (coeficiente de inteligencia) de unapoblacion adulta siguen una distribucion aproximadamente normal, con una desviacion estandarde 15. Una muestra aleatoria simple de 25 adultos procedentes de esta poblacion tiene un IQ mediode 105. Con base en estos datos, ¿es posible concluir que el IQ medio para la poblacion es diferentede 100? La probabilidad de cometer un error tipo 1 es de 0.05.

2.2.3. Prueba de hipotesis para la diferencia entre las medias de dospoblaciones

De nueva cuenta se busca decidir si dos poblaciones son distintas entre si. De tal manera, quepara una prueba de hipotesis que utiliza la µ como estimador se pueden formular las siguienteshipotesis:

1. H0 : µ1 − µ2 = 0 HA : µ1 − µ2 6= 02. H0 : µ1 − µ2 ≥ 0 HA : µ1 − µ2 < 03. H0 : µ1 − µ2 ≤ 0 HA : µ1 − µ2 > 0

Sin embargo, es posible probar la hipotesis de que la diferencia es =, ≥ o ≤ a algun valordistinto de cero.

En el caso de poblaciones con distribucion normal y varianza conocida, la estadıstica de prue-ba para la hipotesis nula de las medias iguales de dos poblaciones es la que se muestra con laecuacion 2.2.3.

z =(x1 − x2)− (µ1 − µ2)0√

σ2

n1

+σ2

n1

(2.2.3)

donde el subındice 0 indica que la diferencia es un parametro supuesto. Cuando H0 es verdadera,la estadıstica de prueba de la ecuacion 2.2.3 sigue una distribucion normal estandar.

Ejemplo 2.2.5 Un equipo de investigadores desea saber si los datos que han recolectado propor-cionan la evidencia suficiente para indicar una diferencia entre las concentraciones medias de acidourico en el suero de individuos normales e individuos con sındrome de Down. Los datos consistenen las lecturas de acido urico en el suero de 12 individuos con sındrome de Down y 15 individuossanos. Las medias son x1 = 4.5 mg/ml y x2 = 3.4 mg/ml.

1. Datos. Se obtienen del planteamiento de la situacion.

31

2. Supuestos. Los datos corresponden a dos muestras aleatorias simples e independientes, cadauna extraıda de una poblacion que sigue una distribucion normal, con una varianza igual a1 para la poblacion con sındrome de Down, y de 1.5 para la poblacion sana.

3. Hipotesis.H0 : µ1 − µ2 = 0

HA : µ1 − µ2 6= 0

de forma alterna:H0 : µ1 = µ2

HA : µ1 6= µ2

4. Estadıstica de prueba.

z =(x1 − x2)− (µ1 − µ2)0√

σ2

n1

+σ2

n1

5. Distribucion de la estadıstica de prueba. Cuando la hipotesis nula es verdadera, laestadıstica de prueba sigue una distribucion normal estandar.

6. Regla de decision. Sea α = 0.05. Los valores crıticos de z son ±1.96. Se rechaza H0 a menosque −1.96 < z < 1.96. La regiones de rechazo y no rechazo se muestran en la figura 2.2.5.

7. Calculo de la estadıstica de prueba.

z =(4.5− 3.4)− 0√

1

12+

1.5

15

=1.1

0.4282= 2.57

8. Decision estadıstica. Se rechaza H0 porque 2.57 > 1.96.

9. Conclusion. Las medias de las poblaciones son estadısticamente diferentes.

10. Valor de p. La probabilidad de que 2.57 este en la zona de rechazo es 0.0051 y dado que esbilateral, el valor de p se multiplica por 2, lo que da un valor de 0.0102. �

Cuando se desconocen las varianzas de las poblaciones, pero se suponen que son iguales, seconsidera, que es adecuado ponderar las varianzas de las muestras por medio de la ecuacion 2.2.4

s2p =(n1 − 1)s21 + (n2 − 1)s22

n1 + n2 − 2(2.2.4)

De tal manera que la estadıstica de prueba para H0 : µ1 = µ2 se obtiene mediante la ecua-cion 2.2.5, la cual, cuando H0 es verdadera, sigue una distribucion t de Student con n1 + n2 − 2grados de libertad.

32

Figura 2.2.4: Regiones de rechazo y no rechazo para el ejemplo 2.2.5.

Tabla 2.2.2: Calificaciones de los ındices de destruccion pulmonar para el ejemplo 2.2.6No fumadores 18.1 6.0 10.8 11.0 7.7 17.9 8.5 13.0 18.9Fumadores 16.6 13.9 11.3 26.5 17.4 15.3 15.8 12.3 18.6

12.0 24.1 16.5 21.8 16.3 23.4 18.8

t =(x1 − x2)− (µ1 − µ2)0√

s2pn1

+s2pn2

(2.2.5)

Ejemplo 2.2.6 En la tabla 2.2.3 se muestran las calificaciones (entre mas alta, mayor dano pul-monar) producidas para uno de los ındices de destruccion pulmonar de una muestra de nuevepersonas que no fuman y 16 fumadores. Se pretende saber si es posible concluir que las personasque sı fuman, en general, tienen los pulmones mas danados que las personas no fumadoras, comolo indican las mediciones.

1. Datos. Se obtienen en el planteamiento del problema.

2. Supuestos. Son dos muestras simples e independientes, fumadores (F) y no fumadores (NF).Las calificaciones siguen una distribucion aproximadamente normal. No se conocen las va-rianzas poblacionales pero se supone que son iguales.

3. Hipotesis.H0 : µF ≤ µNF

HA : µF > µNF

33

4. Estadıstica de prueba.

t =(x1 − x2)− (µ1 − µ2)0√

s2pn1

+s2pn2

5. Distribucion de la estadıstica de prueba. Cuando H0 es verdadera, sigue una distribu-cion t de Student con n1 + n2 − 2 grados de libertad.

6. Regla de decision. Sea α = 0.05. Los valores crıticos de t son ±2.0687. Se rechaza H0 amenos que −2.0687 < tcalculado < 2.0687.

7. Calculo de la estadıstica de prueba.

xF = 17.5

xNF = 12.4

sF = 4.4711

sNF = 4.8492

s2p =15(4.4711)2 + 8(4.8492)2

16 + 9− 2= 21.2165

t =(17.5− 12.4)− 0√21.2165

16+

21.2165

9

= 2.6573

8. Decision estadıstica. Se rechaza H0 porque 2.6573 > 2.0687.

9. Conclusion. Las dos medias poblacionales son diferentes, es decir, las personas que si fumantienen los pulmones mas danados que las personas que no fuman.

10. Valor de p. El valor de p es 0.0091. �

Cuando dos muestras aleatorias simples independientes han sido extraıdas de poblaciones quesiguen una distribucion normal con varianzas desconocidas y diferentes, la estadıstica de pruebapara H0 : µ1 = µ2 es la que se muestra en la ecuacion 2.2.6.

t′ =(x1 − x2)− (µ1 − µ2)0√

s21n1

+s22n2

(2.2.6)

y el valor crıtico de t′ para un nivel de significacion α y una prueba bilateral es aproximadamentela se ve en la ecuacion 2.2.7.

34

t′(1−α/2) =ω1t1 + ω2t2ω1 + ω2

(2.2.7)

donde ω1 = s21/n1, ω2 = s22/n2, t1 = t(1−α/2) para n1 − 1 grados de libertad y t2 = t(1−α/2) paran2 − 1 grados de libertad.

Ejemplo 2.2.7 Un grupo de investigadores quiere saber si las poblaciones difieren con respectoal valor medio de la actividad del complemento del suero total (CH50). Los datos se componen delas mediciones de CH50 en n2 = 20 individuos aparentemente sanos y n1 = 10 individuos enfermos.Las medias de las muestras y desviaciones estandar son:

x1 = 62.6 s1 = 33.8

x2 = 47.2 s2 = 10.1

1. Datos. Se observan en el planteamiento del problema.

2. Supuestos. Las muestran fueron extraıdas de dos poblaciones distintas que siguen unadistribucion aproximadamente normal, las varianzas de ambas poblaciones se desconocen.

3. Hipotesis.H0 : µ1 − µ2 = 0

HA : µ1 − µ2 6= 0

4. Estadıstica de prueba.

t′ =(x1 − x2)− (µ1 − µ2)0√

s21n1

+s22n2

5. Distribucion de la estadıstica de prueba. Los valores crıticos se obtienen por medio de

la ecuacion t′(1−α/2) =ω1t1 + ω2t2ω1 + ω2

.

6. Regla de decision. Sea α = 0.05.

ω1 = (33.8)2/10 = 114.244

ω2 = (10.1)2/20 = 5.1005

t1 = 2.2622

t2 = 2.0930

t′(1−α/2) =114.244(2.2622) + 5.1005(2.0930)

114.244 + 5.1005= 2.225

La regla de decision es rechazar H0 si al calcular t′ ocurre que es ≥ 2.225 o ≤ −2.225.

35

7. Calculo de la estadıstica de prueba.

t′ =(62.6− 47.2)− 0√(33.8)2

10+

(10.1)2

20

=15.4

10.92= 1.41

8. Decision estadıstica. Puesto que −2.255 < 1.41 < 2.255, no es posible rechazar H0.

9. Conclusion. No se puede concluir que las dos medias de las poblaciones son diferentes.

10. Valor de p. p > 0.05. �

Ejercicio 2.2.5 Frigerio et al. midieron la energıa consumida en 32 mujeres de Gambia. Dieciseisde los individuos estudiados eran mujeres en periodo de lactancia (L) y el resto eran mujeres noembarazadas que no estaban en periodo de lactancia (NENL). Se reportaron los siguientes datos:

Muestra Consumo de energıa (kJ/d)L 5289 6209 6054 6665 6343 7699 5678 6954

6916 4770 5979 6305 6502 6113 6347 5657NENL 9920 8581 9305 10765 8079 9046 7134 8736

10230 7121 8665 5167 8527 7791 8782 6883

¿Proveen estos datos suficiente evidencia que permita concluir que las poblaciones muestradasdifieren respecto a la media de consumo de energıa? Sea α = 0.05.

Ejercicio 2.2.6 Es posible concluir que, en promedio, los linfocitos y las celulas tumorales difierenen tamano? Los siguientes datos son el diametro celular (en µm) de 40 linfocitos y 50 celulastumorales obtenidas a partir de biopsia del tejido de pacientes con melanoma.

Linfocitos9.0 9.4 4.7 4.8 8.9 4.9 8.4 5.96.3 5.7 5.0 3.5 7.8 10.4 8.0 8.08.6 7.0 6.8 7.1 5.7 7.6 6.2 7.17.4 8.7 4.9 7.4 6.4 7.1 6.3 8.88.8 5.2 7.1 5.3 4.7 8.4 6.4 8.3

Considerar α = 0.05.

36

Celulas tumorales12.6 14.6 16.2 23.9 23.3 17.1 20.0 21.0 19.1 19.416.7 15.9 15.8 16.0 17.9 3.4 19.1 16.6 18.9 18.720.0 17.8 13.9 22.1 13.9 18.3 22.8 13.0 17.9 15.217.7 15.1 16.9 16.4 22.8 19.4 19.6 18.4 18.2 20.716.3 17.7 18.1 24.3 11.2 19.5 18.6 16.4 16.1 21.5

2.2.4. Comparacion por parejas

Cuando se desea hacer el analisis de pares de datos de una misma poblacion se estan utilizandomuestras no independientes, de tal manera que, se puede hacer uso de la comparacion por parejas.

En este caso se puede utilizar la diferencia entre pares de observaciones, di, como variable deinteres.

Cuando las n diferencias de las muestras calculadas de los n pares de mediciones forman unamuestra aleatoria simple extraıda de una poblacion de diferencias que siguen una distribucionnormal, la estadıstica de prueba para hipotesis respecto a la diferencia de la media poblacional µdes la que se muestra en la ecuacion 2.2.8.

t =d− µd0sd

(2.2.8)

donde:

d es la diferencia de media muestral.

µd0 es la diferencia de la media poblacional supuesta.

sd =sd√n

,n es el numero de diferencias muestrales, y sd es la desviacion estandar de las

diferencias muestrales.

Ejemplo 2.2.8 Nancy Stearns Burgess condujo un estudio para determinar la perdida de peso, lacomposicion corporal, la distribucion de grasa corporal y la tasa metabolica en reposo en individuosobesos antes y despues de 12 semanas de tratamiento con dieta muy baja en calorıas (DMBC), ycomparar la hidrodensitometrıa con el analisis de impedancia bioelectrica. Los 17 individuos (nue-ve mujeres y ocho hombres) que participaron en el estudio eran pacientes externos de un programade tratamiento con base hospitalaria para la obesidad. Se pretende saber si los datos obtenidosofrecen suficiente evidencia que permita concluir que el tratamiento es eficaz para reducir el pesoen mujeres.

A: 117.3 111.4 98.6 104.3 105.4 100.4 81.7 89.5 78.2D: 83.3 85.9 75.8 82.9 82.3 77.7 62.7 69.0 63.9

1. Datos. Diferencia entre los pesos antes y despues del tratamiento DMBC.

di -34.0 -25.5 -22.8 -21.4 -23.1 -22.7 -19.0 -20.5 -14.3

37

2. Supuestos. Distribucion normal, ya que las diferencias obtenidas fueron a partir de unamuestra aleatoria.

3. Hipotesis. La hipotesis nula y alternativa deben establecerse de acuerdo con la manera deefectuar la resta de las mediciones para obtener las diferencias. Ya que la diferencia de pesosse realizo de la manera D ? A, se espera un valor negativo, ası que, bajo estas condiciones lapregunta puede ser si la diferencia de la media poblacional es negativa.

De tal manera que:

4. Estadıstica de prueba.

5. Distribucion de la estadıstica de prueba.

6. Regla de decision.

7. Calculo de la estadıstica de prueba.

8. Decision estadıstica.

9. Conclusion.

10. Valor de p. �

1. Datos.

2. Supuestos.

3. Hipotesis.

4. Estadıstica de prueba.

5. Distribucion de la estadıstica de prueba.

6. Regla de decision.

7. Calculo de la estadıstica de prueba.

8. Decision estadıstica.

9. Conclusion.

10. Valor de p. �

38

Ejercicio 2.2.7 El proposito de una de las investigaciones realizadas por Alahuhta et al., es eva-luar la influencia del bloqueo extradural para la operacion cesarea en diversas variables hemo-dinamicas maternas y fetales, simultaneamente, y determinar si el bloqueo modifica la funcion delmiocardio fetal. Los individuos estudiados eran ocho mujeres en trabajo de parto sanas con 38 a 42semanas de embarazo de un solo feto, sin complicaciones, que serıan sometidas a operacion cesareacon anestesia para bloqueo extradural. Los siguientes datos corresponden a los valores inferioresde esta variable en las dos etapas:

Etapa 1 70 87 72 70 73 66 63 57Etapa 2 79 87 73 77 80 64 64 60

¿Ofrecen suficiente evidencia estos datos, con nivel de significancia de 0.05, para indicar que,bajo condiciones similares y generales, la media de la presion arterial diastolica en las madres esdiferente en las dos etapas?

Ejercicio 2.2.8 Wolin et al., demostraron que la luz ultravioleta de onda larga (UV) promueve elrelajamiento, incrementa el metabolismo de H2O2 a traves de la catalasa, y estimula el consumono mitocondrial de O2 en el musculo liso vascular de la arteria pulmonar bovina. Tambien demos-traron que la hipoxia y el cianuro inhiben la relajacion producida por la luz UV y el metabolismode H2O2 que depende de la catalasa en los musculos de la arteria pulmonar bovina. Entre lamediciones realizadas por los investigadores se reportaron las siguientes mediciones (nmol/g/min)de la formacion de formadehidos a partir de metanol por el musculo liso de la arteria pulmonardurante la irradiacion con luz UV en ausencia de (A) y presencia (P) de cianuro (1 mM NaCN).

A: 1.850 0.177 0.564 0.140 0.128 0.500 0.000 0.759 0.332P: 0.000 0.000 0.000 0.140 0.000 0.000 0.000 0.000 0.332

¿Ofrecen estos datos suficiente evidencia, en un nivel de significacion de 0.05, para apoyar lasafirmaciones de los investigadores de que el cianuro impide el relajamiento producido por la luzUV?

Ejercicio 2.2.9 Un investigador esta interesado en saber si los ninos nacidos prematuramente conacidosis metabolica tardia y los ninos prematuros que no tienen dicha enfermedad, difieren en loque respecta a las concentraciones en la orina de cierta sustancia quımica. Las concentracionesmedias, desviacion estandar y el tamano de la muestra para ambos grupos son los siguientes:

Muestra n x sCon acidosis 35 8.5 5.5Sin acidosis 40 4.8 3.6

¿Que puede concluir el investigador con base en los resultados? Considere α = 0.05.

39

Unidad 3

Analisis de varianza

En esta unidad se pretenden analizar las diferentes fuentes especıficas que contribuyen a lavariacion total de un conjunto de datos. El desarrollo del analisis de la varianza (ANOVA) se debeprincipalmente al trabajo de R. A. Fisher, cuyas contribuciones a la estadıstica, desde 1912 hasta1962, tuvieron una gran influencia de la estadıstica actual.

El analisis de la varianza se utiliza para cumplir dos objetivos:

1. Estimar y probar hipotesis respecto a las varianzas de las poblaciones, y

2. Estimar y probar hipotesis respecto a las medias de las poblaciones.

Supongamos que se pretende saber si tres medicamentos difieren en su eficacia para disminuir lasconcentraciones sericas de colesterol en los seres humanos. Se aplican a tres grupos de individuoslos medicamentos A, B y C, respectivamente. Despues de transcurrido cierto periodo se tomanmediciones para identificar el grado en que se redujo el nivel de colesterol serico en cada individuo.Se encuentra que el colesterol disminuyo en diferente medida en cada individuo, es decir, existevariabilidad entre las mediciones. La pregunta es: ¿por que son diferentes las mediciones?

Probablemente, porque cada individuo recibio diferente medicamento.Al revisar las mediciones hechas en los individuos que recibieron el medicamento A, se encontro

que la cantidad de colesterol disminuyo en diferente grado en cada individuo. Y al revisar lasmediciones en los individuos que recibieron los medicamentos B y C, se encontro que tambienocurrio la misma situacion: existe variabilidad entre las mediciones de los tres grupos. Otra vezla pregunta ¿por que son diferentes las mediciones? Entre las causas posibles estan las diferenciasgeneticas de cada individuo y la diferencia en sus dietas.

Variables que se pueden identificar:

1. Variable tratamiento: medicamentos A, B y C.

2. Variable respuesta: nivel de colesterol antes y despues del tratamiento.

3. Variables extranas: composicion, genetica y dieta.

40

Figura 3.1.1: Asignacion de los individuos a los grupos de tratamiento en un diseno completamentealeatorizado.

3.1. Diseno completamente al azar

El tipo mas simple de analisis de varianza es el que se conoce como analisis de la varianzaunilateral, en el cual se investiga una sola fuente de variacion o factor.

Ejemplo 3.1.1 Supongamos que se quiere utilizar el analisis de la varianza unilateral para probarla hipotesis nula que indica que tres o mas tratamientos son igualmente eficaces. El experimentose disena en tal forma que los tratamientos de interes se asignan de manera totalmente aleatoriaa los individuos u objetos en los que se han de realizar las determinaciones para medir la eficaciade los tratamientos.

Es posible asignar aleatoriamente individuos para tratamiento como sigue. Se tienen 16 indi-viduos con los que se pretende comparar cuatro medicamentos. Se numeran a los individuos del 1al 16 y se ordenan aleatoriamente, como se muestra en la figura 3.1.

Despues de haber decidido que el diseno completamente aleatorizado es el diseno adecuado, seprocede con los pasos de la prueba de hipotesis.

1. Datos. Se presentan en la tabla 3.1. Los sımbolos utilizados en la tabla se definen comosigue:xij = la i-esima observacion resultante a partir del j-esimo tratamiento. En total existen ktratamientos.

i = 1, 2, . . . , nj, j = 1, 2, . . . , k

T.j =∑nj

i=1 xij = total del j-esimo tratamiento.

41

x.j =T.jnj

= media del j-esimo tratamiento.

T.. =∑k

i=1 T.j =∑k

j=1

∑nj

i=1 xij = total de todas las observaciones.

x.. =T..N,N =

∑kj=1 nj.

2. Supuestos. El modelo utilizado para representar el valor de un dato del conjunto de datoses a traves del sımbolo xij. De tal manera que, el analisis de la varianza unilateral puedeescribirse como:

xij = µ+ τj + eij; i = 1, 2, . . . , nj, j = 1, 2, . . . , k

Los terminos en este modelo se definen de la siguiente forma:

1. µ representa la media de todas las k-esimas poblaciones, y se le conoce como la granmedia.

2. τj representa la diferencia entre la media de la j-esima poblacion y la gran media. Se leconoce como efecto del tratamiento.

3. eij representa la cantidad en que difieren una medicion individual de la media poblacionala la que pertenece. Se le conoce como termino del error.

De este modelo se puede ver que una observacion representativa del conjunto de datos estacompuesta por: 1) la gran media, 2) efecto del tratamiento, y 3) termino del error.

Cuando se establecen tales restricciones para los objetivos inferenciales, el modelo se conocecomo modelo I o modelo de efectos fijos.

Con lo anterior, se pueden definir los supuestos del modelo.

a) Los k conjuntos de datos observados forman k muestras aleatorias simples a partir delas poblaciones respectivas.

b) Cada una de las poblaciones de las que se extraen las muestras siguen una distribucionnormal con media µj y varianza σ2

j .

c) Cada una de las poblaciones tiene la misma varianza. Es decir σ21 = σ2

2 = · · · = σ2k = σ2,

varianza comun.

d) Las τj son constantes desconocidas y∑τj = 0, puesto que la suma de todas las desvia-

ciones de µj a partir de su media, µ, es cero.

e) Las eij tienen una media igual a cero, porque la media de xij es µj.

f ) Las eij tienen una varianza igual a la varianza de las xij, porque las eij y las xij difierensolo por una constante, es decir, la varianza del error es igual a σ2, la varianza comun,especificada en el inciso c.

g) Las eij siguen una distribucion normal (e independiente).

42

3. Hipotesis.H0 : µ1 = µ2 = · · · = µk

HA : no todas las µj son iguales

Si las medias de las poblaciones son iguales, se puede escribir de forma alterna:

H0 : τj = 0, j = 1, 2, . . . , k

HA : no todas las τj = 0

Si H0 es verdadera, se puede representar por la figura 3.1; si es falta se puede observar comola figura 3.1, donde se ve que las medias son diferentes.

4. Estadıstica de prueba. Las decisiones referentes a la comparabilidad de las varianzas depoblaciones se basa por lo general en la prueba de la razon para la varianza, que es una pruebade la hipotesis nula que indica que la varianza de dos poblaciones son iguales. Cuando seprueba esta hipotesis se esta probando la hipotesis de que la razon de dichas poblaciones esigual a 1.

La razons21s22

se designa mediante las siglas R.V., es decir, la razon de la varianza que sera

nuestra estadıstica de prueba.

5. Distribucion de la estadıstica de prueba. Si se cumplen las suposiciones del modelo seseguira una distribucion F .

6. Regla de decision. En general, la regla de decision es rechazar la hipotesis si el valorcalculado para R. V., es mayor o igual que el valor crıtico de F con nivel α (significancia).

7. Calculo de la estadıstica de prueba. Los calculos iniciales aplicados a una ANOVAunilateral consisten en la division de la variacion total presente en los datos observados dentrode sus componentes basicos, cada uno de los cuales es atribuible a una fuente identificable.

Antes de hacer cualquier division, es necesario calcular la suma total de cuadrados (SCtotal),como se define en la ecuacion 3.1.1.

SCtotal =k∑j=1

nj∑i=1

(xij − x..)2 (3.1.1)

Donde∑nj

i=1 indica que hay que sumar las desviaciones al cuadrado para cada grupo detratamiento, y

∑kj=1 indica que hay que sumar los totales de los k grupos que se obtienen al

aplicar∑nj

i=1.

Ahora se muestra como calcular los primeros dos componentes de la suma total de cuadrados.Al primer componente se le llama suma de cuadrados dentro de los grupos (SCdentro) comose observa en la ecuacion 3.1.2.

43

SCdentro =k∑j=1

nj∑i=1

(xij − x.j)2 (3.1.2)

Para obtener el segundo componente de la suma total de cuadrados, se calcula para cadagrupo la desviacion al cuadrado de la media del grupo a partir de la gran media y se multiplicael resultado por el tamano del grupo y al final se suman las cantidades de todos los grupos(ecuacion 3.1.3).

SCentre =k∑j=1

nj(x.j − x..)2 (3.1.3)

Para resumir,SCtotal = SCentre + SCdentro.

Con la suma de cuadrados, es posible calcular dos estimaciones de la varianza comun de lapoblacion, σ2.

Dentro de cualquier muestra, la expresion∑nj

i=1(xij − x.j)2

nj − 1

proporciona una estimacion insesgada de la varianza real para la poblacion de la cual provienela muestra. Bajo la suposicion de que todas las varianzas de la poblacion son iguales, esposible calcular las k estimaciones para calcular la primera estimacion de σ2 (ecuacion 3.1.4),representa la varianza dentro los grupos y se conoce como cuadrado medio dentro de losgrupos.

∑kj=1

∑nj

i=1(xij − x.j)2∑kj=1(nj − 1)

(3.1.4)

La segunda estimacion de σ2 (cuadrado medio entre los grupos) se puede obtener a partirde la varianza de las medias de las muestras, σ2

x = σ2/n. Cuando todos los tamanos de lasmuestras son iguales, se tiene la estimacion para σ2 dada por la ecuacion 3.1.5, y cuando notodos los tamanos de las muestras son iguales, se tiene la ecuacion 3.1.6.

n∑k

j=1(x.j − x..)2

k − 1(3.1.5)

∑kj=1 nj(x.j − x..)2

k − 1(3.1.6)

44

Tabla 3.1.1: Tabla de valores de la muestra para el diseno completamente aleatorizado.Tratamientos

1 2 3 . . . kx11 x12 x13 . . . x1kx21 x22 x23 . . . x2kx31 x32 x33 . . . x3k...

......

......

xn11 xn22 xn33 . . . xnkk

Total T.1 T.2 T.3 . . . T.k T..Media x.1 x.2 x.3 . . . x.k x..

Ahora se aplica la estadıstica de prueba, razon de la varianza, al comparar las dos estimacionesde σ2 mediante el calculo de la siguiente relacion de varianza:

R.V. =cuadrado medio entre los grupos

cuadrado medio dentro de los grupos

Si las dos aproximaciones son aproximadamente iguales, R.V. sera casi igual a 1.

Para encontrar las regiones de rechazo y no rechazo de la hipotesis nula se recurre a la tablade la distribucion F (tabla 3.1) de acuerdo a la eleccion del nivel de significancia, α.

8. Decision estadıstica. Para tomar una decision es necesario comparar la R.V. calculadacontra el valor crıtico de F con k − 1 grados de libertad en el numerador y N − k en eldenominador.

Si el valor calculado para R.V. es mayor o igual que el valor crıtico F , la hipotesis nula serechaza; pero si es menor, no se rechaza la hipotesis nula.

9. Conclusion. Cuando se rechaza H0 se concluye que no todas las medias poblacionales soniguales. Cuando no se rechaza H0 se concluye que probablemente todas las medias poblacio-nales son iguales.

10. Valor de p. �

45

Figura 3.1.2: Descripcion de las poblaciones representadas en un diseno completamente aleatorizadocuando H0 es verdadera.

Figura 3.1.3: Descripcion de las poblaciones representadas en un diseno completamente aleatorizadocuando H0 es falsa.

46

Tab

la3.

1.2:

Tab

lapar

ael

anal

isis

de

lava

rian

zapar

ael

dis

eno

com

ple

tam

ente

alea

tori

zado.

Fuen

tede

Sum

ade

Gra

dos

de

Cuad

rado

Raz

onde

lava

riac

ion

cuad

rados

lib

erta

dm

edio

vari

acio

n

Entr

em

ues

tras

SC

entre

=∑ k j=

1nj(x

.j−x..)2

k−

1CM

entre

=SC

entre

k−

1R

.V.

=CM

entre

CM

den

tro

Den

tro

de

las

mues

tras

SC

den

tro

=∑ k j=

1

∑ n j i=1(x

ij−x.j

)2N−k

CM

den

tro

=SC

den

tro

N−k

Tot

alSC

total=∑ k j=

1

∑ n j i=1(x

ij−x..)2

N−

1

47

Tabla 3.1.3: Peso al final del estudio, en gramos, del ejemplo 3.1.2Condicion

DOC WKY DOC-Ca WKY-Ca336 328 304 342346 315 292 284269 343 299 334346 368 293 348323 353 277 315309 374 303 313322 356 303 301316 339 320 354300 343 324 346309 343 340 319276 334 299 289306 333 279 322310 313 305 308302 333 290 325269 372 300311 312

Total 4950 5147 4840 4500 19437Media 309.38 343.13 302.50 321.43 318.64

Ejemplo 3.1.2 El objetivo de un estudio realizado por M ukynen et al fue el de investigar si elcalcio que se consume diariamente en la dieta como tratamiento no farmacologico de la presionsanguınea elevada puede influir beneficamente la funcion endotelial en la hipertension experimentalmineralo-corticoide-NaCl. Los investigadores formaron cuatro grupos con ratas macho Wistar-Kyoto de siete semanas de edad, las cuales registraron un promedio igual en la presion sanguıneasistolica. Los grupos fueron los siguientes: grupo de ratas sin tratamiento con dieta normal (WKY),grupo de ratas sin tratamiento con dieta rica en calcio (WKY-Ca), grupo de ratas con dieta normaltratadas con deoxicorticosterona y NaCl (DOC), y un cuarto grupo de ratas que recibio dieta ricaen calcio y tratamiento (DOC-Ca). Se pretende saber si las cuatro condiciones tienen diferentesefectos en el peso promedio de las ratas macho.

1. Datos. Los datos se muestran en la tabla 3.1.

2. Supuestos. Se supone que los cuatro conjuntos de datos forman muestras aleatorias simplese independientes, extraıdas de cuatro poblaciones que son similares excepto por la condicionestudiada. Se supone que las cuatro poblaciones siguen una distribucion normal con varianzasiguales.

3. Hipotesis.H0 : µ1 = µ2 = µ3 = µ4

48

Tabla 3.1.4: Tabla ANOVA del ejemplo 3.1.2Fuente SC g.l. CM R.VEntre muestras 14649.1514 3 4883.0503 11.99Dentro de las muestras 23210.9023 57 407.2088Total 37860.0547 60

HA : µ1 6= µ2 6= µ3 6= µ4

Al menos una condicion produce una respuesta promedio diferente.

4. Estadıstica de prueba. La estadıstica de prueba es R.V. = CMentre/CMdentro

5. Distribucion de la estadıstica de prueba. Si H0 es verdadera y se cumplen las condicio-nes, entonces R.V. sigue una distribucion F con 4− 1 grados de libertad para el numeradory 61− 4 para el denominador.

6. Regla de decision. Para α = 0.05, el valor crıtico de F es 3.3549. Entonces, se rechaza H0

si el valor calculado de R.V. es mayor o igual a 3.3549.

7. Calculo de la estadıstica de prueba. Los calculos se presentan en la tabla 3.1

8. Decision estadıstica. Debido a que el valor calculado para R.V. (11.99) es mayor que elvalor crıtico de F (3.3549), se rechaza H0.

9. Conclusion. Se concluye que la hipotesis alternativa es verdadera, es decir, los cuatrostratamientos no tienen el mismo efecto en promedio.

10. Valor de p. El valor de p es 3.429437e-06 para esta prueba. �

3.2. Prueba de comparacion de medias

Cuando se realiza un analisis de la varianza por medio de la estadıstica de prueba R.V. y seobtiene un rechazo de la hipotesis nula de no diferencia entre las medias de las poblaciones, surgela pregunta respecto a que par de medias son diferentes. Para resolver esta duda, surge la pruebaHSD (diferencia verdaderamente significativa) de Tukey para comparaciones multiples. La pruebade Tukey utiliza un solo valor contra el que se comparan todas las diferencias. Cuando todas lasmuestras son del mismo tamano, se utiliza la ecuacion 3.2.1.

HSD = qα,k,N−k

√CMresidual

n(3.2.1)

Para cuando las muestras son de diferente tamano, el valor llamado HSD*, se obtiene con laecuacion 3.2.2.

49

Tabla 3.2.1: Diferencia entre las medias de las muestras (valores absolutos) del ejemplo 3.1.2DOC-Ca DOC WKY-Ca WKY

DOC-Ca(DC) − 6.87 18.93 40.63DOC(D) − 12.06 33.76WKY-Ca(WC) − 21.70WKY(W) −

HSD∗ = qα,k,N−k

√CMresidual

n∗j(3.2.2)

donde α es el nivel de significancia seleccionado, k es el numero de medias en el experimento,N es la cantidad total de observaciones, n es el numero de observaciones en el tratamiento, n∗jes el numero de observaciones en el tratamiento con menos datos dentro de los dos que se estancomparando, CMresidual es el cuadrado medio del error (cuadrado medio dentro de las muestras), elcual se obtiene del ANOVA, y q (estadıstica de amplitud de Student) se obtiene a partir de la tablaH (puntos porcentuales del rango corregido de Student para 2 a 20 tratamientos, puntos superioresa 5 %) con los parametros α, k y N−k. De tal manera que, se calculan todas las diferencias posiblesentre los pares de medias y si cualquier diferencia produce un valor absoluto que excede la HSD(o HSD∗) se declara como significativo.

Ejemplo 3.2.1 Mediante los datos del ejemplo anterior realiza una prueba de Tukey.

El primer paso es hacer una tabla con todas las posibles diferencias entre las medias, como semuestra en la tabla 3.2.

Se supone que α = 0.05. Se encuentra q con α = 0.05, k = 4 y N − k = 57, dando un valor de3.7426. Ademas, del analisis ANOVA se tiene que CMresidual es 407.2088.

A continuacion se construye la tabla 3.2 en donde se muestran las hipotesis que deben probarse.

3.3. Diseno por bloques al azar

El diseno por bloques completos y aleatorizados es un diseno en el que las unidades (llamadasunidades de experimentacion) a las que se aplican los tratamientos son subdivididas en gruposhomogeneos llamados bloques, de tal manera que el numero de unidades de experimentacion enun bloque es igual al numero (o a un multiplo del mismo) de tratamientos en estudio. Luego seasignan los tratamientos en forma aleatoria a las unidades experimentales dentro de cada bloque.

El objetivo al utilizar el diseno por bloques completos y aleatorizados es aislar y eliminar deltermino del error la variacion atribuible a los bloques y asegurar que las medidas del tratamientoesten libres del efecto del bloque.

En general, los datos de un experimento que se utiliza el diseno por bloques completos yaleatorizados pueden presentarse en tablas como la 3.3.

50

Tabla 3.2.2: Prueba de comparaciones multiples con los datos del ejemplo 3.1.2Hipotesis HSD∗ Decision estadıstica

H0 : µDC = µD 3.7426

√407.2088

16= 18.92 No se rechaza (6.87 < 18.92)

H0 : µDC = µWC 3.7426

√407.2088

14= 20.22 No se rechaza (18.93 < 20.22)

H0 : µDC = µW 3.7426

√407.2088

15= 19.54 Se rechaza (40.63 > 19.54)

H0 : µD = µWC 3.7426

√407.2088

14= 20.22 No se rechaza (12.06 < 20.22)

H0 : µD = µW 3.7426

√407.2088

15= 19.54 Se rechaza (33.76 > 19.54)

H0 : µWC = µW 3.7426

√407.2088

14= 20.22 Se rechaza (21.7 > 20.22)

Tabla 3.3.1: Tabla de valores de la muestra para el diseno por bloques completos y aleatorizados.Tratamientos

Bloques 1 2 3 . . . k Total Media1 x11 x12 x13 . . . x1k T1. x1.2 x21 x22 x23 . . . x2k T2. x2.3 x31 x32 x33 . . . x3k T3. x3....

......

......

......

...n xn1 xn2 xn3 . . . xnk Tn. xn.

Total T.1 T.2 T.3 . . . T.k T..Media x.1 x.2 x.3 . . . x.k x..

51

donde el total del t-esimo bloque es

Ti. =k∑j=1

xij,

la media del i-esimo bloque es

xi. =

∑kj=1 xij

k=Ti.k

y el gran total es

T.. =k∑j=1

T.j =n∑i=1

Ti.

La tecnica para analizar los datos de un diseno por bloques completos y aleatorizados se llamaanalisis de la varianza bilateral, porque una observacion se clasifica con base en dos criterios: elbloque al que pertenece y el grupo de tratamiento del cual forma parte y los pasos son los mismoque para la prueba de hipotesis:

1. Datos. Realizar el acomodo de los datos con el diseno de la tabla 3.3.

2. Supuestos. El modelo utilizado es la ecuacion 3.3.1.

xij = µ+ βi + τj + eij i = 1, 2, . . . , n; j = 1, 2, . . . , k (3.3.1)

donde:

xij es el valor representativo de toda la poblacion. µ es una constante desconocida. βi re-presenta un efecto de bloque que refleja el hecho de que una unidad de experimentacion caeen el i-esimo bloque. τj representa el efecto de un tratamiento que refleja el hecho de que launidad de experimentacion recibe el j-esimo tratamiento. eij es un componente residual querepresenta todas las fuentes de variacion que no son tratamientos ni bloques.

Supuestos del modelo:

a) Cada xij que se observa constituye una muestra aleatoria independiente, de tamano 1,a partir de una de las kn poblaciones representadas.

b) Cada una de las kn poblaciones sigue una distribucion normal con una media µij y lamisma varianza σ2.

c) Los efectos del tratamiento y del bloque son aditivos, es decir, no existe interaccionentre los tratamientos y bloques.

3. Hipotesis.H0 : τj = 0, j = 1, 2, . . . , k

HA : no todas las τj = 0

52

4. Estadıstica de prueba. Se utiliza la estadıstica de prueba R.V.

5. Distribucion de la estadıstica de prueba. R.V. sigue una distribucion F .

6. Regla de decision. Se rechaza la hipotesis nula si el valor calculado para la estadıstica deprueba R.V. es mayor o igual que el valor crıtico de F .

7. Calculo de la estadıstica de prueba. Puede demostrarse que la suma total de los cua-drados puede dividirse en tres componentes: tratamientos (SCtrat), bloques (SCbloq) y error(SCresidual). Esto es:

SCtotal =k∑j=1

n∑i=1

(xij − x..)2 (3.3.2)

SCbloq =k∑j=1

n∑i=1

(xi. − x..)2 (3.3.3)

SCtrat =k∑j=1

n∑i=1

(x.j − x..)2 (3.3.4)

SCresidual = SCtotal − SCbloq − SCtrat (3.3.5)

En resumen, la tabla ANOVA se puede representar como se observa en la tabla 3.3.

8. Decision estadıstica. La cantidad:

CMtrat

CMresidual

sigue una distribucion F con k−1 grados de libertad en el numerador y (n−1)(k−1) gradosde libertad en el denominador. La razon de la varianza calculada, por lo tanto, se comparacontra el valor crıtico de F .

9. Conclusion. Si se rechaza H0, se concluye que la hipotesis alternativa es verdadera.

10. Valor de p. �

53

Tab

la3.

3.2:

Tab

lapar

ael

anal

isis

de

lava

rian

zapar

ael

dis

eno

por

blo

ques

yal

eato

riza

dos

.F

uen

tede

Sum

ade

Gra

dos

de

Cuad

rado

Raz

onde

lava

riac

ion

cuad

rados

lib

erta

dm

edio

vari

acio

n

Tra

tam

iento

sSC

trat

=∑ k j=

1

∑ n i=1(x

.j−x..)2

k−

1CM

trat

=SC

trat

k−

1

CM

trat

CM

residual

Blo

ques

SC

bloq

=∑ k j=

1

∑ n i=1(x

i.−x..)2

n−

1CM

bloq

=SC

bloq

n−

1

Res

idual

esSC

residual=SC

total−SC

bloq−SC

trat

(n−

1)(k−

1)CM

residual=

SC

residual

(n−

1)(k−

1)

Tot

alSC

total=∑ k j=

1

∑ n i=1(x

ij−x..)2

kn−

1

54

Tabla 3.3.3: Tiempo (en dıas) necesario para aprender a utilizar cierto aparato protesicoMetodo de ensenanza

Grupo de edad A B C Total MediaMenor de 20 7 9 10 26 8.6720 a 29 8 9 10 27 9.0030 a 39 9 9 12 30 10.0040 a 49 10 9 12 31 10.3350 y mas 11 12 14 37 12.33Total 45 48 58 151Media 9.0 9.6 11.6 10.07

Ejemplo 3.3.1 Un fisioterapeuta tenıa como proposito comparar tres metodos para ensenar a suspacientes a utilizar cierto mecanismo protesico. Considero que el porcentaje de aprendizaje serıadiferente en pacientes con diferentes edades, y quiso disenar un experimento en el que la edad fueratomada en cuenta.

1. Datos. Escogio al azar a tres pacientes por grupo para formar cinco grupos de edad paraque participaran en el experimento y cada uno de los pacientes en cada grupo de edad se leasigno al azar un metodo de ensenanza. Estos datos se muestran en la tabla 1.

2. Supuestos. Se supone que las respuestas en las 15 poblaciones representadas siguen unadistribucion normal con varianzas iguales.

3. Hipotesis.H0 : τj = 0, j = 1, 2, 3

HA : no todas las τj = 0

Sea α = 0.05.

4. Estadıstica de prueba. La estadıstica de prueba es

R.V. =CMtrat

CMresidual

5. Distribucion de la estadıstica de prueba. R.V. sigue una distribucion F con 2 y 8 gradosde libertad.

6. Regla de decision. Rechazar la hipotesis nula si el valor calculado de R.V. es mayor o igualque el valor crıtico de F .

7. Calculo de la estadıstica de prueba. Se obtienen los valores que se muestran en la tabla 7.

8. Decision estadıstica. Puesto que 20.91 > 4.46 se rechaza la hipotesis nula de que no hayefectos del tratamiento bajo la suposicion de que una R.V. tan grande refleja que el cuadradomedio de las dos muestras no son estimaciones de la misma cantidad.

55

Tabla 3.3.4: Tabla ANOVA para el ejemplo 3.3.1Fuente SC g.l. CM R.V.Tratamientos 18.5335 2 9.26675 20.91Bloques 24.855 4 6.21375Residuales 3.545 8 0.443125Total 46.9335 14

9. Conclusion. Se concluye que no todos los efectos de los tratamientos son iguales a cero, oequivalentes, es decir, que no todos los tratamientos son iguales.

10. Valor de p. p < 0.005. �

56

Unidad 4

Modelos de regresion

En esta unidad se estudiaran dos tipos de modelos de regresion, el lineal simple y el linealmultiple.

4.1. Regresion y correlacion lineal simple

El analisis de regresion es util para averiguar la forma probable de las relaciones entre lasvariables y el objetivo final, cuando se emplea este metodo de analisis, es predecir o estimar elvalor de una variable que corresponde al valor de otra variable.

Por otra parte, el analisis de correlacion se refiere a la medicion de la intensidad de la relacionentre variables. Cuando se calculan mediciones de correlacion a partir de un conjunto de datos, elinteres recae en el grado de correlacion entre las variables.

4.1.1. Modelo de regresion lineal simple

Para el modelo de regresion lineal simple son importantes dos variables, X y Y , a la primerase le conoce regularmente como variable independiente y a la segunda, como dependiente. Lossiguientes puntos son las suposiciones que fundamentan el modelo de regresion lineal simple:

1. Se dice que los valores de la variable X son fijos. Algunos autores a esta variable le llamanno aleatoria o matematica.

2. La variable X se mide sin error. Dado que ningun procedimiento de medicion es perfecto, seconsidera la magnitud del error de medicion insignificante.

3. Para cada valor de X existe una subpoblacion de valores de Y . Estas subpoblaciones debenseguir una distribucion normal.

4. Todas las varianzas de las subpoblaciones de Y son iguales.

5. Todas las medias de las subpoblaciones de Y se encuentran sobre la misma lınea recta. Aesto se le conoce como suposicion de linealidad y se expresa en la ecuacion 4.1.1.

57

µy|x = α + βx (4.1.1)

donde muy|x es la media de la subpoblacion de valores de Y para un valor especıfico de X;a α y β se les conoce como coeficientes de regresion de la poblacion.

6. Los valores Y son estadısticamente independientes.

Estas suposiciones pueden resumirse mediante la ecuacion 4.1.2, llamada modelo de regresion.

y = α + βx+ e (4.1.2)

donde y es un valor representativo de una de las subpoblaciones de Y , α y β son como sedefinen en la ecuacion 4.1.1; y a e se le llama termino del error. Si se despeja e en la ecuacion 4.1.2,se tiene la ecuacion 4.1.3.

e = y − (α + βx)

e = y − µy|x (4.1.3)

se puede apreciar que e indica la cantidad con la que y se desvıa de la media de la subpoblacionde los valores de Y del cual se extrae. Las e para cada subpoblacion tambien siguen una distribucionnormal con una varianza igual a la varianza comun de las subpoblaciones de valores de Y .

Las siguientes siglas son de gran utilidad para recordar muchas de las suposiciones necesariaspara la inferencia en el analisis de regresion lineal:

LINI = Linealidad, Independencia, Normalidad, Iguales varianzas. En la figura 4.1.1 apareceuna representacion grafica del modelo de regresion.

4.1.2. Ecuacion de regresion simple

El objeto de interes para el investigador, en la regresion lineal simple, es la ecuacion de regresionde la poblacion, que describe la relacion real entre la variable dependiente Y y la independienteX.

Si no se tiene informacion extensa respecto a la naturaleza de las variables de interes, se suponeque estan relacionadas linealmente. El analisis siguiente comprende estos pasos:

1. Determinar si las suposiciones que fundamentan la relacion lineal se cumplen o no en losdatos disponibles para el analisis.

2. Obtener la ecuacion de la recta que se ajuste mejor a los datos de la muestra.

3. Evaluar la ecuacion para obtener una idea de que tan fuerte es la relacion y cual es la utilidadde la ecuacion para predecir y estimar.

4. Si los datos parecen ajustarse satisfactoriamente al modelo lineal, entonces se utiliza la ecua-cion que se obtuvo de los datos de la muestra para predecir y estimar.

58

Figura 4.1.1: Representacion del modelo de regresion lineal simple

59

Figura 4.1.2: Diagrama de dispersion de los datos de la tabla 4.1.2

Ejemplo 4.1.1 Depres et al. desarrollaron ecuaciones para predecir la cantidad de tejido adiposodel abdomen a partir de las mediciones antropometricas simples. Los individuos estudiados eranhombres entre 18 y 42 anos. En la tabla 4.1.2 se muestran las mediciones tomadas a cada individuorespecto a la circunferencia de la cintura y a la cantidad de tejido adiposo profundo mediante latomografıa computada.

¿Que tan acertado serıa predecir y estimar la cantidad de tejido adiposo abdominal a partir dela medida de la circunferencia de la cintura?

En la figura 4.1.2 se muestra el diagrama de dispersion que es generalmente util en el estudiode la relacion entre dos variables.

Al metodo que se utiliza regularmente para obtener la recta deseada se le conoce como metodode mınimos cuadrados, y se obtiene una recta, la cual esta dada por la ecuacion 4.1.4.

y = a+ bx (4.1.4)

donde y es un valor sobre el eje vertical, x un valor sobre el eje horizontal, a es el punto donde

60

Tabla 4.1.1: Medidas de la circunferencia de la cintura (cm) X y tejido adiposo abdominal profundoY de 109 hombres.

Individuo X Y Individuo X Y Individuo X Y1 74.75 25.72 38 103.00 129.00 75 108.00 217.002 72.60 25.89 39 80.00 74.02 76 100.00 140.003 81.80 42.60 40 79.00 55.48 77 103.00 109.004 83.95 42.80 41 83.50 73.13 78 104.00 127.005 74.65 29.84 42 76.00 50.50 79 106.00 112.006 71.85 21.68 43 80.50 50.88 80 109.00 192.007 80.90 29.08 44 86.50 140.00 81 103.50 132.008 83.40 32.98 45 83.00 96.54 82 110.00 126.009 63.50 11.44 46 107.10 118.00 83 110.00 153.0010 73.20 32.22 47 94.30 107.00 84 112.00 158.0011 71.90 28.32 48 94.50 123.00 85 108.50 183.0012 75.00 43.86 49 79.70 65.92 86 104.00 184.0013 73.10 38.21 50 79.30 81.29 87 111.00 121.0014 79.00 42.48 51 89.80 111.00 88 108.50 159.0015 77.00 30.96 52 83.80 90.73 89 121.00 245.0016 68.85 55.78 53 85.20 133.00 90 109.00 137.0017 75.95 43.78 54 75.50 41.90 91 97.50 165.0018 74.15 33.41 55 78.40 41.71 92 105.50 152.0019 73.80 43.35 56 78.60 58.16 93 98.00 181.0020 75.90 29.31 57 87.80 88.85 94 94.50 80.9521 76.85 36.60 58 86.30 155.00 95 97.00 137.0022 80.90 40.25 59 85.50 70.77 96 105.00 125.0023 79.90 35.43 60 83.70 75.08 97 106.00 241.0024 89.20 60.09 61 77.60 57.05 98 99.00 134.0025 82.00 45.84 62 84.90 99.73 99 91.00 150.0026 92.00 70.40 63 79.80 27.96 100 102.50 198.0027 86.60 83.45 64 108.30 123.00 101 106.00 151.0028 80.50 84.30 65 119.60 90.41 102 109.10 229.0029 86.00 78.89 66 119.90 106.00 103 115.00 253.0030 82.50 64.75 67 96.50 144.00 104 101.00 188.0031 83.50 72.56 68 105.50 121.00 105 100.10 124.0032 88.10 89.31 69 105.00 97.13 106 93.30 62.2033 90.80 78.94 70 107.00 166.00 107 101.80 133.0034 89.40 83.55 71 107.00 87.99 108 107.90 208.0035 102.00 127.00 72 101.00 154.00 109 108.50 208.0036 94.50 121.00 73 97.00 100.0037 91.00 107.00 74 100.00 123.00

61

Figura 4.1.3: Diagrama de dispersion de los datos de la tabla 4.1.2 y recta por mınimos cuadrados

la recta cruza el eje vertical y b indica la cantidad con la cual y cambia por cada unidad de cambioen x. La ordenada al origen es a y b es la pendiente de la recta.

En la figura 4.1.2 es posible observar la ecuacion de regresion lineal por mınimos cuadrados delejemplo, la cual esta dada por la expresion 4.1.5.

y = −216 + 3.46x (4.1.5)

4.1.3. Coeficiente de regresion

Despues de obtener la ecuacion de regresion, es necesario evaluarla para determinar si describeadecuadamente la relacion entre las dos variables y si puede utilizarse convenientemente con finesde prediccion y estimacion.

Una forma de evaluar la eficiencia de la ecuacion de regresion es comparar la dispersion de lospuntos en torno a la recta de regresion con la dispersion en torno a y, la media de los valores dela muestra de Y .

62

Antes de definir el coeficiente de determinacion, es necesario justificar su uso mediante elexamen de la logica en la que se basa su calculo. Primero se comienza por considerar el puntocorrespondiente a cualquier valor observado, yi, para medir la distancia vertical entre dicho puntoy la recta y. A esto se le da el nombre de desviacion total y se designa por (yi − y).

Si se mide la distancia vertical entre la recta de regresion y la recta y, se obtiene (y − y), quese conoce como desviacion explicada, porque muestra en cuanto disminuye la desviacion total si larecta de regresion se ajusta a los puntos.

Finalmente, se mide la distancia vertical entre el punto observado y la recta de regresion paraobtener (yi − y), llamada desviacion inexplicada, porque representa la porcion de la desviaciontotal que no esta tomada en cuenta por la introduccion de la recta de regresion.

Se aprecia entonces, que la desviacion total para una yi particular es igual a la suma de lasdesviaciones explicada e inexplicada, como se muestra en la ecuacion 4.1.6.

(yi − y) = −(y − y)− (yi − y) (4.1.6)

Si se miden estas desviaciones para cada valor de yi y y, se eleva al cuadrado cada desviaciony se suman todas ellas, se obtiene la ecuacion 4.1.7, conocida como de dispersion o variabilidad.∑

(yi − y)2 =∑

(y − y)2 +∑

(yi − y)2 (4.1.7)

63