ESTADISTICA AVANZADA

164
ESTADÍSTICA AVANZADA – GUIA DE ESTUDIO ESTADÍSTICA AVANZADA 1. Principales leyes de distribución de variables aleatorias 1.2 Introducción 1.4 Distribuciones discretas o 1.4.2 Distribución de Bernoulli 1.4.2.1 Observación o 1.4.4 Distribución binomial 1.4.4.1 Ejemplo o 1.4.6 Distribución geométrica ( o de fracasos) 1.4.6.1 Observación 1.4.6.2 Observación 1.4.6.3 Ejemplo 1.4.6.4 Observación o 1.4.8 Distribución binomial negativa 1.4.8.1 Ejemplo 1.4.8.2 Observación o 1.4.10 Distribución hipergeométrica 1.4.10.1 Observación o 1.4.12 Distribución de Poisson (o de los sucesos raros) 1.4.12.1 Ejemplo 1.6 Reproductividad de familias de v.a. 1.8 Distribuciones continuas o 1.8.2 Distribución uniforme o rectangular o 1.8.4 Distribución exponencial 1.8.4.1 Ejemplo 1.8.4.2 Ejemplo o 1.8.6 Distribución normal o gaussiana 1.8.6.1 Observación DR. ADOLFO GUTIERREZ SOSA

description

Estadística avanzada

Transcript of ESTADISTICA AVANZADA

Page 1: ESTADISTICA AVANZADA

ESTADÍSTICA AVANZADA – GUIA DE ESTUDIO

ESTADÍSTICA AVANZADA

1. Principales leyes de distribución de variables aleatorias

  1.2 Introducción 1.4 Distribuciones discretas

o 1.4.2 Distribución de Bernoulli 1.4.2.1 Observación

o 1.4.4 Distribución binomial 1.4.4.1 Ejemplo

o 1.4.6 Distribución geométrica ( o de fracasos) 1.4.6.1 Observación 1.4.6.2 Observación 1.4.6.3 Ejemplo 1.4.6.4 Observación

o 1.4.8 Distribución binomial negativa 1.4.8.1 Ejemplo 1.4.8.2 Observación

o 1.4.10 Distribución hipergeométrica 1.4.10.1 Observación

o 1.4.12 Distribución de Poisson (o de los sucesos raros) 1.4.12.1 Ejemplo

1.6 Reproductividad de familias de v.a. 1.8 Distribuciones continuas

o 1.8.2 Distribución uniforme o rectangular o 1.8.4 Distribución exponencial

1.8.4.1 Ejemplo 1.8.4.2 Ejemplo

o 1.8.6 Distribución normal o gaussiana 1.8.6.1 Observación 1.8.6.2 Observación 1.8.6.3 Proposición (Cambio de origen y escala) 1.8.6.4 Ejemplo 1.8.6.5 Proposición 1.8.6.6 Aproximación a la normal de la ley binomial 1.8.6.7 Ejemplo 1.8.6.8 Ejemplo

o

DR. ADOLFO GUTIERREZ SOSA

Page 2: ESTADISTICA AVANZADA

ESTADÍSTICA AVANZADA – GUIA DE ESTUDIO

o 1.8.8 Distribución 1.8.8.1 Observación 1.8.8.2 Ejemplo 1.8.8.3 Teorema (Cochran)

o 1.8.10 Distribución de Student o 1.8.12 La distribución de Snedecor

1.10 Problemas

1.2 Introducción

Como complemento al capítulo anterior en el que definimos todos los conceptos relativos a variables aleatorias, describimos en éste las principales leyes de probabilidad que encontramos en las aplicaciones del cálculo de probabilidades. Atendiendo a la clasificación de las v.a. en discretas y continuas describiremos las principales leyes de probabilidad de cada una de ellas, las cuales constituirán el soporte subyacente de la inferencia estadística y a las que será necesario hacer referencia en el estudio de dicho bloque. Iniciamos este capítulo con el estudio de las distribuciones para v.a. discretas.

1.4 Distribuciones discretas

DR. ADOLFO GUTIERREZ SOSA

Page 3: ESTADISTICA AVANZADA

ESTADÍSTICA AVANZADA – GUIA DE ESTUDIO

La distribución de probabilidad describe el comportamiento de una variable aleatoria. A menudo, las observaciones que se generan en diferentes experimentos estadisticos tienen el mismo tipo general de comportamiento, en consecuencia las v. a. discretas asociadas con estos experimentos se pueden describir con la misma distribución de probabilidad y, por lo tanto, se representan usando una sola formula.

Las distribuciones en realidad describen varios fenómenos de la vida real. En un estudio sobre la prueba de la eficacia de un nuevo fármaco, el numero de pacienetes curados entre todos los pacientes que utilizaron tal medicamento, sigue aproximadamente una distribución binomial. En un ejemplo industrial, cuando se probo una muestra de articulos seleccionados de un lote de producción, el numero de articulos defectuosos de la muestra, por lo general, puede modelarse como una v. a. hipergeometrica. En un problema de control estadistico de calidad, el experimentador senalara un corrimiento en la media del proceso cuando los datos observacionales excedan ciertos limites. El numero de muestras requeridas para generar una falsa alarma sigue una distribución geometrica que es un caso especial de distribución binomial negativa. El numero de leucocitos de una cantidad fija de una muestra de sangre de un individuo es comúnmente aleatorio y podria describirse mediante la distribución de Poisson.

1.4.2 Distribución de Bernoulli

Consiste en realizar un experimento aleatorio una sóla vez y observar si cierto suceso ocurre o no, siendo p la probabilidad de que esto sea así (éxito) y q=1-p el que no lo sea (fracaso). En realidad no se trata más que de una variable dicotómica, es decir que únicamente puede tomar dos modalidades, es por ello que el hecho de llamar éxito o fracaso a los posibles resultados de las pruebas obedece más una tradición literaria o histórica, en el estudio de las v.a., que a la situación real que pueda derivarse del resultado. Podríamos por tanto definir este experimento mediante una v.a. discreta Xque toma los valores X=0 si el

suceso no ocurre, y X=1 en caso contrario, y que se denota

Un ejemplo típico de este tipo de variables aleatorias consiste en lanzar una moneda al aire y considerar la v.a.

DR. ADOLFO GUTIERREZ SOSA

Page 4: ESTADISTICA AVANZADA

ESTADÍSTICA AVANZADA – GUIA DE ESTUDIO

Para una v.a. de Bernouilli, tenemos que su función de probabilidad es:

y su función de distribución:

Su función característica es:

Los principales momentos de la X los podemos calcular directamente

DR. ADOLFO GUTIERREZ SOSA

Page 5: ESTADISTICA AVANZADA

ESTADÍSTICA AVANZADA – GUIA DE ESTUDIO

o bien usando la función característica y la proposición de la página :

1.4.2.1 Observación

En este caso tan simple no se aprecia la ventaja de usar la función característica en el cálculo de momentos, pero en las próximas leyes de probabilidad que son más complicadas, esta ventaja se hará manifiesta.

Ejercicio

Sea X una v.a. cuya f.d.p.esta dada por ( ; ) 1/ , 1, 2,...,f x k k x k . Probar que la

media y la varianza de X son, respectivamente, 1

1 k

x

xk

y 2 2

1

1( )

k

x

xk

.

6.4.4 Distribución binomial

Se dice que una v.a. X sigue una ley binomial de parámetros n y p, , si es la suma de n v.a. independientes de Bernouilli con el mismo parámetro, p:

Esta definición puede interpretarse en el siguiente sentido: Supongamos que realizamos n pruebas de Bernouilli, Xi, donde en todas ellas, la probabilidad de éxito es la misma (p), y queremos calcular el número de éxitos, X, obtenidos el el

DR. ADOLFO GUTIERREZ SOSA

Page 6: ESTADISTICA AVANZADA

ESTADÍSTICA AVANZADA – GUIA DE ESTUDIO

total de las n pruebas. Su ley de probabilidad es6.1 En la Figura 6.1 se representa la función de probabilidad de una variable binomial.

   Figura: Función de probabilidad de una variable binomial cunado n es pequeño.

   Figura: Función de probabilidad de una variable binomial cuando n es grande.

DR. ADOLFO GUTIERREZ SOSA

Page 7: ESTADISTICA AVANZADA

ESTADÍSTICA AVANZADA – GUIA DE ESTUDIO

Por tanto, su función de distribución es

El modo más simple de calcular la función característica nos lo da el teorema de la página , que afirma que la función característica de la suma de variables independientes es el producto de las funciones características de estas:

Los principales momentos de X los calculamos más fácilmente a partir de (prop. página 5) que de su propia definición:

DR. ADOLFO GUTIERREZ SOSA

Page 8: ESTADISTICA AVANZADA

ESTADÍSTICA AVANZADA – GUIA DE ESTUDIO

1.4.4.1 Ejemplo

Un médico aplica un test a 10 alumnos de un colegio para detectar una enfermedad cuya incidencia sobre una población de niños es del 10%. La sensibilidad del test es del 80% y la especificidad del 75%. ¿Cual es la probabilidad de que exactamente a cuatro personas le de un resultado positivo? Si en la muestra hay cuatro personas a las que el test le da positivo, ¿cuál es la probabilidad de que entre estas, exactamente dos estén sanas? Calcular la probabilidad de que el test suministre un resultado incorrecto para dos personas. Calcular la probabilidad de que el resultado sea correcto para más de 7 personas.

Solución:

Los datos de que disponemos son:

donde E, T+, y T- tienen el sentido que es obvio. Si queremos saber a cuantas

personas el test le dará un resultado positivo, tendremos que calcular ,

DR. ADOLFO GUTIERREZ SOSA

Page 9: ESTADISTICA AVANZADA

ESTADÍSTICA AVANZADA – GUIA DE ESTUDIO

para lo que podemos usar el teorema de la probabilidad total (estar enfermo y no estarlo forman una colección exhaustiva y excluyente de sucesos):

Sea X1 la v.a. que contabiliza el número de resultados positivos. Es claro que

llamando , se tiene que X sigue una distribución binomial

Por ello la probabilidad de que a cuatro personas le de el resultado del test positivo es:

Si queremos calcular a cuantas personas les dará el test un resultado positivo

aunque en realidad estén sanas, hemos de calcular previamente , o sea, el índice predictivo de falsos positivos:

DR. ADOLFO GUTIERREZ SOSA

Page 10: ESTADISTICA AVANZADA

ESTADÍSTICA AVANZADA – GUIA DE ESTUDIO

Es importante observar este resultado. Antes de hacer los cálculos no era previsible que si a una persona el test le da positivo, en realidad tiene una

probabilidad aproximadamente del de estar sana. Sea X2 la variable aleatoria que contabiliza al número de personas al que el test le da positivo, pero que están sanas en realidad. Entonces

y

Por último vamos a calcular la probabilidad p3 de que el test de un resultado erróneo, que es:

La variable aleatoria que contabiliza el número de resultados erróneos del test es

DR. ADOLFO GUTIERREZ SOSA

Page 11: ESTADISTICA AVANZADA

ESTADÍSTICA AVANZADA – GUIA DE ESTUDIO

Como la probabilidad de que el test sea correcto para más de siete personas, es la de que sea incorrecto para menos de 3, se tiene

1.4.4.2 Ejemplo

Un fabricante sabe que, en promedio, 20% de los tostadores electricos que fabrica requeriran reparaciones dentro de un año después de su venta. Cuando se seleccionan al azar 20 tostadores, encuentre los numeros adecuados x y y tales que:(a) la probabilidad de que al menos x de ellos requieran reparaciones sea menor que 0.5(b) la probabilidad de que al menos y de ellos no requieran reparaciones sea mayor que 0.8.

Soluciono Con p=0.2 y n=20, la v. a. X que denota el numero de tostadores

que requieren reparaciones después de un año es binomial y la probabilidad pedida es:

( ) 0.5P X x Lo que conduce utilizando las tables de la binomial a: 4X

DR. ADOLFO GUTIERREZ SOSA

Page 12: ESTADISTICA AVANZADA

ESTADÍSTICA AVANZADA – GUIA DE ESTUDIO

o Siendo Y los tostadores que no requieren reparaciones con probabilidad 0.8p , Y se distribuye binomialmente y la probabilidad pedida es

( ) 0.8P Y y lo que conduce, utilizando las mismas tables de la distribcion binomial, a 2Y

1.4.4.3 Ejemplo.

Sean las variables aleatorias independientes 1 1~ ( , )X B n p y 2 2~ ( , )X B n p . Hallar la f.d.p. conjunta de 1 1 2Y X X y 2 2Y X , y despues, halle la f.d.p.

marginal de 1Y .

Solucion:

Por definición,

1 2 1 2 2( , ) ( | ) ( )f y y f y y f y

que en terminos de probabilidad es lo mismo que

1 1 2 2 1 1 2 2 2 2( , ) ( | ) ( )P Y y Y y P Y y Y y P Y y

Pero, 1 1 2 2 1 1 2( | ) ( )P Y y Y y P X y y . Entonces,

1 1 2 2 1 1 2 2 2( , ) ( ) ( )P Y y Y y P X y y P Y y

Como ambas distribuciones son binomiales, entonces,

1 2 1 1 2 2 2 21 21 1 2 2 2

1 2 2

( ) ( ) (1 ) (1 )y y n y y y n yn nP X y y P Y y p p p p

y y y

Es decir,

DR. ADOLFO GUTIERREZ SOSA

Page 13: ESTADISTICA AVANZADA

ESTADÍSTICA AVANZADA – GUIA DE ESTUDIO

1 2 1 1 2 2 2 21 21 1 2 2

1 2 2

( , ) (1 ) (1 )y y n y y y n yn nP Y y Y y p p p p

y y y

1 1 2 11 2

1 2 2

(1 )y n n yn np p

y y y

Para 1 2 20,1,...,y y n y 2 20,1,...,y n . Luego la funcion de densidad de

probabilidad marginal de 1 1 2Y X X esta dada por

2

1 1 2 1

1

2

1 21

0 1 2 2

( ) (1 )n

y n n yY

y

n nf y p p

y y y

2

1 1 2 1

2

1 2

0 1 2 2

(1 )n

y n n y

y

n np p

y y y

1 1 2 11 2

1

(1 )y n n yn np p

y

Lo que prueba que 1Y es ta bien binomial

1.4.6 Distribución geométrica ( o de fracasos)

Consideramos una sucesión de v.a. independientes de Bernouilli,

Una v.a. X sigue posee una distribución geométrica, , si esta es la suma del número de fracasos obtenidos hasta la aparición del primer éxito en la

sucesión . Por ejemplo

DR. ADOLFO GUTIERREZ SOSA

Page 14: ESTADISTICA AVANZADA

ESTADÍSTICA AVANZADA – GUIA DE ESTUDIO

De este modo tenemos que la ley de probabilidad de X es

1.4.6.1 Observación

Es sencillo comprobar que realmente f es una ley de probabilidad, es decir,

. Para ello basta observar que la sucesión es una progresión geométrica de razón q, a la que podemos aplicar su fórmula de sumación:

1.4.6.2 Observación

En la distribución geométrica el conjunto de posibles valores que puede tomar la variable ( ) es infinito numerable, mientras que en la de Bernouilli y en la binomial, estos eran en número finito.

La función característica se calcula teniendo en cuenta que de nuevo aparece la sumación de los términos de una progresión geométrica, pero esta vez de razón eit q:

DR. ADOLFO GUTIERREZ SOSA

Page 15: ESTADISTICA AVANZADA

ESTADÍSTICA AVANZADA – GUIA DE ESTUDIO

La media y varianza de esta variable aleatoria son:

1.4.6.3 Ejemplo

Un matrimonio quiere tener una hija, y por ello deciden tener hijos hasta el nacimiento de una hija. Calcular el número esperado de hijos (entre varones y hembras) que tendrá el matrimonio. Calcular la probabilidad de que la pareja acabe teniendo tres hijos o más.

Solución: Este es un ejemplo de variable geométrica. Vamos a suponer que la probabilidad de tener un hijo varón es la misma que la de tener una hija hembra. Sea X la v.a.

Es claro que

DR. ADOLFO GUTIERREZ SOSA

Page 16: ESTADISTICA AVANZADA

ESTADÍSTICA AVANZADA – GUIA DE ESTUDIO

Sabemos que el número esperado de hijos varones es , por tanto el número esperado en total entre hijos varones y la niña es 2.

La probabilidad de que la pareja acabe teniendo tres o más hijos, es la de que tenga 2 o más hijos varones (la niña está del tercer lugar en adelante), es decir,

Hemos preferido calcular la probabilidad pedida mediante el suceso complementario, ya que sería más complicado hacerlo mediante la suma infinita

1.4.6.4 Observación

La distribución exponencial también puede ser definida como el número de pruebas realizadas hasta la obtención del primer éxito (como hubiese sido más adecuado en el ejemplo anterior). En este caso es un ejercicio sencillo comprobar que X sólo puede tomar valores naturales mayores o iguales a 1, y que:

DR. ADOLFO GUTIERREZ SOSA

Page 17: ESTADISTICA AVANZADA

ESTADÍSTICA AVANZADA – GUIA DE ESTUDIO

1.4.8 Distribución binomial negativa

Sobre una sucesión de v.a. de Bernouilli independientes,

se define la v.a. X como el número de fracasos obtenidos hasta la aparición de r

éxitos en la sucesión . En este caso se dice que X sigue una ley de distribución binomial negativa de parámetros r y p y se denota del modo:

. Su ley de probabilidad se deduce siguiendo el esquema:

De nuevo, el conjunto de posibles valores de esta v.a. discreta es

.

Su función característica es

y sus momentos más importantes los obtenemos derivando esta última:

DR. ADOLFO GUTIERREZ SOSA

Page 18: ESTADISTICA AVANZADA

ESTADÍSTICA AVANZADA – GUIA DE ESTUDIO

1.4.8.1 Ejemplo

Para tratar a un paciente de una afección de pulmón han de ser operados en operaciones independientes sus 5 lóbulos pulmonares. La técnica a utilizar es tal que si todo va bien, lo que ocurre con probabilidad de 7/11, el lóbulo queda definitivamente sano, pero si no es así se deberá esperar el tiempo suficiente para intentarlo posteriormente de nuevo. Se practicará la cirugía hasta que 4 de sus 5lóbulos funcionen correctamente. ¿Cuál es el valor esperado de intervenciones que se espera que deba padecer el paciente? ¿Cuál es la probabilidad de que se necesiten 10 intervenciones?

Solución: Este es un ejemplo claro de experimento aleatorio regido por una ley binomial negativa, ya que se realizan intervenciones hasta que se obtengan 4 lóbulos sanos, y éste es el criterio que se utiliza para detener el proceso. Identificando los parámetros se tiene:

Lo que nos interesa es medir el número de intervenciones, Y, más que el número de éxitos hasta el r-ésimo fracaso. La relación entre ambas v.a. es muy simple:

Y=X+r

Luego

DR. ADOLFO GUTIERREZ SOSA

Page 19: ESTADISTICA AVANZADA

ESTADÍSTICA AVANZADA – GUIA DE ESTUDIO

Luego el número esperado de intervenciones que deberá sufrir el paciente es de 11. La probabilidad de que el número de intervenciones sea Y=10, es la de que X=10-4=6. Por tanto:

1.4.8.2 Observación

La distribución binomial negativa también se puede definir como el número de pruebas hasta la aparición de r éxitos. Como el número de pruebas contabiliza tanto los éxitos como los fracasos se tendría según ésta definición que

1.4.10 Distribución hipergeométrica

Por claridad, consideremos el siguiente ejemplo: Tenemos una baraja de cartas españolas (N=40 naipes), de las cuales nos vamos a interesar en el palo de oros (D=10 naipes de un mismo tipo). Supongamos que de esa baraja extraemos n=8 cartas de una vez (sin reemplazamiento) y se nos plantea el problema de calcular la probabilidad de que hayan k=2 oros (exactamente) en esa extracción. La respuesta a este problema es

DR. ADOLFO GUTIERREZ SOSA

Page 20: ESTADISTICA AVANZADA

ESTADÍSTICA AVANZADA – GUIA DE ESTUDIO

En lugar de usar como dato D es posible que tengamos la proporción existente, p, entre el número total de oros y el número de cartas de la baraja

de modo que podemos decir que

Este ejemplo sirve para representar el tipo de fenómenos que siguen una ley de distribución hipergeométrica. Diremos en general que una v.a. X sigue una distribución hipergeométrica de parámetros, N, n y p, lo que representamos

del modo , si su función de probabilidad es

DR. ADOLFO GUTIERREZ SOSA

Page 21: ESTADISTICA AVANZADA

ESTADÍSTICA AVANZADA – GUIA DE ESTUDIO

1.4.10.1 Observación

Cuando el tamaño de la población (N) es muy grande, la ley hipergeométrica tiende a aproximarse a la binomial:

El valor esperado de la hipergeométrica es el mismo que el de la binomial,

sin embargo su varianza

no es exactamente la de la binomial, pues está corregida por un factor, , que tiende a 1 cuando . A este factor se le denomina factor de corrección para población finita.

1.4.10.2 Ejemplo

DR. ADOLFO GUTIERREZ SOSA

Page 22: ESTADISTICA AVANZADA

ESTADÍSTICA AVANZADA – GUIA DE ESTUDIO

Una compania tiene 300 empleados de los cuales 240 son miembros del sindicato de trabajadores. 8 empleados son escogidos al azar para servir en un comité que administrara el fondo de pensiones. Calcule la probabilidad de que mas de la mitad de los integrantes del comité sean sindicalizados.

Solución

De acuerdo con los datos, N=300, K=240 y n=8. Si X es la variable aleatoria que denota el numero de miembros del comité que estan sindicalizados, entonces

( 4) 1 ( 3)P X P X

Pero N y K son muy grandes y n muy pequeño en comparación con N; utilizamos, entonces, la aproximación binomial de la hipergeometrica. Esto quiere decir que ~ ( 8; / 0.8)X Bin n p K N . Asi:

( 4) 1 ( 3) 1 0.0104 0.9896P X P X

El resultado final se ha obtenido directamente de la tabla binomial.

1.4.12 Distribución de Poisson (o de los sucesos raros)

Una v.a. X posee una ley de distribución de probabilidades del tipo Poisson

cuando

Este tipo de leyes se aplican a sucesos con probabilidad muy baja de ocurrir, obteniéndose como la distribución límite de una sucesión de variable binomiales,

, donde , y (por tanto ).

La demostración de esto consiste en

DR. ADOLFO GUTIERREZ SOSA

Page 23: ESTADISTICA AVANZADA

ESTADÍSTICA AVANZADA – GUIA DE ESTUDIO

En general utilizaremos la distribución de Poisson como aproximación de experimentos binomiales donde el número de pruebas es muy alto, pero la probabilidad de éxito muy baja. A veces se suele utilizar como criterio de aproximación:

La ley de Poisson la podemos encontrar tabulada en la tabla número 2, para ciertos valores usuales de .

La función característica de es

DR. ADOLFO GUTIERREZ SOSA

Page 24: ESTADISTICA AVANZADA

ESTADÍSTICA AVANZADA – GUIA DE ESTUDIO

de lo que se deduce que valor esperado y varianza coinciden

1.4.12.1 Ejemplo

Cierta enfermedad tiene una probabilidad muy baja de ocurrir, p=1/100.000. Calcular la probabilidad de que en una ciudad con 500.000 habitantes haya más de 3 personas con dicha enfermedad. Calcular el número esperado de habitantes que la padecen.

Solución: Si consideramos la v.a. X que contabiliza el número de personas que padecen la enfermedad, es claro que sigue un modelo binomial, pero que puede ser muy bien aproximado por un modelo de Poisson, de modo que

Así el número esperado de personas que padecen la enfermedad es .

Como , existe una gran dispersión, y no sería extraño encontrar que en realidad hay muchas más personas o menos que están enfermas. La probabilidad de que haya más de tres personas enfermas es:

1.6 Reproductividad de familias de v.a.

Las variables aleatorias relacionadas entre si por uno o más parámetros mediante f, o lo que es equivalente según el teorema de Fourier (página ), mediante su función característica, las hemos agrupado en familias de v.a. que

hemos denotado de modo genérico . Para cualquier tipo de familia de

DR. ADOLFO GUTIERREZ SOSA

Page 25: ESTADISTICA AVANZADA

ESTADÍSTICA AVANZADA – GUIA DE ESTUDIO

v.a. , diremos que esta reproductiva respecto al parámetro p, si al

considerar independientes, donde se tiene que la suma de todas ellas es una v.a. de la misma familia, pero con parámetro

Por ejemplo no es reproductiva con respecto a p, ya que la suma de dos v.a. de esa familia no sigue una distribución de Bernouilli. Sin embargo la familia

lo es con respecto al parámetro , ya que

Un modo sencillo de ver si una familia de distribuciones es reproductiva con respecto a algún parámetro es analizar su función característica utilizando el teorema de la página . Por ejemplo el mismo resultado se puede obtener para la distribución binomial teniendo en cuenta que

DR. ADOLFO GUTIERREZ SOSA

Page 26: ESTADISTICA AVANZADA

ESTADÍSTICA AVANZADA – GUIA DE ESTUDIO

Utilizando el mismo argumento, tenemos que otra distribuciones reproductiva es

.

1.8 Distribuciones continuas

En esta sección estudiaremos las distribuciones más importantes de v.a. continuas unidimensionales. El soporte de una v.a. continua se define como

aquella región de donde su densidad es no nula, . Para las

distribuciones que enunciaremos, podrá ser bien todo , o bien

un segmento de la forma .

  1.8.2 Distribución uniforme o rectangular 1.8.4 Distribución exponencial

o 1.8.4.1 Ejemplo o 1.8.4.2 Ejemplo

1.8.6 Distribución normal o gaussiana o 1.8.6.1 Observación o 1.8.6.2 Observación o 1.8.6.3 Proposición (Cambio de origen y escala) o 1.8.6.4 Ejemplo o 1.8.6.5 Proposición o 1.8.6.1 Aproximación a la normal de la ley binomial

DR. ADOLFO GUTIERREZ SOSA

Page 27: ESTADISTICA AVANZADA

ESTADÍSTICA AVANZADA – GUIA DE ESTUDIO

o 1.8.1.7 Ejemplo o 1.8.6.8 Ejemplo

1.8.8 Distribución o 1.8.8.1 Observación o 1.8.8.2 Ejemplo o 1.8.8.3 Teorema (Cochran)

1.8.10 Distribución de Student 1.8.12 La distribución de Snedecor

1.8.2 Distribución uniforme o rectangular

Se dice que una v.a. X posee una distribución uniforme en el intervalo [a,b],

si su función de densidad es la siguiente:

Con esta ley de probabilidad, la probabilidad de que al hacer un experimento aleatorio, el valor de X este comprendido en cierto subintervalo de [a,b] depende únicamente de la longitud del mismo, no de su posición. Cometiendo un pequeño abuso en el lenguaje, podemos decir que en una distribución uniforme la probabilidad de todos los puntos del soporte es la misma 6.2.

Teniendo en cuenta que si ,

la función de distribución de es:

DR. ADOLFO GUTIERREZ SOSA

Page 28: ESTADISTICA AVANZADA

ESTADÍSTICA AVANZADA – GUIA DE ESTUDIO

   Figura: Función de densidad y de

distribución de

La función característica es

Como esta distribución es muy simple, vamos a calcular sus momentos más usuales directamente a partir de la definición, en lugar de usar la función característica:

DR. ADOLFO GUTIERREZ SOSA

Page 29: ESTADISTICA AVANZADA

ESTADÍSTICA AVANZADA – GUIA DE ESTUDIO

1.8.4 Distribución exponencial

La distribución exponencial es el equivalente continuo de la distribución geométrica discreta. Esta ley de distribución describe procesos en los que:

Nos interesa saber el tiempo hasta que ocurre determinado evento, sabiendo que,

el tiempo que pueda ocurrir desde cualquier instante dado t, hasta que ello ocurra en un instante tf, no depende del tiempo transcurrido anteriormente en el que no ha pasado nada.

Ejemplos de este tipo de distribuciones son:

El tiempo que tarda una partícula radiactiva en desintegrarse. El conocimiento de la ley que sigue este evento se utiliza en Ciencia para, por ejemplo, la datación de fósiles o cualquier materia orgánica mediante la técnica del carbono 14, C14;

El tiempo que puede transcurrir en un servicio de urgencias, para la llegada de un paciente;

En un proceso de Poisson donde se repite sucesivamente un experimento a intervalos de tiempo iguales, el tiempo que transcurre entre la ocurrencia de dos sucesos consecutivos sigue un modelo probabilístico exponencial. Por ejemplo, el tiempo que transcurre entre que sufrimos dos veces una herida importante.

Concretando, si una v.a. continua X distribuida a lo largo de , es tal que su función de densidad es

DR. ADOLFO GUTIERREZ SOSA

Page 30: ESTADISTICA AVANZADA

ESTADÍSTICA AVANZADA – GUIA DE ESTUDIO

se dice que sigue una distribución exponencial de parámetro , .

   Figura: Función de densidad, f, de una

.

Un cálculo inmediato nos dice que si x>0,

luego la función de distribución es:

DR. ADOLFO GUTIERREZ SOSA

Page 31: ESTADISTICA AVANZADA

ESTADÍSTICA AVANZADA – GUIA DE ESTUDIO

   Figura: Función de distribución, F, de

, calculada como el área que deja por debajo de sí la función de

densidad.

Para calcular el valor esperado y la varianza de la distribución exponencial, obtenemos en primer lugar la función característica

para después, derivando por primera vez

DR. ADOLFO GUTIERREZ SOSA

Page 32: ESTADISTICA AVANZADA

ESTADÍSTICA AVANZADA – GUIA DE ESTUDIO

y derivando por segunda vez,

Entonces la varianza vale

1.8.4.1 Ejemplo

En un experimento de laboratorio se utilizan 10 gramos de . Sabiendo que la duración media de un átomo de esta materia es de 140 días, ¿cuantos idas

transcurrirán hasta que haya desaparecido el de este material?

Solución: El tiempo T de desintegración de un átomo de es una v.a. de distribución exponencial:

DR. ADOLFO GUTIERREZ SOSA

Page 33: ESTADISTICA AVANZADA

ESTADÍSTICA AVANZADA – GUIA DE ESTUDIO

Como el número de átomos de existentes en una muestra de 10 gramos es enorme, el histograma de frecuencias relativas formado por los tiempos de desintegración de cada uno de estos átomos debe ser extremadamente aproximado a la curva de densidad, f. Del mismo modo, el polígono de frecuencias relativas acumuladas debe ser muy aproximado a la curva de su

función de distribución F. Entonces el tiempo que transcurre hasta que el del material radiactivo se desintegra es el percentil 90, t90, de la distribución exponencial, es decir

   Figura: Como el número de átomos (observaciones) es extremadamente

alto en 10 gramos de materia, el histograma puede ser aproximado de

modo excelente por la función de densidad exponencial, y el polígono de frecuencias acumuladas por la función

de distribución.

DR. ADOLFO GUTIERREZ SOSA

Page 34: ESTADISTICA AVANZADA

ESTADÍSTICA AVANZADA – GUIA DE ESTUDIO

1.8.4.2 Ejemplo

Se ha comprobado que el tiempo de vida de cierto tipo de marcapasos sigue una distribución exponencial con media de 16 años. ¿Cuál es la probabilidad de que a una persona a la que se le ha implantado este marcapasos se le deba reimplantar otro antes de 20 años? Si el marcapasos lleva funcionando correctamente 5 años en un paciente, ¿cuál es la probabilidad de que haya que

cambiarlo antes de años?

Solución: Sea T la variable aleatoria que mide la duración de un marcapasos en una persona. Tenemos que

Entonces

DR. ADOLFO GUTIERREZ SOSA

Page 35: ESTADISTICA AVANZADA

ESTADÍSTICA AVANZADA – GUIA DE ESTUDIO

En segundo lugar

Luego como era de esperar, por ser propio a un mecanismo exponencial,

o sea, en la duración que se espera que tenga el objeto, no influye en nada el tiempo que en la actualidad lleva funcionando. Es por ello que se dice que ``la distribución exponencial no tiene memoria".

1.8.6 Distribución normal o gaussiana

La distribución gaussiana, recibe también el nombre de distribución normal, ya que una gran mayoría de las v.a continuas6.3 de la naturaleza siguen esta distribución. Se dice que una v.a. X sigue una distribución normal de

parámetros y , lo que representamos del modo 6.4 si su función de densidad es:

1.8.6.1 Observación

Estos dos parámetros y coinciden además con la media (esperanza) y la varianza respectivamente de la distribución como se demostrará más adelante6.5:

DR. ADOLFO GUTIERREZ SOSA

Page 36: ESTADISTICA AVANZADA

ESTADÍSTICA AVANZADA – GUIA DE ESTUDIO

La forma de la función de densidad es la llamada campana de Gauss.

   Figura: Campana de Gauss o función de densidad de una v.a. de distribución

normal. El área contenida entre la gráfica y el eje de abcisas vale 1.

Para el lector es un ejercicio interesante comprobar que ésta alcanza un único

máximo (moda) en , que es simétrica con respecto al mismo, y por tanto

, con lo cual en coinciden la media, la mediana y la moda, y por último,calcular sus puntos de inflexión.

El soporte de la distribución es todo , de modo que la mayor parte de la masa de probabilidad (área comprendida entre la curva y el eje de abcisas) se encuentra concentrado alrededor de la media, y las ramas de la curva se extienden asintóticamente a los ejes, de modo que cualquier valor ``muy alejado" de la media es posible (aunque poco probable).

DR. ADOLFO GUTIERREZ SOSA

Page 37: ESTADISTICA AVANZADA

ESTADÍSTICA AVANZADA – GUIA DE ESTUDIO

La forma de la campana de Gauss depende de los parámetros y :

indica la posición de la campana (parámetro de centralización);

  

Figura: Distribuciones gaussianas con diferentes medias e igual dispersión.

(o equivalentemente, ) será el parámetro de dispersión. Cuanto menor sea, mayor cantidad de masa de probabilidad habrá concentrada

alrededor de la media (grafo de f muy apuntado cerca de ) y cuanto mayor sea ``más aplastado" será.

  

Figura: Distribuciones gaussianas con igual media pero varianza diferente.

DR. ADOLFO GUTIERREZ SOSA

Page 38: ESTADISTICA AVANZADA

ESTADÍSTICA AVANZADA – GUIA DE ESTUDIO

La función característica de la distribución normal, se comprueba más adelante que es

Como consecuencia, la distribución normal es reproductiva con respecto a los

parámetros , y , ya que

DR. ADOLFO GUTIERREZ SOSA

Page 39: ESTADISTICA AVANZADA

ESTADÍSTICA AVANZADA – GUIA DE ESTUDIO

1.8.6.2 Observación

Como se ha mencionado anteriormente, la ley de probabilidad gaussiana la encontramos en la mayoría de los fenómenos que observamos en la naturaleza, por ello gran parte de lo que resta del curso lo vamos a dedicar a su estudio y a el de las distribuciones asociadas a ella. Sin embargo, a pesar de su utilidad, hay que apuntar un hecho negativo para esta ley de probabilidad:

La función no posee primitiva6.6 conocida6.7.

Las consecuencias desde el punto de vista práctico son importantes, ya que eso impide el que podamos escribir de modo sencillo la función de distribución de la normal, y nos tenemos que limitar a decir que:

sin poder hacer uso de ninguna expresión que la simplifique. Afortunadamente esto no impide que para un valor de xfijo, F(x) pueda ser calculado. De hecho puede ser calculado con tanta precisión (decimales) como se quiera, pero para esto se necesita usar técnicas de cálculo numérico y ordenadores. Para la utilización en problemas prácticos de la función de distribución F, existen ciertas tablas donde se ofrecen (con varios decimales de precisión) los valores F(x) para una serie limitada de valores xi dados. Normalmente F se encuentra tabulada para una distribución Z, normal de media 0 y varianza 1 que se denomina distribución normal tipificada:

DR. ADOLFO GUTIERREZ SOSA

Page 40: ESTADISTICA AVANZADA

ESTADÍSTICA AVANZADA – GUIA DE ESTUDIO

En el caso de que tengamos una distribución diferente , se obtiene Z haciendo el siguiente cambio:

De manera general se tiene6.8:

1.8.6.3 Proposición (Cambio de origen y escala)

Sean . Entonces

Este resultado puede ser utilizado del siguiente modo: Si , y nos

interesa calcular ,

1.

Hacemos el cambio y calculamos ; 2.

Usamos la tabla 3, relativa a la distribución para obtener (de modo

aproximado) ; 3.

Como

DR. ADOLFO GUTIERREZ SOSA

Page 41: ESTADISTICA AVANZADA

ESTADÍSTICA AVANZADA – GUIA DE ESTUDIO

tenemos que el valor obtenido en la tabla, FZ(z) es la probabilidad buscada.

1.8.6.4 Ejemplo

Supongamos que cierto fenómeno pueda ser representado mediante una v.a.

, y queremos calcular la probabilidad de que Xtome un valor entre 39 y 48, es decir,

Comenzamos haciendo el cambio de variable

de modo que

Vamos ahora a demostrar algunas de las propiedades de la ley gaussiana que hemos mencionado anteriormente.

1.8.6.5 Proposición

Sea . Entonces

DR. ADOLFO GUTIERREZ SOSA

Page 42: ESTADISTICA AVANZADA

ESTADÍSTICA AVANZADA – GUIA DE ESTUDIO

Demostración

Por ser la normal una ley de probabilidad se tiene que

es decir, esa integral es constante. Con lo cual, derivando la expresión anterior

con respecto a se obtiene el valor 0:

luego .

Para demostrar la igualdad entre la y , basta con aplicar la misma técnica, pero esta vez derivando con respecto a :

DR. ADOLFO GUTIERREZ SOSA

Page 43: ESTADISTICA AVANZADA

ESTADÍSTICA AVANZADA – GUIA DE ESTUDIO

Luego

Para demostrar el resultado relativo a la función característica, consideramos en primer lugar la v.a. tipificada de X,

y calculamos

Como , por la proposición 5 deducimos que

1.8.6.6 Aproximación a la normal de la ley binomial

Se puede demostrar (teorema central del límite) que una v.a. discreta con

distribución binomial, se puede aproximar mediante una distribución

DR. ADOLFO GUTIERREZ SOSA

Page 44: ESTADISTICA AVANZADA

ESTADÍSTICA AVANZADA – GUIA DE ESTUDIO

normal si n es suficientemente grande y p no está ni muy próximo a 0 ni a 1.

Como el valor esperado y la varianza de X son respectivamente y , la

aproximación consiste en decir que . El convenio que se suele utilizar para poder realizar esta aproximación es:

aunque en realidad esta no da resultados muy precisos a menos que realmente

nsea un valor muy grande o . Como ilustración obsérvense las figuras 6.10 y 6.11.

   Figura: Comparación entre la función de densidad de una v.a. continua con

distribución y el diagrama de barras de una v.a. discreta de

distribución para casos en que la aproximación normal de la binomial es válida. Es peor esta aproximación

cuando p está próximo a los bordes del intervalo [0,1].

DR. ADOLFO GUTIERREZ SOSA

Page 45: ESTADISTICA AVANZADA

ESTADÍSTICA AVANZADA – GUIA DE ESTUDIO

   Figura: La misma comparación que en

la figura anterior, pero realizada con parámetros con los que damos la

aproximación normal de la binomial es mejor.

DR. ADOLFO GUTIERREZ SOSA

Page 46: ESTADISTICA AVANZADA

ESTADÍSTICA AVANZADA – GUIA DE ESTUDIO

1.8.6.7 Ejemplo

Durante cierta epidemia de gripe, enferma el de la población. En un aula con 200 estudiantes de Medicina, ¿cuál es la probabilidad de que a lo sumo 40 padezcan la enfermedad? Calcular la probabilidad de que haya 60 estudiantes con gripe.

Solución: La v.a. que contabiliza el número de alumnos que padece la gripe es

cuya media es y su varianza es . Realizar los cálculos con la ley binomial es muy engorroso, ya que intervienen números combinatorios de gran tamaño, y potencias muy elevadas. Por ello utilizamos la aproximación normal de X, teniendo en cuenta que se verifican las condiciones necesarias para que el error sea aceptable:

Así aproximando la v.a. discreta binomial X, mediante la v.a. continua normal XN tenemos:

DR. ADOLFO GUTIERREZ SOSA

Page 47: ESTADISTICA AVANZADA

ESTADÍSTICA AVANZADA – GUIA DE ESTUDIO

También es necesario calcular . Esta probabilidad se calcula exactamente como:

Dada la dificultad numérica para calcular esa cantidad, y como la distribución binomial no está habitualmente tabulada hasta valores tan altos, vamos a utilizar su aproximación normal, XN. Pero hay que prestar atención al hecho de que XN es una v.a. continua, y por tanto la probabilidad de cualquier punto es cero. En particular,

lo que ha de ser interpretado como un error de aproximación. Hay métodos más aproximados para calcular la probabilidad buscada. Por ejemplo, podemos

aproximar por el valor de la función de densidad de XN en ese punto

DR. ADOLFO GUTIERREZ SOSA

Page 48: ESTADISTICA AVANZADA

ESTADÍSTICA AVANZADA – GUIA DE ESTUDIO

(es en el único sentido en que se puede entender la función de densidad de la normal como una aproximación de una probabilidad). Así:

Por último, otra posibilidad es considerar un intervalo de longitud 1centrado en el valor 60 del que deseamos hallar su probabilidad y hacer:

1.8.6.8 Ejemplo

Según un estudio, la altura de los varones de cierta ciudad es una v.a. X, que podemos considerar que se distribuye según una ley gaussiana de valor

esperado y desviación típica . Dar un intervalo para el que

tengamos asegurado que el de los habitantes de la ciudad estén comprendidos en él.

Solución: Tenemos que . Si buscamos un intervalo

donde estar seguros de que el de los habitantes tengan sus alturas comprendidas en él hay varias estrategias posibles:

1. Podemos tomar el percentil 50, ya que este valor deja por debajo suya a la mitad, 0,5, de la masa de probabilidad. Este valor, x0,5, se definiría como:

DR. ADOLFO GUTIERREZ SOSA

Page 49: ESTADISTICA AVANZADA

ESTADÍSTICA AVANZADA – GUIA DE ESTUDIO

donde

El valor z0,5 lo podemos buscar en la tabla 3 (distribución ) y se obtiene

Por tanto podemos decir que la mitad de la población tiene una altura

inferior a . Este resultado era de esperar, ya que en la distribución es simétrica y habrá una mitad de individuos con un peso inferior a la media y otro con un peso superior (figura 6.12). Esto puede escribirse como:

El de la población tiene un peso comprendido en el intervalo

.

   Figura: Intervalo donde tenemos

asegurado que el 50% de la población tiene un peso comprendido en él. Como se observa, no es un tamaño óptimo, en

el sentido de que el intervalo es demasiado grande (longitud infinita a la

izquierda).

DR. ADOLFO GUTIERREZ SOSA

Page 50: ESTADISTICA AVANZADA

ESTADÍSTICA AVANZADA – GUIA DE ESTUDIO

2. Análogamente podemos considerar el percentil 50, y tomar como intervalo aquellos pesos que lo superan. Por las mismas razones que en el problema anterior, podremos decir:

El de la población tiene un peso comprendido en el intervalo

. 3.

Los anteriores intervalos, aún dando un resultado correcto, no son satisfactorios en el sentido de que son muy grandes, y no tienen en cuenta la simetría de la distribución normal para tomar un intervalo cuyo

centro sea . Vamos a utilizar entonces otra técnica que nos permita calcular el intervalo centrado en la media, y que además será el más

pequeño posible que contenga al de la población.

Para ello observamos que la mayor parte de probabilidad está concentrada siempre alrededor de la media en las leyes gaussianas.

Entonces podemos tomar un intervalo que contenga un de

probabilidad del lado izquierdo más próximo a la media, y un del derecho (figura 6.13).

   Figura: Intervalo donde tenemos

asegurado que el 50% de la población

DR. ADOLFO GUTIERREZ SOSA

Page 51: ESTADISTICA AVANZADA

ESTADÍSTICA AVANZADA – GUIA DE ESTUDIO

tiene un peso comprendido en él. En este caso el intervalo es más pequeño

que el anterior y está centrado en .

Esto se puede describir como el intervalo

donde x0,25 es el valor que deja por debajo de sí al de la masa de probabilidad y x0,75 el que lo deja por encima (o lo que es lo mismo, el que

deja por debajo al de las observaciones). Del mismo modo que antes estos valores pueden ser buscados en una tabla de la distribución normal, tipificando en primera instancia para destipificar después:

donde

DR. ADOLFO GUTIERREZ SOSA

Page 52: ESTADISTICA AVANZADA

ESTADÍSTICA AVANZADA – GUIA DE ESTUDIO

En una tabla encontramos el valor z0,75, y se destipifica:

Análogamente se calcularía

donde

Por la simetría de la distribución normal con respecto al origen, tenemos que z0,25= - z0,75.Luego

DR. ADOLFO GUTIERREZ SOSA

Page 53: ESTADISTICA AVANZADA

ESTADÍSTICA AVANZADA – GUIA DE ESTUDIO

En conclusión:

El de la población tiene un peso comprendido en el intervalo [168,25,181,75].

De entre los tres intervalos que se han calculado el que tiene más interés es el último, ya que es simétrico con respecto a la media, y es el más pequeño de todos los posibles (más preciso). Este ejemplo es en realidad una introducción a unas técnicas de inferencia estadística que trataremos posteriormente, conocidas con el nombre de ``estimación confidencial'' o ``cálculo de intervalos de confianza''.

1.8.6.9. Ejemplo

Las perdidas por mora en los pagos de un almacen de articulos electrodomesticos durante un año siguen una distribucion aproximadamente normal con media $50.000, y el 95.44% de las perdidas oscilan entre $40.000 y $80.000. Calcule la desviacion estandar dela distribucion.

Solucion

Sea X la v.a. que denota las perdidas por mora en los pagos del almacen durante el ano en cuestion. Entonces, de acuerdo con los datos

(40.000 80.000) 0.9544P X Es decir,

40.000 50.000 80.000 50.0000.9544

XP

Lo que equivale a 10.000 30.000

0.9544P Z

. O sea,

0.9544P k Z l , con 3l k ; lo que equivale a decir que 10000

1k

,

luego, 10.000 .

DR. ADOLFO GUTIERREZ SOSA

Page 54: ESTADISTICA AVANZADA

ESTADÍSTICA AVANZADA – GUIA DE ESTUDIO

1.8.8 Distribución

Si consideramos una v.a. , la v.a. X=Z2 se distribuye según una ley

de probabilidad distribución con un grado de libertad, lo que se representa como

Si tenemos n v.a. independientes , la suma de sus cuadrados

respectivos es una distribución que denominaremos ley de distribución con

n grados de libertad, .

La media y varianza de esta variable son respectivamente:

y su función de densidad es:

DR. ADOLFO GUTIERREZ SOSA

Page 55: ESTADISTICA AVANZADA

ESTADÍSTICA AVANZADA – GUIA DE ESTUDIO

Los percentiles de esta distribución que aparecen con más frecuencia en la práctica los podemos encontrar en la tabla 5.

  

Figura: Función de densidad de para valores pequeños de n.

  

Figura: Función de densidad de para valores grandes de n.

DR. ADOLFO GUTIERREZ SOSA

Page 56: ESTADISTICA AVANZADA

ESTADÍSTICA AVANZADA – GUIA DE ESTUDIO

En consecuencia, si tenemos , v.a. independientes, donde cada

, se tiene

1.8.8.1 Observación

La ley de distribución muestra su importancia cuando queremos determinar la variabilidad (sin signo) de cantidades que se distribuyen en torno a un valor central siguiendo un mecanismo normal. Como ilustración tenemos el siguiente ejemplo:

1.8.8.2 Ejemplo

Un instrumento para medir el nivel de glucemia en sangre, ofrece resultados bastantes aproximados con la realidad, aunque existe cierta cantidad de error que se distribuye de modo normal con media 0 y desviación típica .

DR. ADOLFO GUTIERREZ SOSA

Page 57: ESTADISTICA AVANZADA

ESTADÍSTICA AVANZADA – GUIA DE ESTUDIO

Se realizan mediciones de los niveles de glucemia dados por el instrumento en un grupo de n=100 pacientes. Nos interesa medir la cantidad de error que se acumula en las mediciones de todos los pacientes. Podemos plantear varias estrategias para medir los errores acumulados. Entre ellas destacamos las siguientes:

1. Definimos el error acumulado en las mediciones de todos los pacientes como

¿Cuál es el valor esperado para E1? 2.

Definimos el error acumulado como la suma de los cuadrados de todos los errores (cantidades positivas):

¿Cuál es el valor esperado para E2? A la vista de los resultados, cuál de las dos cantidades, E1 y E2, le parece más conveniente utilizar en una estimación del error cometido por un instrumento.

Solución:

Suponiendo que todas las mediciones son independientes, se tiene que

DR. ADOLFO GUTIERREZ SOSA

Page 58: ESTADISTICA AVANZADA

ESTADÍSTICA AVANZADA – GUIA DE ESTUDIO

De este modo, el valor esperado para E1 es 0, es decir, que los errores ei van a

tender a compensarse entre unos pacientes y otros. Obsérvese que si no fuese conocido a priori, podríamos utilizar E1, para obtener una aproximación de

Sin embargo, el resultado E1 no nos indica en qué medida hay mayor o menor dispersión en los errores con respecto al 0. En cuanto a E2 podemos afirmar lo siguiente:

En este caso los errores no se compensan entre sí, y si no fuese conocido, podría ser “estimado” de modo aproximado mediante

Sin embargo, no obtenemos ninguna información con respecto a .

En conclusión, E1 podría ser utilizado para calcular de modo aproximado , y E2 para calcular de modo aproximado . Las dos cantidades tienen interés, y ninguna lo tiene más que la otra, pues ambas formas de medir el error nos aportan información.

El siguiente resultado será de importancia más adelante. Nos afirma que la media de distribuciones normales independientes es normal pero con menor

varianza y relaciona los grados de libertad de una v.a. con distribución , con los de un estadístico como la varianza (página ):

DR. ADOLFO GUTIERREZ SOSA

Page 59: ESTADISTICA AVANZADA

ESTADÍSTICA AVANZADA – GUIA DE ESTUDIO

      1.8.8.3 Teorema (Cochran)

Sean v.a. independientes. Entonces

EJERCICIOS DE PROBABILIDAD

Sea X una distribución normal estandarizada. Pruebe que el cuadrado de X es

una variable aleatoria distribuida chi-cuadrado: 2 2

(1)~X

Sol. /

Sea 2Y X . Entonces, .X Y Tenemos que:

2( ) ( ) ( )YF y P Y y P X y P y X y

( ) ( )X X X XP X y P X y F y F y

Se sabe que ' ( )Y Yf y F y . Esto nos lleva a:

1 1( )

2 2Y Y X X

df y F y f y f y

dy y y

DR. ADOLFO GUTIERREZ SOSA

Page 60: ESTADISTICA AVANZADA

ESTADÍSTICA AVANZADA – GUIA DE ESTUDIO

/ 2 / 2 (1/ 2) 1 / 2

1/ 2

1 1 1 1 112 2 2 2 22

y y ye e y ey y

La última expresión es la forma distribucional de una Chi-cuadrado con un grado de libertad.

Sean 1X y 2X dos variables independientes tales que 2

1 ~X

X y 2

1 2 ~Y X X , también independientes. Pruebe que 2

2 ~X

X .

Sol. /

1 2 1 2( )( ) t X X tX tXtYYM t E e E e E e e

Pero como 1X y 2X son dos variables independientes, 1 2 1 2( )t X X tX tXE e E e e .

Así,

1 2( ) tX tXYM t E e E e

Pero 2X 2~Y , lo que implica que su función generadora de momentos es

/ 2( ) 1 2YM t t

. Así,

1

1

/ 2 / 21 2 1 2 ( )Xt t M t

Despejando 1( )XM t obtenemos:

2 2

2

(6 ) (5 )( _ _ .)

5

i iP obtener i ptos

1 2

2 1

/ 2/ 2 / 2

/ 2

1 2( ) 1 2 1 2

1 2X

tM t t t

t

lo que prueba que 2X es una variable aleatoria distribuida chi-cuadrada con

2 1 grados de libertad.

DR. ADOLFO GUTIERREZ SOSA

Page 61: ESTADISTICA AVANZADA

ESTADÍSTICA AVANZADA – GUIA DE ESTUDIO

1.8.10 Distribución de Student

La distribución -Student se construye como un cociente entre una normal y la raíz de una 2 independientes. De modo preciso, llamamos distribución t-

Student con n grados de libertad, nt a la de una v.a. T,

 

donde , . Este tipo de distribuciones aparece cuando tenemos n+1 v.a. independientes

y nos interesa la distribución de

La función de densidad de es

DR. ADOLFO GUTIERREZ SOSA

Page 62: ESTADISTICA AVANZADA

ESTADÍSTICA AVANZADA – GUIA DE ESTUDIO

   Figura: Función de densidad de una

de Student

La distribución de Student tiene propiedades parecidas a :

1. Es de media cero, y simétrica con respecto a la misma; 2. Es algo más dispersa que la normal, pero la varianza decrece hasta 1

cuando el número de grados de libertad aumenta;

  

Figura: Comparación entre las

funciones de densidad de y .

DR. ADOLFO GUTIERREZ SOSA

Page 63: ESTADISTICA AVANZADA

ESTADÍSTICA AVANZADA – GUIA DE ESTUDIO

3. Para un número alto de grados de libertad se puede aproximar la distribución de Student por la normal, es decir,

  

Figura: Cuando aumentan los grados de libertad, la distribución de Student se

aproxima a la distribución normal tipificada.

DR. ADOLFO GUTIERREZ SOSA

Page 64: ESTADISTICA AVANZADA

ESTADÍSTICA AVANZADA – GUIA DE ESTUDIO

4. Para calcular

en lugar de considerar una primitiva de esa función y determinar la integral definida, buscaremos el resultado aproximado en una tabla de la

distribución .

1.8.12 La distribución de Snedecor

Otra de la distribuciones importantes asociadas a la normal es la que se define

como cociente de distribuciones independientes. Sean e v.a. independientes. Decimos entonces que la variable

DR. ADOLFO GUTIERREZ SOSA

Page 65: ESTADISTICA AVANZADA

ESTADÍSTICA AVANZADA – GUIA DE ESTUDIO

sigue una distribución de probabilidad de Snedecor, con (n,m) grados de

libertad. Obsérvese que .

La forma más habitual en que nos encontraremos esta distribución será en el caso en que tengamos n+m v.a. independientes

y así

De esta ley de probabilidad lo que más nos interesa es su función de distribución:

DR. ADOLFO GUTIERREZ SOSA

Page 66: ESTADISTICA AVANZADA

ESTADÍSTICA AVANZADA – GUIA DE ESTUDIO

y para ello, como en todas las distribuciones asociadas a la normal, disponemos de una tabla (la número 6) donde encontrar aproximaciones a esas cantidades

  

Figura: Función de densidad de .

Es claro que la distribución de Snedecor no es simétrica, pues sólo tienen densidad de probabilidad distinta de cero, los punto de . Otra propiedad interesante de la distribución de Snedecor es:

1.10 Problemas

Ejercicio 1..1. Para estudiar la regulación hormonal de una línea metabólica se inyectan ratas albinas con un fármaco que inhibe la síntesis de proteínas del organismo. En general, 4 de cada 20 ratas mueren a causa del fármaco antes de que el experimento haya concluido. Si se trata a 10 animales con el fármaco, ¿cuál es la probabilidad de que al menos 8 lleguen vivas al final del experimento?

Ejercicio 1..2. En una cierta población se ha observado un número medio anual de muertes por cáncer de pulmón de 12. Si el número de muertes causadas por

DR. ADOLFO GUTIERREZ SOSA

Page 67: ESTADISTICA AVANZADA

ESTADÍSTICA AVANZADA – GUIA DE ESTUDIO

la enfermedad sigue una distribución de Poisson, ¿cuál es la probabilidad de que durante el año en curso:

1. Haya exactamente 10 muertes por cáncer de pulmón?

2. 15 o más personas mueran a causa de la enfermedad?

3. 10 o menos personas mueran a causa de la enfermedad?

Ejercicio 1..3. Dañando los cromosomas del óvulo o del espermatozoide, pueden causarse mutaciones que conducen a abortos, defectos de nacimiento, u otras deficiencias genéticas. La probabilidad de que tal mutación se produzca por radiación es del 10%. De las siguientes 150 mutaciones causadas por cromosomas dañados, ¿cuántas se esperaría que se debiesen a radiaciones? ¿Cuál es la probabilidad de que solamente 10 se debiesen a radiaciones?

Ejercicio 1..4. Entre los diabéticos, el nivel de glucosa en sangre X, en ayunas, puede suponerse de distribución aproximadamente normal, con media 106 mg/100 ml y desviación típica 8 mg/100 ml, es decir

1.

Hallar 2.

¿Qué porcentaje de diabéticos tienen niveles comprendidos entre 90 y 120 ?

3.

Hallar . 4.

Hallar . 5.

Hallar el punto x caracterizado por la propiedad de que el 25% de todos los diabéticos tiene un nivel de glucosa en ayunas inferior o igual a x.

Ejercicio 1..5. Una prueba de laboratorio para detectar heroína en sangre tiene un 92% de precisión. Si se analizan 72 muestras en un mes, ¿cuál es la probabilidad de que:

1. 60 o menos estén correctamente evaluadas?

DR. ADOLFO GUTIERREZ SOSA

Page 68: ESTADISTICA AVANZADA

ESTADÍSTICA AVANZADA – GUIA DE ESTUDIO

2. menos de 60 estén correctamente evaluadas?

3. exactamente 60 estén correctamente evaluadas?

Ejercicio 1..6. El 10% de las personas tiene algún tipo de alergia. Se seleccionan aleatoriamente 100 individuos y se les entrevista. Hallar la probabilidad de que, al menos, 12 tengan algún tipo de alergia. Hallar la probabilidad de que, como máximo, 8 sean alérgicos a algo.

Ejercicio 1..7. La probabilidad de muerte resultante del uso de píldoras anticonceptivas es de 3/100.000. De 1.000.000 de mujeres que utilizan este medio de control de natalidad:

1. ¿Cuántas muertes debidas a esta causa se esperan?

2. ¿Cuál es la probabilidad de que haya, como máximo, 25 de estas muertes?

3. ¿Cuál es la probabilidad de que el número de muertes debidas a esta causa esté entre 25 y 35, inclusive?

Ejercicio 1..8. La probabilidad de presentar una característica genética es de 1/20.

1. Tomando una muestra de 8 individuos, calcular la probabilidad de que 3 individuos presenten la característica.

2. Tomando una muestra de 80 personas, ¿cuál será la probabilidad de que aparezcan más de 5 individuos con la característica?

Ejercicio 1..9. Se supone que en una cierta población humana el índice cefálico i, (cociente entre el diámetro transversal y el longitudinal expresado en tanto por ciento), se distribuye según una Normal. El 58% de los habitantes son

dolicocéfalos (i 75), el 38% son mesocéfalos (75 < i 80) y el 4% son braquicéfalos (i > 80). Hállese la media y la desviación típica del índice cefálico en esa población.

Ejercicio 1..10. Se supone que la glucemia basal en individuos sanos, Xs sigue una distribución

DR. ADOLFO GUTIERREZ SOSA

Page 69: ESTADISTICA AVANZADA

ESTADÍSTICA AVANZADA – GUIA DE ESTUDIO

mientras que en los diabéticos Xd, sigue una distribución

Si se conviene en clasificar como sanos al 2% de los diabéticos: 1.

¿Por debajo de qué valor se considera sano a un individuo? ¿Cuántos sanos serán clasificados como diabéticos?

2. Se sabe que en la población en general el 10% de los individuos son diabéticos ¿cuál es la probabilidad de que un individuo elegido al azar y diagnosticado como diabético, realmente lo sea?

Ejercicio 1..11. Supóngase que se van a utilizar 20 ratas en un estudio de agentes coagulantes de la sangre. Como primera experiencia, se dio un anticoagulante a 10 de ellos, pero por inadvertencia se pusieron todas sin marcas en el mismo recinto. Se necesitaron 12 ratas para la segunda fase del estudio y se les tomó al azar sin reemplazamiento. ¿Cuál es la probabilidad de que de las 12 elegidas 6 tengan la droga y 6 no la tengan?

Preguntas 1 y 2. La distribución de probabilidad conjunta de )YX,( es:

y

p x , y 0 5 10 15

x0 0.02 0.06 0.02 0.105 0.04 0.15 0.20 0.10

10 0.01 0.15 0.14 0.01

Se puede decir que:a) X e Y son independientes b) X e Y son dependientesc) 0.20)P(X d) b) y c)

5)X|5P(Y es igual a:0.21 b) 0.304 c) 0.69 d)

1

Preguntas 3 y 4. Sean YeX variables aleatorias independientes, con 2x 3x , 0 x 1f

y y 2 y , 0 y 1f .

0.5)Y 0.5,P(X es igual a:

DR. ADOLFO GUTIERREZ SOSA

Page 70: ESTADISTICA AVANZADA

ESTADÍSTICA AVANZADA – GUIA DE ESTUDIO

32

3b)

32

21c)

32

7d)

32

1

El valor esperado de XY es:0.25 b) 0.027 c) 0.5 d)

0.8

El tiempo de espera de un autobús en la mañana es una variable aleatoria normal con media 4 minutos y varianza 3, mientras que en la tarde es normal con media 5 minutos y varianza 4.

Asuma que los dos tiempos de espera son independientes. Si MX .representa el tiempo

promedio en las mañanas y TX representa el tiempo promedio en las tardes y el bus se aborda

durante 5 días, la probabilidad de que < 1M TX X es:

0.9545 b) 0.4545 c) 0.909 d)0.5

Preguntas 6 y 7. El tiempo que un individuo debe esperar en un punto de atención es una variable aleatoria normal con media 8.2 minutos y desviación estándar 4 minutos. Se observan los tiempos de 49 individuos.

La probabilidad de que el tiempo promedio de espera sea a lo mas 10 minutos es:0.0008 b) 0.5714 c) 0.3150 d)

0.9992

El valor de la media que cumple que la probabilidad de que el tiempo de espera total sea a lo sumo 14.3 horas es 0.9664, es:8.2 b) 0.7422 c) 7.53 d)

6.98

Preguntas 8 y 9. Para una muestra aleatoria 321 X,X,X de una población con media θ

desconocida y varianza 2θ .

Considere los siguientes estimadores de θ : 3

2XXθ̂ 31

1

, X2θ̂ 2 .

Los sesgos de 1θ̂ y 2θ̂ son respectivamente:

0 y θ b) θ y 2θ c) 0 y 2

3 d)

0 y 1

3

Se puede decir que:

a) 1 2V θ V θˆ ˆ b) 2ECM θ 24ˆ3

c) 1 2ECM θ ECM θˆ ˆ d) El mejor estimador es

1θ̂

Si E θ̂ , entonces, el sesgo de θ̂ es:

DR. ADOLFO GUTIERREZ SOSA

Page 71: ESTADISTICA AVANZADA

ESTADÍSTICA AVANZADA – GUIA DE ESTUDIO

θ b) 0 c)2

d) 2θ

Preguntas 11 y 12. La distribución de probabilidad conjunta de )YX,( está dada por:

y

p x , y -1 0 1

x

0 0.10 0.10 0.101 0.10 0.05 0.152 0.05 0.05 0.103 0.05 0.05 0.10

11. Se puede decir que:

a) )0(P*)2(P)0,2(P YX , entonces X e Y son independientes b)X e Y son

dependientesc) X e Y son independientes d) a) y c)

12. La 1]X|E[Y es:

a)6

1b)

6

2c)

9

7d)

5

6

Preguntas 13 y 14. La función de distribución de una variable aleatoria bidimensional )YX,(

es: f x , y 2 , 0 x 1 , 0 y x .

13. De las siguientes afirmaciones la correcta es:

a) X e Y son independientes b) E[Y]> E[X] c)3

2E[X]

d) 3

2E[Y]

14. 1

P X2

es igual a:

4

1b)

8

1c)

4

3d)

8

5

15. Una muestra aleatoria de tamaño 16 es seleccionada de una población normal con media 75 y desviación estándar 8. Una segunda muestra aleatoria, independiente de la anterior, es

seleccionada de una población normal con media 70 y varianza 144, de tamaño 9. Si 21 XyX

son la medias muestrales, la 4XXP 21 es igual a:

0.4129 b) 0.2236 c) 0.5793 d)0.5884

Preguntas 16 y 17. Los ingresos diarios de un restaurante, en miles de pesos, oscilan entre 530 y 570, con distribución uniforme. Suponga independencia en los ingresos diarios.

DR. ADOLFO GUTIERREZ SOSA

Page 72: ESTADISTICA AVANZADA

ESTADÍSTICA AVANZADA – GUIA DE ESTUDIO

16. La probabilidad de que en 100 días los ingresos totales superen la cifra de 55.25 millones de pesos es: 1 b) 0.985 c) 0.015 d)

0.98817. El número aproximado de días necesarios para que la probabilidad de que el promedio de los ingresos supere los 549.5 miles de pesos sea 0.9147 es:1001 b) 32 c) 10 d)

100

Preguntas 18 y 19. Sea 1 2 nX , X , , X una muestra aleatoria de una distribución con media

u y varianza 2σ . Sea

2n2ii 1

1ˆ (X X)

n 1

un estimador de 2σ .

18. Se puede decir que:

a) 2 2ˆV b) 2 2n 1

E σ σn

ˆ c)

2 2ˆE d)

2 2ˆE 19. Si B=

2 2ˆE , la expresión correcta es:

a) 2

B -n

b)

2

n

2

B

c) 2B

d) B 0

20. Sean X e Y variables aleatorias independientes. Una de las siguientes afirmaciones es falsa:

a) X Yf x , y f x f y b) X|y Xf x f x c) E XX

EY E Y

d)

E XY E X E Y

Preguntas 21 y 22. La distribución de probabilidad conjunta de )YX,( es:

x p x , y -1 0 1

y-1 9/64 3/32 9/640 6/64 1/16 6/641 9/64 3/32 9/64

Se puede decir que:a) X e Y son independientes b) X e Y son dependientes

c) (1)P*(0)PP(0,1) YX , entonces X e Y son independientes d) a) y c)

La -1]Y|E[X es igual a: - 0.375 b)1 c)0 d)0.375

Preguntas 23 y 24. La función de distribución de una variable aleatoria bidimensional )YX,(

es: f x , y 8xy, 0 x y 1 .

DR. ADOLFO GUTIERREZ SOSA

Page 73: ESTADISTICA AVANZADA

ESTADÍSTICA AVANZADA – GUIA DE ESTUDIO

La afirmación correcta es:a) X e Y son dependientes b) 53.0E[X] c) E[X]E[Y]

d) E[X]E[XY]

P X 0.5, Y 0.5 es igual a:

0.9375 b) 0.375 c) 0.4 d)0.0625

La vida útil de un componente es una variable aleatoria normal, antes de cambiar el proceso de fabricación tenía media 5000 horas y desviación estándar 40 horas, al introducir una mejora en la fabricación la vida útil del componente cambia y la desviación estándar disminuye a 30 horas. Si se toman dos muestras aleatorias, una de 16 componentes del proceso antiguo y otra de 25 componentes del nuevo proceso. El valor aproximado de la media poblacional en el proceso

mejorado tal que la probabilidad de que 25XX 12 horas sea 0.9699 es:

a) 5036 b) 5030 c) 5047d) 5026

Preguntas 26 y 27. Suponga que el peso (en Kg.) de cierta clase de componentes tiene una media de 2.65 y varianza 4.35. Se selecciona una muestra aleatoria de 61 componentes.

La probabilidad de que el peso promedio muestral sea como mínimo 3 es:0.0630 b) 0.0951 c) 0.31 d)

0.5

El valor de la media del peso de los componentes tal que la probabilidad de que el peso total de los 61 escogidos no sobrepase los 190 Kg. sea 0.9370 es:2.71 b) 1.53 c) 0.9591 d)

4.34

Preguntas 28 y 29. Sea 1 2 nX , X , , X una muestra aleatoria de una distribución con media

θ desconocida y varianza θ . Sean i

i jj 1

θ Xi

, para i n1, 2 , , , estimadores de θ .

Se puede afirmar que:

ii θ)θ̂V( b) i/θ)θ̂V( ii c) i/θ)θ̂V( i

d) i/θ)θ̂V( i

El mejor estimador para θ es:

nθ̂ b) 1θ̂ c) ni1,θ̂ i d) Todas

las anteriores

DR. ADOLFO GUTIERREZ SOSA

Page 74: ESTADISTICA AVANZADA

ESTADÍSTICA AVANZADA – GUIA DE ESTUDIO

Si X e Y son variables aleatorias conjuntamente distribuidas con f.d.p. - x - yf x , y xy e

0y 0,x entonces:

a) X|y Xf x f x b) , -xXf x x e x 0

c) - yY|xf y y e , y 0 d) Todas las anteriores

Preguntas 31 y 32. La distribución de probabilidad conjunta de )YX,( es:

y p x , y 0 1 2

x1 1/9 1/9 1/92 1/9 1/9 1/93 2/9 1/9 0

Se puede decir que :

a) (1)P*(2)PP(2,1) YX , entonces X e Y son independientes b) X e Y

son dependientesc) X e Y son independientes d) a) y c)

2YX|1XP es igual a:

1 b)9

2c)

9

3d)

3

2

Preguntas 33 y 34. La función de distribución de una variable aleatoria bidimensional )YX,( es:

, , - (x y )f x , y k e x 0 y 0

La opción correcta es:a) X e Y son independientesb) X e Y son dependientes c) E[Y]E[X]

d) a) y c)

2X|1YP es igual a:

0.6321 b) 0.3679 c) 0.0854 d)0.1353

El PH de cierto compuesto químico es una variable aleatoria normal con media 5 y varianza 2 cuando es medido en la mañana y cuando es medido por la tarde es normal con media 5 y varianza 1. Se realizan 25 mediciones en la mañana y 16 en la tarde. Si las mediciones son

independientes, calcular 1 2P 2X 3X 23

0.020 b) 0.0166 c) 1 d)0.9834

Preguntas 36 y 37. Suponga que el peso (en Kg.) de cierta clase de componentes tiene una media 2.65 y varianza 4.35. Se selecciona una muestra aleatoria de 61 componentes.

La probabilidad de que el peso promedio muestral sea como mínimo 3 es:

DR. ADOLFO GUTIERREZ SOSA

Page 75: ESTADISTICA AVANZADA

ESTADÍSTICA AVANZADA – GUIA DE ESTUDIO

0.0630 b) 0.0951 c) 0.31 d)0.5

El valor de la media del peso de los componentes tal que la probabilidad de que el peso total de los 61 escogidos no sobrepase los 190 Kg. sea 0.9370 es:2.71 b) 1.53 c) 0.9591 d)

4.34

Preguntas 38 y 39. Dos analistas tomaron cada uno muestras de una misma variable aleatoria

con media θ y varianza 2σ . El analista A obtuvo observaciones 1 2 nX , X , , X . El analista B

obtuvo observaciones 1 2 nY , Y , , Y . Para estimar el parámetro θ se proponen los

estimadores:

n n

i ji 1 j 11

X Yθ̂

2n

, 2

X Yθ

Se puede decir que:a) Los dos son insesgados b) Los dos tienen la misma varianza

c) 2iˆECM / 2n , i 1, 2 d) Ninguna de las

anteriores

Si 1σ 2 y 1θ y n es mayor que 5, el mejor estimador de θ es:

1θ̂ b) Cualquiera de los dos c) 2θ̂d) Ninguno

Si 2ˆ ˆE V , entonces:

a) θ̂ es insesgado b) 2ˆE 0 c) θ̂ es sesgado d) a) y b)

DR. ADOLFO GUTIERREZ SOSA

Page 76: ESTADISTICA AVANZADA

ESTADÍSTICA AVANZADA – GUIA DE ESTUDIO

7. Inferencia estadística

  1. 2.2 Introducción 2. 2.4 Técnicas de muestreo sobre una población

a. 2.4.2 Muestreo aleatorio i. 2.4.2.1 Muestreo aleatorio sin reposición ii. 2.4.2.2 Muestreo aleatorio con reposición iii. 2.4.2.3 Tablas de números aleatorios: Lotería Nacional iv. 2.4.2.4 Método de Montecarlo v. 2.4.2.5 Ejemplo

b. 2.4.4 Muestreo aleatorio estratificado i. 2.4.4.1 Ejemplo ii. 2.4.4.2 Asignación proporcional iii. 2.4.4.3 Asignación óptima iv. 2.4.4.4 Teorema

c. 2.4.6 Muestreo sistemático i. 2.4.6.1 Observación

d. 2.4.8 Muestreo por conglomerados 3. 2.6 Propiedades deseables de un estimador

a. 2.6.0.1 Ejemplo b. 2.6.2 Carencia de sesgo c. 2.6.4 Consistencia

i. 2.6.4.1 Teorema d. 2.6.6 Eficiencia e. 2.6.8 Suficiencia

i. 2.6.8.1 Teorema f. 2.6.10 Estimadores de máxima verosimilitud g. 2.6.12 Algunos estimadores fundamentales

i. 2.6.12.1 Estimador de la esperanza matemática ii. 2.6.12.2 Proposición iii. 2.6.12.3 Estimador de la varianza iv. 2.6.12.4 Proposición v. 2.6.12.5 Proposición vi. 2.6.12.6 Cuasivarianza muestral

2.2 Introducción

El propósito de un estudio estadístico suele ser, como hemos venido citando, extraer conclusiones acerca de la naturaleza de una población. Al ser la población grande y no poder ser estudiada en su integridad en la mayoría de los

DR. ADOLFO GUTIERREZ SOSA

Page 77: ESTADISTICA AVANZADA

ESTADÍSTICA AVANZADA – GUIA DE ESTUDIO

casos, las conclusiones obtenidas deben basarse en el examen de solamente una parte de ésta, lo que nos lleva, en primer lugar a la justificación, necesidad y definición de las diferentes técnicas de muestreo.

Los primeros términos obligados a los que debemos hacer referencia, definidos en el primer capítulo, serán los de estadístico y estimador.

Dentro de este contexto, será necesario asumir un estadístico o estimador como una variable aleatoria con una determinada distribución, y que será la pieza clave en las dos amplias categorías de la inferencia estadística: la estimación y el contraste de hipótesis.

El concepto de estimador, como herramienta fundamental, lo caracterizamos mediante una serie de propiedades que nos servirán para elegir el ``mejor" para un determinado parámetro de una población, así como algunos métodos para la obtención de ellos, tanto en la estimación puntual como por intervalos.

¿Cómo deducir la ley de probabilidad sobre determinado carácter de una población cuando sólo conocemos una muestra?

Este es un problema al que nos enfrentamos cuando por ejemplo tratamos de estudiar la relación entre el fumar y el cáncer de pulmón e intentamos extender las conclusiones obtenidas sobre una muestra al resto de individuos de la población.

La tarea fundamental de la estadística inferencial, es hacer inferencias acerca de la población a partir de una muestra extraída de la misma.

2.4 Técnicas de muestreo sobre una población

La teoría del muestreo tiene por objetivo, el estudio de las relaciones existentes entre la distribución de un carácter en dicha población y las distribuciones de dicho carácter en todas sus muestras.

Las ventajas de estudiar una población a partir de sus muestras son principalmente:

Coste reducido: Si los datos que buscamos los podemos obtener a partir de una pequeña parte del total de la población, los gastos de recogida y tratamiento de los datos serán menores. Por ejemplo, cuando se realizan encuestas previas a un referéndum, es más barato preguntar a 4.000 personas su intención de voto, que a 30.000.000;

Mayor rapidez:

DR. ADOLFO GUTIERREZ SOSA

Page 78: ESTADISTICA AVANZADA

ESTADÍSTICA AVANZADA – GUIA DE ESTUDIO

Estamos acostumbrados a ver cómo con los resultados del escrutinio de las primeras mesas electorales, se obtiene una aproximación bastante buena del resultado final de unas elecciones, muchas horas antes de que el recuento final de votos haya finalizado;

Más posibilidades: Para hacer cierto tipo de estudios, por ejemplo el de duración de cierto tipo de bombillas, no es posible en la práctica destruirlas todas para conocer su vida media, ya que no quedaría nada que vender. Es mejor destruir sólo una pequeña parte de ellas y sacar conclusiones sobre las demás.

De este modo se ve que al hacer estadística inferencial debemos enfrentarnos con dos problemas:

- Elección de la muestra (muestreo), que es a lo que nos dedicaremos en este capítulo.

- Extrapolación de las conclusiones obtenidas sobre la muestra, al resto de la población (inferencia).

El tipo de muestreo más importante es el muestreo aleatorio, en el que todos los elementos de la población tienen la misma probabilidad de ser extraídos; Aunque dependiendo del problema y con el objetivo de reducir los costes o aumentar la precisión, otros tipos de muestreo pueden ser considerados como veremos más adelante: muestreo sistemático, estratificado y por conglomerados.

2.4.2 Muestreo aleatorio

Consideremos una población finita, de la que deseamos extraer una muestra. Cuando el proceso de extracción es tal que garantiza a cada uno de los elementos de la población la misma oportunidad de ser incluidos en dicha muestra, denominamos al proceso de selección muestreo aleatorio.

El muestreo aleatorio se puede plantear bajo dos puntos de vista:

1. Sin reposición de los elementos; 2. Con reposición.

   2.4.2.1 Muestreo aleatorio sin reposición

Consideremos una población E formada por N elementos. Si observamos un

elemento particular, , en un muestreo aleatorio sin reposición se da la siguiente circunstancia:

DR. ADOLFO GUTIERREZ SOSA

Page 79: ESTADISTICA AVANZADA

ESTADÍSTICA AVANZADA – GUIA DE ESTUDIO

6 La probabilidad de que e sea elegido en primer lugar es ; 7 Si no ha sido elegido en primer lugar (lo que ocurre con una probabilidad

de ), la probabilidad de que sea elegido en el segundo intento es de

. 8 en el (i+1)-ésimo intento, la población consta de N-i elementos, con lo

cual si e no ha sido seleccionado previamente, la probabilidad de que lo

sea en este momento es de .

Si consideramos una muestra de elementos, donde el orden en la elección de los mismos tiene importancia, la probabilidad de elección de una

muestra cualquiera es

lo que corresponde en el sentido de la definición de probabilidad de Laplace a un caso posible entre las VN,n posibles n-uplas de N elementos de la población.

Si el orden no interviene, la probabilidad de que una muestra

sea elegida es la suma de las probabilidades de elegir una cualquiera de sus n-uplas, tantas veces como permutaciones en el orden de sus elementos sea posible, es decir

DR. ADOLFO GUTIERREZ SOSA

Page 80: ESTADISTICA AVANZADA

ESTADÍSTICA AVANZADA – GUIA DE ESTUDIO

   2.4.2.2 Muestreo aleatorio con reposición

Sobre una población E de tamaño N podemos realizar extracciones de n elementos, pero de modo que cada vez el elemento extraído es repuesto al total de la población. De esta forma un elemento puede ser extraído varias veces. Si el orden en la extracción de la muestra interviene, la probabilidad de una cualquiera de ellas, formada por n elementos es:

Si el orden no interviene, la probabilidad de una muestra cualquiera, será la suma de la anterior, repitiéndola tantas veces como manera de combinar sus elementos sea posible. Es decir,

  sea n1 el número de veces que se repite cierto elemento e1 en la muestra;

  sea n2 el número de veces que se repite cierto elemento e2;

  sea nk el número de veces que se repite cierto elemento ek,

de modo que . Entonces la probabilidad de obtener la muestra

DR. ADOLFO GUTIERREZ SOSA

Page 81: ESTADISTICA AVANZADA

ESTADÍSTICA AVANZADA – GUIA DE ESTUDIO

es

es decir,

El muestreo aleatorio con reposición es también denominado muestreo aleatorio simple, que como hemos mencionado se caracteriza por que

1. cada elemento de la población tiene la misma probabilidad de ser elegido, y

2. las observaciones se realizan con reemplazamiento. De este modo, cada observación es realizada sobre la misma población (no disminuye con las extracciones sucesivas).

Sea X una v.a. definida sobre la población E, y f(x) su ley de probabilidad.

En una muestra aleatoria simple, cada observación tiene la distribución de

probabilidad de la población:   Además todos las observaciones de la v.a. son independientes, es decir  

Las relaciones(2.1)-(2.2) caracterizan a las muestras aleatorias simples.

DR. ADOLFO GUTIERREZ SOSA

Page 82: ESTADISTICA AVANZADA

ESTADÍSTICA AVANZADA – GUIA DE ESTUDIO

La selección de una muestra aleatoria puede realizarse con la ayuda de #.#>

2.4.2.3 Tablas de números aleatorios: Lotería Nacional

Un ejemplo de una tabla de números aleatorios consiste en la lista de los números de Lotería Nacional premiados a lo largo de su historia, pues se caracterizan por que cada dígito tiene la misma probabilidad de ser elegido, y su elección es independiente de las demás extracciones.

Un modo de hacerlo es el siguiente. Supongamos que tenemos una lista de números aleatorios de k=5 cifras (00000-99.999), una población de N=600individuos, y deseamos extraer una muestra de n=6 de ellos. En este caso ordenamos a toda la población (usando cualquier criterio) de modo que a cada uno de sus elementos le corresponda un número del 1 al 600. En segundo lugar nos dirigimos a la tabla de números aleatorios, y comenzando en cualquier punto extraemos un número t, y tomamos como primer elemento de la muestra al elemento de la población:

El proceso se repite tomando los siguientes números de la tabla de números aleatorios, hasta obtener la muestra de 10 individuos.

Las cantidades

pueden ser consideradas como observaciones de una v.a. U, que sigue una distribución uniforme en el intervalo [0,1]

DR. ADOLFO GUTIERREZ SOSA

Page 83: ESTADISTICA AVANZADA

ESTADÍSTICA AVANZADA – GUIA DE ESTUDIO

    2.4.2.4 Método de Montecarlo

El método de Montecarlo es una técnica para obtener muestras aleatorias simples de una v.a. X, de la que conocemos su ley de probabilidad (a partir de su función de distribución F). Con este método, el modo de elegir aleatoriamente un valor de X siguiendo usando su ley de probabilidad es:

1. Usando una tabla de números aleatorios7.1 se toma un valor u de una v.a.

. 2.

Si X es continua tomar como observación de X, la cantidad x=F-1(u). En el caso en que X sea discreta se toma x como el percentil de X, es

decir el valor más pequeño que verifica que . Este proceso se debe repetir n veces para obtener una muestra de tamaño n.

2.4.2.5 Ejemplo

Si queremos extraer n=10 muestras de una distribución podemos recurrir a una tabla de números aleatorios de k=5cifras, en las que observamos las cantidades (por ejemplo)

A partir de ellas podemos obtener una muestra de usando una tabla de la distribución normal:

Números aleatorios Muestra Muestra

ti xi = F-1(ui)

76.293 0'76 0'71

31.776 0'32(=1-0'68) -0'47

50.803 0'51 0'03

71.153 0'71 0'55

DR. ADOLFO GUTIERREZ SOSA

Page 84: ESTADISTICA AVANZADA

ESTADÍSTICA AVANZADA – GUIA DE ESTUDIO

20.271 0'20(=1-0'80) -0'84

33.717 0'34(=1-0'66) -0'41

17.979 0'18(=1-0'82) -0'92

52.125 0'52 0'05

41.330 0'41(=1-0'59) -0'23

95.141 0'95 1'65

Obsérvese que como era de esperar, las observaciones xi tienden a agruparse

alrededor de la esperanza matemática de . Por otra parte, esto no implica que el valor medio de la muestra sea necesariamente . Sin embargo como sabemos por el teorema de Fisher que

su dispersión con respecto al valor central es pequeña, lo que implica que probablemente el valor medio estará muy próximo a 0, como se puede calcular:

Obsérvese que si el problema fuese el inverso, donde únicamente conociésemos las observaciones xi y que el mecanismo que generó esos datos hubiese sido una distribución normal de parámetros desconocidos, con obtenida hubiésemos tenido una buena aproximación del ``parámetro

desconocido'' . Sobre esta cuestión volveremos más adelante al abordar el problema de la estimación puntual de parámetros.

DR. ADOLFO GUTIERREZ SOSA

Page 85: ESTADISTICA AVANZADA

ESTADÍSTICA AVANZADA – GUIA DE ESTUDIO

2.4.4 Muestreo aleatorio estratificado

Un muestreo aleatorio estratificado es aquel en el que se divide la población de N individuos, en k subpoblaciones o estratos, atendiendo a criterios que puedan ser importantes en el estudio, de tamaños respectivos N1, ..., Nk,

y realizando en cada una de estas subpoblaciones muestreos aleatorios simples

de tamaño ni .

A continuación nos planteamos el problema de cuantos elementos de muestra se han de elegir de cada uno de los estratos. Para ello tenemos fundamentalmente dos técnicas: la asignación proporcional y la asignación optima.

2.4.4.1 Ejemplo

Supongamos que realizamos un estudio sobre la población de estudiantes de una Universidad, en el que a través de una muestra de 10 de ellos queremos obtener información sobre el uso de barras de labios.

En primera aproximación lo que procede es hacer un muestreo aleatorio simple, pero en su lugar podemos reflexionar sobre el hecho de que el comportamiento de la población con respecto a este carácter no es homogéneo, y atendiendo a él, podemos dividir a la población en dos estratos:

a) Estudiantes masculinos (60% del total); b) Estudiantes femeninos (40% restante).

de modo que se repartan proporcionalmente ambos grupos el número total de muestras, en función de sus respectivos tamaños (6 varones y 4 mujeres). Esto es lo que se denomina asignación proporcional.

Si observamos con más atención, nos encontramos (salvo sorpresas de probabilidad reducida) que el comportamiento de los varones con respecto al carácter que se estudia es muy homogéneo y diferenciado del grupo de las mujeres.

Por otra parte, con toda seguridad la precisión sobre el carácter que estudiamos, será muy alta en el grupo de los varones aunque en la muestra haya muy pocos (pequeña varianza), mientras que en el grupo de las mujeres habrá mayor

DR. ADOLFO GUTIERREZ SOSA

Page 86: ESTADISTICA AVANZADA

ESTADÍSTICA AVANZADA – GUIA DE ESTUDIO

dispersión. Cuando las varianzas poblacionales son pequenãs, con pocos elementos de una muestra se obtiene una información más precisa del total de la población que cuando la varianza es grande. Por tanto, si nuestros medios sólo nos permiten tomar una muestra de 10 alumnos, será más conveniente dividir la muestra en dos estratos, y tomar mediante muestreo aleatorio simple cierto número de individuos de cada estrato, de modo que se elegirán más individuos en los grupos de mayor variabilidad. Así probablemente obtendríamos mejores resultados estudiando una muestra de

a) 1 varón. b) 9 hembras.

Esto es lo que se denomina asignación óptima.

   2.4.4.2 Asignación proporcional

Sea n el número de individuos de la población total que forman parte de alguna muestra:

Cuando la asignación es proporcional el tamaño de la muestra de cada estrato es proporcional al tamaño del estrato correspondiente con respecto a la población total:

   2.4.4.3 Asignación óptima

Cuando se realiza un muestreo estratificado, los tamaños muestrales en cada uno de los estratos, ni, los elige quien hace el muestreo, y para ello puede basarse en alguno de los siguientes criterios:

a) Elegir los ni de tal modo que se minimice la varianza del estimador, para un coste especificado, o bien,

DR. ADOLFO GUTIERREZ SOSA

Page 87: ESTADISTICA AVANZADA

ESTADÍSTICA AVANZADA – GUIA DE ESTUDIO

b) habiendo fijado la varianza que podemos admitir para el estimador, minimizar el coste en la obtención de las muestras.

Así en un estrato dado, se tiende a tomar una muestra más grande cuando:

1. El estrato es más grande; 2. El estrato posee mayor variabilidad interna (varianza); 3. El muestreo es más barato en ese estrato.

Para ajustar el tamaño de los estratos cuando conocemos la dispersión interna de cada uno de los mismos, tenemos el siguiente resultado:

2.4.4.4 Teorema

[Asignación de Neyman] Sea E una población con N elementos, dividida en k

estratos, con Ni elementos cada uno de ellos,

Sea n el número total de elementos al realizar el muestreo, y que se dividen en cada estrato como

Sea X la v.a. que representa el carácter que intentamos estudiar. Sobre cada estrato puede definirse entonces la v.a.

como el valor medio de X obtenida en una muestra de tamaño ni en el estrato Ei.

Sea la varianza de dicha v.a.; Entonces

DR. ADOLFO GUTIERREZ SOSA

Page 88: ESTADISTICA AVANZADA

ESTADÍSTICA AVANZADA – GUIA DE ESTUDIO

se minimiza cuando

donde

es la cuasi-varianza del estrato Ei.

2.4.6 Muestreo sistemático

Cuando los elementos de la población están ordenados en fichas o en una lista, una manera de muestrear consiste en

3. Sea ; 3. Elegir aleatoriamente un número m, entre 1 y k; 3. Tomar como muestra los elementos de la lista:

Esto es lo que se denomina muestreo sistemático. Cuando el criterio de ordenación de los elementos en la lista es tal que los elementos más parecidos tienden a estar más cercanos, el muestreo sistemático suele ser más preciso que el aleatorio simple, ya que recorre la población de un modo más uniforme.

DR. ADOLFO GUTIERREZ SOSA

Page 89: ESTADISTICA AVANZADA

ESTADÍSTICA AVANZADA – GUIA DE ESTUDIO

Por otro lado, es a menudo más fácil no cometer errores con un muestreo sistemático que con este último.

2.4.6.1 Observación

El método tal como se ha definido anteriormente es sesgado si no es entero, ya que los últimos elementos de la lista nunca pueden ser escogidos. Un modo de evitar este problema consiste en considerar la lista como si fuese circular (el elemento N+1 coincide con el primero) y:

a) Sea k el entero más cercano a ; b) Se selecciona un número al azar m, entre 1 y N; c) Se toma como muestra los elementos de la lista que consisten en ir

saltando de k elementos en k, a partir de m, teniendo en cuenta que la lista es circular.

Se puede comprobar que con este método todos los elementos de la lista tienen la misma probabilidad de selección.

2.4.8 Muestreo por conglomerados

Si intentamos hacer un estudio sobre los habitantes de una ciudad, el muestreo aleatorio simple puede resultar muy costoso, ya que estudiar una muestra de tamaño n implica enviar a los encuestadores a npuntos distintos de la misma, de modo que en cada uno de ellos sólo se realiza una entrevista. En esta situación es más económico realizar el denominado muestreo por conglomerados, que consiste en elegir aleatoriamente ciertos barrios dentro de la ciudad, para después elegir calles y edificios. Una vez elegido el edificio, se entrevista a todos los vecinos.

2.6 Propiedades deseables de un estimador

Sea X una v.a. cuya función de probabilidad (o densidad de probabilidad si es

continua) depende de unos parámetros desconocidos.

DR. ADOLFO GUTIERREZ SOSA

Page 90: ESTADISTICA AVANZADA

ESTADÍSTICA AVANZADA – GUIA DE ESTUDIO

Representamos mediante una muestra aleatoria simple de la variable. Denotamos mediante fc a la función de densidad conjunta de la muestra, que por estar formada por observaciones independientes, puede factorizarse del siguiente modo:

Se denomina estimador de un parámetro , a cualquier v.a. que se exprese en función de la muestra aleatoria y que tenga por objetivo aproximar el valor de

,

Obsérvese que el estimador no es un valor concreto sino una variable aleatoria, ya que aunque depende unívocamente de los valores de la muestra observados (Xi=xi), la elección de la muestra es un proceso aleatorio. Una vez que la muestra ha sido elegida, se denomina estimación el valor numérico que toma el estimador sobre esa muestra.

Intuitivamente, las características que serían deseables para esta nueva variable aleatoria (que usaremos para estimar el parámetro desconocido) deben ser:

Consistencia Cuando el tamaño de la muestra crece arbitrariamente, el valor estimado se aproxima al parámetro desconocido.

Carencia de sesgo El valor medio que se obtiene de la estimación para diferentes muestras debe ser el valor del parámetro.

Eficiencia Al estimador, al ser v.a., no puede exigírsele que para una muestra cualquiera se obtenga como estimación el valor exacto del parámetro. Sin embargo podemos pedirle que su dispersión con respecto al valor central (varianza) sea tan pequeña como sea posible.

Suficiencia El estimador debería aprovechar toda la información existente en la muestra.

A continuación vamos a enunciar de modo más preciso y estudiar cada una de esas características.

2.6.0.1 Ejemplo

 Consideremos una v.a. de la que sólo conocemos que su ley de distribución es gaussiana,

DR. ADOLFO GUTIERREZ SOSA

Page 91: ESTADISTICA AVANZADA

ESTADÍSTICA AVANZADA – GUIA DE ESTUDIO

Para muestras aleatorias de tamaño n=3,

un posible estimador del parámetro es

Si al realizar un muestreo aleatorio simple obtenemos

Hemos dicho que el estimador sirve para aproximar el valor de un parámetro desconocido, pero... ¿si el parámetro es desconocido cómo podemos decir que un estimador dado sirve para aproximarlo? Así pues, es necesario que definamos en qué sentido un estimador es bueno para cierto parámetro.

2.6.2 Carencia de sesgo

Se dice que un estimador de un parámetro es insesgado si:

DR. ADOLFO GUTIERREZ SOSA

Page 92: ESTADISTICA AVANZADA

ESTADÍSTICA AVANZADA – GUIA DE ESTUDIO

La carencia de sesgo puede interpretarse del siguiente modo: Supongamos que se tiene un número indefinido de muestras de una población, todas ellas del mismo tamaño n. Sobre cada muestra el estimador nos ofrece una estimación concreta del parámetro que buscamos. Pues bien, el estimador es insesgado, si sobre dicha cantidad indefinida de estimaciones, el valor medio obtenido en las estimaciones es (el valor que se desea conocer).

Se denomina sesgo a la diferencia ˆ( )E .

Sea X una variable aleatoria con media y varianza 2 . De una muestra

aleatoria 1 2, ,... nX X X , tomada de la poblacion representada por X se pueden

hallar la media y la varianza muestral X y 2S . Para hallar estimadores se

conocen varios procedimientos como el de minimos cuadrados y el de maxima verosimilitud; estos se veran mas adelante. Por ahora, probemos que

2S es un estimador insesgado de

2 (que X es un estimador insesgado de ya fue probado)

Se sabe que

2

2 1

( )

1

n

ii

X XS

n

Entonces,

2

2 1

( )( )

1

n

ii

X XE S E

n

2 2

1

1( ) ( )

1

n

ii

E S E X Xn

2 2 2

1

1( ) ( 2 )

1

n

i ii

E S E X X XXn

DR. ADOLFO GUTIERREZ SOSA

Page 93: ESTADISTICA AVANZADA

ESTADÍSTICA AVANZADA – GUIA DE ESTUDIO

2 2 2

1

1( )

1

n

ii

E S E X nXn

2 2 2

1

1( ) ( ) ( )

1

n

ii

E S E X nE Xn

2 2 2 2 2

1

1( ) ( ) ( / )

1

n

i

E S n nn

2 2 2 2 21( )

1E S n n n

n

2 2( )E S

Definicion

El Error cuadratico medio de un estimador ̂ se define como ˆ ˆ( ) ( )ECM E y puede demostrarse que

2ˆ ˆ ˆ( ) ( ) ( )ECM V sesgo

El error cuadratico medio es un criterio importante para comparar dos estimadores. El mejor estimador es el que tiene menor error cuadratico medio.

Ejercicios

1. Suponga que se tiene una muestra aleatoria de tamano 2n tomada de una poblacion X con media y varianza

2 . Sean

2

11

1

2

n

ii

X Xn

y 21

1 n

ii

X Xn

DR. ADOLFO GUTIERREZ SOSA

Page 94: ESTADISTICA AVANZADA

ESTADÍSTICA AVANZADA – GUIA DE ESTUDIO

dos estimadores de . Cual es el mejor estimador de ?

2. Sea 1 2 7, ,...,X X X una muestra aleatoria de una poblacion que tiene media y

varianza 2 . Considere los siguientes estimadores de :

7

11

1ˆ7 i

i

X

1 6 42

2ˆ2

X X X

a) Alguno de estos estimadores es insesgado?b) Cual es el mejor y en que sentido?

3.Suponga que 1̂ y 2̂ son estimadores insesgados del parametro . Se sabe

que la varianza de 1̂ es 10 y la de 2̂ es 4. Cual es el mejor estimador y en

que sentido?

4. Calcule la eficiencia relativa de los estimadores del Ejercicio 2.

5. Calcule la eficiencia relativa de los dos estimadores del ejercicio anterior

6. Suponga que 1̂ y 2̂ son estimadores del parametro . Se sabe que el valor

esperado del primero es y del segundo /2. si la varianza de 1̂ es 10 y la de

2̂ es 4, cual estimador es mejor y en que sentido?

2. Suponga que 1 2ˆ ˆ, y 3̂ son estimadores de . Se sabe que el valor

esperado de los dos primeros es y el de 3̂ es diferente de . Si la varianza

de 1̂ es 12, la de 2̂ , 10 y 23

ˆ( )E =6, cual es el major estimador y en que

sentido?

8. De una poblacion que tiene media y varianza 2 , se toman tres muestras

aleatorias de tamanos 1 220, 10n n y 3 8n . Sean 2 21 2,S S y 2

3S las varianzas

DR. ADOLFO GUTIERREZ SOSA

Page 95: ESTADISTICA AVANZADA

ESTADÍSTICA AVANZADA – GUIA DE ESTUDIO

muestrales. Demuestre que 2 2 2 21 2 3

120 10 8

38S S S S es un estimador

insesgado de 2

9. Demuestre que 2

1

( )ni

i

X X

n

es un estimador sesgado de 2 y determine la

magnitude del sesgo.

10. Sea 1 2, ,..., nX X X una muestral aleatoria de tamano n. Demuestre que 2X es

un estimador sesgado de 2 y determine la magnitude del sesgo.

2.6.4 Consistencia

Decimos que es un estimador consistente con el parámetro si:

o lo que es equivalente

Este tipo de propiedades definidas cuando el número de observaciones n, tiende a infinito, es lo que se denomina propiedades asintóticas.

2.6.4.1 Teorema

Como consecuencia de de la desigualdad de Thebycheff (página ) se puede demostrar el siguiente resultado:

DR. ADOLFO GUTIERREZ SOSA

Page 96: ESTADISTICA AVANZADA

ESTADÍSTICA AVANZADA – GUIA DE ESTUDIO

Si se verifican las condiciones

entonces es consistente.

2.6.6 Eficiencia

Dados dos estimadores y de un mismo parámetro , diremos que es

más eficiente que si

2.6.8 Suficiencia

Diremos que es un estimador suficiente del parámetro si

para todo posible valor de .

Esta definición así enunciada tal vez resulte un poco oscura, pero lo que expresa es que un estimador es suficiente, si agota toda la información existente en la muestra que sirva para estimar el parámetro.

DR. ADOLFO GUTIERREZ SOSA

Page 97: ESTADISTICA AVANZADA

ESTADÍSTICA AVANZADA – GUIA DE ESTUDIO

2.6.8.1 Teorema

[Criterio de factorización de Fisher--Neyman] Sea la

distribución conjunta para las muestras de tamaño n, . Entonces

siendo h una función no negativa que no depende de y r una función que sólo depende del parámetro y de la muestra a través del estimador.

2.6.10 Estimadores de máxima verosimilitud

Sea X una v.a. con función de probabilidad

Las muestras aleatorias simples de tamaño n, tienen por distribución de probabilidad conjunta

Esta función que depende de n+1 cantidades podemos considerarla de dos maneras:

a) Fijando , es una función de las n cantidades xi. Esto es la función de probabilidad o densidad.

DR. ADOLFO GUTIERREZ SOSA

Page 98: ESTADISTICA AVANZADA

ESTADÍSTICA AVANZADA – GUIA DE ESTUDIO

b) Fijados los xi como consecuencia de los resultados de elegir una muestra mediante un experimento aleatorio, es únicamente función de . A esta función de la denominamos función de verosimilitud.

En este punto podemos plantearnos el que dado una muestra sobre la que se ha observado los valores xi, una posible estimación del parámetro es aquella que maximiza la función de verosimilitud (cf. figura 2.1)

   Figura: La función de verosimilitud se

obtiene a partir de la función de densidad, intercambiando los papeles entre parámetro y estimador. En una

función de verosimilitud consideramos que las observaciones x1, ..., xn,están

fijadas, y se representa la gráfica con el valor de los valores que tomaría la función de densidad para todos los

posibles valores del parámetro . El estimador máximo verosímil del

parámetro buscado, , es aquel que maximiza su función de verosimilitud,

.

DR. ADOLFO GUTIERREZ SOSA

Page 99: ESTADISTICA AVANZADA

ESTADÍSTICA AVANZADA – GUIA DE ESTUDIO

Como es lo mismo maximizar una función que su logaritmo (al ser este una función estrictamente creciente), este máximo puede calcularse derivando con respecto a la función de verosimilitud ( bien su logaritmo) y tomando como estimador máximo verosímil al que haga la derivada nula:

De modo más preciso, se define el estimador máximo verosímil como la v.a.

Los estimadores de máxima verosimilitud tienen ciertas propiedades en general que a continuación enunciamos:

1. Son consistentes;

2.

Son invariantes frente a transformaciones biunívocas, es decir, si es

el estimador máximo verosímil de y es una función biunívoca de ,

entonces es el estimador máximo verosímil de . 3.

Si es un estimador suficiente de , su estimador máximo verosímil,

es función de la muestra a través de ; 4.

Son asintóticamente normales; 5.

Son asintóticamente eficientes, es decir, entre todos los estimadores consistentes de un parámetro , los de máxima verosimilitud son los de varianza mínima.

6. No siempre son insesgados.

DR. ADOLFO GUTIERREZ SOSA

Page 100: ESTADISTICA AVANZADA

ESTADÍSTICA AVANZADA – GUIA DE ESTUDIO

2.6.12 Algunos estimadores fundamentales

Vamos a estudiar las propiedades de ciertos estimadores que por su importancia en las aplicaciones resultan fundamentales: estimadores de la esperanza matemática y varianza de una distribución de probabilidad.

2.6.12.1 Estimador de la esperanza matemática

Consideremos las muestras de tamaño n, , de un carácter sobre una población que viene expresado a través de una v.a. Xque posee momentos

de primer y segundo orden, es decir, existen y :

El estimador media muestral que denotaremos normalmente como (en lugar

de es

verifica:

DR. ADOLFO GUTIERREZ SOSA

Page 101: ESTADISTICA AVANZADA

ESTADÍSTICA AVANZADA – GUIA DE ESTUDIO

Por tanto es un estimador insesgado. Si además sabemos que X se distribuye según una ley gaussiana, es sencillo comprobar que coincide con el estimador de máxima verosimilitud (figura 2.3):

2.6.12.2 Proposición

Demostración

La función de densidad de una observación cualquiera de la muestra es:

Por tanto la distribución conjunta de la muestra es

Para unos valores fijados, la función de verosimilitud es

DR. ADOLFO GUTIERREZ SOSA

Page 102: ESTADISTICA AVANZADA

ESTADÍSTICA AVANZADA – GUIA DE ESTUDIO

(en principio escribimos también el otro parámetro desconocido, , aunque no nos interesamos en su estimación por el momento). La expresión de la función de verosimilitud es algo engorrosa. Por ello es preferible trabajar con su logaritmo:

 

El máximo de la función de verosimilitud se alcanza donde lo hace su logaritmo

(monotonía), por tanto derivando con respecto a e igualando a cero se llega a:

Es decir, el estimador máximo verosímil de la media poblacional, , coincide con la media muestral

como queríamos demostrar (cf. figura 2.2).

   Figura: El estimador de máxima

verosimilitud de para una variable gaussiana es la media muestral.

DR. ADOLFO GUTIERREZ SOSA

Page 103: ESTADISTICA AVANZADA

ESTADÍSTICA AVANZADA – GUIA DE ESTUDIO

   Figura: La distribución del estimador

muestral del parámetro poblacional

, tiene por valor esperado al mismo (insesgado), y su dispersión disminuye a medida que aumenta el número de

observaciones

DR. ADOLFO GUTIERREZ SOSA

Page 104: ESTADISTICA AVANZADA

ESTADÍSTICA AVANZADA – GUIA DE ESTUDIO

2.6.12.3 Estimador de la varianza

A la hora de elegir un estimador de , podemos comenzar con el estimador más natural:

 

Podemos comprobar que cuando el carácter que se estudia sobre la población es gaussiano, en realidad este es el estimador máximo verosímil para la varianza. Sin embargo se comprueba también su falta de sesgo, lo que hace mas adecuado que se utilice como estimador de la varianza al siguiente concepto: cuasi varianza muestral

   2.6.12.4 Proposición

Demostración

Recuperamos el logaritmo de la función de verosimilitud escrita en la relación (2.4), donde en esta ocasión el primer parámetro ya fue obtenido por el método de máxima verosimilitud (y vimos que era la media muestral) y tratamos de maximizarla con respecto al segundo parámetro:

Derivando con respecto a e igualando a 0se obtiene el estimador máximo verosímil:

DR. ADOLFO GUTIERREZ SOSA

Page 105: ESTADISTICA AVANZADA

ESTADÍSTICA AVANZADA – GUIA DE ESTUDIO

Despejando de esta ecuación se obtiene que el estimador máximo verosímil coincide con la varianza muestral,

   2.6.12.5 Proposición

El valor esperado del estimador

no es , y por tanto el estimador máximo verosímil para la varianza no es

insesgado. Más aún,

Demostración Comenzamos escribiendo

Por otro lado

Luego

DR. ADOLFO GUTIERREZ SOSA

Page 106: ESTADISTICA AVANZADA

ESTADÍSTICA AVANZADA – GUIA DE ESTUDIO

Ejercicios

Basados en una muestra aleatoria de tamano n:

Hallar el EMV del parametro p de una variable aleatoria Bernoulli

Hallar el EMV de la media de una variable aleatoria normalmente distribuida con varianza

2 conocida

Sea 2~ ( , )X N con y 2 desconocidas. Hallar los estimadores maximo

verosimiles de estos parametros.

Hallar el EMV del parametro de la distribucion Poisson Hallar el EMV del parametro de la distribucion exponencial Hallar el EMV del parametro de la distribucion geometrica. Sea X una variable aleatoria con la siguiente distribucion de probabilidad

( ) ( 1) ,0 1f x x x Encuentre el EMV del parametro

Considere la distribucion Weibull

1

( ) , 0x

xf x e x

Encuentre la funcion de verosimilitud, el log de la funcion de verosimilitud y demuestre que este ultimo queda maximizado al resolver las ecuaciones

1

1 1

1

ln( ) ln( )n n

i i ii i

n

ii

x x x

nx

1/

1

n

ii

x

n

DR. ADOLFO GUTIERREZ SOSA

Page 107: ESTADISTICA AVANZADA

ESTADÍSTICA AVANZADA – GUIA DE ESTUDIO

9. Demuestre que el EMV de /r de una distribucion Gamma con

parametros r y es ˆ X .

2.6.12.6 Cuasivarianza muestral

Para tener un estimador insesgado de la varianza introducimos la cuasivarianza muestral que se define como

 

Es inmediato comprobar que realmente este estimador es insesgado

Esa esperanza puede ser calculada de un modo más directo, ya que la distribución del estimador es conocida usando el teorema de Cochran (página

):

 

luego

Es consecuencia de las relaciones (2.8) y (2.9) que la distribución de la cuasivarianza muestral es tal que

DR. ADOLFO GUTIERREZ SOSA

Page 108: ESTADISTICA AVANZADA

ESTADÍSTICA AVANZADA – GUIA DE ESTUDIO

(cf. figura 2.4).

   Figura: Función de densidad del

estadístico que relaciona , y los grados de libertad de la muestra (n-1).

La falta de simetría del mismo hace que su valor esperado (n-1) se desplace a la derecha de la moda (asimetría positiva).

DR. ADOLFO GUTIERREZ SOSA

Page 109: ESTADISTICA AVANZADA

ESTADÍSTICA AVANZADA – GUIA DE ESTUDIO

3. Estimación confidencial

  3.2 Introducción 3.4 Intervalos de confianza para la distribución normal

3.4.2 Intervalo para la media si se conoce la varianza 3.4.4 Intervalo para la media (caso general)

i. 3.4.4.1 Ejemplo 3.4.6 Intervalo de confianza para la varianza

i. 3.4.6.1 Ejemplo 3.4.4 Estimación del tamaño muestral

i. 3.4.4.1 Ejemplo 3.4.10 Intervalos para la diferencia de medias de dos poblaciones

i. 3.4.10.1 Intervalo para la diferencia de medias homocedáticas ii. 3.4.10.2 Ejemplo

Intervalos de confianza para variables dicotómicas

3.6.2 Intervalo para una proporción i. 3.6.2.1 Ejemplo

3.6.4 Elección del tamaño muestral para una proporción i. 3.6.4.1 Ejemplo

3.6.6 Intervalo para la diferencia de dos proporciones

6. 3.8 Problemas

3.2 Introducción

DR. ADOLFO GUTIERREZ SOSA

Page 110: ESTADISTICA AVANZADA

ESTADÍSTICA AVANZADA – GUIA DE ESTUDIO

La estimación confidencial consiste en determinar un posible rango de valores o intervalo, en los que pueda precisarse --con una determinada probabilidad-- que el valor de un parámetro se encuentra dentro de esos límites. Este parámetro será habitualmente una proporción en el caso de variables dicotómicas, y la media o la varianza para distribuciones gaussianas.

 La técnica de la estimación confidencial consiste en asociar a cada muestra un intervalo que se sospecha que debe contener al parámetro. A éste se le denomina intervalo de confianza

Evidentemente esta técnica no tiene porqué dar siempre un resultado correcto. A la probabilidad de que hayamos acertado al decir que el parámetro estaba contenido en dicho intervalo se la denomina nivel de confianza. También se denomina nivel de significación a la probabilidad de equivocarnos

3.4 Intervalos de confianza para la distribución normal

Dada una variable aleatoria de distribución gaussiana, , nos interesamos en primer lugar, en calcular intervalos de confianza para sus dos

parámetros, y .

He aquí un resumen de las situaciones que consideraremos:

Intervalo para la media si se conoce la varianza: Este no es un caso práctico (no se puede conocer sin conocer

previamente ), pero sirve para introducirnos en el problema de la estimación confidencial de la media;

Intervalos de confianza para la media (caso general): Este se trata del caso con verdadero interés práctico. Por ejemplo sirve para estimar intervalos que contenga la media del colesterol en sangre en una población, la altura, el peso, etc, cuando disponemos de una muestra de la variable.

Intervalo de confianza para la varianza: Éste es otro caso de interés en las aplicaciones. El objetivo es calcular un intervalo de confianza para , cuando sólo se dispone de una muestra.

Estimación de tamaño muestral La utilidad consiste en decidir cuál deberá ser el tamaño necesario de una muestra para obtener intervalos de confianza para una media, con precisión y significación dadas de antemano. Para que esto sea posible es necesario poseer cierta información previa, que se obtiene a partir de las denominadas muestras piloto.

DR. ADOLFO GUTIERREZ SOSA

Page 111: ESTADISTICA AVANZADA

ESTADÍSTICA AVANZADA – GUIA DE ESTUDIO

Más adelante, consideramos el caso en que tenemos dos poblaciones donde

cada una sigue su propia ley de distribución y . Los problemas asociados a este caso son

Diferencia de medias homocedáticas Se realiza el cálculo del intervalo de confianza suponiendo que ambas variables tienen la misma varianza, es decir son homocedáticas. En la práctica se usa este cálculo, cuando ambas variables tienen parecida dispersión.

Diferencia de medias (caso general) Es el mismo caso que el anterior, pero se realiza cuando se observa que hay diferencia notable en la dispersión de ambas variables.

  a) 3.4.2 Intervalo para la media si se conoce la varianza b) 3.4.4 Intervalo para la media (caso general)

a. 3.4.4.1 Ejemplo c) 3.4.6 Intervalo de confianza para la varianza

a. 3.4.6.1 Ejemplo d) 3.4.8 Estimación del tamaño muestral

a. 3.4.8.1 Ejemplo e) 3.4.10 Intervalos para la diferencia de medias de dos poblaciones

a. 3.4.10.1 Intervalo para la diferencia de medias homocedáticas b. 3.4.10.2 Ejemplo

3.4.2 Intervalo para la media si se conoce la varianza

Este caso que planteamos es más a nivel teórico que práctico: difícilmente

vamos a poder conocer con exactitud mientras que es desconocido. Sin embargo nos aproxima del modo más simple a la estimación confidencial de medias.

Para estimar , el estadístico que mejor nos va a ayudar es , del que conocemos su ley de distribución:

DR. ADOLFO GUTIERREZ SOSA

Page 112: ESTADISTICA AVANZADA

ESTADÍSTICA AVANZADA – GUIA DE ESTUDIO

Esa ley de distribución depende de (desconocida). Lo más conveniente es hacer que la ley de distribución no dependa de ningún parámetro desconocido, para ello tipificamos:

Este es el modo en que haremos siempre la estimación puntual: buscaremos una relación en la que intervengan el parámetro desconocido junto con su estimador y de modo que estos se distribuyan según una ley de probabilidad que es bien conocida y a ser posible tabulada.

De este modo, fijado , consideramos la v.a. y tomamos un

intervalo que contenga una masa de probabilidad de . Este intervalo lo queremos tan pequeño como sea posible. Por ello lo mejor es tomarlo simétrico con respecto a la media (0), ya que allí es donde se acumula más masa (véase la figura 3.1). Así las dos colas de la distribución (zonas más alejadas de la media) se repartirán a partes iguales el resto de la masa de probabilidad, .

  

Figura: La distribución y el intervalo más pequeño posible cuya

DR. ADOLFO GUTIERREZ SOSA

Page 113: ESTADISTICA AVANZADA

ESTADÍSTICA AVANZADA – GUIA DE ESTUDIO

probabilidad es . Por simetría, los

cuantiles y sólo difieren en el signo.

Vamos a precisar cómo calcular el intervalo de confianza:

9. Sea el percentil de Z, es decir, aquel valor de que deja por

debajo de si la cantidad de la masa de probabilidad de Z, es decir:

9. Sea el percentil , es decir,

DR. ADOLFO GUTIERREZ SOSA

Page 114: ESTADISTICA AVANZADA

ESTADÍSTICA AVANZADA – GUIA DE ESTUDIO

Es útil considerar en este punto la simetría de la distribución normal, y observar que los percentiles anteriores son los mismos aunque con el signo cambiado:

9. El intervalo alrededor del origen que contiene la mayor parte de la masa (

) es el intervalo siguiente (cf. Figura 3.1):

lo que habitualmente escribiremos como:

9. De este modo podemos afirmar que existe una probabilidad de de que al extraer una muestra aleatoria de la variable en estudio, ocurra:

DR. ADOLFO GUTIERREZ SOSA

Page 115: ESTADISTICA AVANZADA

ESTADÍSTICA AVANZADA – GUIA DE ESTUDIO

De este modo un intervalo de confianza al nivel para la esperanza de una normal de varianza conocida es el comprendido entre los valores

La forma habitual de escribir este intervalo está inspirada en la Figura :

   Figura: Intervalo de confianza para la

media.

DR. ADOLFO GUTIERREZ SOSA

Page 116: ESTADISTICA AVANZADA

ESTADÍSTICA AVANZADA – GUIA DE ESTUDIO

3.4.4 Intervalo para la media (caso general)

Como hemos mencionado, los casos anteriores se presentarán poco en la práctica, ya que lo usual es que sobre una población quizás podamos conocer si

se distribuye normalmente, pero el valor exacto de los parámetros y no son conocidos. De ahí nuestro interés en buscar intervalos de confianza para ellos.

El problema que tenemos en este caso es más complicado que el anterior, pues no es tan sencillo eliminar los dos parámetros a la vez. Para ello nos vamos a ayudar de lo siguiente:

Por el teorema de Cochran sabemos por otro lado que:

y que además estas dos últimas distribuciones son independientes. A partir de estas relaciones podemos construir una distribución de Student con n-1 grados de libertad (cf. figura 3.3):

  

Figura: La distribución es algo

diferente a cuando n es pequeño, pero conforme éste aumenta,

ambas distribuciones se aproximan.

DR. ADOLFO GUTIERREZ SOSA

Page 117: ESTADISTICA AVANZADA

ESTADÍSTICA AVANZADA – GUIA DE ESTUDIO

Simplificando la expresión anterior tenemos:

Dado el nivel de significación buscamos en una tabla de el percentil

, , el cual deja por encima de si la cantidad de la masa de probabilidad (figura 3.4). Por simetría de la distribución de Student se

tiene que , luego

   Figura: La distribución de Student tiene

DR. ADOLFO GUTIERREZ SOSA

Page 118: ESTADISTICA AVANZADA

ESTADÍSTICA AVANZADA – GUIA DE ESTUDIO

las mismas propiedades de simetría que la normal tipificada.

El intervalo de confianza se obtiene a partir del siguiente cálculo:

Es decir, el intervalo de confianza al nivel para la esperanza de una distribución gaussiana cuando sus parámetros son desconocidos es:

DR. ADOLFO GUTIERREZ SOSA

Page 119: ESTADISTICA AVANZADA

ESTADÍSTICA AVANZADA – GUIA DE ESTUDIO

  

Figura: Intervalo de confianza para cuando es desconocido (caso

general).

Al igual que en el caso del cálculo del intervalo de confianza para cuando es conocido, podemos en el caso desconocido, utilizar la función de verosimilitud (figura3.5) para representarlo geométricamente. En este caso se usa la notación:

3.4.4.1 Ejemplo

 Se quiere estimar un intervalo de confianza al nivel de significación

para la altura media de los individuos de una ciudad. En principio sólo sabemos que la distribución de las alturas es una v.a. X de distribución normal. Para ello se toma una muestra de n=25 personas y se obtiene

Solución:

DR. ADOLFO GUTIERREZ SOSA

Page 120: ESTADISTICA AVANZADA

ESTADÍSTICA AVANZADA – GUIA DE ESTUDIO

En primer lugar, en estadística inferencial, los estadísticos para medir la dispersión más convenientes son los insesgados. Por ello vamos a dejar de lado la desviación típica muestral, para utilizar la cuasidesviación típica:

Si queremos estimar un intervalo de confianza para , es conveniente utilizar el estadístico

y tomar como intervalo de confianza aquella región en la que

es decir,

o dicho de forma más precisa: Con un nivel de confianza del podemos decir que la media poblacional está en el intervalo siguiente (véase la Figura):

DR. ADOLFO GUTIERREZ SOSA

Page 121: ESTADISTICA AVANZADA

ESTADÍSTICA AVANZADA – GUIA DE ESTUDIO

   Figura: Cálculo del intervalo de

confianza para la media usando para ello la distribución de Student y la

función de verosimilitud asociada, la cual está tiene su máximo en , ya que

esta estimación puntual de es la máximo verosímil.

3.4.6 Intervalo de confianza para la varianza

Para estimar un intervalo de confianza para la varianza, nos ayudaremos de la

siguiente propiedad de la distribución :

Consideremos dos cuantiles de esta distribución que nos dejen una probabilidad

en la ``zona central'' de la distribución (cf. figura 3.7):

DR. ADOLFO GUTIERREZ SOSA

Page 122: ESTADISTICA AVANZADA

ESTADÍSTICA AVANZADA – GUIA DE ESTUDIO

   Figura: Cuantiles de la distribución

.

Entonces un intervalo de confianza al nivel para la varianza de una distribución gaussiana (cuyos parámetros desconocemos) lo obtenemos

teniendo en cuenta que existe una probabilidad de que:

DR. ADOLFO GUTIERREZ SOSA

Page 123: ESTADISTICA AVANZADA

ESTADÍSTICA AVANZADA – GUIA DE ESTUDIO

Por tanto el intervalo que buscamos es

3.4.6.1 Ejemplo

En un ejemplo anterior se estudiaba la altura de los individuos de una ciudad, obteniéndose en una muestra de tamaño 25 los siguientes valores:

Calcular un intervalo de confianza con para la varianza de la altura de los individuos de la ciudad.

Solución:

Para estimar un intervalo de confianza para (varianza poblacional) el estadístico que nos resulta útil es:

Entonces el intervalo de confianza que buscamos lo obtenemos mediante (cf. figura 3.8)

   Figura: Percentiles del 2,5% y del

97,5% para la distribución .

DR. ADOLFO GUTIERREZ SOSA

Page 124: ESTADISTICA AVANZADA

ESTADÍSTICA AVANZADA – GUIA DE ESTUDIO

Por tanto, para el valor poblacional de la desviación típica tenemos que

con una confianza del 95%, que por supuesto contiene a las estimaciones

puntuales y calculados sobre la muestra.

3.4.8 Estimación del tamaño muestral

Antes de realizar un estudio de inferencia estadística sobre una variable, lo primero es decidir el número de elementos, N, a elegir en la muestra aleatoria. Para ello consideremos que el estudio se basara en una variable de distribución

DR. ADOLFO GUTIERREZ SOSA

Page 125: ESTADISTICA AVANZADA

ESTADÍSTICA AVANZADA – GUIA DE ESTUDIO

normal, y nos interesa obtener para un nivel de significación dado, una precisión (error) d.

Para ello, recordemos que un intervalo de confianza para una media en el caso general se escribe como:

Si N es suficientemente grande, la distribución de Student se aproxima a la distribución normal. Luego una manera de obtener la precisión buscada consiste en elegir N con el siguiente criterio:

Donde es una estimación puntual a priori de la varianza de la muestra. Para obtenerla nos podemos basar en una cota superior conocida por nuestra experiencia previa, o simplemente, tomando una muestra piloto que sirve para dar una idea previa de los parámetros que describen una población.

3.4.8.1 Ejemplo

En los últimos ejemplos se ha estudiado la variable altura de los individuos de una población, considerando que ésta es una variable que se distribuye de modo gaussiana.

Para ello se tomó una muestra de 25 individuos (que podemos considerar piloto), que ofreció los siguientes resultados:

DR. ADOLFO GUTIERREZ SOSA

Page 126: ESTADISTICA AVANZADA

ESTADÍSTICA AVANZADA – GUIA DE ESTUDIO

Calcular el tamaño que debería tener una muestra para que se obtuviese un intervalo de confianza para la media poblacional con un nivel de significación

(al ) y con una precisión de d=1 cm.

Solución:

Obsérvese que sobre la muestra piloto, el error cometido al estimar el intervalo

al fue aproximadamente de 4'2 cm por lo que si buscamos un intervalo de confianza tan preciso, el tamaño de la muestra, N, deberá ser bastante mayor. En este caso se obtiene:

Por tanto, si queremos realizar un estudio con toda la precisión requerida en el enunciado se debería tomar una muestra de 694 individuos. Esto es una indicación de gran utilidad antes de comenzar el estudio. Una vez que el muestreo haya sido realizado, debemos confirmar que el error para el nivel de significación dado es inferior o igual a 1 cm, utilizando la muestra obtenida.

3.4.10 Intervalos para la diferencia de medias de dos poblaciones

Consideremos el caso en que tenemos dos poblaciones de modo que el carácter que estudiamos en ambas (X1 y X2) son v.a. distribuidas según leyes gaussianas

En cada una de estas poblaciones se extrae mediante muestreo aleatorio simple, muestras que no tienen por que ser necesariamente del mismo tamaño (respectivamente n1 y n2)

DR. ADOLFO GUTIERREZ SOSA

Page 127: ESTADISTICA AVANZADA

ESTADÍSTICA AVANZADA – GUIA DE ESTUDIO

Podemos plantearnos a partir de las muestras el saber qué diferencias existen entre las medias de ambas poblaciones, o por ejemplo estudiar las relación existente entre sus dispersiones respectivas. A ello vamos a dedicar los siguientes puntos.

    3.4.10.1 Intervalo para la diferencia de medias homocedáticas

Supongamos que dos poblaciones tengan varianzas idénticas (homocedasticidad), . Es decir

Por razones análogas a las expuestas en el caso de una población una población, se tiene que

Sea Z la v.a. definida como

DR. ADOLFO GUTIERREZ SOSA

Page 128: ESTADISTICA AVANZADA

ESTADÍSTICA AVANZADA – GUIA DE ESTUDIO

El siguiente cociente se distribuye entonces como una de Student con n1+n2-2 grados de libertad

 

donde se ha definido a como la cuasivarianza muestral ponderada de y

Si es el nivel de significación con el que deseamos establecer el intervalo

para la diferencia de las dos medias, calculamos el valor que deja

por encima de si de la masa de probabilidad de Tn1+n2-2

Repitiendo un proceso que ya hemos realizado en ocasiones anteriores,

tenemos una probabilidad de de que a extraer una muestra aleatoria simple ocurra:

DR. ADOLFO GUTIERREZ SOSA

Page 129: ESTADISTICA AVANZADA

ESTADÍSTICA AVANZADA – GUIA DE ESTUDIO

Luego el intervalo de confianza al nivel para la diferencia de esperanzas de dos poblaciones con la misma varianza (aunque esta sea desconocida) es:

3.4.10.2 Ejemplo

Queremos estudiar la influencia que puede tener el tabaco con el peso de los niños al nacer. Para ello se consideran dos grupos de mujeres embarazadas (unas que fuman un paquete al día y otras que no) y se obtienen los siguientes datos sobre el peso X, de sus hijos:

En ambos grupos los pesos de los recién nacidos provienen de sendas distribuciones normales de medias desconocidas, y con varianzas que si bien son desconocidas, podemos suponer que son las mismas. Calcular en cuanto influye el que la madre sea fumadora en el peso de su hijo.

Solución:

Si X1 es la v.a. que describe el peso de un niño que nace de madre no fumadora, y X2 el de un hijo de madre fumadora, se tiene por hipótesis que

DR. ADOLFO GUTIERREZ SOSA

Page 130: ESTADISTICA AVANZADA

ESTADÍSTICA AVANZADA – GUIA DE ESTUDIO

Si queremos estimar en cuanto influye el que la madre sea fumadora en el peso

de su hijo, podemos estimar un intervalo de confianza para , lo que nos dará la diferencia de peso esperado entre un niño del primer grupo y otro del segundo. El estadístico que se ha de aplicar para esta cuestión es:

donde

Consideramos un nivel de significación que nos parezca aceptable, por ejemplo

, y el intervalo buscado se obtiene a partir de: (ver la Figura 3.9)

   Figura: Región que se utiliza para calcular el intervalo de confianza.

DR. ADOLFO GUTIERREZ SOSA

Page 131: ESTADISTICA AVANZADA

ESTADÍSTICA AVANZADA – GUIA DE ESTUDIO

con lo cual se puede decir que un intervalo de confianza para el peso esperado en que supera un hijo de madre no fumadora al de otro de madre fumadora está

comprendido con un nivel de confianza del entre los 0,068 Kg y los 0,731 Kg.

3.6 Intervalos de confianza para variables dicotómicas

DR. ADOLFO GUTIERREZ SOSA

Page 132: ESTADISTICA AVANZADA

ESTADÍSTICA AVANZADA – GUIA DE ESTUDIO

Cuando tenemos una variable dicotómica (o de Bernoulli) a menudo interesa saber en qué proporción de casos, p, ocurre el éxito en la realización de un experimento. También nos puede interesar el comparar la diferencia existente entre las proporciones en distintas poblaciones. También es de interés calcular para un nivel de significación dado, el tamaño muestral necesario para calcular un intervalo de confianza de cuyo radio sea menor que cierta cantidad.

  8. 3.6.2 Intervalo para una proporción

12.3.6.2.1 Ejemplo 8. 3.6.4 Elección del tamaño muestral para una proporción

12.3.6.4.1 Ejemplo 8. 3.6.6 Intervalo para la diferencia de dos proporciones

3.6.2 Intervalo para una proporción

Sean . Si queremos estimar el parámetro p, la manera más natural de hacerlo consiste en definir la suma de estas --lo que nos proporciona una distribución Binomial (página ):

y tomar como estimador suyo la v.a.

Es decir, tomamos como estimación de p la proporción de éxitos obtenidos en

las n pruebas8.1, .

La distribución del número de éxitos es binomial, y puede ser aproximada a la normal cuando el tamaño de la muestra n es grande, y p no es una cantidad muy cercana a cero o uno:

DR. ADOLFO GUTIERREZ SOSA

Page 133: ESTADISTICA AVANZADA

ESTADÍSTICA AVANZADA – GUIA DE ESTUDIO

El estimador no es más que un cambio de escala de X, por tanto

Esta expresión presenta dificultades para el cálculo, siendo más cómodo sustituirla por la siguiente aproximación:

Para encontrar el intervalo de confianza al nivel de significación para p se

considera el intervalo que hace que la distribución de deje la probabilidad fuera del mismo. Es decir, se considera el intervalo cuyos

extremos son los cuantiles y . Así se puede afirmar con una

confianza de que:

Esto se resume en la siguiente expresión:

DR. ADOLFO GUTIERREZ SOSA

Page 134: ESTADISTICA AVANZADA

ESTADÍSTICA AVANZADA – GUIA DE ESTUDIO

con una confianza de

   Figura: Intervalo de confianza para una

proporción.

3.6.2.1 Ejemplo

 Se quiere estimar el resultado de un referéndum mediante un sondeo. Para ello se realiza un muestreo aleatorio simple con n=100 personas y se obtienen 35% que votarán a favor y 65% que votarán en contra (suponemos que no hay indecisos para simplificar el problema a una variable dicotómica). Con un nivel de significación del 5%, calcule un intervalo de confianza para el verdadero resultado de las elecciones.

Solución: Dada una persona cualquiera (i) de la población, el resultado de su voto es una variable dicotómica:

El parámetro a estimar en un intervalo de confianza con es p, y tenemos sobre una muestra de tamaño n=100, la siguiente estimación puntual de p:

Sabemos que

DR. ADOLFO GUTIERREZ SOSA

Page 135: ESTADISTICA AVANZADA

ESTADÍSTICA AVANZADA – GUIA DE ESTUDIO

En la práctica el error que se comete no es muy grande si tomamos algo más simple como

Así el intervalo de confianza buscado lo calculamos como se indica en la Figura 3.11:

Por tanto, tenemos con esa muestra un error aproximado de 9,3 puntos al nivel de confianza del 95%.

   Figura: Región a partir de la cual se

realiza una estimación confidencial para una proporción, con una confianza del

95%.

DR. ADOLFO GUTIERREZ SOSA

Page 136: ESTADISTICA AVANZADA

ESTADÍSTICA AVANZADA – GUIA DE ESTUDIO

3.6.4 Elección del tamaño muestral para una proporción

En un ejemplo previo con una muestra de 100 individuos se realizó una estimación confidencial, con un 95% de confianza, del porcentaje de votantes a una cuestión en un referéndum, obteniéndose un margen de error de 9,3 puntos.

Si pretendemos reducir el error a 1 punto y queremos aumentar el nivel de confianza hasta el 97% ( ) hemos de tomar una muestra lógicamente de mayor tamaño, N. La técnica para aproximar dicha cantidad consiste en observar que el error cometido en una estimación es de la forma:

donde es una estimación puntual de p.

Por tanto un valor de N que satisfaga nuestros requerimientos con respecto al error sería:

DR. ADOLFO GUTIERREZ SOSA

Page 137: ESTADISTICA AVANZADA

ESTADÍSTICA AVANZADA – GUIA DE ESTUDIO

Si en un principio no tenemos una idea sobre que valores puede tomar p, debemos considerar el peor caso posible, que es en el que se ha de estimar el tamaño muestral cuando p=q=1/2. Así:

3.6.4.1 Ejemplo

Continuemos el último ejemplo. Se quiere estimar el resultado de un referéndum mediante un sondeo, y sin tener una idea sobre el posible resultado del mismo, se desea conocer el tamaño de muestra que se ha de tomar para obtener un intervalo al 97% de confianza, con un error del 1

Solución:

Como no se tiene una idea previa del posible resultado del referéndum, hay que tomar un tamaño de muestra, N, que se calcula mediante:

Así para tener un resultado tan fiable, el número de personas a entrevistar debe ser muy elevado --lo que puede volver excesivamente costoso el sondeo.

3.6.6 Intervalo para la diferencia de dos proporciones

Vamos a considerar que tenemos dos poblaciones de modo que en cada una de ellas estudiamos una v.a. dicotómica (Bernoulli) de parámetros respectivos p1 y p2. De cada población vamos a extraer muestras de tamaño n1 y n2

DR. ADOLFO GUTIERREZ SOSA

Page 138: ESTADISTICA AVANZADA

ESTADÍSTICA AVANZADA – GUIA DE ESTUDIO

Entonces

Si las muestras son suficientemente grandes ocurre que

Esta última relación se puede aproximar por otra que simplifica bastante los cálculos:

DR. ADOLFO GUTIERREZ SOSA

Page 139: ESTADISTICA AVANZADA

ESTADÍSTICA AVANZADA – GUIA DE ESTUDIO

Por el mismo razonamiento que en el caso de una población llegamos a que una

aproximación para un intervalo de confianza al nivel para la diferencia de proporciones de dos poblaciones es:

3.8 Problemas

Ejercicio 3..1. Se ha medido el volumen diario de bilis, expresado en litros, en 10 individuos sanos, obteniéndose

0,98; 0,85; 0,77; 0,92; 1,12; 1,06; 0,89; 1,01; 1,21; 0,77.

¿Cuanto vale la producción diaria media de bilis en individuos sanos suponiendo que la muestra ha sido obtenida por muestreo aleatorio simple sobre una población normal?

Ejercicio 3..2. La cantidad mínima requerida para que un anestésico surta efecto en una intervención quirúrgica fue por término medio de 50 mg, con una desviación típica de 10,2 mg, en una muestra de 60 pacientes. Obtener un intervalo de confianza para la media al 99%, suponiendo que la muestra fue extraída mediante muestreo aleatorio simple sobre una población normal.

Ejercicio 3..3. Un investigador está interesado en estimar la proporción de muertes debidas a cáncer de estómago en relación con el número de defunciones por cualquier tipo de neoplasia. Su experiencia le indica que sería sorprendente que tal proporción supere el valor de 1/3. ¿Qué tamaño de muestra debe tomar para estimar la anterior proporción, con una confianza del 99%, para que el valor estimado no difiera del valor real en más de 0,03?.

Ejercicio 3..4. Se desea realizar una estimación confidencial de la varianza de la estatura de los niños varones de 10 años de una ciudad con una confianza del 95%. ¿Cuál será dicho intervalo si se toma una muestra de 101 niños al azar, entre todos los que reúnen las características deseadas, y medimos sus

estaturas, y se obtienen las siguientes estimaciones puntuales: ,

?

Ejercicio 3..5. Un cardiólogo se encuentra interesado en encontrar límites de confianza al 90%, para la presión sistólica tras un cierto ejercicio físico. Obtenerlos si en 50 individuos se obtuvo , y suponemos que el comportamiento de la v.a. es normal.

DR. ADOLFO GUTIERREZ SOSA

Page 140: ESTADISTICA AVANZADA

ESTADÍSTICA AVANZADA – GUIA DE ESTUDIO

Ejercicio 3..6. En una muestra de 25 bebés varones de 12 semanas de vida, se obtuvo un peso medio de 5.900 gr y una desviación típica de 94 gr.

1. Obtener un intervalo de confianza (al 95%) para el peso medio poblacional.

2. ¿Cuántos niños habría que tomar para estimar dicha media con una precisión de 15 gr?

Ejercicio 3..7. En un determinado servicio de odontología se sabe que el 22% de las visitas llevan consigo una extracción dentaria inmediata. En cierto año, de 2.366 visitas, 498 dieron lugar a una extracción inmediata. ¿Entran en contradicción las cifras de ese año con el porcentaje establecido de siempre?

Ejercicio 3..8. Sólo una parte de los pacientes que sufren un determinado síndrome neurológico consiguen una curación completa; Si de 64 pacientes observados se han curado 41, dar una estimaciones puntual y un intervalos de la proporción de los que sanan. ¿Qué número de enfermos habría que observar para estimar la proporción de curados con un error inferior a 0,05 y una confianza del 95%?

Ejercicio 3..9. Se desea estimar el tiempo medio de sangría en fumadores de más de 20 cigarrillos diarios, con edades comprendidas entre 35 y 40 años, con una precisión de 5 segundos. Ante la ausencia de cualquier información acerca de la variabilidad del tiempo de sangría es este tipo de individuos, se tomó una muestra preliminar de 5 individuos, en los que se obtuvieron los siguientes tiempos (en segundos):

97, 80, 67, 91, 73.

Determinar el tamaño mínimo de muestra, al 95%, para cumplir el objetivo anterior.

Ejercicio 3..10. En una determinada región se tomó una muestra aleatoria de 125 individuos, de los cuales 12 padecían afecciones pulmonares.

1. Estímese la proporción de afecciones pulmonares en dicha región.

2. Si queremos estimar dicha proporción con un error máximo del 4%, para una confianza del 95%, ¿qué tamaño de muestra debemos tomar?

Ejercicio 3..11. En una muestra de tabletas de aspirinas, de las cuales observamos su peso expresado en gramos, obtenemos:

DR. ADOLFO GUTIERREZ SOSA

Page 141: ESTADISTICA AVANZADA

ESTADÍSTICA AVANZADA – GUIA DE ESTUDIO

1,19; 1,23; 1,18; 1,21; 1,27; 1,17; 1,15; 1,14; 1,19; 1,2

Suponiendo la Normalidad para esta distribución de pesos, determinar un intervalo al 80% de confianza para la varianza.

Ejercicio 3..12. Se quiere estimar la incidencia de la hipertensión arterial en el embarazo. ¿Cuantas embarazadas tenemos que observar para, con una confianza del 95%, estimar dicha incidencia con un error del 2% en los siguientes casos:

1. Sabiendo que un sondeo previo se ha observado un 9% de hipertensas.

2. Sin ninguna información previa.

DR. ADOLFO GUTIERREZ SOSA

Page 142: ESTADISTICA AVANZADA

ESTADÍSTICA AVANZADA – GUIA DE ESTUDIO

BIBLIOGRAFÍA:

Borovkov, A. A. Estadística matemática, Editorial Mir, Moscú, 1984. García Nogales, Agustín, Estadística matemática, Publicaciones de la

Universidad de Extremadura.

DR. ADOLFO GUTIERREZ SOSA