Inferencia Estad´ıstica - Facultad de Cienciasciencias.bogota.unal.edu.co › ... ›...

247
Inferencia Estad´ ıstica J. Humberto Mayorga A. Profesor Asociado Departamento de Estad´ ıstica - Facultad de Ciencias Universidad Nacional de Colombia

Transcript of Inferencia Estad´ıstica - Facultad de Cienciasciencias.bogota.unal.edu.co › ... ›...

  • Inferencia Estad́ıstica

    J. Humberto Mayorga A.Profesor Asociado

    Departamento de Estad́ıstica - Facultad de Ciencias

    Universidad Nacional de Colombia

  • 2

  • Índice General

    Prólogo iii

    Introducción v

    1 DISTRIBUCIONES MUESTRALES 11.1 La Inferencia estad́ıstica, un soporte epistemológico . . . . . . . . 11.2 Preliminares en la Inferencia estad́ıstica . . . . . . . . . . . . . . 41.3 Preliminares en convergencia de variables aleatorias . . . . . . . 91.4 Caracteŕısticas generales de algunas estad́ısticas . . . . . . . . . . 121.5 Estad́ısticas de orden . . . . . . . . . . . . . . . . . . . . . . . . . 18

    1.5.1 Distribución de las estad́ısticas de orden . . . . . . . . . . 191.5.2 Distribución del rango, semirango y mediana muestrales . 201.5.3 Distribución de la función de distribución emṕırica . . . . 21

    1.6 Momentos de estad́ısticas de orden . . . . . . . . . . . . . . . . . 231.7 Demostración de los teoremas del caṕıtulo . . . . . . . . . . . . . 251.8 Ejercicios del caṕıtulo . . . . . . . . . . . . . . . . . . . . . . . . 42

    2 ESTIMACIÓN PUNTUAL DE PARÁMETROS 492.1 Métodos clásicos para construir estimadores . . . . . . . . . . . . 51

    2.1.1 El método de máxima verosimilitud . . . . . . . . . . . . 512.1.2 El método de los momentos . . . . . . . . . . . . . . . . . 612.1.3 El método por analoǵıa . . . . . . . . . . . . . . . . . . . 642.1.4 Estimación Bayesiana . . . . . . . . . . . . . . . . . . . . 65

    2.2 Criterios para examinar estimadores . . . . . . . . . . . . . . . . 692.2.1 Concentración, un requisito de precisión . . . . . . . . . . 692.2.2 Consistencia, un requisito ligado al tamaño de la muestra 732.2.3 Suficiencia, un requisito de retención de información . . . 752.2.4 Varianza mı́nima, un requisito de máxima precisión . . . 832.2.5 Completez, un requisito de la distribución muestral . . . . 902.2.6 Robustez, un requisito de estabilidad . . . . . . . . . . . . 96

    2.3 Demostración de los teoremas del caṕıtulo . . . . . . . . . . . . . 982.4 Ejercicios del caṕıtulo . . . . . . . . . . . . . . . . . . . . . . . . 104

    i

  • ii ÍNDICE GENERAL

    3 ESTIMACIÓN POR INTERVALO DE PARÁMETROS 1153.1 Conceptos preliminares . . . . . . . . . . . . . . . . . . . . . . . . 1163.2 El método de la variable pivote . . . . . . . . . . . . . . . . . . . 1173.3 Estimación de promedios, bajo Normalidad . . . . . . . . . . . . 124

    3.3.1 Intervalos confidenciales para el promedio de una población1243.3.2 Estimación de la proporción poblacional . . . . . . . . . . 1273.3.3 Intervalo confidencial para la diferencia de promedios basa-

    do una muestra pareada . . . . . . . . . . . . . . . . . . . 1283.3.4 Intervalos confidenciales para la diferencia de promedios

    en poblaciones independientes . . . . . . . . . . . . . . . . 1293.4 Estimación de varianzas, bajo Normalidad . . . . . . . . . . . . . 131

    3.4.1 Intervalos confidenciales para la varianza de una población 1313.4.2 Intervalos confidenciales para el cociente de varianzas de

    dos poblaciones independientes . . . . . . . . . . . . . . . 1343.5 Ejemplos numéricos de aplicación . . . . . . . . . . . . . . . . . . 1373.6 Tamaño de la muestra simple bajo Normalidad . . . . . . . . . . 1393.7 Estimación Bayesiana por intervalo . . . . . . . . . . . . . . . . . 1403.8 Demostración de los teoremas del caṕıtulo . . . . . . . . . . . . . 1423.9 Ejercicios del caṕıtulo . . . . . . . . . . . . . . . . . . . . . . . . 144

    4 JUZGAMIENTO DE HIPÓTESIS 1474.1 Elementos básicos . . . . . . . . . . . . . . . . . . . . . . . . . . 1484.2 Tests más potentes . . . . . . . . . . . . . . . . . . . . . . . . . . 1584.3 Juzgamiento de hipótesis sobre promedios, bajo Normalidad . . . 172

    4.3.1 Juzgamiento de la hipótesis nula H0 : μ = μ0 . . . . . . . 1724.3.2 Juzgamiento de la hipótesis nula H0 : μ1 − μ2 = δ0 . . . . 180

    4.4 Juzgamiento de hipótesis sobre varianzas, bajo Normalidad . . . 1894.4.1 Juzgamiento de la hipótesis nula H0 : σ2 = σ20 . . . . . . . 1894.4.2 Juzgamiento de homoscedasticidad . . . . . . . . . . . . . 191

    4.5 Juzgamiento de proporciones . . . . . . . . . . . . . . . . . . . . 1934.6 Ejemplos numéricos de aplicación . . . . . . . . . . . . . . . . . . 1964.7 Tamaño de la muestra . . . . . . . . . . . . . . . . . . . . . . . . 1984.8 Juzgamiento secuencial . . . . . . . . . . . . . . . . . . . . . . . . 2004.9 Juzgamiento del ajuste . . . . . . . . . . . . . . . . . . . . . . . . 208

    4.9.1 Juzgamiento del ajuste por el método de Pearson . . . . . 2094.9.2 Juzgamiento del ajuste por el método de Kolmogorov-

    Smirnov . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2144.10 Demostración de los teoremas del caṕıtulo . . . . . . . . . . . . . 2184.11 Ejercicios del caṕıtulo . . . . . . . . . . . . . . . . . . . . . . . . 223

  • Prólogo

    La escritura de este libro siempre estuvo animada por el deseo obstinado desecundar el trabajo que realiza el estudiante tanto en el salón de clase comofuera de él; pues entiendo que en definitiva es el estudiante quien aprehende losconceptos como fruto de sus quehaceres académicos, conceptos inducidos máspor sus dudas, por sus dificultades y por algunas contradicciones con algunos desus preconceptos, que por alguna exposición frente al tablero. En mi criterio, elprofesor como acompañante en la formación profesional, se convierte solamenteen orientador, animador y cŕıtico.

    Con ese esṕıritu quise que este libro se constituyese en una juiciosa pre-paración de clase de la asignatura Inferencia Estad́ıstica, preparación que haacopiado las memorias de cada una de las oportunidades en las cuales fui elel encargado del curso a través de mis años como docente en la UniversidadNacional de Colombia. De ese acopio es profuso lo desechado y lo corregido,pues las preguntas de los estudiantes confundidos, las preguntas inteligentes y lasrespuestas sobresalientes como las equivocadas en las evaluaciones, generalmentesucitaron la reflexión sobre las formas y contenidos de los guiones de la clase.

    No pretendo publicar un texto mas, pues los hay de una calidad inmejorable,algunos clásicos cuya consulta es obligada, otros de reciente edición que han in-corporado nuevos desarrollos conceptuales. Pretende el texto apoyar el trabajoacadémico que se realiza en el curso, especialmente con el propósito de opti-mizar el tiempo y la calidad de la exposición de los temas, dando paso a la uti-lización del tablero acompañado de la tecnoloǵıa audiovisual como posibilidadpara profundizar algunos de los temas y como medio para tratar las pregun-tas e inquietudes estudiantiles y no como instrumento transcriptor de frases ygráficas.

    En este libro expreso mis apreciaciones personales semánticas y conceptualespromovidas por la concepción que tengo sobre la Estad́ıstica y particularmentesobre la Inferencia estad́ıstica, concepción que he madurado y he hecho propia,a partir de las reflexiones con profesores del Departamento de Estad́ıstica, apartir de discusiones informales y dentro de eventos académicos. Su contenidoy organización responden a la forma tradicional como he realizado el curso, alas limitaciones de un semestre académico para su desarrollo y a los requisitoscurriculares exigidos a los estudiantes que lo cursan.

    Fue la circunstancia de mi año sabático, disfrutado durante el año 2002, laque hizo posible la redacción y digitación de este texto, pues fueron múltiples

    iii

  • iv PRÓLOGO

    las ocasiones fallidas de organizar en un libro el material de la clase, debido alas ocupaciones derivadas de mis compromisos académicos, administrativos y deservicios de asesoŕıa estad́ıstica que la Universidad me encargó llevar a cabo.

    Finalmente, creó que debo agradecer tanto a mis alumnos pues ellos son elmotivo para organizar las ideas que presento entorno a la Inferencia estad́ıstica,como a la Universidad Nacional de Colombia que aceptó como plan de activi-dades de mi año sabático, la elaboración de este texto.

  • Introducción

    Este texto ha sido concebido para ser fundamentalmente un texto gúıa enel desarrollo de la asignatura Inferencia Estad́ıstica, que cursan tanto los es-tudiantes del pregrado en Estad́ıstica como los estudiantes de la Carrera deMatemáticas. Puede apoyar igualmente algunos temas de la asignatura Es-tad́ıstica Matemática de la Maestŕıa en Estad́ıstica. El requisito natural e in-mediato para abordar los temas de cada uno de los caṕıtulos del libro, es uncurso de Probabilidad, y por supuesto los cursos de Cálculo. Consta de cua-tro caṕıtulos que pueden desarrollarse durante un semestre académico con seishoras semanales de clase tradicional.

    He adaptado traducciones de uso corriente en los textos de Estad́ıstica aformas y términos con un mejor manejo del idioma y que semánticamente co-rrespondan con mayor fidelidad al concepto que denominan. Igualmente hagoprecisión sobre algunas expresiones usuales para mayor claridad conceptual.

    Cada caṕıtulo está estructurado en tres partes: exposición de los temas,demostraciones de los teoremas y la relación de los ejercicios correspondientes.Esto no significa que el manejo del texto deba llevarse en el orden mencionado.He querido organizarlo aśı, con el objeto de que la presentación de los temasexhiba una forma continua y que las demostraciones y los ejercicios tengan susitio especial propio. Los ejercicios no están ordenados ni por su complejidad,ni por el tema tratado, para no encasillarlos. El estudiante se acerca a unejercicio con información y trabajo previos, y es con su organización de ideasy búsqueda de caminos que debe evaluar si con los elementos estudiados hastaun cierto punto le es posible abordar el ejercicio particular; sin embargo, elprofesor puede sugerir la realización de alguno o algunos ejercicios cuando hayaculminado un tema o parte de él.

    El primer caṕıtulo como fundamento del texto, ubica sintéticamente a laInferencia Estad́ıstica dentro del problema filosófico secular de la inducción.Retoma el tema de la convergencia de sucesiones de variables aleatorias, y ex-pone las ideas preliminares de la Inferencia Estad́ıstica. El segundo caṕıtulopresenta los métodos corrientes de construcción de estimadores y los criteriospara examinar las estad́ısticas en su calidad de estimadores.

    En el tercer caṕıtulo se presenta el método de la variable pivote para cons-truir intervalos confidenciales y se hace algún énfasis en los intervalos confiden-ciales bajo Normalidad. En el cuarto caṕıtulo se adopta la expresión juzgamien-to de hipótesis a cambio de prueba, docimasia o cotejo, porque esta acepción

    v

  • vi INTRODUCCIÓN

    está más cerca del sentido de la toma de decisiones estad́ısticas e igualmente seda un espacio importante en el juzgamiento de hipótesis bajo Normalidad.

  • Caṕıtulo 1

    DISTRIBUCIONESMUESTRALES

    “El conocimiento que tenemos del mundo está basado en la elaboración de unmodelo de la realidad, modelo que puede cotejarse con la experiencia tan sólode manera parcial y ocasionalmente... Este modelo se construye teniendo encuenta la utilización que hacemos del mismo...”

    J. Bruner, “On cognitive growth”

    Antes de entrar en materia, es preciso destinar unos pocos párrafos paraintroducir un bosquejo del contexto en el cual la Inferencia estad́ıstica puedeubicarse, más como exposición de ideas generales que el pretender una disquisi-ción filosófica al respecto. Ese contexto está contenido dentro de un problemamás general de carácter epistemológico, que el lector puede profundizar con lascopiosas publicaciones sobre el tema. Posteriormente, por tratarse de uno delos fundamentos sobre el cual la Inferencia Estad́ısitica erige algunos de susconceptos, se incluye la sección 1.3 a manera de un extracto de la convergen-cia de sucesiones de variables aleatorias, tema integrante de un curso previo deProbabilidad, pero que se retoma por su carácter y por su utilidad próxima.

    1.1 La Inferencia estad́ıstica, un soporte episte-

    mológico

    La inferencia inductiva, procedimiento que utiliza la lógica como una formade generalizar a partir de hechos particulares o a partir de la observación deun número finito de casos, es uno de los temas que ha ocupado a filósofos ycient́ıficos de todos los tiempos, desde la época de Aristóteles, tres siglos antesde Cristo, hasta la actualidad.

    1

  • 2 CAPÍTULO 1. DISTRIBUCIONES MUESTRALES

    Varios filósofos antiguos formados en el empirismo gnoseológico, convencidosde que la observación era la única fuente segura de conocimiento, fueron losprimeros en proponer la inducción o inferencia inductiva como método lógico.Tempranamente la inducción se convierte en un tema de mucha controversia queaún se mantiene; si para Aristóteles, quien planteó inicialmente el procedimientoinductivo, la Ciencia es “conocimiento demostrativo”, por el contrario paraSexto Emṕırico, uno de los filósofos representantes del Escepticismo, la Cienciaes “comprensión segura, cierta e inmutable fundada en la razón”. Aśı, mientrasSexto Emṕırico rechaza la validez de la inducción, Filodemo de Gadara, filósofoseguidor del Epicuréısmo, defiende la inducción como método pertinente.

    Y la controversia, llamada el problema de la inducción o también conocidacomo el “problema de Hume”, reside precisamente en que mientras la inferenciadeductiva avala la transferencia de la verdad de las premisas a la conclusión,es decir, a partir de premisas verdaderas todas deducción es cierta, a costa deno incorporar nada al contenido de las premisas, la inducción por su parte queva más allá de las premisas, por su carácter amplificador, puede dar lugar aconclusiones falsas; en pocas palabras la controversia se centra en la validezque puedan tener los razonamientos inductivos, puesto que las conclusiones pormedio de la inducción no siempre serán verdaderas.

    Algunos pensadores medievales también se preocuparon de la inducción. Elinglés Robert Grosseteste al utilizar para su trabajo cient́ıfico los métodos apli-cados por sus disćıpulos de Oxford en Óptica y Astronomı́a, reabre en la EdadMedia el tema de la inducción; si bien varios filósofos de la época orientaronsus reflexiones hacia los métodos inductivos, los ensayos y trabajos de FrancisBacon inspirados en la reorganización de las ciencias naturales, constituyeron elapogeo del método inductivo.

    No obstante, para Hume las leyes cient́ıficas no tienen carácter universal, esdecir son válidas únicamente cuando la experiencia ha mostrado su certidumbrey tampoco tiene la función de la previsibilidad. Popper, filósofo de la Ciencia,conocido por su teoŕıa del método cient́ıfico y por su cŕıtica al determinismohistórico, en el mismo sentido de Hume, afirma que no puede existir ningúnrazonamiento válido a partir de enunciados singulares a leyes universales o ateoŕıas cient́ıficas. Mas recientemente, Bertrand Russell mantiene la posición deHume de la invalidez de la inducción, pero considera que ella es el camino paraincrementar la probabilidad, como grado racional de creencia, de las generaliza-ciones.

    La conocida Ley débil de los grandes números incluida en la cuarta partedel trabajo más sobresaliente de Jacob Bernoulli, Ars Conjectandi, publicadodespués de su muerte en el año 1713, y el también conocido teorema de Bayespublicado cincuenta años más tarde, trajeron nuevos elementos en la discusión alconstituirse en argumentos matemáticos que sustentan la posibilidad de inferirprobabilidades desconocidas a partir de frecuencias relativas. Sin embargo paraPopper, sustituir la exigencia de verdad por la validez probabiĺıstica para lasinferencias inductivas no lo hace un procedimiento leǵıtimo.

    Durante las primeras décadas del siglo pasado, a ráız de los importantesavances de la Ciencia ocurridos a finales del siglo XIX y a principios del siglo

  • 1.1. LA INFERENCIA ESTADÍSTICA, UN SOPORTE EPISTEMOLÓGICO 3

    XX, avances que no pod́ıan pasar desapercibidos para los pensadores, obligarona los filósofos a revisar muchas de las ideas de los clásicos y es aśı como un grupode hombres de ciencia, matemáticos y filósofos, se organizan en 1922 en tornoal f́ısico Moritz Schlick, profesor de filosof́ıa de la ciencia de la Universidad deViena, convirtiéndose en un movimiento filosófico internacional, principal pro-motor del positivismo lógico, (también llamado neopositivismo, neoempirismoo empirismo lógico), movimiento conocido como Cı́rculo de Viena, conformadoentre otros, además de Schlick, por Hahn, Frank, Neurath, Kraft, Feigl, Wais-mann, Gödel, y Carnap; Einstein, Russell y Wittgenstein eran consideradoscomo miembros honoŕıficos y Ramsey y Reinchenbach como miembros simpati-zantes del mismo.

    Este movimiento filosófico se dedicó a muchos y variados temas de la Filosof́ıade la Ciencia, y por supuesto al problema de la inducción. En śıntesis se puedeafirmar que el hilo conductor de las ideas del Cı́rculo de Viena fue la defensade una visión cient́ıfica del mundo a través de una ciencia unificada ligado alempleo del análisis lógico en el sentido de Russell.

    Pero respecto al tema de la inducción, el Cı́rculo no cerró la discusión; concre-tamente para Popper y sus seguidores, la escuela del refutacionismo, el métodocient́ıfico no utiliza razonamientos inductivos, sino razonamientos hipotético-deductivos, aśı se acopien datos y hechos particulares dentro del procedimientode evaluación de una hipótesis que dan paso a una conclusión de carácter general,no existe como tal un razonamiento inductivo. Para el refutacionismo la cienciase concibe como una sucesión de conjeturas y refutaciones: se proponen conje-turas para explicar los hechos, que luego serán refutadas para promover nuevasconjeturas. En śıntesis, para Popper y su escuela, ninguna teoŕıa cient́ıfica puedeestablecerse en forma concluyente.

    Sin embargo, para Feyerabend y Kuhn, en otro momento de gran contro-versia en este tema, las décadas del 60 y 70, la práctica cient́ıfica no está encorrespondencia con este proceder racional ni tampoco puede lograrlo, porqueen gran medida existen supuestos relativos a la objetividad, a la verdad, al papelde la evidencia y a la invariabilidad semántica. Para Feyerabend, no existen,principios universables de racionalidad cient́ıfica; el crecimiento del conocimien-to es siempre espećıfico y diferente como tampoco sigue un camino de antemanofijado.

    Dentro de esta controversia, a la Inferencia estad́ıstica no se le ha eximidodel problema de la inducción. Ronald Fisher, considerado por muchos el padrede la Estad́ıstica, defendió el papel inductivo que conlleva el juzgamiento dehipótesis 1. Sin embargo un sector de cient́ıficos y filósofos consideran que tantola estimación de parámetros como el juzgamiento de hipótesis tienen direccióninductiva pero el razonamiento o inferencia que se lleva a cabo es de carácterdeductivo.

    En fin, la Historia y la Filosof́ıa de la Ciencia tuvieron un enorme auge alo largo del siglo pasado, continúan acopiando y estructurando reflexiones yargumentos sobre la inducción, pero al no ser el propósito de esta sección tratar

    1La denominación juzgamiento de hipótesis será justificada en el caṕıtulo 4.

  • 4 CAPÍTULO 1. DISTRIBUCIONES MUESTRALES

    el proceso lógico de la inducción desde el punto de vista filosófico, ni tampocopretender su recuento histórico, ni mucho menos asumir una posición respectoa ella, se omiten nombres de muy destacados pensadores contemporáneos. Loque realmente motiva incluir los párrafos anteriores es poner de manifiesto demanera muy concisa el hecho de que el problema de la inducción es un problemafilosófico vigente con 23 siglos de existencia al cual generaciones de filósofos ycient́ıficos se han dedicado.

    Y más allá del debate epistemológico y metaf́ısico contermporáneo dentrode la Filosof́ıa de la Ciencia, es cierto que gran parte de la Ciencia actual frentea una naturaleza entrelazada de azar concomitante con una variabilidad inher-ente, reconoce de una u otra manera que el ensanche de su cuerpo conceptualrequiere de la participación impresindible de la Estad́ıstica. Mucho antes dela omnipresencia del computador, de los avances vertiginosos de la teoŕıa ymétodos estad́ısticos de los últimos tiempos, Hempel en 1964 en su libro, As-pectos de la explicación cient́ıfica, se refeŕıa a los dos modelos de explicaciónde tipo estad́ıstico:“el modelo estad́ıstico deductivo, en el que las regularidadesestad́ısticas son deducidas de otras leyes estad́ısticas más amplias, y el modeloestad́ıstico inductivo, en el que los hechos singulares se explican subsumiéndolosbajo leyes estad́ısticas”.

    En esta dirección cuando en los quehaceres cient́ıficos, tecnológicos o ad-ministrativos se recurre a la Estad́ıstica para organizar y orientar sus procesosy métodos, como de igual manera cuando se recurre a ella para apoyar argu-mentos y decisiones, ese recurso suele convertirse, desde uno de los puntos devista, en un proceso de inducción espećıficamente en un proceso que puede serclasificado como de inducción amplificadora, de manera análoga a como FrancisBacon vio en la inducción el procedimiento escencial del método experimental,o convertirse en una serie de actividades ligadas a un procedimiento propio dela ciencia o la tecnoloǵıa , en un procedimiento hipotético-deductivo, como loentiende la escuela propperiana. Para cualquiera de los dos puntos de vista quese asuma, la Estad́ıstica brinda un respaldo exclusivo en la inferencia.

    1.2 Preliminares en la Inferencia estad́ıstica

    Dentro del contexto del parágrafo anterior, cabe formularse varias preguntas;la primera de ellas: ¿Cuál es el objeto para el cual son válidos los enunciadosgenerales producto de la inducción, de la decisión o la estimación que realiza unaaplicación estad́ıstica?. Paralelamente tiene lugar la segunda pregunta: ¿Cuálesson las unidades que permiten obtener la información de casos particulares comopunto inicial en el citado proceso?. Y la tercera pregunta, que interroga sobrela calidad del proceso de inferencia estad́ıstica: ¿Cuáles son los principios querigen este proceso tan particular de inferencia?.

    La primera pregunta indaga por el conjunto de todos los elementos queen un determinado momento son del interés de un investigador, de un gestoro de un tomador de decisiones. Elementos que son diferentes entre śı peroque tienen una o varias caracteŕısticas comunes que los hacen miembros del

  • 1.2. PRELIMINARES EN LA INFERENCIA ESTADÍSTICA 5

    conjunto en consideración. Al respecto en algunas disciplinas cient́ıficas esascaracteŕısticas comunes son denominadas criterios de inclusión, complementadoscon los criterios de exclusión, para definir concisamente la pertenencia de unelemento al conjunto y para precisar igualmente la pérdida de la calidad depertenencia del elemento.

    Para referirse a ese conjunto mencionado anteriormente el lenguaje corrientede la Estad́ıstica utiliza el término población ; ese agregado o colección de lasunidades de interés es en últimas el objeto receptor del producto del proceso deinducción, de la decisión o de la estimación.

    La segunda pregunta parece confundirse con la primera. Si bien es cier-to que la pregunta se refiere a esas entidades que corresponden a los hechosparticulares, a los casos singulares, a ese conjunto finito de casos, que sonexaminados durante la primera etapa de la inferencia, la reunión de todas lasunidades posibles, constituye ese conjunto que se ha llamado población. Pero suestricta determinación radica en que cada una de esas unidades será, en sentidometafórico, un interlocutor con el investigador. Interlocutor, porque la inves-tigación puede entenderse, de manera análoga, como un proceso comunicativo:el investigador pregunta, la naturaleza responde. Esas unidades pueden ser de-notadas como unidades estad́ısticas, de manera genérica para subsumir enesa denominación, otras como unidad experimental, unidad de análisis, sujeto,caso, entre otras.

    Como en casi todas las oportunidades, de hecho no existe la posibilidad de“dialogar”con todas y cada una de las unidades estad́ısticas, debido a impera-tivos que lo impiden, asociados a varios aspectos. Por ejemplo, cuando el tamañode la población, es decir, el cardinal del conjunto que reúne a todas las unidadesestad́ısticas, es ingente; o también cuando la respuesta de la unidad implicasu desnaturalización o deterioro; igualmente cuando ese “diálogo”es oneroso, ocuando los resultados de la investigación se requieren con apremio.

    A ese subconjunto de unidades que un párrafo anterior se refeŕıa como elconjunto finito de casos que son examinados durante la primera etapa del pro-ceso de inferencia, circunscrito al subconjunto de unidades estad́ısticas elegidaspor medio de procedimientos estad́ısticos formales, por supuesto, se le designacorrientemente como muestra .

    A diferencia de las dos preguntas anteriores, cuyas respuestas son en últimasacuerdos semánticos, la tercera es una pregunta fundamental que requiererespuestas a partir de elaboraciones conceptuales, repuestas que se darángradualmente con el desarrollo de los caṕıtulos objeto de este texto; pero pre-viamente de una manera sucinta se esboza el fundamento de las respuestas.

    La Estad́ıstica facultada para sustentar y conducir procesos de inducción, de-cisión y estimación muy caracteŕısticos, cuenta con la inferencia estad́ıstica comola fuente conceptual que nutre, avala y licencia la estructura y funcionamientode métodos y procedimientos estad́ısticos. Para el desarrollo de cada una desus dos componentes, relativos a la estimación de parámetros y el juzgamientode hipótesis, la inferencia estad́ıstica tiene como punto de partida la referen-cia o el establecimiento de modelos para representar variables observables o noobservables, modelos que pueden ser expĺıcitos o generales.

  • 6 CAPÍTULO 1. DISTRIBUCIONES MUESTRALES

    Semánticamente el vocablo modelo responde a varias acepciones, particu-larmente dentro del lenguaje cient́ıfico y tecnológico. Sin embargo el sentidoque la Estad́ıstica le confiere al término, es el de consistir en una traducciónde un aspecto de la realidad a un lenguaje simbólico, como uno de los recursospara representar de manera simplificada su comportamiento, que habilite pro-cesos de generalización, que incluya sus aspectos fundamentales, que facilite sudescripción o permita la toma de decisiones.

    La factibilidad de representar variables muy diśımiles asociadas con fenóme-nos de distintos campos del saber a través de un mismo modelo de probabilidad,permite a la Inferencia estad́ıstica detenerse en el modelo mismo para conver-tirlo en su objeto de estudio. A partir de su estructura, de las expresionesmatemáticas asociada a su naturaleza y con ellas de la presencia y papel quedesempeñan los parámetros, se construyen y evalúan posibles estimadores de es-tos últimos, y de igual manera se derivan y evalúan procedimientos que permitanjuzgar afirmaciones sobre el modelo.

    En consecuencia, los principios que avalan procesos de carácter estad́ıstico,tratados por la Inferencia estad́ıstica y motivo de la tercera pregunta, consistenen métodos y criterios relacionados tanto con la construcción de estimadores ytest como con el examen de la aptitud e idoneidad de los mismos, y que talcomo se anunció, la descripción y el desarrollo de los citados principios son endefinitiva el contenido mismo de este texto.

    Definición 1.2.1. Una muestra aleatoria es una sucesión finita devariables aleatorias independientes e idénticamente distribuidas X1, X2, . . . , Xn.De manera más general una sucesión de variables aleatorias X1, X2, . . . , inde-pendientes y con idéntica distribución, también se denomina muestra aleatoria.En el caso de una sucesión finita, el valor n recibe el nombre de tamaño de lamuestra o tamaño muestral.

    La definción anterior revela que en el contexto estad́ıstico el término muestrapresenta dos acepciones: la de ser un subconjunto de unidades estad́ısticas elegi-das por métodos estad́ısticos formales y la adjetivada como aleatoria expuestaen la definición anterior, ésta referida a una sucesión de variables aleatorias. Lomismo le ocurre al término población: denota al conjunto completo de unidadesestad́ısticas objeto de estudio y ahora se le concibe como una variable aleatoria,en el sentido que se expone seguidamente.

    El acceso al estudio de ese conjunto de unidades estad́ısticas, se lleva acabo mediante el examen de las caracteŕısticas o respuestas de sus integrantes,interpretadas como variables; el discernimiento de la esencia ya no individualsino colectiva de las unidades es en suma el motivo de la investigación o estudio;por ello el comportamiento de las variables se convierte entonces en un elementorevelador de caracteŕısticas y propiedades que sustentan la descripción de lacolectividad, las explicaciones o las decisiones a que haya lugar.

    El comportamiento real de una o varias variables es un comportamiento re-flejo de la naturaleza de la población, que no siempre es posible conocer. Por elloacudir a modelos de probabilidad para emular el comportamiento poblacionales un recurso leǵıtimo que reduce carencias, permite aprovechar las virtudes

  • 1.2. PRELIMINARES EN LA INFERENCIA ESTADÍSTICA 7

    propias del modelo y hace posible la utilización de un lenguaje universal, porsupuesto sobre la base de una escogencia juiciosa del modelo.

    Entonces, un aspecto de las unidades estad́ısticas observado, medido o cuan-tificado en una variable, (o varios aspectos utilizando un vector para disponerlas variables) se le abstrae como una variable aleatoria (o un vector aleatorio)que tiene asociado un modelo particular. Esta variable aleatoria que representauna variable en la población suele denominársele igualmente población.

    Bajo estas consideraciones la sucesión de variables aleatoriasX1, X2, . . . , Xn,de la definición anterior denominada muestra aleatoria además de ser un ele-mento del ámbito conceptual de la Teoŕıa Estad́ıstica, puede vincularse con lainformación espećıfica acopiada de un subconjunto de n unidades estad́ısticasde las cuales se dispone de los valores x1, x2, . . . , xn, correspondientes a unavariable denotada por X . Dicho en otros términos el valor xi puede entendersecomo una realización de la correspondiente variable aleatoriaXi, i = 1, 2, . . . , n,por eso es habitual encontrar recurrentemente la expresión “sea X1, X2, . . . , Xnuna muestra aleatoria de una población con función de densidad...”. El contextoen el cual se encuentre el vocablo población, delimita la acepción en uso: unconjunto o una variable aleatoria.

    Definición 1.2.2. Se denomina Estad́ıstica a una variable aleatoriaconstruida como una función de las variables aleatorias X1, X2, . . . , Xn queconforman una muestra aleatoria, función que no depende de parámetro al-guno constitutivo de la expresión algebraica que identifica al modelo asumidopara representar una variable en la población, ni tampoco depende de constantesdesconocidas, también llamados parámetros, que cuantifican rasgos generales enla población cuando no se asume un modelo espećıfico.

    Como el aspecto determinante en la naturaleza de una estad́ıstica es suno dependencia funcional de parámetros, se le resalta por medio del siguienteejemplo.

    Ejemplo 1.2.1. Asumiendo el modelo Gaussiano para representar una variableen la población, y si X1, X2, . . . , Xn es una muestra aleatoria de la poblaciónaśı modelada, son estad́ısticas entre otras

    • X1 +X2 + · · · +Xnn

    = Xn

    • (X1 −Xn)2 + (X2 −Xn)2 + · · · + (Xn −Xn)2

    n− 1 = S2n

    • X1,n = min{X1, X2, . . . , Xn}Puesto que los parámetros μ y σ son las constantes caracteŕısticas delmodelo Gaussiano, particularmente las dos siguientes variables aleatorias noson estad́ısticas

    n∑i=1

    (Xi −Xn

    σ

    )2 n∑i=1

    (Xi − μ)2

    n− 1

  • 8 CAPÍTULO 1. DISTRIBUCIONES MUESTRALES

    El contenido semántico que se les da en Estad́ıstica tanto al término estimarcomo al término estimación, para referirse a su acción o efecto, proviene deuna de las acepciones corrientes que tiene el segundo vocablo. El significado enmención de: aprecio o valor que se da y en que se tasa o considera algo2, nosugiere un cálculo aproximado de un valor como equivocadamente se entiende,porque no hay referentes para calificar su aproximación, ni tampoco como unproceso adivinatorio; debe entenderse como la realización formal de un avalúo,es decir en llevar a cabo un proceso que exige de manera imprescindible elcontar con información de ese algo del cual se quiere fijar su valor. Por lotanto la calidad de la estimación, depende directamente de la calidad originaly la cantidad de información que se posea. Consecuentemente una cantidadinsuficiente de información genera estimaciones no fiables, como igualmente lasgenera una gran cantidad de información de calidad exigua.

    A manera de sinopsis, considerando simultáneamente tanto la cantidad deinformación como su calidad y utilizando el plano cartesiano para su repre-sentación, en la siguiente figura se adjetivan distintas circunstancias en calidady cantidad de información que constituye el insumo en el proceso de estimación.

    Funesta

    Desechable Ideal

    Inadmisible

    AD

    MIS

    IBLE

    Calidad

    Can

    tida

    d

    100%

    100%

    0

    Figura 1.1: Diagrama de calidad y cantidad de información

    La calidad de la información, de la cual este texto no se ocupa porque se pre-tenden propósitos de otro tipo, debe asegurarse a partir del diseño, construccióny calibración de instrumentos para el registro de la información, dentro de laorganización y ejecución de las actividades de acopio de información y durante

    2Diccionario de la Lengua Española. Real Academia Española. Vigésimasegunda edi-ción.2001

  • 1.3. PRELIMINARES EN CONVERGENCIA DE VARIABLES ALEATORIAS 9

    el proceso de almacenamiento y guarda de la información.

    Definición 1.2.3. Una estad́ıstica cuyas realizaciones son utilizadas para llevara cabo estimaciones de los parámetros de un modelo probabiĺıstico se denominaestimador y a las citadas realizaciones o valores particulares se les conoce comoestimaciones.

    Definición 1.2.4. El modelo probabiĺıstico que rige el comportamiento de unaestad́ıstica o de un estimador se denomina distribución muestral de larespectiva estad́ıstica o del respectivo estimador.

    Algunos autores se refieren a la distribución de la variable aleatoria que rep-resenta a la población, como la distribución original de las observaciones , omodelo original y a la distribución muestral de una estad́ıstica como la distribu-ción reducida o modelo reducido.

    Definición 1.2.5. Sea X1, X2, . . . , Xn una muestra aleatoria de una poblacióncon momentos oridinarios y centrales μ′r y μr respectivamente. Los momentosmuestrales, ordinarios y centrales de orden r, r = 1, 2, . . . , cumplen en lamuestra funciones análogas a los momentos poblacionales μ′r y μr, y se denotany definen como

    M ′r,n =1n

    n∑i=1

    Xri

    Mr,n =1n

    n∑i=1

    (Xi −Xn)r

    En particular cuando r = 1, primer momento ordinario muestral, M ′1,n = Xn,es llamado de manera más corriente, promedio muestral o promedio de lamuestra. Se prefiere como varianza muestral en cambio del segundo mo-mento muestral, por razones que posteriormente se justificarán, a la expresión

    1n− 1

    n∑i=1

    (Xi −Xn)2

    1.3 Preliminares en convergencia de variablesaleatorias

    Para aprestar los elementos que se requieren en el tema de Inferencia estad́ıstica,es preciso abordar de una manera suscinta los tipos de convergencia de variablesaleatorias en razón a que posteriormente el crecimiento del tamaño de muestrapermite derivar propiedades interesantes de algunas estad́ısticas, y por lo tantoel propósito de esta sección es presentar los tipos más corrientes de convergenciade variables aleatorias.

    Por medio de {Xn}, n = 1, 2, . . . , se describe una sucesión de variablesaleatorias X1, X2, . . . , la cual es una sucesión de funciones medibles {Xn(w)}

  • 10 CAPÍTULO 1. DISTRIBUCIONES MUESTRALES

    definida en un espacio muestral Ω, y teniendo en cuenta que todas las variablesaleatorias constituyentes de la sucesión están consideradas en el mismo espaciode probabilidad (Ω,A, P ).

    En primer lugar, siendo {Xn} una sucesión de variables aleatorias y c unnúmero real, el conjunto {w|Xn(w) = c} ∈ A, de tal manera que

    P[

    limn→∞Xn = c

    ]= 1

    esté siempre definido.Se dice que la sucesión de variables aleatorias {Xn} converge casi seguro

    a cero o converge a cero con probabilidad uno si:

    P[

    limn→∞Xn = 0

    ]= 1

    Además, si las variables aleatorias X1, X2, . . . , y la variable aleatoria particularX están definidas en el mismo espacio de probabilidad, se afirma que la sucesiónde variables aleatorias {Xn} converge casi seguro a la variable aleatoriaX, si la sucesión de variables aleatorias {Xn −X} converge casi seguro a cero,este tipo de convergencia también se conoce como convergencia fuerte y sesimboliza como

    Xna.s.−−→ X

    Ejemplo 1.3.1. Si el comportamiento probabiĺıstico de cada una de lasvariables aleatorias de la sucesión {Xn} se modela por medio de la distribu-ción de Bernoulli de manera que Xn ∼ Ber((12 )n), entonces

    Xna.s.−−→ 0

    En efecto,

    P[

    limn→∞Xn = 0

    ]= 1

    puesto que P [Xn = 0] = 1 −(

    12

    )n. Como V [Xn] = ( 12)n [1 − ( 12)n], puedenotarse el decrecimiento de la varianza en cuanto n se incrementa, es decirque Xn va perdiendo el carácter de variable aleatoria porque su varianza vatendiendo a cero, la variable va asumiendo rasgos de una constante.

    En segundo lugar, se dice que la sucesión de variables aleatorias {Xn} con-verge en probabilidad a la variable aleatoria X , hecho simbolizado como,

    Xnp−→ X

    si limn→∞P [|Xn −X | < �] = 1, para � > 0. Para referirse a la convergencia en

    probabilidad también puede utilizarse convergencia estocástica, convergencia enmedida o convergencia débil .

  • 1.3. PRELIMINARES EN CONVERGENCIA DE VARIABLES ALEATORIAS 11

    Un tercer tipo de convergencia se conoce como convergencia en momentode orden r . En este caso cada variable de la sucesión de variables aleatorias{Xn} y X poseen el momento ordinario de orden r. En estas circunstanciasse afirma que la sucesión de variables aleatorias converge en momento deorden r a la variable aleatoria X, lo cual se representa como,

    XnLr−→ X

    si limn→∞E [(|Xn −X |)

    r] = 0. Particularmente, si r = 1 suele decirse que la suce-

    sión de variables aleatorias {Xn} converge en valor esperado a la variablealeatoria X . Similarmente, cuando r = 2 la convergencia se conoce comoconvergencia en media cuadrática .

    Un cuarto y último tipo de convergencia de variables aleatorias se refierea una sucesión de variables aleatorias {Xn}, cuya correspondiente sucesión defunciones de distribución F1(x), F2(x), . . . , es considerada. De esta manera lasucesión de variables aleatorias {Xn} converge en distribución a la variablealeatoria X , cuya función de distribución es F (x), hecho denotado:

    Xnd−→ X

    si limn→∞Fn(x) = F (x) para todo x.Entre los diferentes tipos de convergencia existen relaciones que es necesario

    destacar. El siguiente teorema las reúne.

    Teorema 1.3.1. Estando las variables aleatorias X1, X2, . . . y la variable par-ticular X difinidas sobre el mismo espacio de probabilidad (Ω,A, P ),

    1. Si {Xn} converge casi seguro a la variable aleatoria X con probabilidad 1,implica que {Xn} converge en probabilidad a la variable aleatoria X.

    2. Si {Xn} converge en valor esperado a la variable aleatoria X, implica que{Xn} convergen en probabilidad a la variable aleatoria X.

    3. Si {Xn} converge en probabilidad a la variable aleatoria X implica que{Xn} converge en distribución a la variable aleatoria X.

    4. Siendo r > s, la convergencia de una sucesión de variables aleatorias{Xn} en momento de orden r implica la convergencia de la sucesión enmomento de orden s.

    De manera gráfica las relaciones que enuncia el teorema 1.3.1, se puedenrecapitular en la figura 1.2

    Teorema 1.3.2 (Teorema de Lévy). Considerando la variable aleatoria par-ticular X y la sucesión de variables aleatorias {Xn}, definidas sobre el mismoespacio de probabilidad, y siendo {φn(t)} la sucesión de funciones caracteŕısticascorrespondientes a las variables de la sucesión {Xn},

    Xnd−→ X si y sólo si lim

    n→∞φn(t) = φ(t)

  • 12 CAPÍTULO 1. DISTRIBUCIONES MUESTRALES

    Convergencia envalor esperado

    Convergenciacasi segura

    Convergencia enprobabilidad

    Convergencia endistribución

    Figura 1.2: Relaciones entre algunos tipos de convergencia de variables aleato-rias

    para t ∈ R y φ(t) función caracteŕıstica de la variable aleatoria X, continua encero.

    Teorema 1.3.3 (Teorema de Lévy). - Versión para funciones genera-trices de momentos - Considerando la variable aleatoria particular X yla sucesión de variables aleatorias {Xn}, definidas sobre el mismo espacio deprobabilidad, y siendo {Mn(t)} la sucesión de funciones generatrices de momen-tos correspondientes a las variables de la sucesión {Xn}, las cuales existen parat real en algún intervalo alrededor de cero,

    Xnd−→ X si y sólo si lim

    n→∞Mn(t) = M(t)

    para t real en algún intervalo alrededor de cero y M(t) función generatriz demomentos de la variable aleatoria X.

    Teorema 1.3.4. Sea {Xn} una sucesión de variables aleatorias.Xn

    p−→ c si y sólo si limn→∞Fn(x) = F (x)

    siendo c una constante, Fn(x) la función de distribución de Xn y F (x) unafunción de distribución tal que F (x) = 0 para x < c y F (x) = 1 para x ≥ c.

    1.4 Caracteŕısticas generales de algunas estad́ıs-ticas

    Los momentos muestrales, además de cumplir funciones análogas a los momen-tos poblacionales como se incorporó en la definición 1.2.5, son estad́ısticas de

  • 1.4. CARACTERÍSTICAS GENERALES DE ALGUNAS ESTADÍSTICAS 13

    uso frencuente que bajo la garant́ıa de la existencia de determinados momen-tos poblacionales, sus distribuciones muestrales poseen propiedades generalesrespecto a su posición y a su dispersión en la forma como el siguiente teoremalo indica.

    Teorema 1.4.1. Si X1, X2, . . . , Xn es una muestra aleatoria de una poblaciónrepresentada por la variable aleatoria X con varianza σ2 y con momento ordi-nario μ′2r, r = 1, 2, . . . , entonces el valor esperado y la varianza del momentomuestral ordinario son respectivamente:

    E[M ′r,n] = μ′r

    V [M ′r,n] =1n

    [E[X2r] − (E[Xr])2]

    =1n

    [μ′2r − (μ′r)2

    ]Corolario 1.4.1.1. Bajo las hipótesis del teorema 1.4.1,

    E[Xn] = μ′1 = μ

    V [Xn] =σ2

    n

    Teorema 1.4.2. Si X1, X2, . . . , Xn es una muestra aleatoria de una poblacióncon valor esperado, también llamado promedio poblacional, μ y varianza σ2,y existiendo además el momento central de orden cuatro μ4, entonces

    E[S2n] = E

    [1

    n− 1n∑

    i=1

    (Xi −Xn)2]

    = σ2

    V [S2n] =1n

    (μ4 − n− 3

    n− 1σ4

    ), n > 1

    El tamaño de la muestra es un elemento substancial tanto para las disquisi-ciones en la teoŕıa de la estad́ıstica como para la utilización de la misma. Lapregunta por su magnitud es quizá de las más inquietantes para el investigadoren la búsqueda de respaldo a la confiabilidad de su investigación; el tamañomuestral es uno de los aspectos con los cuales se certifican o descalifican estu-dios, es en definitiva un punto obligado para dilucidar.

    La incidencia relevante del tamaño de la muestra en la distribución muestralde muchas estad́ısticas, gira alrededor del tema conocido como distribucionesasintóticas. En particular en la medida que se vaya incrementando el tamaño dela muestra, el promedio muestral adquiere unos rasgos propios que los siguientesteoremas describen.

  • 14 CAPÍTULO 1. DISTRIBUCIONES MUESTRALES

    Teorema 1.4.3 (Ley débil de los grandes números). Si X1, X2, . . . , Xnes una muestra aleatoria de una población con valor esperado μ y varianza σ2,entonces

    X1 +X2 + . . .+Xnn

    p−→ μ

    La nota de la demostración del teorema anterior, destaca el hecho de que

    P[−� < Xn − μ < �] ≥ 1 − δ

    para n entero mayor queσ2

    δ�2, � > 0, δ > 0; lo cual permite determinar la

    magnitud del tamaño muestral bajo prefijados requisitos. Esta cota para eltamaño de la muestra debe entenderse dentro del contexto de una poblacióninfinita y una muestra simple.

    Ejemplo 1.4.1. ¿Cuál debe ser el tamaño de la muestra para tener unaprobabilidad de 0.95 de que el promedio muestral no difiera en más de unacuarta parte de la desviación estándar de μ?En esta situación, � = 0.25σ, δ = 0.05, por lo tanto

    n >σ2

    (0.25σ)20.05= 320

    Modificando parcialmente las condiciones del teorema 1.4.3 en el sentido deno hacer ninguna mención de la varianza σ2, es posible reiterar la convergen-cia en probabilidad del promedio de la muestra, como lo presenta el siguienteteorema.

    Teorema 1.4.4 (Teorema de Khintchine). SiX1, X2, . . . , Xn es una mues-tra aleatoria de una población con valor esperado μ entonces

    Xnp−→ μ

    De manera más general, la convergencia en probabilidad de los momentosmuestrales ordinarios a los momentos poblacionales ordinarios está avalada porel siguiente teorema.

    Teorema 1.4.5. Si X1, X2, . . . , Xn es una muestra aleatoria de una poblaciónpara la cual el momento central μ2r existe, entonces

    M ′r,np−→ μ′r, r = 1, 2, . . .

    Para cerrar esta relación de teoremas que giran alrededor de la idea de laLey débil de los grandes números, se incluye el siguiente teorema que puedeentenderse como una generalización de la citada ley.

  • 1.4. CARACTERÍSTICAS GENERALES DE ALGUNAS ESTADÍSTICAS 15

    Teorema 1.4.6. Si X1, X2, . . . es una sucesión de variables aleatorias tales queE[Xi] = μi y V [Xi] = σ2i son finitos y ρ(Xi, Xj) = 0, i �= j, para i = 1, 2, . . . ,entonces

    Xn − μn p−→ 0

    siendo μn =1n

    n∑i=1

    μi

    La Ley fuerte de los grandes números es un conjunto de teoremas referentesa la convergencia casi segura de sucesiones de variables aleatorias. El teore-ma siguiente es el más divulgado de todos y fue enunciado originalmente porKolmogorov.

    Teorema 1.4.7 (Ley fuerte de los grandes números). Si X1, X2, . . . , Xnes una muestra aleatoria de una población con valor esperado μ, entonces lasucesión {Xn − μ} converge casi seguro a cero.Teorema 1.4.8. Si X1, X2, . . . , Xn es una muestra aleatoria de una poblacióncon valor esperado μ y varianza σ2, entonces

    S2na.s.−−→ σ2

    y en consecuencia S2np−→ σ2

    Con la denominación de Teorema del Ĺımite Central debe entenderse más aun conjunto de teoremas concernientes a la convergencia en distribución de lasuma de un número creciente de variables aleatorias al modelo Gaussiano, que ala más popular de sus versiones. Es un conjunto de teoremas fundamentales dela Estad́ıstica pues constituyen puntos de apoyo substanciales de la Inferenciaestad́ıstica y de las aplicaciones.

    Bajo la citada denominación de teorema del ĺımite central se incluyenvariantes como la versión original conocida como la ley de los errores, derivadade los trabajos de Gauss y Laplace sobre la teoŕıa de errores, que permitió elsurgimiento de las versiones más antiguas referentes a variables con distribuciónde Bernoulli, debidas a De Moivre y Laplace en los siglos XVI y XVII, se in-cluyen las versiones de Lindeberg-Lévy y Lindeberg-Feller, que son consecuenciade un trabajo inciado por Chevyshev y Liapunov a finales del siglo XIX, trabajoencaminado a la búsqueda de una demostración rigurosa, se incluyen las ver-siones de Bikelis y aquellas adaptadas para los casos multivariados, y tambiénse incluyen aquellas para el caso de variables dependientes.

    En particular la versión clásica o Teorema de Lindeberg-Lévy, la versión másdifundida, corresponde al siguiente teorema, resultado al que llegaron de maneraindependiente J.W.Lindeberg y P.Lévy en la segunda década del siglo XX.

    Teorema 1.4.9 (Teorema del Ĺımite Central (Lindeberg-Lévy)). SiX1, X2, . . . , Xn es una muestra aleatoria de una población con valor esperadoμ y varianza σ2 finitos, considerando la variable aleatoria

    Zn =Xn − μ

    σ√n

  • 16 CAPÍTULO 1. DISTRIBUCIONES MUESTRALES

    entonces la sucesión de variables aleatorias {Zn} converge en distribución a unavariable aleatoria con distribución Normal estándar.

    En pocas palabras, esta difundida versión determina que,√n(Xn − μ)

    σ

    d−→ Z ∼ N(0, 1)

    El teorema del ĺımite central es la mejor justificación de la existencia delmodelo Gaussiano y del énfasis que de él se hace reiteradamente. Por otraparte lo admirable del teorema radica en que no importa el modelo regente delcomportamiento probabiĺıstico de la población, y en que la exigencia de finituddel valor esperado y la varianza es fácil satisfacerla en las aplicaciones.

    Para finalizar estas consideraciones acerca del teorema del ĺımite central sepresenta una versión especial la cual corresponde al teorema de Lindeberg-Feller.

    Teorema 1.4.10 (Teorema del Ĺımite Central (Lindeberg-Feller)). SiX1, X2, . . . es una sucesión de variables aleatorias independientes con valor es-

    perado μi y varianza σ2i finitos, i = 1, 2, . . . y asumiendo que τ2n =

    n∑i=1

    σ2i → ∞

    y además que max1≤i≤n

    {σ2iτ2n

    }→ 0 cuando n→ ∞, entonces

    n∑i=1

    (Xi − μi)τn

    d−→ Z ∼ N(0, 1)

    si y sólo si para cada � > 0,

    limn→∞

    1τ2n

    n∑i=1

    (∫|x−μi|≥�τn

    (x − μi)2fi(x)dx)

    = 0

    siendo fi(x) la función de densidad de la variable aleatoria Xi, i = 1, 2, . . .

    Cuando el comportamiento de una población se asume regido por elmodelo Gaussiano, se pueden deducir propiedades espećıficas adicionales para elpromedio y varianza muestrales, propiedades que hacen expĺıcitas los siguientesteoremas.

    Teorema 1.4.11. Si X1, X2, . . . , Xn es una muestra aleatoria de una poblacióncon distribución Normal de valor esperado μ y varianza σ2, entonces

    Xn ∼ N(μ,σ2

    n

    )Teorema 1.4.12. Si X1, X2, . . . , Xn es una sucesión de variables aleatoriasindependientes tales que Xi ∼ N(μi, σ2i ), entonces

    U =n∑

    i=1

    (Xi − μiσi

    )2∼ χ2(n)

  • 1.4. CARACTERÍSTICAS GENERALES DE ALGUNAS ESTADÍSTICAS 17

    Corolario 1.4.12.1. Cuando la sucesión de variables aleatorias constituye unamuestra aleatoria de una población con distribución Normal, de valor esperadoμ y varianza σ2,

    U =n∑

    i=1

    (Xi − μσ

    )2∼ χ2(n)

    Teorema 1.4.13. Si X1, X2, . . . , Xn es una muestra aleatoria de una poblacióncon distribución Normal de valor esperado μ y varianza σ2, entonces las es-tad́ısticas Xn y S2n son dos variables aleatorias estad́ısticamente independientes.

    Teorema 1.4.14. Si X1, X2, . . . , Xn es una muestra aleatoria de una poblaciónNormal de valor esperado μ y varianza σ2, entonces

    n∑i=1

    (Xi −Xn)2σ2

    =(n− 1)S2n

    σ2∼ χ2(n− 1)

    Con supuestos menos taxativos, el promedio y la varianza muestrales pre-sentan un comportamiento muy particular. Los siguientes teoremas resaltan lamarcada autonomı́a de las estad́ısticas Xn y S2n.

    Teorema 1.4.15. Si X1, X2, . . . , Xn es una muestra aleatoria de una poblacióncuya función de densidad es simétrica, entonces

    cov(Xn, S2n) = 0

    La expresión usual de la varianza muestral incluye el promedio de la muestra,es decir que la varianza podŕıa entenderse como función de éste. Sin embargo, supresencia en la expresión puede considerarse aparente puesto que la varianza dela muestra puede prescindir del promedio muestral en la forma como lo garantizael siguiente teorema 3.

    Teorema 1.4.16. Si X1, X2, . . . , Xn es una muestra aleatoria de una poblaciónpara la cual no se asume un modelo de probabilidad espećıfico, entonces

    S2n =1

    2n(n− 1)n∑

    i=1

    n∑j=1

    (Xi −Xj)2

    En śıntesis, es claro que el promedio y varianza de la muestra son estad́ısticastales que bajo el modelo Gaussiano son estad́ısticamente independientes, bajo unmodelo de probabilidad cuya función de densidad es simétrica, las estad́ısticasno están correlacionadas, y en cualquier situación la varianza de la muestra nodepende funcionalmente del promedio de la muestra.

    3Jorge E. Ortiz P. Bolet́ın de Matemáticas. Volúmen VI No. 1 (1999), pp. 43-51

  • 18 CAPÍTULO 1. DISTRIBUCIONES MUESTRALES

    1.5 Estad́ısticas de orden

    Una modalidad especial de estad́ısticas la integran las llamadas estad́ısticasde orden . Ellas desempeñan papeles importantes en algunas aplicaciones comoen las Cartas de Control Estad́ıstico de la Calidad y como en el fundamento ymanejo de algunos conceptos en Estad́ıstica no paramétrica. Además de estos yotros usos, las estad́ısticas de orden son particularmente los estimadores apropi-ados de parámetros que rigen el recorrido de la población, y aśı mismo sonutilizadas en el juzgamiento de hipótesis referentes a estos parámetros. Por serestimadores y sustentar reglas de decisión en poblaciones especiales es menesterexponer algunos elementos y consideraciones acerca de su distribución.

    Definición 1.5.1. La k-ésima estad́ıstica de orden, k = 1, 2, . . . , n,correspondiente a una muestra aleatoria X1, X2, . . . , Xn, denotada por Xk,n,está definida de la siguiente manera

    Xk,n = min {{X1, X2, . . . , Xn} − {X1,n, X2,n, . . . , Xk−1,n}}siendo

    X1,n : mı́nimo de la muestra

    Xn,n : máximo de la muestra

    Al conjunto de estad́ısticas de orden X1,n, X2,n, . . . , Xn,n se le designa con elnombre de muestra aleatoria ordenada.

    A partir de las estad́ısticas de orden pueden definirse otras estad́ısticas como:

    • El rango muestralR = Xn,n −X1,n

    • El semirango muestral

    SR =X1,n +Xn,n

    2

    • La mediana muestral

    Me =

    ⎧⎪⎪⎪⎨⎪⎪⎪⎩Xn+1

    2 ,n, si n es impar

    Xn2 ,n

    +Xn2 +1,n

    2, si n es par

    • La función de distribución emṕırica o función de distribuciónmuestral

    Fn(x) =1n

    n∑i=1

    I(−∞,x](xi)

  • 1.5. ESTADÍSTICAS DE ORDEN 19

    es decir,

    Fn(x) =

    ⎧⎪⎪⎪⎪⎪⎪⎨⎪⎪⎪⎪⎪⎪⎩

    0, si x < X1,n

    k

    n, si Xk,n ≤ x < Xk+1,n

    1, si x ≥ Xn,n, k = 1, 2, . . . , n− 1

    1.5.1 Distribución de las estad́ısticas de orden

    Las estad́ısticas heredan en menor o mayor medida los rasgos del modelo elegidopara representar el comportamiento poblacional. Espećıficamente la distribu-ción muestral de las estad́ısticas de orden incluye de manera expĺıcita las fun-ciones de densidad y distribución de la población como lo registran los siguientesteoremas.

    Teorema 1.5.1. Siendo X1,n, X2,n, . . . , Xn,n las estad́ısticas de orden o la mues-tra ordenada de una población con función de distribución FX(x), entonces parak = 1, 2, . . . , n

    FXk,n(y) =n∑

    j=k

    (n

    j

    )[FX(y)]j [1 − FX(y)]n−j

    Corolario 1.5.1.1. Para los casos especiales del mı́nimo y máximo de la mues-tra se tiene:

    FX1,n(y) = 1 − [1 − FX(y)]nFXn,n(y) = [FX(y)]

    n

    Teorema 1.5.2. Siendo X1, X2, . . . , Xn una muestra aleatoria de una poblacióncon función de distribución cont́ınua FX(x), la función de densidad de la k-ésima estad́ıstica de orden es

    fXk,n(y) =n!

    (k − 1)!(n− k)! [FX(y)]k−1[1 − FX(y)]n−kfX(y), k = 1, 2, . . . , n

    La función conjunta de densidad de la j-ésima estad́ıstica de orden y lak-ésima estad́ıstica de orden fXj,n,Xk,n(x, y) es

    c(n, j, k)[FX(x)]j−1[FX(y) − FX(x)]k−j−1[1 − FX(y)]n−kfX(y)fX(x)I(x,∞)(y)para 1 ≤ j < k ≤ n, con c(n, j, k) = n!/[(j− 1)!(k− j − 1)!(n− k)!]. La funciónconjunta de densidad de las estad́ısticas de orden es

    fX1,n,X2,n,... ,Xn,n(y1, y2, . . . , yn) =

    ⎧⎪⎨⎪⎩n!n

    i=1

    fX(yi) y1 < y2 < · · · < yn0 en otros casos

  • 20 CAPÍTULO 1. DISTRIBUCIONES MUESTRALES

    Ejemplo 1.5.1. SiendoX1, X2, . . . , Xn una muestra aleatoria de una poblacióncon distribución Uniforme en el intervalo (α, β), determinar la función de den-sidad de la k-ésima estad́ıstica de orden.

    fX(x) =1

    β − αI(α,β)(x)

    FX(x) =x− αβ − αI(α,β)(x) + I[β,∞)(x)

    fXk,n(y) =n!

    (k − 1)!(n− k)![y − αβ − α

    ]k−1 [1 − y − α

    β − α]n−k ( 1

    β − αI(α,β)(y))

    =n!

    (k − 1)!(n− k)!(

    1β − α

    )n(y − α)k−1(β − y)n−kI(α,β)(y)

    La distribución de la k-ésima estad́ıstica de orden es la de una variable aleatoriacon distribución Beta en el intervalo (α, β) con parámetros k y (n−k+1) cuandola población es Uniforme en el intervalo (α, β).

    Nota. Una variable aletoria X con distribución Beta en el intervalo (0, 1) puedegenerar una variable aleatoria Y con distribución Beta en el intervalo (α, β)mediante la relación

    Y = α+ (β − α)X

    Teorema 1.5.3. Sea X1, X2, . . . , Xn, una muestra aleatoria de una poblacióncon función de distribución FX(x) continua. Para p fijo, si xp denota al únicopercentil 100p poblacional, entonces

    P [Xj,n < xp < Xk,n] =k−1∑l=j

    (n

    l

    )pl(1 − p)n−l

    1.5.2 Distribución del rango, semirango y mediana mues-trales

    Las estad́ısticas correspondientes al rango y semirango son funciones del máximoy mı́nimo muestrales, por lo tanto la determinación de su distribución parte dela consideración de la distribución conjunta de X1,n y Xn,n

    fX1,n,Xn,n(x, y) = n(n− 1) [FX(y) − FX(x)]n−2 fX(x)fX(y)I(x,∞)(y)

    Definidas las estad́ısticas:

    R = Xn,n −X1,n

    T =X1,n +Xn,n

    2

  • 1.5. ESTADÍSTICAS DE ORDEN 21

    se considera la siguiente transformación

    x = t− r2

    y = t+r

    2

    cuyo jacobiano es ∣∣∣∣∣∣∣∂x

    ∂r

    ∂x

    ∂t∂y

    ∂r

    ∂y

    ∂t

    ∣∣∣∣∣∣∣ =∣∣∣∣∣12 112 1

    ∣∣∣∣∣ = 1con lo cualfR,T (r, t) = n(n− 1)

    [FX(t+ r2)− FX (t− r2)]n−2 fX (t− r2) fX (t− r2)

    En consecuencia, para r > 0, se tiene

    fR(r) =∫ ∞−∞

    fR,T (r, t)dt

    fT (t) =∫ ∞−∞

    fR,T (r, t)dr

    La distribución de la mediana está dependiendo del tamaño de la muestra. Siéste es entero impar, su distribución está totalmente determinada puescorresponde a la distribución de la estad́ıstica de orden n+12 . Para la situaciónen la cual n es par, la mediana es función de las estad́ısticas de orden Xn

    2 ,ny

    Xn2 +1,n

    . Aśı al tomar n = 2m, m = 1, 2, . . .

    fX n2 ,n

    ,X n2 +1,n

    (x, y) = fXm,n,Xm+1,n(x, y)

    =(2m)!

    [(m− 1)!]2 [FX(x)]m−1[1 − FX(x)]m−1fX(x)fX(y)

    con x < y. Considerando la transformación u = x+y2 , v = y, se tiene que

    f x+y2

    (u) = fU (u)

    =2(2m)!

    [(m− 1)!]2∫ ∞

    u

    [FX(2u− v)]m−1[1 − FX(v)]m−1fX(2u− v)fX(v)dv

    1.5.3 Distribución de la función de distribución emṕırica

    La función de distribución emṕırica tiene varios usos especialmente en métodosy conceptos de la Estad́ıstica no paramétrica. Su gráfico se convierte en unindicativo de una primera aproximación al ajuste que brinda el modelo. Algunosaspectos de su distribución se presentan a continuación.

    P

    [Fn(x) =

    k

    n

    ]=(n

    k

    )[FX(x)]k[1 − FX(x)]n−k

    donde k = 0, 1, 2, . . . , n. En efecto, denotando la variable aleatoria

    Zi = I(−∞,x](Xi)

  • 22 CAPÍTULO 1. DISTRIBUCIONES MUESTRALES

    luego Zi ∼ Ber(FX(x)), por lo tanton∑

    i=1

    Zi ∼ Bin(n, FX(x)) y por consiguiente

    E[Fn(x)] = FX(x)

    V [Fn(x)] =FX(x)[1 − FX(x)]

    n

    Teorema 1.5.4. Siendo X1, X2, . . . , Xn una muestra aleatoria de una poblacióncon función de distribución FX(x), entonces

    Fn(x)P−→ FX(x)

    para un valor x dado.

    Teorema 1.5.5 (Teorema de Glivenko-Cantelli). SiX1, X2, . . . , Xn es unamuestra aleatoria de una población con función de distribución FX(x), entoncesFn(x) converge uniformemente a FX(x), esto es, para cada � > 0,

    limn→∞P

    [sup

    −∞

  • 1.6. MOMENTOS DE ESTADÍSTICAS DE ORDEN 23

    1.6 Momentos de estad́ısticas de orden

    Los teoremas 1.5.1 y 1.5.2 puntualizan respectivamente la función de distribu-ción y la función de densidad de la k-ésima estad́ıstica de orden. En principio,garantizada la existencia del momento de interés y determinada expĺıcitamentela función de distribución FX(x), podŕıa formalizarse el momento con base enlas referidas funciones de distribución o de densidad. Sin embargo, su logrodepende de la complejidad de la integración requerida para su cálculo, dado quealgunas veces se alcanza únicamente por medio de integración numérica.A manera de ejemplo, considerando el comportamiento poblacional como in-diferente para cualquier valor del intervalo (0, 1), el valor esperado, la varianzay el momento de orden r de la estad́ıstica de orden k es factible determinarlos.

    Ejemplo 1.6.1. Siendo X1,n, X2,n, . . . , Xn,n es una muestra ordenada de unapoblación con distribución Uniforme en el intervalo (0, 1)

    E[Xk,n] =k

    n+ 1

    V [Xk,n] =k(n− k + 1)

    (n+ 2)(n+ 1)2

    ρ(Xj,n, Xk,n) =[j(n− k + 1)k(n− j + 1)

    ] 12

    , j < k

    En efecto. En primer lugar, de manera general

    E[Xrk,n] =n!

    (k − 1)!(n− 1)!∫ 1

    0

    xr+k−1(1 − x)n−kdx

    =n!

    (k − 1)!(n− 1)!β(r + k, n− k + 1)

    y utilizando la relación β(a, b) =Γ(a)Γ(b)Γ(a+ b)

    , entonces

    E[Xrk,n] =n!

    (k − 1)!(n− 1)!Γ(r + k)Γ(n− k + 1)Γ(r + k + n− k + 1)

    =n!(r + k − 1)!

    (r + n)!(k − 1)! , 1 ≤ k ≤ n

    particularmente,

    E[Xk,n] =n!k!

    (n+ 1)!(k − 1)! =k

    n+ 1V [Xk,n] = E[X2k,n] − (E[Xk,n])2

    E[X2k,n] =n!(k + 2 − 1)!

    (n+ 2)!(k − 1)! =k(k + 1)

    (n+ 1)(n+ 2)

    V [Xk,n] =k(k + 1)

    (n+ 1)(n+ 2)− k

    2

    (n+ 1)2=

    k(n− k + 1)(n+ 2)(n+ 1)2

  • 24 CAPÍTULO 1. DISTRIBUCIONES MUESTRALES

    Por otra parte, denotándo E[Xj,n, Xk,n] = Δ, se tiene que

    Δ =n!

    (j − 1)!(k − j − 1)!(n− k)!∫ 1

    0

    ∫ y0

    xjy(y − x)k−j−1(1 − y)n−kdxdy

    =n!

    (j − 1)!(k − j − 1)!(n− k)!∫ 1

    0

    y(1 − y)n−k[∫ y

    0

    xj(y − x)k−j−1dx]dy

    Realizando la sustitución v =x

    y

    Δ =n!

    (j − 1)!(k − j − 1)!(n− k)!∫ 1

    0

    y(1 − y)n−k [ykβ(j + 1, k − j)] dy=

    n!(j − 1)!(k − j − 1)!(n− k)!β(1 + j, k − j)β(k + 2, n− k + 1)

    =j(k + 1)

    (n+ 1)(n+ 2)= E[Xj,n, Xk,n]

    con lo cual

    Cov(Xj,n, Xk,n) =j(k + 1)

    (n+ 1)(n+ 2)− jk

    (n+ 1)2j < k

    ρ(Xj,n, Xk,n) =

    √j(n− k + 1)k(n− j + 1) j < k

    por lo tanto, como caso especial, la correlación entre el mı́nimo y máximo de lamuestra bajo comportamiento poblacional Uniforme en el intervalo (0, 1) es

    ρ(X1,n, Xn,n) =1n

    Como ya se mencionó, en algunos casos se requiere integración numéricapara determinar momentos de una estad́ıstica de orden. Sin embargo es posiblepresentar expresiones que permiten aproximar el valor esperado y varianza dela k-ésima estad́ıstica de orden.

    El desarrollo de estas expresiones se basa en una expansión en serie de Taylory en el hecho de que si X es una variable aleatoria con función de distribuciónFX(x) continua, la variable aleatoria Y = FX(X) tiene distribución Uniformeen (0, 1), entonces

    E[Xk,n] F−1X(

    k

    n+ 1

    )V [Xk,n] k(n− k + 1)

    (n+ 1)2(n+ 2){fX

    (F−1X(

    kn+1

    ))}2

  • 1.7. DEMOSTRACIÓN DE LOS TEOREMAS DEL CAPÍTULO 25

    Finalmente se expone una breve alusión a la distribución asintótica de las es-tad́ısticas de orden.

    El estudio de la distribución asintótica de la k-ésima estad́ıstica de ordenincluye dos casos a saber: el primero cuando n tiende a infinito y kn permanecefijo, el segundo cuando n tiende a infinito y k o n− k permanecen finitos.

    Para algunos efectos, el primer caso es de mayor interés; el teorema siguientese adscribe a ese caso.

    Teorema 1.6.1. Sea X1, X2, . . . , Xn una muestra aleatoria de una poblacióncuya función de distribución FX(x) es estrictamente monótona. Asumiendo quexp es el percentil 100p poblacional, es decir, FX(xp) = p, entonces la estad́ısticade orden [np] + 1 tiene distribución asintótica Normal con valor esperado xp yvarianza p(1−p)n[fX (xp)]2 .

    Particularmente, si p = 12 (mediana) y la población es Normal con valoresperado μ y varianza σ2 la mediana muestral tiene distribución Normal convalor esperado μ y varianza πσ

    2

    2n .Con este teorema relativo a la distribución asintótica de la k-ésima estad́ıstica

    de orden concluye la introducción a las ideas preliminares de la Inferencia es-tad́ıstica, presentación que además entreabre el contexto filosófico en el cualse desempeña, que describe las caracteŕısticas más relevantes de algunas es-tad́ısticas y registra como estad́ısticas especiales a las estad́ısticas de orden.Con esto se da paso a la exposición de los argumentos que sustentan las afirma-ciones de los enunciados de los teoremas relacionados y finalmente a la serie deejercicios cuyo desarrollo complementará la reflexión sobre estos temas inicialesy será un componente más en la aprehensión de los conceptos expuestos en esteprimer caṕıtulo.

    1.7 Demostración de los teoremas del caṕıtulo

    Demostración (Teorema 1.3.1). Algunos apartes de la demostración puedenconsultarse en A first course in mathematical statistics, de G. Roussas, páginas133 a 135 y en Basic probability theory de R. Ash, páginas 204 y 205.

    Demostración (Teorema 1.3.4). Suponiendo que Xnp−→ c, entonces para

    � > 0

    limn→∞P [|Xn − c| < �] = 1 = limn→∞P [c− � < Xn < c+ �]

    = limn→∞ [Fn(c+ �) − Fn(c− �)]

    = limn→∞ [Fn(c+ �)] − limn→∞ [Fn(c− �)]

    La imagen de cualquier función de distribución es un valor que pertenece alintervalo [0, 1], luego la única posibilidad para que la igualdad anterior se de esque

    limn→∞Fn(c+ �) = 1 y limn→∞Fn(c− �) = 0

  • 26 CAPÍTULO 1. DISTRIBUCIONES MUESTRALES

    hecho revelador de que Fn(x) −→ F (x) siendo F (x) una función de distribucióntal que

    F (x) =

    {0 si x < c1 si x ≥ c

    es decir que F (x) es la función de distribución de una constante c.Suponiendo ahora que Fn(x) −→ F (x) con F (x) = I[c,∞)(x), es decir que

    limn→∞Fn(x) = F (x)

    entonces

    limn→∞Fn(c− �) = 0 para � > 0 y limn→∞Fn(c+ �) = 1

    luego

    limn→∞ [Fn(c+ �) − Fn(c− �)] = 1 = limn→∞P [c− � < Xn < c+ �]

    = limn→∞P [|Xn − c| < �]

    lo cual significa que Xnp−→ c.

    Demostración (Teorema 1.4.1). El valor esperado del momento ordinariode orden r puede determinarse mediante dos argumentos. En primer lugar,utilizando las propiedades del valor esperado se tiene que

    E[M ′r,n] = E

    [1n

    n∑i=1

    Xri

    ]=

    1n

    n∑i=1

    E[Xri ], r = 1, 2, . . .

    En segundo lugar, como todas las variables aleatorias de la sucesión tienen lamisma distribución, por constituir una muestra aleatoria, E[Xri ] = μ

    ′r, para

    i = 1, 2, . . . , n, en consecuencia

    E[M ′r,n] =1n

    n∑i=1

    μ′r =1n

    (nμ′r) = μ′r

    De manera similar puede determinarse la varianza del momento ordinario deorden r. De las propiedades de la varianza, se puede afirmar que

    V [M ′r,n] = V

    [1n

    n∑i=1

    Xri

    ]=

    1n2V

    [n∑

    i=1

    Xri

    ], r = 1, 2, . . .

    y debido a que las variables aleatorias son independientes, pues constituyen unamuestra aleatoria, lo son también las variables Xr1 , X

    r2 , . . . , X

    rn, con lo cual

    V [M ′r,n] =1n2

    n∑i=1

    V [Xri ] =1n2

    n∑i=1

    [E[X2ri ] − (E[Xri ])2

    ]

  • 1.7. DEMOSTRACIÓN DE LOS TEOREMAS DEL CAPÍTULO 27

    y como las variables tienen distribución idéntica,

    V [M ′r,n] =1n2

    n∑i=1

    (μ′2r − (μ′r)2

    )=

    1n

    (μ′2r − (μ′r)2

    )Demostración (Teorema 1.4.2). Para determinar el valor esperado de lavarianza muestral, es necesario previamente verificar la identidad:

    n∑i=1

    (Xi − μ)2 = (n− 1)S2n + n(Xn − μ)2

    El sumar y restar Xn es el punto de partida en la verificación de la identidad,de tal manera que

    n∑i=1

    (Xi − μ)2 =n∑

    i=1

    (Xi −Xn +Xn − μ)2 =n∑

    i=1

    [(Xi −Xn) + (Xn − μ)

    ]2Asimismo después de desarrollar el cuadrado indicado,

    n∑i=1

    (Xi − μ)2 =n∑

    i=1

    (Xi −Xn)2 + 2(Xn − μ)n∑

    i=1

    (Xi −Xn) + n(Xn − μ)2

    =n∑

    i=1

    (Xi −Xn)2 + n(Xn − μ)2

    porquen∑

    i=1

    (Xi −Xn) =n∑

    i=1

    Xi − nXn = nXn − nXn = 0, y por lo tanto

    n∑i=1

    (Xi − μ)2 = (n− 1)S2n + n(Xn − μ)2

    Con el anterior recurso,

    E[S2n] = E

    [1

    n− 1n∑

    i=1

    (Xi − μ)2 − nn− 1(Xn − μ)

    2

    ]

    =1

    n− 1

    [n∑

    i=1

    E[(Xi − μ)2] − nE[(Xn − μ)2]]

    como E[(Xi − μ)2] = V [Xi], E[(Xn − μ)2] = V [Xn] y teniendo en cuenta quetodas las variables aleatorias de la sucesión tienen la misma distribución,

    E[S2n] =1

    n− 1

    [n∑

    i=1

    σ2 − n(σ2

    n

    )]=

    1n− 1[nσ

    2 − σ2] = σ2

    La demostración del segundo enunciado del teorema, es uno de los ejercicios deeste caṕıtulo.

  • 28 CAPÍTULO 1. DISTRIBUCIONES MUESTRALES

    Demostración (Teorema 1.4.3). La herramienta procedente para sustentarel desarrollo de esta demostración será la desigualdad de Chevyshev, la cualasegura que si X es una variable aleatoria con valor esperado μX y varianza σ2Xfinita,

    P [|X − μX | < rσX ] ≥ 1 − 1r2

    para cada r > 0

    Aplicando la desigualdad al caso especial de la variable aleatoria Xn, teniendo en

    cuenta que E[Xn] = μ y V [Xn] =σ2

    n, como lo manifiesta el corolario 1.4.1.1,

    P

    [∣∣Xn − μ∣∣ < r σ√n

    ]≥ 1 − 1

    r2para cada r > 0

    utilizando el reemplazo � = r σ√n

    se tiene que � > 0 y

    P [∣∣Xn − μ∣∣ < �] ≥ 1 − σ2

    n�2

    de tal manera que

    limn→∞P [

    ∣∣Xn − μ∣∣ < �] ≥ limn→∞ 1 −

    σ2

    n�2= 1

    es decir que

    limn→∞P [

    ∣∣Xn − μ∣∣ < �] = 1lo cual significa que Xn

    p−→ μ, como lo afirma la ley débil de los grandes números.

    Nota. La cota 1 − σ2

    n�2crece en cuanto n crece. Si se fija la cota en 1 − δ,

    0 < δ < 1, significa que existe un tamaño de muestra mı́nimo n, para el cualP [|Xn − μ| < �] ≥ 1 − δ. Dicho en otros términos 1 − σ2

    n�2> 1 − δ, es decir,

    P [−� < Xn − μ < �] ≥ 1 − δ, para n > σ2

    δ�2

    Demostración (Teorema 1.4.4). Utilizando la función generatriz de momen-tos de la variable que representa a la población MX(t), o en su defecto la funcióncaracteŕıstica φX(t),

    MXn(t) = E[etXn]

    = E[exp(t

    nX1 +

    t

    nX2 + · · · + t

    nXn

    )]como las variables constituyen una muestra aleatoria,

    MXn(t) =n∏

    i=1

    E[e

    tn Xi]

    =n∏

    i=1

    E[e

    tn X]

    =[MX

    (t

    n

    )]n

  • 1.7. DEMOSTRACIÓN DE LOS TEOREMAS DEL CAPÍTULO 29

    entonces

    MXn(t) =

    [1 +

    μ

    1!

    (t

    n

    )+

    12!E[X2]

    (t

    n

    )2+ · · ·]n

    limn→∞MXn(t) = limn→∞

    [1 +

    μt

    n+ O(t

    n

    )]n= eμt

    función generatriz que corresponde a la función generatriz de una constante μ.(O es el śımbolo “o pequeña”usado en el estudio de las series). Lo cual significaque

    Xnd−→ μ

    y con base en el teorema 1.3.4 se tiene que

    Xnp−→ μ

    Demostración (Teorema 1.4.5). Como la sucesión Xr1 , Xr2 , . . . , X

    rn confor-

    ma un conjunto de variables aleatorias independientes e idénticamente dis-tribuidas porque la sucesión X1, X2, . . . , Xn es una muestra aleatoria, entoncessólo resta aplicar el teorema relativo a la Ley débil de los grandes números uti-lizando la sucesión Xr1 , Xr2 , . . . , Xrn, con lo cual se puede concluir que

    1n

    n∑i=1

    [Xri ]p−→ E [Xr1 ] = μ′r

    Demostración (Teorema 1.4.7). Puede consultarse en Probability and Sta-tistical Inference de Robert Bartoszynski y Magdalena Niewiadomska-Bugaj (1996)en las páginas 430 a 431.

    Demostración (Teorema 1.4.9). La estrategia para la demostración consisteen el uso de la función generatriz de momentos y de sus propiedades, para lo cualse asume la existencia de la función generatriz de momentos de la población.Se apoya la demostración en el desarrollo en serie de McLaurin de la funcióngeneratriz de momentos, demostración que también se puede llevar a cabo, uti-lizando la función caracteŕıstica.

    Denotando como MZn(t) la función generatriz de momentos de la variablealeatoria Zn, se tiene:

    MZn(t) = E[etZn]

    = E

    [exp

    (√n(Xn − μ

    t

    )]

    = E

    [exp

    (t

    n

    √n

    n∑i=1

    Xi − μσ

    )]

    = E

    [n∏

    i=1

    exp(t

    n

    √nXi − μσ

    )]

  • 30 CAPÍTULO 1. DISTRIBUCIONES MUESTRALES

    como las variables de la sucesión X1, X2, . . . , Xn son variables aleatorias in-dependientes por tratarse de una muestra aleatoria, las variables Y1, Y2, . . . , Yntambién lo son, siendo Yi = Xi−μσ , i = 1, 2, . . . , n y por lo tanto,

    MZn(t) =n∏

    i=1

    E

    [exp(

    t√nYi

    )]=

    n∏i=1

    MYi

    (t√n

    )como las variables Y1, Y2, . . . , Yn tienen la misma distribución, con funcióngeneratriz de momentos MYi

    (t√n

    )= MY

    (t√n

    ), i = 1, 2, . . . , n, entonces

    MZn(t) =n∏

    i=1

    MY

    (t√n

    )=[MY

    (t√n

    )]nEl desarrollo en serie de McLaurin de la función generatriz MY (t) evaluada enel valor t√

    nes

    MY (t) = 1 +μ1σ

    t√n

    +12!μ2σ2

    (t√n

    )2+

    13!μ3σ3

    (t√n

    )3+ · · ·

    como el valor esperado es igual a cero, por lo tanto, si existen, μ′r = μr,r = 1, 2, . . . , y además la varianza es igual a uno,

    MY

    (t√n

    )= 1 +

    12!σ2

    σ2

    (t√n

    )2+

    13!μ3σ3

    (t√n

    )3+ · · ·

    = 1 +1n

    [12!t2 +

    13!√nμ3t

    3 +1

    4!nμ4t

    4 + · · ·]

    efectuando el reemplazo Pn(t) = 12! t2 + 1

    3!√

    nμ3t

    3 + 14!nμ4t4 + · · · y dado que

    MZn(t) =[MY

    (t√n

    )]n,

    MZn(t) = [1 + Pn(t)]n

    limn→∞MZn(t) = limn→∞ [1 + Pn(t)]

    n

    = exp(

    limn→∞Pn(t)

    )= e

    12 t

    2

    porque los coeficientes de t3, t4, . . . tienden a cero cuando n→ ∞.Además e

    12 t

    2se reconoce como la función generatriz de momentos de una

    variable aleatoria con distribución Normal estándar. Como

    limn→∞MZn(t) = MZ(t) = e

    12 t

    2

    de acuerdo con el teorema de Lévy, Znd−→ Z, Z ∼ N(0, 1).

  • 1.7. DEMOSTRACIÓN DE LOS TEOREMAS DEL CAPÍTULO 31

    Demostración (Teorema 1.4.10). Los elementos que se requieren para el de-sarrollo de la demostración de este teorema están más allá del alcance de estetexto.

    Demostración (Teorema 1.4.11). Nuevamente se ha elegido a la funcióngeneratriz de momentos como medio para llevar a cabo esta demostración. Sien-do

    MX(t) = exp(μt+

    12σ2t2)

    la función generatriz de una variable aleatoria X, X ∼ N(μ, σ2),MXn(t) = E

    [etXn]

    = E

    [exp

    (t1n

    n∑i=1

    Xi

    )]

    = E

    [n∏

    i=1

    expt

    nXi

    ]debido a la independencia de las variables que constituyen la muestra aleatoria,

    MXn(t) =n∏

    i=1

    E

    [exp

    t

    nXi

    ]=

    n∏i=1

    MXi

    (t

    n

    )Finalmente, como las citadas variables están identicamente distribuidas, deacuerdo al modelo Gaussiano,

    MXn(t) =n∏

    i=1

    MX

    (t

    n

    )

    =n∏

    i=1

    exp

    (μt

    n+

    12σ2(t

    n

    )2)

    =

    [exp

    (μt

    n+

    12σ2(t

    n

    )2)]n= exp

    (μt+

    12σ2

    nt2)

    lo cual significa que Xn ∼ N(μ, σ

    2

    n

    )Demostración (Teorema 1.4.12). La variable aleatoria Zi =

    Xi − μiσi

    , para

    i = 1, 2, . . . , n, es una variable aleatoria con distribución Normal estándar locual permite afirmar que Z2i ∼ χ2(1).Con el concurso de la función generatriz de momentos, puede establecerse que

    MU (t) = E[etU]

    = E

    [e

    tn

    i=1Z2i

    ]= E

    [n∏

    i=1

    etZ2i

    ]

  • 32 CAPÍTULO 1. DISTRIBUCIONES MUESTRALES

    como la sucesión Z1, Z2, . . . , Zn es una sucesión de variables aleatorias inde-pendientes,

    MU (t) =n∏

    i=1

    E[etZ

    2i

    ]=

    n∏i=1

    MZ2i (t) =n∏

    i=1

    (1

    1 − 2t) 1

    2

    =(

    11 − 2t

    )n2

    lo cual significa que U ∼ χ2(n).Demostración (Teorema 1.4.13). La demostración está orientada a la de-terminación de la independencia de Xn, (X1 − Xn), (X2, Xn), . . . , (Xn − Xn)para luego concluir la independencia entre Xn y

    n∑i=1

    (Xi −Xn)2.En primer lugar, la función generatriz de momentos M(t, t1, t2, . . . , tn) de las

    variables aleatorias Xn, (X1−Xn), (X2, Xn), . . . , (Xn−Xn), con c =(

    1√2πσ

    )n,

    es

    c

    ∫Rn

    exp

    [txn + t1(x1 − xn) + · · · + tn(xn − xn) −

    n∑i=1

    (xi − μ)22σ2

    ]dx1 · · · dxn

    En segundo lugar, al considerar la integral sobre xi, i = 1, 2, . . . , n se tiene∫ ∞−∞

    1√2πσ

    exp{

    [t+ nti − (t1 + t2 + · · · + tn)]xin

    − (xi − μ)2

    2σ2

    }dxi

    que al efectuar el reemplazo

    1n

    [t+ nti −

    n∑i=1

    ti

    ]=

    1n

    [t+ n(ti − t)

    ]con t =

    1n

    n∑i=1

    ti

    entonces la integral anterior puede expresarse como∫ ∞−∞

    1√2πσ

    exp{

    1n

    [t+ n(ti − t)

    ]xi − (xi − μ)

    2

    2σ2

    }dxi

    cuyo valor es finalmente

    exp

    n

    [t+ n(ti − t)

    ]+σ2[t+ n(ti − t)

    ]22n2

    }por consiguiente

    M(t, t1, t2, . . . , tn) = exp

    {n∑

    i=1

    n

    [t+ n(ti − t)

    ]+σ2[t+ n(ti − t)

    ]22n2

    }}

    y comon∑

    i=1

    (ti − t) = 0, entonces

    M(t, t1, . . . , tn) = exp

    {μt+

    σ2t2

    2n+σ2

    2

    n∑i=1

    (ti − t)2}

    = exp{μt+

    12σ2

    nt2}

    exp

    {σ2

    2

    n∑i=1

    (ti − t)2}

  • 1.7. DEMOSTRACIÓN DE LOS TEOREMAS DEL CAPÍTULO 33

    hecho que revela la independencia de Xn, (X1−Xn), (X2−Xn), . . . , (Xn−Xn).Por consiguiente Xn, (X1 −Xn)2, (X2 −Xn)2, . . . , (Xn −Xn)2 es un conjuntode variables aleatorias independientes e igualmente Xn y

    n∑i=1

    (Xi − Xn)2. Enconsecuencia Xn y S2n son estad́ısticamente independientes.

    Demostración (Teorema 1.4.14). De la demostración del teorema 1.4.2 setiene que

    n∑i=1

    (Xi − μ)2 =n∑

    i=1

    (Xi −Xn)2 + n(Xn − μ)2

    por lo tanto

    n∑i=1

    (Xi − μ)2

    σ2=

    n∑i=1

    (Xi −Xn)2

    σ2+n(Xn − μ)2

    σ2

    luego

    E

    ⎡⎢⎢⎣exp⎡⎢⎢⎣t

    n∑i=1

    (Xi − μ)2

    σ2

    ⎤⎥⎥⎦⎤⎥⎥⎦ = E [exp [t (n− 1)S2nσ2 + tn(Xn − μ)2σ2

    ]]

    = E[exp[t(n− 1)S2n

    σ2

    ]]E

    [[tn(Xn − μ)2

    σ2

    ]]puesto que Xn y S2n son estad́ısticamente independientes.Debido a que

    n∑i=1

    (Xi − μ)2

    σ2∼ χ2(n) y n(Xn − μ)

    2

    σ2∼ χ2(1)

    entonces (1

    1 − 2t)n

    2

    = E[exp[t(n− 1)S2n

    σ2

    ]](1

    1 − 2t) 1

    2

    es decir

    E

    [exp[t(n− 1)S2n

    σ2

    ]]=(

    11 − 2t

    )n−12

    t <12

    dicho de otra maneran∑

    i=1

    (Xi −Xn)2

    σ2=

    (n− 1)S2nσ2

    ∼ χ2(n− 1)

  • 34 CAPÍTULO 1. DISTRIBUCIONES MUESTRALES

    Demostración (Teorema 1.4.15). La demostración de este teorema se lle-vará a cabo mediante inducción matemática sobre el tamaño de muestra.Previamente a ella y con el fin de incluirlos en la demostración, es necesarioaprestar tres elementos a saber:

    1. Si X,Y son dos variables aleatorias independientes,

    cov(X,XY ) = E[Y ]V [X ]

    2. Si la función de densidad de una variable aleatoria X es simétrica conrespecto a E[X ],

    cov(X,X2) = 2E[X ]V [X ]

    3. Y finalmente las relaciones

    Xn+1 =1

    n+ 1(nXn +Xn+1

    )nS2n+1 = (n− 1)S2n +

    n

    n+ 1(Xn+1 −Xn

    )2En primer lugar, al ser X,Y independientes tambien lo son X2 y Y . Por ello

    cov(X,XY ) = E[X2Y ] − E[X ]E[XY ] = E[Y ]E[X2] − E[Y ](E[X ])2

    es decir, cov(X,XY ) = E[Y ][E[X2] − (E[X ])2] = E[Y ]V [X ].

    En segundo lugar, si la función de densidad es simétrica con respecto a E[X ]

    E[(X − E[X ])3] = 0 = E [X3 − 3X2E[X ] + 3X (E[X ])2 − (E[X ])3]

    = E[X3]− 3E [X2]E[X ] + 2 (E[X ])3

    con lo cual E[X3]

    = 3E[X2]E[X ] − 2 (E[X ])3.

    cov(X,X2) = E[X3]− E[X ]E[X2]

    = 3E[X2]E[X ] − 2 (E[X ])3 − E[X ]E[X2]= 2E[X ]E[X2] − 2 (E[X ])3= 2E[X ]

    [E[X2] − (E[X ])2]

    = 2E[X ]V [X ]

    Por último,

    Xn+1 =1

    n+ 1

    n+1∑i=1

    Xi =1

    n+ 1

    [n∑

    i=1

    Xi +Xn+1

    ]=

    1n+ 1

    [nXn +Xn+1

    ]

  • 1.7. DEMOSTRACIÓN DE LOS TEOREMAS DEL CAPÍTULO 35

    nS2n+1 =n+1∑i=1

    (Xi −Xn+1

    )2=

    n+1∑i=1

    (Xi −Xn +Xn −Xn+1

    )2=

    n+1∑i=1

    [(Xi −Xn

    )2+ 2(Xn −Xn+1

    ) (Xi −Xn

    )+(Xn −Xn+1

    )2]= (n− 1)S2n +

    (Xn+1 −Xn

    )2+ 2(Xn −Xn+1

    ) n∑i=1

    (Xi −Xn

    )+ 2(Xn −Xn+1

    ) (Xn+1 −Xn

    )+ (n+ 1)

    (Xn −Xn+1

    )2como

    n∑i=1

    (Xi −Xn

    )= 0,

    nS2n+1 = (n− 1)S2n +(Xn+1 −Xn

    )2+ 2(Xn −Xn+1

    ) (Xn+1 −Xn

    )+ (n+ 1)

    (Xn −Xn+1

    )2= (n− 1)S2n +

    (Xn+1 −Xn

    )2+(Xn −Xn+1

    ) [2Xn+1 + (n− 1)Xn − (n+ 1)Xn+1

    ]realizando los reemplazos:

    (n+ 1)Xn+1 = nXn +Xn+1 y Xn −Xn+1 = 1n+ 1

    (Xn −Xn+1

    )

    nS2n+1 = (n− 1)S2n +(Xn+1 −Xn

    )2+

    (Xn −Xn+1

    )n+ 1

    [2Xn+1 + (n− 1)Xn −

    (nXn +Xn+1

    )]= (n− 1)S2n +

    (Xn+1 −Xn

    )2 − (Xn+1 −Xn)n+ 1

    (Xn+1 −Xn

    )= (n− 1)S2n +

    n

    n+ 1(Xn+1 −Xn

    )2Entrando en materia, teniendo en cuenta que E[Xi] = μ, V [Xi] = σ2, parai = 1, 2, . . . , n, al considerar una muestra de tamaño n = 2,

    S22 =1

    2 − 12∑

    i=1

    (Xi −X2

    )2=

    (X1 −X2)22

  • 36 CAPÍTULO 1. DISTRIBUCIONES MUESTRALES

    cov(X2, S

    22

    )= cov

    (X1 +X2

    2,(X1 −X2)2

    2

    )=

    14cov(X1 +X2, (X1 −X2)2

    )=

    14[cov(X1 +X2, X21 − 2X1X2 +X22

    )]=

    14[cov(X1, X21 ) − 2cov(X1, X1X2) + cov

    (X1, X

    22

    )]+

    14[cov(X2, X21 ) − 2cov(X2, X1X2) + cov

    (X2, X

    22

    )]=

    14

    [2E[X1]V [X1] − 2E[X2]V [X1] − 2E[X1]V [X2] + 2E[X2]V [X2]]

    porque X1 tiene la misma distribución de X2 y además son variables indepen-dientes,

    cov(X2, S

    22

    )=

    14(2μσ2 − 2μσ2 − 2μσ2 + 2μσ2) = 0

    Por hipótesis de inducción cov(Xn, S

    2n

    )= 0. Ahora para una muestra de

    tamaño n+ 1, cov(Xn+1, S

    2n+1

    )= Δ

    Δ = cov(

    n

    n+ 1Xn +

    1n+ 1

    Xn+1, (n− 1)S2n +1

    n+ 1(Xn+1 −Xn

    )2)=n− 1n+ 1

    cov(Xn, S

    2n

    )+

    n

    (n+ 1)2cov(Xn,(Xn+1 −Xn

    )2)+

    n− 1n(n+ 1)

    cov(Xn+1, S

    2n

    )+

    1(n+ 1)2

    cov(Xn+1,

    (Xn+1 −Xn

    )2)como cov

    (Xn, S

    2n

    )= 0 y Xn+1, S2n son independientes,

    cov(Xn+1, S

    2n+1

    )=

    n

    (n+ 1)2cov(Xn,(Xn+1 −Xn

    )2)+

    1(n+ 1)2

    cov(Xn+1,

    (Xn+1 −Xn

    )2)Ahora bien,

    cov(Xn,(Xn+1 −Xn

    )2)= cov

    (Xn, X

    2n+1 − 2XnXn+1 +X

    2

    n

    )= cov

    (Xn, X

    2n+1

    )− 2cov (Xn, XnXn+1)+ cov

    (Xn, X

    2

    n

    )= −2E[Xn+1]σ

    2

    n+ 2E[Xn] σ2n

    = −2μσ2

    n+ 2μ

    σ2

    n= 0

  • 1.7. DEMOSTRACIÓN DE LOS TEOREMAS DEL CAPÍTULO 37

    cov(Xn+1,

    (Xn+1 −Xn

    )2)= cov

    (Xn+1, X

    2n+1 − 2XnXn+1 +X

    2

    n

    )= cov

    (Xn+1, X

    2n+1

    )− 2cov