Catedrático de Estadística e I.O. de La UDC

download Catedrático de Estadística e I.O. de La UDC

of 79

description

buyb7ybyb898h87hy8h88

Transcript of Catedrático de Estadística e I.O. de La UDC

http://dm.udc.es/asignaturas/estadistica2/estadistica_2.htmJuan Vilar Catedrtico de Estadstica e I.O. de la UDC

Web personal:http://dm.udc.es/profesores/juanvilar E-mail:[email protected]

ndice GeneralConceptos bsicos de Inferencia Estadstica

1 Conceptos bsicos de Inferencia Estadstica. 1.1 Objetivos de la Inferencia Estadstica. 1.2 Inferencia Estadstica. Conceptos bsicos. 1.3 Contraste o test de hiptesis. Definiciones. 1.3.1 Definiciones bsicas. 1.3.2 Pasos a seguir en la realizacin de un contraste de hiptesis. 1.3.3 Tipos de Error en un contraste de hiptesis. 1.3.4 Nivel crtico y regin crtica. 1.3.5 Potencia de un contraste. 1.3.6 Algunos contrastes paramtricos importantes.

Teora de Diseo de Experimentos

2 Principios bsicos del diseo de experimentos. 2.1 Introduccin. 2.2 Tipos de variabilidad. 2.3 Planificacin de un experimento. 2.4 Resumen de los principales conceptos. 2.5 Principios bsicos del diseo de experimentos. 2.6 Algunos diseos experimentales clsicos 2.6.1 Diseo completamente aleatorizados. 2.6.2 Diseo en bloques o con un factor bloque. 2.6.3 Diseos con dos o ms factores bloque. 2.6.4 Diseos con dos o ms factores. 2.6.5 Diseos factoriales a dos niveles. 3 Diseos con una fuente de variacin. 3.1 Introduccin.3.2 Modelo matemtico del diseo completamente aleatorizado.3.3 Estimacin de los parmetros. 3.3.1 Estimadores por mxima-verosimilitud. 3.3.2 Estimadores por mnimo-cuadrticos. 3.3.3 Estimacin puntual de la varianza.3.4 Anlisis de la varianza de una va. 3.4.1 Idea general. 3.4.2 Descomposicin de la variabilidad.3.5 Inferencia de los parmetros del modelo. 3.5.1 Intervalos de confianza de los parmetros. 3.5.2 Concepto de contraste. 3.5.3 Contrastes mltiples.3.6 Anlisis de un caso de diseo con un factor fijo3.7 Efectos aleatorios.3.7.1 El modelo matemtico de un factor aleatorio. 3.7.2 Contraste de varianza nula de los efectos tratamiento. 3.7.3 Anlisis de un caso de diseo con un factor aleatorio.4 Chequeo del modelo de diseo de experimentos con un factor. 4.1 Hiptesis bsicas del modelo.4.2 Bondad del ajuste del modelo.4.3 Normalidad de los errores. 4.3.1 Grficos de normalidad 4.3.2 Contrastes de bondad de ajuste4.4 Homocedasticidad de los errores.4.5 La familia de transformaciones de Box-Cox.4.6 Homogeneidad de los errores. Datos atpicos.4.7 Independencia de los errores. 4.7.1 Grficos para detectar dependencia. 4.7.2 Contrastes para detectar dependencias.4.8 Contraste de Kruskal-Wallis. Alternativa no paramtrica al Anova. 5 Diseo de experimentos clsicos 5.1 Concepto de bloque.5.2 Diseo en bloques completamente aleatorizados. 5.2.1 Modelo matemtico. 5.2.2 Estimacin de los parmetros. 5.2.3 Anlisis de la varianza. 5.2.4 Anlisis de residuos. 5.2.5 Anlisis de un caso 5.3 La interaccin entre factores.5.4 Modelos de dos factores-tratamiento. 5.4.1 Modelo matemtico. 5.4.2 Estimacin de los parmetros. 5.4.3 Descomposicin de la variabilidad 5.4.4 Anlisis de un caso5.5 Diseo factorial con tres factores. 5.6 Fracciones factoriales. El cuadrado latino. 5.6.1 El modelo de cuadrado latino. 5.6.2 Anlisis de un caso.Teora de Regresin Lineal

6 El modelo de regresin lineal simple. 6.1 Introduccin a los modelos de regresin. Objetivos. 6.2 Clasificacin de los modelos de regresin. 6.3 El modelo de regresin lineal simple. 6.3.1 Formulacin matemtica del modelo. 6.3.2 Estimacin de los parmetros del modelo. 6.3.3 Propiedades de los estimadores. 6.4 Interpretacin geomtrica del modelo. 6.5 contrastes sobre os parmetros del modelo. 6.6 Tabla ANOVA. El contraste de regresin. 6.7 El contraste de linealidad. 6.8 Coeficiente de determinacin. Coeficiente de correlacin. 6.9 Prediccin en regresin lineal simple. 6.9.1 Estimacin de las medias condicionadas. 6.9.2 Prediccin de una observacin. 6.10 Modelo de regresin lineal con regresor estocstico. 6.11 Anlisis de un caso de un modelo de regresin lineal simple.

7 Chequeo del modelo de regresin lineal simple. Anlisis de residuos. 7.1 Problemas en el ajuste de un modelo de regresin lineal simple. 7.2 La hiptesis de linealidad. Transformaciones 7.3 Anlisisi de residuos.Grficos. 7.3.1 Residuos. Tipos 7.3.2.Grficos de residuos. 7.4 Observaciones influyentes 7.5 Las hiptesis bsicas del modelo 7.5.1 La hiptesis de normalidad. 7.5.2 La hiptesis de homocedasticidad 8 Modelo de regresin lineal mltiple. 8.1 Regresin Lineal General: el modelo matemtico 8.2 Estimacin de los parmetros del modelo. 8.3 Interpretacin geomtrica. 8.4 Propiedades de los estimadores. 8.4.1 Estimador de los coeficientes del modelo lineal 8.4.2 El estimador de la varianza. 8.4.3 Inferencia sobre los coeficientes del modelo 8.4.4 Teorema de Gauss-Markov. 8.5 El Anlisis de la Varianza. 8.5.1 Tabla ANOVA. El contraste conjunto de la F. 8.5.2 Contrastes individuales de la F. 8.6 Correlacin. 8.6.1 Coeficiente de correlacin mltiple. 8.6.2 Correlacin Parcial 8.7 Prediccin en el Modelo de Regresin Lineal Mltiple. 8.7.1 Estimacin de las medias condicionadas. 8.7.2 Prediccin de una observacin.8.8 Anlisis de un caso de un modelo de regresin lineal mltiple. 9 Chequeo del modelo de regresin lineal mltiple. 9.1 Problemas en el ajuste de un modelo de regresin lineal mltiple. 9.2 Multicolinealidad. 9.3 Anlisis de residuos. Grficos. 9.4 Hiptesis bsicas del modelo 9.4.1 Hiptesis de normalidad. 9.4.2 Hiptesis de homocedasticidad. 9.4.3 Hiptesis de independencia. 9.5 Anlisis de influencia. 9.5.1 Influencia a priori. Valor de influencia. 9.5.2 Influencia a posteriori. 9.6 Error de especificacin. 9.7 Seleccin de variables regresoras. 9.8 Criterios para la eleccin de un modelo de regresin. 10 Otros modelos de regresin . 10.1 Estimacin por mnimos cuadrados generalizados. 10.2 Estimacin robusta. 10.3 Estimacin polinmica. 10.4 Regresin con variables regresoras cualitativas. 10.5 Regresin con variable respuesta binaria. 10.6 Regresin contrada (ridge regression) 10.7 Regresin no lineal. 2.1 Introduccin.Los modelos de Diseo de experimentos son modelos estadsticos clsicos cuyo objetivo es averiguar si unos determinados factores influyen en la variable de inters y, si existe influencia de algn factor, cuantificarla. Ejemplos donde habra que utilizar estos modelos son los siguientes: En el rendimiento de un determinado tipo de mquinas (unidades producidas por da) se desea estudiar la influencia del trabajador que la maneja y la marca de la mquina.

Se quiere estudiar la influencia del tipo de pila elctrica y de la marca en la duracin de las pilas.

Una compaa telefnica est interesada en conocer la influencia de varios factores en la variable de inters la duracin de una llamada telefnica. Los factores que se consideran son los siguientes: hora a la que se produce la llamada; da de la semana en que se realiza la llamada; zona de la ciudad desde la que se hace la llamada; sexo del que realiza la llamada; tipo de telfono (pblico o privado) desde el que se realiza la llamada.

Una compaa de software est interesada en estudiar la variable porcentaje que se comprime un fichero al utilizar un programa que comprime ficheros teniendo en cuenta el tipo de programa utilizado y el tipo de fichero que se comprime.

Se quiere estudiar el rendimiento de los alumnos en una asignatura y, para ello, se desean controlar diferentes factores: profesor que imparte la asignatura; mtodo de enseanza; sexo del alumno.

La metodologa del diseo de experimentos se basa en la experimentacin. Es conocido que si se repite un experimento, en condiciones indistinguibles, los resultados presentan variabilidad que puede ser grande o pequea. Si la experimentacin se realiza en un laboratorio donde la mayora de las causas de variabilidad estn muy controladas, el error experimental ser pequeo y habr poca variacin en los resultados del experimento. Pero si se experimenta en procesos industriales, administrativos, ... la variabilidad es grande en la mayora de los casos. El objetivo del diseo de experimentos es estudiar si utilizar un determinado tratamiento produce una mejora en el proceso o no. Para ello se debe experimentar utilizando el tratamiento y no utilizndolo. Si la variabilidad experimental es grande, slo se detectar la influencia del uso del tratamiento cuando ste produzca grandes cambios en relacin con el error de observacin.La metodologa del Diseo de Experimentos estudia cmo variar las condiciones habituales de realizacin de un proceso emprico para aumentar la probabilidad de detectar cambios significativos en la respuesta, de esta forma se obtiene un mayor conocimiento del comportamiento del proceso de inters.Para que la metodologa de diseo de experimentos sea eficaz es fundamental que el experimento est bien diseado. Un experimento se realiza por alguno de los siguientes motivos: * Determinar las principales causas de variacin en la respuesta. * Encontrar las condiciones experimentales con las que se consigue un valor extremo en la variable de inters o respuesta. * Comparar las respuestas en diferentes niveles de observacin de variables controladas. * Obtener un modelo estadstico-matemtico que permita hacer predicciones de respuestas futuras. La utilizacin de los modelos de diseo de experimentos se basa en la experimentacin y en el anlisis de los resultados que se obtienen en un experimento bien planificado. En muy pocas ocasiones es posible utilizar estos mtodos a partir de datos disponibles o datos histricos, aunque tambin se puede aprender de los estudios realizados a partir de datos recogidos por observacin, de forma aleatoria y no planificada. En el anlisis estadstico de datos histricos se pueden cometer diferentes errores, los ms comunes son los siguientes: Inconsistencia de los datos. Los procesos cambian con el tiempo, se producen cambios en el personal (cambios de personas, mejoras del personal por procesos de aprendizaje, motivacin, ...), cambios en las mquinas (reposiciones, reparaciones, envejecimiento, ...). Estos cambios tienen influencia en los datos recogidos, lo que hace que los datos histricos sean poco fiables, sobre todo si se han recogido en un amplio espacio de tiempo. Variables con fuerte correlacin. Puede ocurrir que en el proceso existan dos o ms variables altamente correlacionadas que pueden llevar a situaciones confusas. Por ejemplo, en el proceso hay dos variables X1 y X2 fuertemente correlacionadas que influyen en la respuesta, pero si en los datos que se tiene aumenta al mismo tiempo el valor de las dos variables no es posible distinguir si la influencia es debida a una u otra o a ambas variables (confusin de los efectos). Otra situacin problemtica se presenta si solo se dispone de datos de una variable (por ejemplo de X1 y no de X2), lo que puede llevar a pensar que la variable influyente es la X1 cuando, en realidad, la variable influyente es la X2 (variable oculta). El rango de las variables controladas es limitado. Si el rango de una de las variables importantes e influyentes en el proceso es pequeo, no se puede saber su influencia fuera de ese rango y puede quedar oculta su relacin con la variable de inters o lo cambios que se producen en la relacin fuera del rango observado. Esto suele ocurrir cuando se utilizan los datos recogidos al trabajar el proceso en condiciones normales y no se experimenta (cambiando las condiciones de funcionamiento) para observar el comportamiento del proceso en situaciones nuevas.2.2 Tipos de variabilidad.Uno de los principales objetivos de los modelos estadsticos y, en particular, de los modelos de diseo de experimentos, es controlar la variabilidad de un proceso estocstico que puede tener diferente origen. De hecho, los resultados de cualquier experimento estn sometidos a tres tipos de variabilidad cuyas caractersticas son las siguientes: Variabilidad sistemtica y planificada. Esta variabilidad viene originada por la posible dispersin de los resultados debida a diferencias sistemticas entre las distintas condiciones experimentales impuestas en el diseo por expreso deseo del experimentador. Es el tipo de variabilidad que se intenta identificar con el diseo estadstico. Cuando este tipo de variabilidad est presente y tiene un tamao importante, se espera que las respuestas tiendan a agruparse formando grupos (clusters). Es deseable que exista esta variabilidad y que sea identificada y cuantificada por el modelo. Variabilidad tpica de la naturaleza del problema y del experimento. Es la variabilidad debida alruido aleatorio. Este trmino incluye, entre otros, a la componente de variabilidad no planificada denominada error de medida. Es una variabilidad impredecible e inevitable. Esta variablidad es la causante de que si en un laboratorio se toman medidas repetidas de un mismo objeto ocurra que, en muchos casos, la segunda medida no sea igual a la primera y, ms an, no se puede predecir sin error el valor de la tercera. Sin embargo, bajo el aparente caos, existe un patrn regular de comportamiento en esas medidas: todas ellas tendern a fluctuar en torno a un valor central y siguiendo un modelo de probabilidad que ser importante estimar. Esta variabilidad es inevitable pero, si el experimento ha sido bien planificado, es posible estimar (medir) su valor, lo que es de gran importancia para obtener conclusiones y poder hacer predicciones. Es una variabilidad que va a estar siempre presente pero que es tolerable. Variabilidad sistemtica y no planificada. Esta variabilidad produce una variacin sistemtica en los resultados y es debida a causas desconocidas y no planificadas. En otras palabras, los resultados estn siendo sesgados sistemticamente por causas desconocidas. La presencia de esta variabilidad supone la principal causa de conclusiones errneas y estudios incorrectos al ajustar un modelo estadstico. Como se estudiar posteriormente, existen dos estrategias bsicas para tratar de evitar la presencia de este tipo de varibilidad: la aleatorizacin y la tcnica de bloques. Este tipo de variabilidad debe de intentar evitarse y su presencia lleva a conclusiones errneas.2.3 Planificacin de un experimento.La experimentacin forma parte natural de la mayora de las investigaciones cientficas e industriales, en muchas de las cuales, los resultados del proceso de inters se ven afectados por la presencia de distintos factores, cuya influencia puede estar oculta por la variabilidad de los resultados muestrales. Es fundamental conocer los factores que influyen realmente y estimar esta influencia. Para conseguir sto es necesario experimentar, variar las condiciones que afectan a las unidades experimentales y observar la variable respuesta. Del anlisis y estudio de la informacin recogida se obtienen las conclusiones. La forma tradicional que se utilizaba en la experimentacin, para el estudio de estos problemas, se basaba en estudiar los factores uno a uno, sto es, variar los niveles de un factor permaneciendo fijos los dems. Esta metodologa presenta grandes inconvenientes: * Es necesario un gran nmero de pruebas. * Las conclusiones obtenidas en el estudio de cada factor tiene un campo de validez muy restringido. * No es posible estudiar la existencia de interaccin entre los factores. * Es inviable, en muchos casos, por problemas de tiempo o costo. Las tcnicas de diseo de experimentos se basan en estudiar simultaneamente los efectos de todos los factores de inters, son ms eficaces y proporcionan mejores resultados con un menor coste. A continuacin se enumeran las etapas que deben seguirse para una correcta planificacin de un diseo experimental, etapas que deben ser ejecutadas de forma secuencial. Tambin se introducen algunos conceptos bsicos en el estudio de los modelos de diseo de experimentos. Las etapas a seguir en el desarrollo de un problema de diseo de experimentos son las siguientes: 1. Definir los objetivos del experimento. 2. Identificar todas las posibles fuentes de variacin, incluyendo: factores tratamiento y sus niveles, unidades experimentales, factores nuisance (molestos): factores bloque, factores ruido y covariables.3. Elegir una regla de asignacin de las unidades experimentales a las condiciones de estudio (tratamientos). 4. Especificar las medidas con que se trabajar (la respuesta), el procedimiento experimental y anticiparse a las posibles dificultades. 5. Ejecutar un experimento piloto. 6. Especificar el modelo. 7. Esquematizar los pasos del anlisis. 8. Determinar eltamao muestral. 9. Revisar las decisiones anteriores. Modificarlas si se considera necesario.Los pasos del listado anterior no son independientes y en un determinado momento puede ser necesario volver atrs y modificar decisiones tomadas en algn paso previo. A continuacin se hace una breve descripcin de las decisiones que hay que tomar en cada uno de los pasos enumerados. Slo despus de haber tomado estas decisiones se proceder a realizar el experimento. 1.- Definir los objetivos del experimento. Se debe hacer una lista completa de las preguntas concretas a las que debe dar respuesta el experimento. Es importante indicar solamente cuestiones fundamentales ya que tratar de abordar problemas colaterales pueden complicar innecesariamente el experimento. Una vez elaborada la lista de objetivos, puede ser til esquematizar el tipo de conclusiones que se espera obtener en el posterior anlisis de datos. Normalmente la lista de objetivos es refinada a medida que se van ejecutando las etapas del diseo de experimentos. 2.- Identificar todas las posibles fuentes de variacin. Una fuente de variacines cualquier cosa que pueda generar variabilidad en la respuesta. Es recomendable hacer una lista de todas las posibles fuentes de variacin del problema, distinguiendo aquellas que, a priori, generarn una mayor variabilidad. Se distinguen dos tipos: - Factores tratamiento: son aquellas fuentes cuyo efecto sobre la respuesta es de particular inters para el experimentador. - Factores nuisance: son aquellas fuentes que no son de inters directo pero que se contemplan en el diseo para reducir la variabilidad no planificada. A continuacin se precisan ms estos importantes conceptos. (i) Factores y sus niveles. Se denomina factor tratamiento a cualquier variable de inters para el experimentador cuyo posible efecto sobre la respuesta se quiere estudiar. Los niveles de un factor tratamiento son los tipos o grados especficos del factor que se tendrn en cuenta en la realizacin del experimento. Los factores tratamiento pueden ser cualitativos o cuantitativos. Ejemplos de factores cualitativos y sus niveles respectivos son los siguientes: proveedor (diferentes proveedores de una materia prima), tipo de mquina (diferentes tipos o marcas de mquinas), trabajador (los trabajadores encargados de hacer una tarea), tipo de procesador (los procesadores de los que se quiere comparar su velocidad de ejecucin), un aditivo qumico (diferentes tipos de aditivos qumicos), el sexo (hombre y mujer), un mtodo de enseanza (un nmero determinado de mtodos de enseanza cuyos resultados se quieren comparar). Ejemplos de factores cuantitativos son los siguientes: tamao de memoria (diferentes tamaos de memoria de ordenadores), droga (distintas cantidades de la droga), la temperatura (conjuntos de temperaturas seleccionadas en unos rangos de inters). Debe tenerse en cuenta que en el tratamiento matemtico de los modelos de diseo de experimento los factores cuantitativos son tratados como cualitativos y sus niveles son elegidos equiespaciados o se codifican. Por lo general,un factor no suele tener ms de cuatro niveles. Cuando en un experimento se trabaja con ms de un factor, se denomina: Tratamiento a cada una de las combinaciones de niveles de los distintos factores. Observacin es una medida en las condiciones determinadas por uno de los tratamientos. Experimento factorial es el diseo de experimentos en que existen observaciones de todos los posibles tratamientos. (ii) Unidades experimentales. Son el material donde evaluar la variable respuesta y al que se le aplican los distintos niveles de los factores tratamiento. Ejemplos de unidades experimentales son: en informtica, ordenadores, pginas web, buscadores de internet, en agricultura, parcelas de tierra, en medicina, individuos humanos u animales, en industria, lotes de material, trabajadores, mquinas. Cuando un experimento se ejecuta sobre un perodo de tiempo de modo que las observaciones se recogen secuencialmente en instantes de tiempo determinados, entonces los propios instantes de tiempo pueden considerarse unidades experimentales. Es muy importante que las unidades experimentales sean representativas de la poblacin sobre la que se han fijado los objetivos del estudio. Por ejemplo, si se utilizan los estudiantes universitarios de un pas como unidades experimentales, las conclusiones del experimento no son extrapolables a toda la poblacin adulta del pas. (iii) Factores nuisance: bloques, factores ruido y covariables. En cualquier experimento, adems de los factores tratamiento cuyo efecto sobre la respuesta se quiere evaluar, tambin influyen otros factores, de escaso inters en el estudio, pero cuya influencia sobre la respuesta puede aumentar significativamente la variabilidad no planificada. Con el fin de controlar esta influencia pueden incluirse en el diseo nuevos factores que, atendiendo a su naturaleza, pueden ser de diversos tipos. Factor bloque. En algunos casos el factor nuisance puede ser fijado en distintos niveles, de modo que es posible controlar su efecto a esos niveles. Entonces la forma de actuar es mantener constante el nivel del factor para un grupo de unidades experimentales, se cambia a otro nivel para otro grupo y as sucesivamente. Estos factores se denominan factores de bloqueo (factores-bloque) y las unidades experimentales evaluadas en un mismo nivel del bloqueo se dice que pertenecen al mismo bloque. Incluso cuando el factor nuisance no es medible, a veces es posible agrupar las unidades experimentales en bloques de unidades similares: parcelas de tierra contiguas o perodos de tiempo prximos probablemente conduzcan a unidades experimentales ms parecidas que parcelas o perodos distantes. Desde un punto de vista matemtico el tratamiento que se hace de los factores-bloque es el mismo que el de los factores-tratamiento en los que no hay interaccin, pero su concepto dentro del modelo de diseo de experimentos es diferente. Un factor-tratamiento es un factor en el que se est interesado en conocer su influencia en la variable respuesta y un factor-bloque es un factor en el que no se est interesado en conocer su influencia pero se incorpora al diseo del experimento para disminuir la variabilidad residuas del modelo. Covariable. Si el factor nuisance es una propiedad cuantitativa de las unidades experimentales que puede ser medida antes de realizar el experimento (el tamao de un fichero informtico, la presin sangunea de un paciente en un experimento mdico o la acidez de una parcela de tierra en un experimento agrcola). El factor se denomina covariable y juega un papel importante en el anlisis estadstico. Ruido. Si el experimentador est interesado en la variabilidad de la respuesta cuando se modifican las condiciones experimentales, entonces los factores nuisance son incluidos deliberadamente en el experimento y no se aisla su efecto por medio de bloques. Se habla entonces defactores ruido. En resumen, las posibles fuentes de variacin de un experimento son:

Fuente Tipo

Debida a las condiciones de inters

(Factores tratamiento)

Planificada y sistemtica

Debida al resto de condiciones controladas

(Factores nuisance)

Planificada y sistemtica

Debida a condiciones no controladas

(error de medida, material experimental,... )

No planificada, pero sistemtica?

3.- Elegir una regla de asignacin de las unidades experimentales a las condiciones de estudio (tratamientos). Laregla de asignacin o diseo experimental especifica que unidades experimentales se observarn bajo cada tratamiento. Hay diferentes posibilidades: diseo factorial o no, anidamiento, asignacin al azar en determinados niveles de observacin, el orden de asignacin, etc. En la prctica, existen una serie de diseos estndar que se utilizan en la mayora de los casos. 4.- Especificar las medidas que se realizarn (la respuesta), el procedimiento experimental y anticiparse a las posibles dificultades. Variable respuesta o variable de inters. Los datos que se recogen en un experimento son medidas de una variable denominada variable respuesta o variable de inters. Es importante precisar de antemano cul es la variable respuesta y en qu unidades se mide. Naturalmente, la respuesta est condicionada por los objetivos del experimento. Por ejemplo, si se desea detectar una diferencia de 0'05 gramos en la respuesta de dos tratamientos no es apropiado tomar medidas con una precisin prxima al gramo. A menudo aparecen dificultades imprevistas en la toma de datos. Es conveniente anticiparse a estos imprevistos pensando detenidamente en los problemas que se pueden presentar o ejecutando un pequeo experimento piloto (etapa 5). Enumerar estos problemas permite en ocasiones descubrir nuevas fuentes de variacin o simplificar el procedimiento experimental antes de comenzar. Tambin se debe especificar con claridad la forma en que se realizarn las mediciones: instrumentos de medida, tiempo en el que se harn las mediciones, etc. 5.- Ejecutar un experimento piloto. Un experimento piloto es un experimento que utiliza un nmero pequeo de observaciones. El objetivo de su ejecucin es ayudar a completar y chequear la lista de acciones a realizar. Las ventajas que proporciona la realizacin de un pequeo experimento piloto son las siguientes: permite practicar la tcnica experimental elegida e identificar problemas no esperados en el proceso de recogida de datos, si el expeerimento piloto tiene un tamao suficientemente grande puede ayudar a seleccionar un modelo adecuado al experimento principal, los errores experimentales observados en el experimento piloto pueden ayudar a calcular el nmero de observaciones que se precisan en el experimento principal. 6.- Especificar el modelo. El modelo matemtico especificado debe indicar la relacin que se supone que existe entre la variable respuesta y las principales fuentes de variacin identificadas en el paso 2. Es fundamental que el modelo elegido se ajuste a la realidad con la mayor precisin posible. El modelo ms habitual es el modelo lineal:

En este modelo la respuesta viene dada por una combinacin lineal de trminos que representan las principales fuentes de variacin planificada ms un trmino residual debido a las fuentes de variacin no planificada. Los modelos que se estudian en este texto se ajustan a esta forma general. El experimento piloto puede ayudar a comprobar si el modelo se ajusta razonablemente bien a la realidad. Los modelos de diseo de experimentos, segn sean los factores includos en el mismo, se pueden clasificar en: modelo de efectos fijos, modelo de efectos aleatorios y modelos mixtos. A continuacin se precisan estas definiciones. Factor de efectos fijos es un factor en el que los niveles han sido seleccionados por el experimentador. Es apropiado cuando el inters se centra en comparar el efecto sobre la respuesta de esos niveles especficos. Ejemplo: un empresario est interesado en comparar el rendimiento de tres mquinas del mismo tipo que tiene en su empresa. Factor de efectos aleatorios es un factor del que slo se incluyen en el experimento una muestra aleatoria simple de todos los posibles niveles del mismo. Evidentemente se utilizan estos factores cuando tienen un nmero muy grande de niveles y no es razonable o posible trabajar con todos ellos. En este caso se est interesado en examinar la variabilidad de la respuesta debida a la poblacin entera de niveles del factor. Ejemplo: una cadena de hipermercados que tiene en plantilla 300 trabajadores de caja est interesada en estudiar la influencia del factor trabajador en la variable tiempo en el cobro a un cliente. Modelo de efectos fijos es un modelo en el que todos los factores son factores de efectos fijos. Modelo de efectos aleatorios es un modelo en el que todos los factores son factores de efectos aleatorios. Modelo mixto es un modelo en el que hay factores de efectos fijos y factores de efectos aleatorios. 7.- Esquematizar los pasos del anlisis estadstico. El anlisis estadstico a realizar depende de: los objetivos indicados en el paso1, el diseo seleccionado en el paso3, el modelo asociado que se especific en el paso5. Se deben esquematizar los pasos del anlisis a realizar que deben incluir: estimaciones que hay que calcular, contrastes a realizar, intervalos de confianza que se calcularn diagnosis y crtica del grado de ajuste del modelo a la realidad. 8.- Determinar el tamao muestral. Calcular el nmero de observaciones que se deben tomar para alcanzar los objetivos del experimento. Existen, dependiendo del modelo, algunas frmulas para determinar este tamao. Todas ellas sin embargo requieren el conocimiento del tamao de la variabilidad no planificada (no sistemtica y sistemtica, si es el caso) y estimarlo a priori no es fcil, siendo aconsejable sobreestimarla. Normalmente se estima a partir del experimento piloto y en base a experiencias previas en trabajos con diseos experimentales semejantes. 9.- Revisar las decisiones anteriores. Modificar si es necesario. De todas las etapas enumeradas, el proceso de recogida de datos suele ser la tarea que mayor tiempo consume, pero es importante realizar una planificacin previa, detallando los pasos anteriores, lo que garantizar que los datos sean utilizados de la forma ms eficiente posible. Es fundamental tener en cuenta que Ningn mtodo de anlisis estadstico, por sofisticado que sea, permite extraer conclusiones correctas en un diseo de experimentos mal planificado.Recprocamente, debe quedar claro que el anlisis estadstico es una etapa ms que est completamente integrado en el proceso de planificacin. El anlisis estadstico no es un segundo paso independiente de la tarea de planificacin. Es necesario comprender la totalidad de objetivos propuestos antes de comenzar con el anlisis. Si no se hace as, tratar que el experimento responda a otras cuestiones a posteriori puede ser (lo ser casi siempre) imposible.Pero no slo los objetivos estn presentes al inicio del anlisis sino tambin la tcnica experimental empleada. Una regla de oro en la experimentacin y que debe utilizarse es la siguiente: No invertir nunca todo el presupuesto en un primer conjunto de experimentos y utilizar en su diseo toda la informacin previa disponible.Finalmente indicar que todas las personas que trabajan en el experimento se deben implicar en el mismo, esto es: Toda persona implicada en la ejecucin del experimento y en la recoleccin de los datos debe ser informada con precisin de la estrategia experimental diseada.2.4 Resumen de los pricipales conceptos.En esta seccin se hace un resumen de la terminologa comn utilizada en la teora de los modelos de diseo de experimentos: Unidad experimental: son los objetos, individuos, intervalos de espacio o tiempo sobre los que se experimenta.

Variable de inters o respuesta: es la variable que se desea estudiar y controlar su variabilidad.

Factor: son las variables independientes que pueden influir en la variabilidad de la variable de inters.

Factor tratamiento: es un factor del que interesa conocer su influencia en la respuesta.

Factor bloque: es un factor en el que no se est interesado en conocer su influencia en la respuesta pero se supone que sta existe y se quiere controlar para disminuir la variabilidad residual.

Niveles: cada uno de los resultados de un factor. Segn sean elegidos por el experimentador o elegidos al azar de una amplia poblacin se denominan factores de efectos fijos o factores de efectos aleatorios.

Tratamiento: es una combinacin especfica de los niveles de los factores en estudio. Son, por tanto, las condiciones experimentales que se desean comparar en el experimento. En un diseo con un nico factor son los distintos niveles del factor y en un diseo con varios factores son las distintas combinaciones de niveles de los factores.

Observacin experimental: es cada medicin de la variable respuesta.

Tamao del Experimento: es el nmero total de observaciones recogidas en el diseo.

Interaccin de factores: existe interaccin entre dos factores FI y FJ si el efecto de algn nivel de FI cambia al cambiar de nivel en FJ. Esta definicin puede hacerse de forma simtrica y se puede generalizar a interacciones de orden tres o superior.

Ortogonalidad de factores: dos factores FI y FJ con I y J niveles, respectivamente, son ortogonales si en cada nivel i de FI el nmero de observaciones de los J niveles de FJ estn en las mismas proporciones. Esta propiedad permite separar los efectos simples de los factores en estudio.

Diseo equilibrado o balanceado: es el diseo en el que todos los tratamientos son asignados a un nmero igual de unidades experimentales.

2.5 Principios bsicos en el diseo de experimentos.Al planificar un experimento hay tres tres principios bsicos que se deben tener siempre en cuenta: El principio de aleatorizacin. El bloqueo. La factorizacin del diseo. Los dos primeros (aleatorizar y bloquear) son estrategias eficientes para asignar los tratamientos a las unidades experimentales sin preocuparse de qu tratamientos considerar. Por el contrario, la factorizacin del diseo define una estrategia eficiente para elegir los tratamientos sin considerar en absoluto como asignarlos despus a las unidades experimentales. Aleatorizar Aleatorizar todos los factores no controlados por el experimentador en el diseo experimental y que puden influir en los resultados sern asignados al azar a las unidades experimentales.Ventajas de aleatorizar los factores no controlados: Transforma la variabilidad sistemtica no planificada en variabilidad no planificada o ruido aleatorio. Dicho de otra forma, aleatorizar previene contra la introduccin de sesgos en el experimento. Evita la dependencia entre observaciones al aleatorizar los instantes de recogida muestral. Valida muchos de los procedimientos estadsticos ms comunes. Bloquear Se deben dividir o particionar las unidades experimentales en grupos llamados bloques de modo que las observaciones realizadas en cada bloque se realicen bajo condiciones experimentales lo ms parecidas posibles. A diferencia de lo que ocurre con los factores tratamiento, el experimentador no est interesado en investigar las posibles diferencias de la respuesta entre los niveles de los factores bloque.Bloquear es una buena estrategia siempre y cuando sea posible dividir las unidades experimentales en grupos de unidades similares. La ventaja de bloquear un factor que se supone que tienen una clara influencia en la respuesta pero en el que no se est interesado, es la siguiente: Convierte la variabilidad sistemtica no planificada en variabilidad sistemtica planificada. Con el siguiente ejemplo se trata de indicar la diferencia entre las estrategias de aleatorizar y de bloquear en un experimento. Ejemplo2.1. Se desea investigar las posibles diferencias en la produccin de dos mquinas, cada una de las cuales debe ser manejada por un operario. En el planteamiento de este problema la variable respuesta es la produccin de una mquina (en un da), el factor-tratamiento en el que se est interesado es el tipo de mquina que tiene dos niveles y un factor nuisance es el operario que maneja la mquina. En el diseo del experimento para realizar el estudio se pueden utilizar dos estrategias para controlar el factor operario que maneja la mquina. Aleatorizar: se seleccionan al azar dos grupos de operarios y se asigna al azar cada grupo de operarios a cada una de las dos mquinas. Finalmente se evala la produccin de las mismas. Bloquear: se introduce el factor-bloque operario. Se elige un nico grupo de operarios y todos ellos utilizan las dos mquinas. Qu consideraciones se deben tener en cuenta al utilizar estas dos estrategias? Qu estrategia es mejor? La factorizacin del diseo. Un diseo factorial es una estrategia experimental que consiste en cruzar los niveles de todos los factores tratamiento en todas las combinaciones posibles.Ventajas de utilizar los diseos factoriales: Permiten detectar la existencia de efectos interaccin entre los diferentes factores tratamiento. Es una estrategia ms eficiente que la estrategia clsica de examinar la influencia de un factor manteniendo constantes el resto de los factores.2.6 Algunos diseos experimentales clsicos.Un diseo experimental es una regla que determina la asignacin de las unidades experimentales a los tratamientos. Aunque los experimentos difieren unos de otros en muchos aspectos, existen diseos estndar que se utilizan con mucha frecuencia. Algunos de los ms utilizados son los siguientes: 2.6.1 Diseo completamente aleatorizado.El experimentador asigna las unidades experimentales a los tratamientos al azar. La nica restriccin es el nmero de observaciones que se toman en cada tratamiento. De hecho si ni esel nmero de observaciones en el i-simo tratamiento, i = 1,...,I, entonces, los valores n1,n2,...,nI determinan por completo las propiedades estadsticas del diseo. Naturalmente, este tipo de diseo se utiliza en experimentos que no incluyen factores bloque. El modelo matemtico de este diseo tiene la forma:

2.6.2 Diseo en bloques o con un factor bloque.En este diseo el experimentador agrupa las unidades experimentales en bloques, a continuacin determina la distribucin de los tratamientos en cada bloque y, por ltimo, asigna al azar las unidades experimentales a los tratamientos dentro de cada bloque. En el anlisis estadstico de un diseo en bloques, stos se tratan como los niveles de un nico factor de bloqueo, aunque en realidad puedan venir definidos por la combinacin de niveles de ms de un factor nuisance. El modelo matemtico de este diseo es:

El diseo en bloques ms simple es el denominado diseo en bloques completos, en el que cada tratamiento se observa el mismo nmero de veces en cada bloque. El diseo en bloques completos con una nica observacin por cada tratamiento se denomina diseo en bloques completamente aleatorizado o, simplemente, diseo en bloques aleatorizado. Cuando el tamao del bloque es inferior al nmero de tratamientos no es posible observar la totalidad de tratamientos en cada bloque y se habla entonces de diseo en bloques incompletos.2.6.3 Diseos con dos o ms factores bloque.En ocasiones hay dos (o ms) fuentes de variacin lo suficientemente importantes como para ser designadas factores de bloqueo. En tal caso, ambos factores bloque pueden ser cruzados o anidados. Los factores bloque estn cruzados cuando existen unidades experimentales en todas las combinaciones posibles de los niveles de los factores bloques. Diseo con factores bloque cruzados. Tambin denominado diseo fila-columna, se caracteriza porque existen unidades experimentales en todas las celdas (intersecciones de fila y columna). El modelo matemtico de este diseo es:

Los factores bloque estn anidados si cada nivel particular de uno de los factores bloque ocurre en un nico nivel del otro factor bloque. Diseo con factores bloque anidados o jerarquizados. Dos factores bloque se dicen anidados cuando observaciones pertenecientes a dos niveles distintos de un factor bloque estn automticamente en dos niveles distintos del segundo factor bloque. En la siguiente tabla puede observarse la diferencia entre ambos tipos de bloqueo.

Bloques CruzadosBloques Anidados

Bloque 1Bloque 1

1 2 3 1 2 3

1***1*

Bloque 22***2*

3***3*

Bloque 24*

5*

6*

7*

8*

9*

Tabla2.1:Plan esquemtico de experimentos con dos factores bloque

2.6.4 Diseos con dos o ms factores.En algunas ocasiones se est interesado en estudiar la influencia de dos (o ms) factores tratamiento, para ello se hace un diseo de filas por columnas. En este modelo es importante estudiar la posible interaccin entre los dos factores. Si en cada casilla se tiene una nica observacin no es posible estudiar la interaccin entre los dos factores, para hacerlo hay que replicar el modelo, esto es, obtener k observaciones en cada casilla, donde k es el nmero de rplicas. El modelo matemtico de este diseo es: Respuesta igual a constante mas efecto factor fila mas efecto factor columna mas efecto de interaccion mas errror Generalizar los diseos completos a ms de dos factores es relativamente sencillo desde un punto de vista matemtico, pero en su aspecto prctico tiene el inconveniente de que al aumentar el nmero de factores aumenta muy rpidamente el nmero de observaciones necesario para estimar el modelo. En la prctica es muy raro utilizar diseos completos con ms de factores. Un camino alternativo es utilizarfracciones factoriales que son diseos en los que se supone que muchas de las interacciones son nulas, esto permite estudiar el efecto de un nmero elevado de factores con un nmero relativamente pequeo de pruebas. Por ejemplo, el diseo en cuadrado latino, en el que se supone que todas las interacciones son nulas, permite estudiar tres factores de k niveles con solo k2 observaciones. Si se utilizase el diseo equilibrado completo se necesitan k3 observaciones. 2.6.5 Diseos factoriales a dos niveles.En el estudio sobre la mejora de procesos industriales (control de calidad) es usual trabajar en problemas en los que hay muchos factores que pueden influir en la variable de inters. La utilizacin de experimentos completos en estos problemas tiene el gran inconveniente de necesitar un nmero elevado de observaciones, adems puede ser una estrategia ineficaz porque, por lo general, muchos de los factores en estudio no son influyentes y mucha informacin recogida no es relevante. En este caso una estrategia mejor es utilizar una tcnica secuencial donde se comienza por trabajar con unos pocos factores y segn los resultados que se obtienen se eligen los factores a estudiar en la segunda etapa. Los diseos factoriales 2k son diseos en los que se trabaja con k factores, todos ellos con dos niveles (se suelen denotar + y -). Estos diseos son adecuados para tratar el tipo de problemas descritos porque permiten trabajar con un nmero elevado de factores y son vlidos para estrategias secuenciales. Si k es grande, el nmero de observaciones que necesita un diseo factorial 2k es muy grande (n = 2k). Por este motivo, las fracciones factoriales 2k-pson muy utilizadas, stas son diseos con k factores a dos niveles, que mantienen la propiedad de ortogonalidad de los factores y donde se suponen nulas las interacciones de orden alto (se confunden con los efectos simples) por lo que para su estudio solo se necesitan 2k-pobservaciones (cuanto mayor sea p menor nmero de observaciones se necesita pero mayor confusin de efectos se supone). En los ltimos aos Taguchi ha propuesto la utilizacin de fracciones factoriales con factores a tres niveles en problemas de control de calidad industrial.En el captulo 3 se expuso el diseo de experimentos ms sencillo, el modelo completamente aleatorizado, que tiene un factor tratamiento. Con el fin de reducir la variabilidad residual de este modelo se puede introducir en el mismo un factor-bloque para obtener el modelo de diseo en bloques completamente aleatorizados, primer modelo que se estudia en este captulo. El siguiente modelo, un poco ms complejo, es el modelo con dos factores tratamiento entre los que puede haber interaccin. El estudio de estos modelos es fcilmente generalizable a modelos con ms factores tratamiento y factores bloque. El ltimo modelo que se estudia en este captulo es el diseo fraccional de cuadrado latino, que es un buen ejemplo de diseo fraccional.5.1 Concepto de bloque.Al estudiar la influencia de un factor-tratamiento en una variable de inters puede ser importante eliminar (controlar) estadsticamente la influencia de un factor que puede influir en la variable respuesta. Para ello se utiliza el concepto de bloque, que se basa en seleccionar niveles de esta variable y aplicar en cada uno de ellos todos los niveles del factor principal, de esta forma disminuye la variabilidad residual o no explicada. Por tanto, un factor-bloque es un factor cuyo control puede reducir significativamente la variabilidad no explicada y que no interacciona con los factores principales. El siguiente ejemplo ayuda a comprender estas ideas. Ejemplo 5.1. Una empresa fotogrfica tiene que realizar una compra de impresoras de gran calidad que se van a utilizar en imprimir fotografas digitales. La empresa tiene ofertas de I marcas de impresoras de similares caractersticas y precio. Para la empresa fotogrfica es muy importante la velocidad de impresin y por este motivo est interesada en saber si las I impresoras ofertadas tienen la misma velocidad o si hay una que es ms rpida. Para responder a esta pregunta decide hacer un experimento que se puede plantear de dos formas: [1] De los muchos ficheros de fotos digitales que tiene la empresa, elegir al azar I muestras de J fotos e imprimir en cada una de las impresoras una de las muestras, aleatorizando la asignacin de muestras que se deben imprimir en cada impresora. Esta estrategia es la del modelo de diseo de experimentos completamente aleatorizado que es perfectamente vlido. En este ejemplo la variable de inters es la velocidad de impresin y el factor-tratamiento el tipo de impresora. Un inconveniente que puede tener esta estrategia es que exista una fuerte variabilidad en el tipo de fotos, esto es, que haya fotos que se impriman en poco tiempo y otras no, independientemente de la impresora utilizada. En este caso la variabilidad de la respuesta velocidad de impresin es debida no solo al tipo de impresora sino tambin al tipo de fotos seleccionadas. Si la variabilidad debida al tipo de fotos es muy grande y no se tiene en cuenta, la variabilidad residual del modelo es grande y puede enmascarar la significatividad del factor de inters, el tipo de impresora. Este problema se puede reducir en parte si el tamao muestral es muy grande, aunque tiene el inconveniente de tener un mayor coste. [2] Una estrategia alternativa es elegir una nica muestra de J fotos e imprimirlas en cada una de las I impresoras, de esta forma se controla la variabilidad debida al tipo de fotos. Esta estrategia es fuertemente recomendable si se supone que la variabilidad del tipo de fotos es alta. Tngase en cuenta que el nmero de pruebas a realizar segn las dos estrategias propuestas es el mismo: IJ. La segunda propuesta conlleva el bloqueo de las unidades experimentales: cada foto es un bloque. En este ejemplo se est interesado en estudiar la influencia del factor tratamiento tipo de impresora pero eliminando o controlando la posible influencia factor bloque tipo de foto en la variable respuesta velocidad de impresin. Los resultados del experimento se recogen en una tabla como la siguiente

Bloq.1Bloq.2Bloq.J

Trat.1y11y12y1J

Trat.2y21y22y2J

Trat.IyI1yI2yIJ

Del ejemplo anterior se deduce que Bloquear un experimento consiste en distribuir las unidades experimentales en grupos tales que unidades experimentales pertenecientes a un mismo grupo deben ser similares y pueden ser analizadas en condiciones experimentales semejantes, en tanto que unidades experimentales ubicadas en grupos distintos darn lugar, probablemente, a respuestas diferentes an cuando sean asignadas a un mismo tratamiento. Cada uno de los conjuntos de unidades experimentales similares se denomina bloque. Del ejemplo anterior se deduce que: "Bloquear un experimento consiste en distribuir las unidades experimentales en subgrupos tales que unidades experimentales pertenecientes a un mismo subgrupo deben ser similares y pueden ser analizadas en condiciones experimentales semejantes, en tanto que unidades experimentales ubicadas en subgrupos distintos darn lugar probablemente a respuestas diferentes an cuando sean asignadas a un mismo tratamiento. Cada uno de estos conjuntos de unidades experimentales similares se denomina bloque." Un diseo en bloques es apropiado cuando el objetivo del experimento es comparar los efectos de diferentes tratamientos promediados sobre un rango de condiciones experimentales distintas. Con los modelos de diseo de experimentos en bloques se quiere conseguir dos cosas: 1. evitar que grandes diferencias entre las unidades experimentales enmascaren diferencias reales entre los tratamientos, 2. medir los efectos de los tratamientos en condiciones experimentales distintas.Un ejemplo de utilizacin de un diseo con bloques es el denominado de datos apareados para comparar dos tratamientos o medias de dos poblaciones (expuesto en el captulo 1) cuando se aplican los dos tratamientos a los mismos individuos, en este caso cada individuo es un bloque. 5.2 Diseo en bloques completamente aleatorizados.El modelo de diseo de experimentos con bloques ms sencillo es el diseo de bloques completamente aleatorizados, con este diseo se quiere estudiar la influencia de un factor tratamiento (T) con I niveles en una variable de inters en presencia de una variable extraa, el factor bloque, B, que tiene J bloques. El motivo de la denominacin de este modelo es la siguiente: se ha agrupan las unidades experimentales en J bloques, en funcin de B, aleatorizando la forma de asignar los tratamientos dentro de cada bloque y es un diseo completo y equilibrado porque cada tratamiento se utiliza exactamente una vez dentro de cada bloque. En este modelo, un bloque es un grupo de I unidades experimentales tan parecidas como sea posible con respecto a la variable B, asignndose aleatoriamente cada tratamiento a una unidad dentro de cada bloque. 5.2.1 Modelo matemtico.La formulacin matemtica del modelo de diseo en bloques completamente aleatorizados con un factor principal (factor tratamiento), T, con I niveles y un factor secundario (factor bloque), B, con J niveles o bloques es la siguiente: Para cada i = 1,...,I; j = 1,...,J, (5.1)

siendo, * Y ij el resultado del tratamiento i-simo, i = 1,2,...,I de T al bloque j-simo, j = 1,2,...,ni. * es la media de toda la poblacin. Mide el nivel medio de todos los resultados. * i es el efecto del tratamiento i-simo de T , i = 1,2,...,I. Mide el efecto incremental del tratamiento del nivel i de T sobre el efecto global. Se verifica que i = 1Ii = 0, * j es el efecto del bloque j-simo, j = 1,2,...,J, mide el efecto incremental del tratamiento del factor secundario (bloque) sobre el efecto global (). Se verifica que j = 1Ji = 0, * ij es el error experimental o perturbacin, son variables aleatorias independientes idnticamente distribuidas (i.i.d.) con distribucin N.El nmero de observaciones es: n = IJ, El problema bsico que se plantea es contrastar la hiptesis nula de que el factor-tratamiento no influye, (5.2)

frente a la alternativa de que s existen diferencias entre los valores medios de los distintos tratamientos. En el estudio de este modelo debe de tenerse en cuenta que no existe interaccin entre el factor-tratamiento y el factor-bloque y en el desarrollo el problema puede hacerse un segundo contraste acerca de si el factor-bloque es influyente o no. Este contraste es (5.3)

frente a la alternativa de que s existen diferencias entre los valores medios de los distintos tratamientos del segundo factor. Sin embargo en el modelo tratamiento-bloque realizar este contraste carece de inters salvo para saber si ha sido conveniente bloquear o no. Por ello en la prctica: Carece de inters plantearse la hiptesis nula de igualdad de los efectos bloque. El nico objetivo puede ser el de concluir si bloquear el experimento result o no beneficioso.En efecto, si la suma de cuadrados medios atribuibles a los bloques es considerablemente mayor que la suma de cuadrados medios residual, habr resultado til bloquear en el sentido de que tal accin deriv en una reduccin del tamao del error experimental. En otro caso, bloquear es contraproducente.5.2.2 Estimacin de los parmetros.El nmero de parmetros que hay que estimar en modelo (5.1) es

utilizando n = IJ observaciones hay que estimar un nmero de parmetros

Se utiliza el mtodo de mnimos cuadrados que se basa en minimizar la suma de los cuadrados de los residuos (5.4)

se obtienen los siguientes estimadores: (5.5)

(5.6)

(5.7)

Por tanto, la prediccin en la casilla es (5.8)

y los residuos son

La suma de los residuos en cada fila y cada columna es cero, por tanto, hay I + J - 1 relaciones entre los IJ residuos y el nmero de grados de libertad es

Razonando como en el modelo de diseo completamente aleatorizado se obtiene que el estimador de la varianza es la varianza residual (5.9)

Propiedades de los estimadores. La distribucin de los estimadores anteriores es la siguiente, (5.10)

(5.11)

(5.12)

(5.13)

Por tanto, los estimadores definidos son centrados y eficientes. Utilizando las distribuciones anteriores (la t y la 2) se pueden calcular intervalos de confianza de los parmetros del modelo. Para calcular intervalos de confianza acerca de las medias de los niveles, las distribuciones de referencia son: Para las medias de los niveles del factor tratamiento T (5.14)

Para las medias de los bloques del factor bloque B (5.15)

5.2.3 Anlisis de la varianza.Utilizando

se puede hacer la siguiente descomposicin de las diferencias para cada i = 1,...,I;j = 1,...,J,(5.16)

elevando al cuadrado en (5.16) y teniendo en cuenta que los dobles productos se anulan, la suma de cuadrados global se puede descomponer de la forma:

esto es, (5.13)

escrito de otra forma

de donde se deduce la siguiente tabla ANOVA CUADRO DEL ANLISIS DE LA VARIANZA

MODELO TRATAMIENTO-BLOQUE

Fuente de

Variacin

Suma de

Cuadrados

g.l.

scm

TratamientosscT =

J i 2

I - 1scmT =

BloquesscB =

I j 2

J -1scmT =

ResidualscR =

i j2

(I -1)(J -1)scmR =

GlobalscG =

i j 2

IJ - 1scmG =

Rechazar H0(1) : 1 = 2 = ... = I, segn p = P

Rechazar H0(2) : 1 = 2 = ... = J, segn p = P

Tabla5.1: Anlisis de la varianza para un diseo en bloques completamente aleatorizados. De esta tabla ANOVA se deducen dos contrastes:Si H0() es cierto, el factor-tratamiento no influye, se verifica que (5.14)

se rechaza H0() al nivel de significacin si 1 = > F,.

Si H0() es cierto, el factor-bloque no influye, se verifica que (5.15)

se rechaza H0() al nivel de significacin si = (scmB / scmR) > F,

Comentarios. La eficacia de este diseo depende de los efectos de los bloques. Si stos son pequeos, es ms eficaz el diseo completamente aleatorio ya que el denominador en la comparacin de tratamientos tiene menos grados de libertad. Sin embargo si los bloques influyen es mucho mejor y ms eficaz este modelo, ya que disminuye la variabilidad no explicada. Por ello, es mejor estudiar primero el modelo de bloques aleatorizados y, si los bloques no influyen, se pasa fcilmente al modelo de un solo factor sumando en la tabla ANOVA la fila del factor bloque con la de la variabilidad residual.

Se define el Coeficiente de Determinacin como: siendo R2(T) y R2(T) los coeficientes de determinacin parciales asociados al factor-tratamiento y al factor-bloque, respectivamente. Representan el tanto por uno de la variabilidad total explicada por los tratamientos y los bloques.

El tratamiento estadstico expuesto para el modelo de diseo de experimentos completamente aleatorizado con un factor tratamiento y un factor bloque es exactamente igual que el diseo de experimentos con dos factores tratamiento sin interaccin.

Si de la tabla ANOVA del modelo de diseo de experimentos completamente aleatorizado se deduce que existen diferencias entre los tratamientos, estas diferencias se estiman por

Se pueden obtener intervalos de confianza de i - k a partir de la distribucin (5.16)

de forma anloga se puede hacer para las diferencias j - l.

La eficacia de este diseo depende de los efectos de los bloques. Si stos son pequeos, es ms eficaz el diseo completamente aleatorio ya que el denominador en la comparacin de tratamientos (ver (5. 13)) tiene menos grados de libertad. Sin embargo si los bloques influyen es mucho mejor y ms eficaz este modelo ya que disminuye la variabilidad no explicada. Por ello es mejor estudiar primero el modelo de bloques aleatorizados y, si los bloques no influyen, se pasa fcilmente al modelo de un solo factor sumando en la tabla ANOVA la fila del factor bloque con la de la variabilidad residual. Aunque existe una discusin acerca de si se puede pasar de un modelo a otro ya que una diferencia importante entre los dos modelos es que en un diseo completamente aleatorizado, los tratamientos y, equivalentemente, los niveles de los factores tratamiento son asignados aleatoriamente a las unidades experimentales. Por el contrario, en un diseo en bloques, aunque las observaciones son tambin tomadas sobre todas las combinaciones de tratamientos y bloques, slo los niveles del factor tratamiento son asignados aleatoriamente a las unidades experimentales. Hay que tener en cuenta que la divisin de las unidades experimentales para formar los bloques es determinista. Esto ha hecho que exista una fuerte controversia acerca de si es apropiado o no contrastar la igualdad de los efectos bloque. Al fin y al cabo, en el diseo que se est analizando los bloques representan fuentes de variacin nuisance, esto es, no existe inters alguno en la posible significacin del efecto bloque. Ms an, es poco probable que sea factible utilizar los mismos bloques en una hipottica rplica del experimento. Por todo ello, en la prctica Bloquear sin ser necesario conduce a pruebas de hiptesis menos potentes y a intervalos de confianza ms amplios que aquellos que se obtendran mediante un diseo completamente aleatorizado.

Si se tiene un diseo de experimentos con dos factores tratamiento (T y T) entre los que no existe interaccin, el tratamiento estadstico y desarrollo que se estudia en esta seccin es vlido para este modelo. En este caso el contraste de las dos hiptesis acerca de la influencia de los efectos de los niveles de los dos factores T y T dados en (5.2 ) y (5.3 ) son de gran inters, contrastes que se resuelven a partir de la tabla ANOVA utilizando (5.1 3) y (5.1 4). En cualquier caso, aunque el modelo de bloques completamente aleatorizado y el modelo de dos factores sin interacin tienen un desarrollo matemtico anlogo, su planteamiento y objetivos son diferentes.

5.2.4 Anlisis de residuos.Como en cualquier modelo estadstico hay que contrastar que se verifican las hiptesis del modelo. Esto se hace, bsicamente, por medio del anlisis de los residuos. Todo lo estudiado sobre este particular en el modelo de un solo factor (diseo completamente aleatorizado) sigue siendo vlido para este modelo. Se contrastarn las hiptesis de: Normalidad de los residuos.

Homocedasticidad: la varianza en los diferentes niveles de cada uno de los dos factores es constante.

Independencia de los residuos.

Homogeneidad de los datos, todos provienen de la misma distribucin y no hay datos atpicos.

No existe interaccin entre los dos factores. El concepto de interaccin se estudia con mayor detalle en la seccin siguiente. Intuitivamente y basndose en el ejemplo 5.1. que no exista interaccin entre el factor tratamiento T y el factor bloque B significa que la velocidad de impresin de una determinada impresora es mayor (o menor) de la media global independientemente de la foto que imprima (del bloque). Si existe interaccin entre T y B, el modelo de bloques completamente aleatorizado no es adecuado y hay que tratar el factor bloque como un factor tratamiento (T). Se tiene entonces un diseo de experimentos con dos factores (tratamiento) y el modelo matemtico es (5.20)

el parmetro ()ij representa la interaccin del nivel i del factor T con el nivel j del factor T. Este modelo se estudia en la seccin 4 de este captulo.

5.2.5 Anlisis de un caso.Se desarrolla el problema presentado en el Ejemplo 5.1. cuyo enunciado ms concreto es el siguiente, Ejemplo 5.1.b. Una empresa fotogrfica tiene que realizar una compra de impresoras de gran calidad que se van a utilizar en imprimir fotografas digitales. La empresa tiene ofertas de I = 5 marcas de impresoras de similares caractersticas y precio. Para la empresa fotogrfica es muy importante la velocidad de impresin y, por este motivo, est interesada en saber si las 5 impresoras ofertadas tienen la misma velocidad o hay una que es ms rpida. Para responder a esta pregunta decide hacer un experimento que consiste en elegir una nica muestra de J = 4 fotos e imprimirlas en las 5 impresoras. Los resultados del experimento se recogen en la tabla adjunta

Foto AFoto BFoto CFoto D

Impresora 189 88 97 94

Impresora 284 77 92 79

Impresora 381 87 87 85

Impresora 487 92 89 84

Impresora 579 81 80 88

Solucin. Estimacin de los parmetros. Se obtienen las siguientes estimaciones Estimaciones

Foto AFoto BFoto CFoto Di.i

Impresora 189 88 97 94 926

Impresora 284 77 92 79 83-3

Impresora 381 87 87 85 85-1

Impresora 487 92 89 84 882

Impresora 579 81 80 88 82-4

.j84 85 89 86

j-2 -1 3 0 .. = 86

Las predicciones y residuos son : Predicciones

F. AF. BF. CF. D

I.190 91 95 92

I.281 82 86 83

I.383 84 88 85

I.486 87 91 88

I.580 81 85 82

Residuos

F. AF. BF. CF. D

I.1-1-322

I.23-56-4

I.3-23-10

I.415-2-4

I.5-10-56

La varianza residual es

Intervalos de confianza. Intervalos de confianza al 90% para los parmetros del modelo son: Para 2,

Para (tiempo medio global)

Para I3 = + 3 (tiempo medio de imprimir de la impresora 3)

Para 3 (el efecto de la impresora 3)

Para 31 = 3 - 1 = I3 - I1 (diferencia entre la impresora 3 y la 1)

Trabajando al 90% se obtienen los siguientes grupos homogneos de impresoras: Imp. 5 - Imp. 2 - Imp. 3 Imp. 2 - Imp. 3 - Imp. 4 Imp. 4 - Imp. 1 Tabla ANOVA.

Fuentes deSuma deGrados deVarianzas

variacincuadradoslibertad

scT264 4 66'00

scB70 3 23'33

scExplicada334 7 47'71

scR226 12 18'83

scG560 19 29'47

A partir de esta tabla se obtienen los siguientes contrastes H0 1 = 2 = ... = 5 = 0 (el tipo de impresora no influye)

p-valor= 0'0407. Se rechaza H0 para = 0'05, pero el p-valor ofrece dudas acerca de la influencia del factor tipo de impresora. H0 1 = 2 = ... = 4 = 0 (el tipo de foto no influye)

p-valor= 0'3387. Se acepta H0 para cualquier razonable y el factor bloque tipo de foto no influye, por tanto, no convena bloquear. Coeficientes de determinacin. Los coeficientes de determinacin parciales son

el factor tipo de impresora explica el 47'14% de variabilidad.

el factor tipo de foto explica el 12'50% de variabilidad. El coeficiente de determinacin total es la suma de los parciales,

el modelo explica el 59'64% de variabilidad. Un modelo alternativo. En conclusin, parece razonable aceptar la influencia del factor-tratamiento tipo de impresora y la no influencia del factor bloque tipo de foto. Se puede pasar facilmente al modelo completamente aleatorizado, la tabla ANOVA con un solo factor que se obtiene de la anterior sumando las filas de scB y scR, obteniendo Tabla ANOVA

Resultados con un solo factor

Fuentes deSuma deGrados deVarianzas

VariacinCuadradoslibertad

scT264 4 66'00

scR296 15 19'73

scG560 19 29'47

Ahora el contraste H0 1 = 2 = ... = 5 = 0 (el tipo de impresora no influye) es

p-valor= 0'038. Se rechaza H0 para > 0'038. Se tiene mayor seguridad acerca de la influencia del factor tipo de impresora que en el modelo anterior.5.3 La interaccin entre factores.Se considera un diseo completamente aleatorizado con dos factores tratamiento T y T cuyos niveles se cruzan. El factor T tiene I niveles y el factor T tiene J niveles. Por tanto hay un total de IJ tratamientos distintos codificados por

Si para cada uno de los n = IJ tratamientos se tiene una observacin, el modelo matemtico del diseo tiene la forma (dada en (5.20 ))

En este modelo el nmero de parmetros a estimar es

mayor que el nmero de observaciones y que el nmero de grados de libertad de los residuos. Por tanto no es posible estimar el modelo. Para resolver este problema hay las siguientes alternativas: [1] Aumentar el nmero de observaciones, se replica el diseo K veces y se tiene KIJ observaciones. El modelo con dos factores replicado se estudia en la seccin siguiente. [2] Disminuir el nmero de parmetros, suponiendo que algunas interacciones son nulas o que son funciones de unos pocos parmetros. Por ejemplo, suponer que las interacciones tienen una forma funcional multiplicativa (hiptesis de Tuckey)

con esta hiptesis solo hay un parmetro adicional respecto al modelo sin interaccin. El nmero de parmetros del modelo es I + J + 1 < IJ = n. [2] En la prctica, cuando se ajustan modelos complejos donde intervienen muchos factores, se utiliza una combinacin de las dos estrategias anteriores. Por ejemplo, se supone que las interacciones de orden superior a dos son nulas y se replica el experimento.Test de Tuckey. Para contrastar que no existe interaccin entre el factor tratamiento y el factor bloque en el diseo por bloques completamente aleatorizado se puede utilizar el test de Tuckey que permite contrastar la hiptesis de que las interacciones son de la forma ij = ij.. Esto es, se quiere contrastar

Al ajustar el modelo (5.1 ) si 0 se verifica que

de esta expresin se deduce: Si i y j son valores grandes y del mismo signo, los residuos son altos, y las predicciones ij = + i + j estn muy por arriba o por debajo de la media. Si i y j son valores pequeos y/o de distinto signo, los residuos son pequeos y las predicciones estn en torno a la media. En base a sto el contraste de Tuckey se basa en dibujar la grfica de los residuos eij frente a las predicciones ij, si existe una interaccin de tipo multiplicativo la nube de puntos tiene forma parablica.El contraste de Tuckey tambin se puede hacer de forma analtica. Se dibuja la nube de puntos de los residuos eij frente a la variable xij = ij, y se ajusta una recta. Entonces contrastar la hiptesis H0 : = 0 es equivalente a contrastar que el coeficiente de correlacin entre xij y eij es cero. Si no se acepta H0 el estimador de es la pendiente de la recta ajustada. En las Figura 5.1, 5.2. y 5.3. se presentan diferentes grficos de eij frente a ij, con diferentes posibilidades sobre la interaccion multiplicativa. Figura 5.1. No hay indicios de que exista interaccin multiplicativa.

Figura 5.2. Existe interaccin entre los factores.

Figura 5.3. Existe interaccin y heterocedasticidad. El significado de la interaccin Considrese el modelo con dos factores tratamiento T y T con I y J niveles, respectivamente. El diseo completo se ha replicado K veces, esto es, para cada tratamiento (casilla) ij se tienen K observaciones. Se denota yijk a la k-sima observacin del tratamiento ij, con k = 1,2,...,K. El tamao del experimento es n = IJK, el modelo asociado es

Entonces la falta de interaccin entre los factores T y T se interpreta como sigue: Se dice que no existe interaccin entre los dos factores tratamiento T y T cuando sus efectos sobre la respuesta son aditivos. En otros trminos, la diferencia de las respuestas medias tericas en dos niveles cualesquiera de un factor es constante en todos los niveles del otro factor y viceversa:

Un grfico ilustrativo de la posible existencia de interaccin es el denominado grfico de interaccin. Para construir este grfico se marcan en el eje de abscisas los niveles de uno de los dos factores tratamiento, por ejemplo el A, y se dibuja la nube de puntos

uniendo a continuacin con segmentos las medias muestrales yij. con igual j. Aunque los grficos de interaccin son muy intuitivos y tiles, pueden conducir a interpretaciones peligrosas debido a que en ellos no se refleja el tamao del error experimental. Esto puede llevar a deducir del grfico la existencia de interaccin y, sin embargo, el error experimental ser lo suficientemente grande como para que el anlisis de la varianza no detecte la interaccin como significativa (y viceversa). Por tanto, se debe ser muy prudente con las conclusiones que se derivan de un grfico de este tipo. Frecuentemente el inters del diseo radica fundamentalmente en evaluar la contribucin individual de cada factor tratamiento sobre la respuesta observada. A los efectos marginales de cada factor se les denomina efectos principales. Sin embargo, cuando el efecto interaccin entre ambos factores es importante, puede ser imposible examinar por separado cada uno de los efectos principales. Ejemplo5.2. En base a las calificaciones en pruebas escritas se evalan los resultados obtenidos con dos mtodos de enseanza distintos (mtodo1 y mtodo2) y con tres profesores (profesores 1, 2 y 3). Las Figuras5.4 y 5.5 muestran ocho posibles grficos de interaccin reflejando otros tantos resultados posibles para el experimento. En las cuatro situaciones descritas en la Figura5.4. la interaccin no existe. Las lneas resultantes de unir las medias obtenidas con cada mtodo son paralelas o coincidentes y, por ello, los diferencias (cuando existen) entre los niveles de cada factor son estables a travs de los niveles del otro factor. (a) Prof.: No, Mt.: No, Inter.: No(b) Prof.: No, Mt.: Si, Inter.: No

(c) Prof.: Si, Mt.: No, Inter.: No(d) Prof.: Si, Mt.: Si, Inter.: No

Figura5.4.: Cuatro posibles configuraciones de los efectos sin presencia de interaccin En la Figura5.5. en todos los grficos el efecto interaccin es significativo. En el grfico (a) todos los profesores obtienen las calificaciones ms altas con el mtodo de enseanza1; ahora bien, las diferencias son muy grandes en el caso del profesor1 y muy pequeas con el profesor3. Es claro que existen diferencias entre los mtodos de enseanza pero, existen diferencias entre los profesores? (obsrvese que los promedios muestrales de todos ellos son idnticos). Por el contrario, en el grfico (c), est claro que existen diferencias entre los profesores. Dos obtienen mejores puntuaciones con el mtodo1 y uno con el mtodo2. Sin embargo, si se hubiesen ignorado los mtodos, las diferencias no existiran pues las puntuaciones medias de los tres son idnticas. Ms an, un ANOVA no detectera diferencias significativas. (a) Prof.: No?, Mt.: Si, Inter.: Si (b) Prof.: Si, Mt.: No?, Inter.: Si

(c) Prof.: No?, Mt.: No?, Inter.: Si (d) Prof.: Si, Mt.: Si, Inter.: Si

Figura5.5: Cuatro posibles configuraciones de los efectos con presencia de interaccin De este ejemplose sigue la siguiente conclusin: Si la interaccin es significativa, ser complejo examinar los efectos de cada factor tratamiento por separado. Por ejemplo, la presencia de interaccin significativa podra encubrir diferencias reales entre los niveles de algn factor, de modo que no se detectasen diferencias significativas entre ellos en el anlisis estadstico.5.4 Modelos de dos factores-tratamiento.Se continua trabajando con el diseo completamente aleatorizado con dos factores tratamiento T y T con I y J niveles, respectivamente, y se supone que las interacciones entre ambos factores son no nulas. Como se explic en la seccin anterior para poder estimar este modelo es necesario replicar el experimento. Si se replica K veces el experimento se tienen K unidades experimentales en cada casilla (tratamiento) ij.5.4.1 Modelo matemtico.El modelo matemtico asociado al diseo de dos factores-tratamiento con interaccin y replicado es el siguiente: Para cada i = 1,...,I, j = 1,...,J, k = 1,...,K se tiene el siguiente modelo:

con ijk v.a.independientes con distribucin N.(5.22)

Donde, Y ijk es el resultado del tratamiento i-simo, i = 1,2,...,I del factor T y del tratamiento j-simo, j = 1,2,...,ni del factor T, en la replicacin t-sima, t = 1,...,K.

es el efecto global que mide el nivel medio de todos los resultados,

i es el efecto (positivo o negativo) sobre la respuesta debido a que se observa el nivel i del factor T. Se verifica que i = 1Ii = 0,

j es el efecto (positivo o negativo) sobre la respuesta debido a que se observa el nivel j del factor T. Se verifica que j = 1Ji = 0,

ij representa la interaccin y es el efecto extra (positivo o negativo) sobre la respuesta debido a que se observan conjuntamente los niveles i y j de los factores T y T respectivamente. Mide la desviacin de las medias de la hiptesis de aditividad de los efectos y viene definida por:

Se verifica que i = 1Iij = j = 1Jij = 0, para i = 1,...,I; j = 1,...,J. ijk es el error experimental o perturbacin, son variables aleatorias independientes idnticamente distribuidas (i.i.d.) con distribucin N.

Por tanto, los parmetros de este modelo son

ParmetrosNmero

1

i I - 1

j J - 1

ij

2 1

Total IJ + 1

Siendo n = IJK el nmero de observaciones. El modelo (5.22)de diseo de experimentos con dos factores tratamiento con interacin se conoce como modelo completo de dos vas o modelo de anlisis de la varianza de dos vas. Si, ocasionalmente, experimentos similares previos o hechos cientficos contrastados garantizan con una razonable seguridad que ambos factores no interaccionan, el experimento se modeliza a travs de: con ijk v.a.independientes con distribucin N.(5.23)

El modelo (5.23) es un submodelo del modelo completo de dos vas y se denomina modelo de efectos principales de dos vas o modelo aditivo de dos vas dado que el efecto sobre la respuesta del tratamiento ij se modeliza como la suma de los efectos individuales de cada factor. Es importante Usar el modelo de efectos principales slo cuando se tiene la certeza de que no existe interaccin entre los factores.

Si no se tiene un conocimiento razonable acerca de la interaccin debe seleccionarse un modelo completo. El motivo es que la inferencia sobre los efectos principales cuando no se ha considerado interaccin errneamente puede ser confusa ya que se est incrementandoartificialmente el error experimental. La estrategia a seguir es: 1. Si se sospecha que hay interaccin, en primer lugar, se contrasta el efecto de la interaccin en un modelo completo de dos vas. 2. Si no resulta significativa, se contina con el anlisis examinando los efectos principales en el mismo modelo. No es conveniente cambiar al modelo de efectos principales salvo que se est muy seguro de la no existencia de interaccin. 3. Si resulta significativo el efecto interaccin, entonces los contrastes sobre los efectos individuales no son vlidos. Si son significativos los contrastes sobre los efectos individuales, los resultados pueden darse por vlidos. Pero si los contrastes son no significativos, los resultados no tienen porque ser correctos. Si el efecto interaccin es significativo, generalmente es preferible pasar a un modelo de una va donde los niveles son todas las combinaciones de niveles y examinar as sus posibles diferencias. Otra posibilidad es examinar las diferencias entre niveles de un factor manteniendo fijos los niveles del otro. En este caso las conclusiones son correctas para la situacin concreta estudiada.5.4.2 Estimacin de los parmetros.Los parmetros del modelo se obtienen por mnimos cuadrados, tcnica que se basa en minimizar la suma de los cuadrados de los residuos. (5.24)

proporciona los siguientes estimadores:

donde ij. es la media de las observaciones de la casilla ij. El resto de los trminos tiene la interpretacin habitual. La prediccin de la casilla ij es la media de los valores de la casilla, por tanto: (5.25)

Los residuos, diferencia entre lo observado y la prediccin,

Los residuos verifican la siguiente restriccin (la suma de los residuos en cada casilla es cero)

por tanto, en cada casilla hay residuos independientes y el nmero de grados de libertad es: IJ. Al igual que en los modelos estudiados previamente se utiliza la varianza residual como estimador de la varianza. Este estimador viene dado por (5.26)

5.4.3 Descomposicin de la variabilidadLa suma de cuadrados global se puede descomponer de la forma:

esto es,

Escrito de otra forma: de donde se deduce la siguiente tabla ANOVA CUADRO DEL ANLISIS DE LA VARIANZA

MODELO COMPLETO DE DOS VAS

Fuente de

Variacin

Suma de

Cuadrados

g.l.

scm

Factor F.TscT =

JK i i2

I-1scmT =

(scT) / (I-1)

=(scmT) /(scmR)

Factor F.TscT =

IK j j2

J - 1scmT =

(scT) / (J-1)

=(scmT) /(scmR)

Inter. sc =

K i j ij2

(I -1)(J -1)scm =

(xc) / ((I-1)(J-1))

=(scmT) /(scmR)

ResidualscR =

i j K eijk2

IJ(K - 1)scmR =

GlobalscG =

i j K 2

IJK - 1scmG =

Rechazar H0 : ij = 0 i,j

en base al p-valor p = P( ,IJ.

Si la hiptesis nula H0() : 1 = 2 = ... = J = 0, (el factor T no influye) es cierta, se verifica que (5.29)

se rechazaH0() al nivel de significacin si = ( (scmT) /(scmR) ) > ,IJ.

La tabla ANOVAasociada al modelo de efectos principales de dos vas (sin interaccin y con replicacin)

es la siguiente CUADRO DEL ANLISIS DE LA VARIANZA

MODELO DE EFECTOS PRINCIPALES DE DOS VAS

Fuente de

Variacin

Suma de

Cuadrados

g.l.

scm

Factor F.TscT =

JK i i2

I-1scmT =

(scT) / (I-1)

=(scmT) /(scmR)

Factor F.TscT =

IK j j2

J - 1scmT =

(scT) / (J-1)

=(scmT) /(scmR)

ResidualscR =

i j K eijk2

IJK - I - J +1scmR =

scR / ( IJK - I -J + 1 )

GlobalscG =

i j K 2

IJK - 1scmG =

Rechazar H0() : 1 = 2 = ... = I, segn p = P( < I-1,IJK-I-J+1)

Rechazar H0() : 1 = 2 = ... = J, segn p = ( < J-1,IJK-I-J+1)

Tabla5.3. Cuadro del anlisis de la varianza para un diseo completamente aleatorizado y balanceado de dos factores de efectos fijos sin interaccin.5.4.4 Anlisis de un caso.En este apartado se desarrolla un problema de diseo de experimentos completo de dos vas. El enunciado del problema es el siguiente: Ejemplo 5.3. En la tabla adjunta se presentan los tiempos, en minutos, de conexin con una direccin de internet desde cuatro puntos geogrficos de una regin y en tres horas determinadas. El experimento se repeta cuatro veces y era diseado para estudiar la influencia del factor hora de conexin y el factor lugar de la conexin en la variable de inters tiempo de conexin. Analizar estos datos y estudiar la influencia de los dos factores.

Lugar ALugar BLugar CLugar D

Hora 10'310'45

0'460'43

0'821'10

0'880'72

0'430'45

0'630'76

0'450'71

0'660'62

Hora 20'360'29

0'400'23

0'920'61

0'491'24

0'440'35

0'310'40

0'561'02

0'710'38

Hora 30'220'21

0'180'23

0'300'37

0'380'29

0'230'25

0'240'22

0'300'36

0'310'33

Solucin. Estimacin de los parmetros. Se obtienen las siguientes tablas de medias y estimaciones

L-AL-BL-CL-Di..i

H-1 1j.0'4130'8800'5680'6100'6180'139

H-2 2j.0'3200'8150'3750'6670'5440'065

H-3 3j.0'2100'3350'2350'3250'276-0'203

..j.0'3140'6770'3930'534

j-0'1650'198-0'0860'055... = 0'479

ij.L-AL-BL-CL-D

H-1-0'0400'0640'036-0'063

H-2-0'0590'073-0'0830'068

H-30'099-0'1390'045-0'006

De donde se deduce la siguiente tabla de residuos:

ResiduosLugar ALugar BLugar CLugar D

Hora 1-0'1030'037

0'0470'017

-0'0600'220

0'000-0'160

-0'138-0'118

0'0620'192

-0'1600'100

0'0500'010

Hora 20'040-0'030

0'080-0'090

0'105-0'205

-0'3250'425

0'065-0'025

-0'0650'025

-0'107-0'353

0'043-0'287

Hora 30'0100'000

-0'0300'020

-0'0350'035

0'045-0'045

-0'0050'015

0'005-0'015

-0'0250'035

-0'0150'005

Tabla ANOVA Utilizando las estimaciones y residuos obtenidos se obtiene la siguiente tabla ANOVA Tabla ANOVA

Fuentes deSuma deGrados descmp - valor

variacincuadradoslibertad

Factor hora 1'033020'516523'2220'0000

Factor lugar 0'921230'307113'8060'0000

Interaccin0'250160'04171'8740'1123

Variab. Exp. Total2'204311

Residual0'8007360.0222R = 0'149

Global3'0050470'0639Y = 0'253

De esta tabla se deducen los siguientes contrastes: [1] El contraste de la hiptesis: no existe interaccin entre los factores T y T. Se realiza por el estadstico

es razonable aceptar la hiptesis de no influencia de la interaccin entre lugar y hora. [2] El contraste de la hiptesis: el factor hora no influye. Se realiza por el estadstico

se rechaza esta hiptesis de no influencia del factor hora. [3] El contraste de la hiptesis: el factor lugar no influye.

se rechaza esta hiptesis de no influencia del factor lugar.En la Figura 5.6 se representa el grfico de interacciones que corrobora la no existencia de interacciones.

Figura 5.6. Grfico de interacciones.En la Figura 5.7. se representa el grfico de residuos frente a predicciones en el que se observa heterocedasticidad.

Figura 5.7. Grfico de residuos frente a predicciones.5.5 Diseo factorial con tres factores.El modelo de diseo de experimentos con dos factores se puede generalizar a tres o ms factores, aunque presenta el gran inconveniente de que para su aplicacin es necesario un tamao muestral muy grande. El modelo de diseo de experimentos completo con tres factores (T, T y T), interaccin y replicacin (K rplicas) tiene el siguiente modelo matemtico:

En este modelo se tienen tres factores-tratamineto: el factor T (efecto ) con niveles i = 1,...,I, el factor T (efecto ) con niveles j = 1,...,J, y el factor T (efecto ) con niveles r = 1,...,R. Cada tratamiento se ha replicado K veces. Por tanto se tienen n = IJRK observaciones. El trmino ijk es la interaccin de tercer orden que, en la mayora de las situaciones, se suponen nulas. En este modelo se verifican las siguientes restricciones

El nmero de parmetros del modelo es

ParmetrosNmero

1

iI - 1

jJ - 1

rR - 1

ij

ir

jr

ijr

21

TotalIJR + 1

Los estimadores mximo-verosmiles de este modelo son los siguientes (se utiliza la notacin habitual): De la media global

de los efectos principales,

de las interacciones de segundo orden

de las interacciones de tercer orden

La descomposicin de la variabilidad se obtiene la siguiente tabla ANOVA (Tabla 5.4.), a partir de la cual se pueden obtener contrastes como en la seccin anterior. CUADRO DEL ANLISIS DE LA VARIANZA MODELO COMPLETO DE TRES VAS

Fuente de variacinSuma de cuadradosg.l.

Factor TscT = J RK i = 1Ii2I - 1

Factor TscT = IRK j = 1Jj2J - 1

Factor TscT = IJK r = 1Rr2R - 1

Inter. sc = RK i = 1I j = 1Jij2(I - 1)(J - 1)

Inter. sc = JK i = 1I r = 1R ir2(I - 1)(R - 1)

Inter. sc = IK j = 1J r = 1Rjr2(J - 1)(R - 1)

Inter. sc = K i = 1I j = 1J r = 1Rijr2(I - 1)(J - 1)(R - 1)

ResidualscR = i = 1I j = 1J r = 1R t = 1Keijrk2IJR(K - 1)

GlobalscG = i = 1I j = 1J r = 1R t = 1Keijrk2IJRK - 1

Tabla5.4. Cuadro del anlisis de la varianza para un diseo completo de tres factores.5.6 Fracciones factoriales. El cuadrado latino.Los modelos de diseo de experimentos expuestos en las secciones previas son diseos completos o equilibrados. En estos diseos se obtienen pruebas cruzando los niveles de los factores de todas las formas posibles, por ello, en estos diseos los factores son ortogonales. El concepto de ortogonalidad de factores. En un diseo de experimentos los factores T, con I niveles, y T, con J niveles, son ortogonalessi en las pruebas del diseo en cada uno de los niveles i del factor T aparecen en idnticas proporciones los J niveles del factor T.La propiedad de ortogonalidad permite separar los efectos de cada uno de los factores sobre la variable de inters. Si los efectos simples de todos los factores estudiados en el diseo de experimentos son ortogonales, la estimacin del efecto del nivel i del factor T se obtiene como la diferencia entre la media de los resultados obtenidos cuando el factor T est al nivel i y la media general de todos los resultados.

Las estimaciones as obtenidas para los efectos de un factor no estn afectadas por los efectos de los otros factores, lo que permite separar los efectos simples de todos los factores estudiados. En los diseos equilibrados el nmero de pruebas que hay que realizar crece muy rapidamente con el nmero de factores, an en el caso de que se supongan nulas las interacciones y no sea necesario replicar el diseo. En estas situaciones son de gran utilidad los diseos de experimentos denominados fracciones factoriales, que permitan estudiar la influencia de los factores sin necesidad de realizar todas las pruebas pero manteniendo la propiedad de ortogonalidad de los efectos a estudiar. Como ejemplo de este tipo de modelos se expone a continuacin la fraccin factorial denominadacuadrado latino.5.6.1 El modelo de cuadrado latino.En un diseo de experimentos completo de tres factores, todos ellos con K niveles, necesita K3 observaciones, nmero elevado si K es grande. Un diseo ms eficaz que solo utiliza K2 observaciones para el mismo problema es el cuadrado latino. Este modelo se basa en aprovechar la simetra del experimento factorial seleccionando un conjunto de condiciones experimentales con la condicin de que cada nivel de un factor aparezca una vez con cada uno de los niveles de los otros factores. Por tanto, el diseo de cuadrado latino se puede utilizar si se verifican las siguientes condiciones: 1. Es un diseo de experimentos con tres factores. 2. Los tres factores tienen el mismo nmero de niveles: K. 3. No hay interacciones entre los tres factores.El diseo en cuadrado latino est especialmente indicado para estudiar un factor-tratamiento con K niveles y con dos factores-bloque de K bloques cada uno. Este diseo se basa en el concepto de cuadrado latino que es el siguiente Un cuadrado latino K K es una disposicin de K letras en una matriz K K de forma que todas las letras aparecen una vez en cada fila y una vez en cada columna.Por ejemplo, un cuadrado latino 3 3 es el siguiente ABC

BCA

CAB

Tabla 5.5. Cuadrado latino 3 3.Un cuadrado latino es un cuadrado latino estndar cuando las letras de la primera fila y de la primera columna estn dispuestas en orden alfabtico. Un cuadrado latino es un cuadrado latino cclico si las letras de cada fila se generan cclicamente de la anterior segn el orden alfabtico. El cuadrado latino 3 3 de la Tabla5.5 es estndar y cclico. Existe un nico cuadrado latino 3 3 estndar, sin embargo hay cuatro cuadrados latinos 4 4 estndar que se presentan en la Tabla5.6. Cuadro 1 Cuadro 2 Cuadro 3 Cuadro 4

ABCDABCDABCDABCD

BCDABADCBADCBDAC

CDABCDABCDBACADB

DABCDCBADCABDCBA

Tabla5.6: Cuatro posibles cuadrados latinos 4 4 estndar.Un diseo en cuadrado latino es un diseo de un factor tratamiento con K niveles y K2 unidades experimentales agrupadas en K bloques fila y K bloques columna, de forma que unidades experimentales de un mismo bloque fila son semejantes, unidades experimentales de un mismo bloque columna son semejantes y unidades experimentales de distintos bloques fila y distintos bloques columna son sustancialmente diferentes.Para cualquier nmero de tratamientos K existe siempre al menos un diseo en cuadrado latino estndar cclico. Obsrvese que si en un diseo en cuadrado latino se ignora el bloque columna se tiene un diseo en bloques completamente aleatorizado (el bloque fila es el factor bloque) y, anlogamente, si se ignora el bloque fila se tiene un diseo en bloques completamente aleatorizado (el bloque columna es el factor bloque). Adems se trata de un diseo equirreplicado: cada tratamiento aparece un mismo nmero K de veces en el diseo. Modelo matemtico. Se tiene un diseo en cuadrado latino de dos factores bloque y un factor tratamiento, el primer factor bloque se denota por B y se coloca en filas, el segundo factor bloque se denota por B y se coloca en columnas, el factor tratamiento se denota por T y sus niveles se colocan segn el cuadrado latino. Por tanto, el cuadrado latino condiciona el nivel de T que se utiliza en la casilla ij (bloque i de B y bloque j de B) y este nivel no se elige. La formulacin matemtica del modelo es la siguiente: para cada i = 1,...,K, j = 1,...,K, (el ndice k lo impone el diseo en cuadrado latino) se tiene

donde, * Y ij es el resultado del bloque i-simo, i = 1,...,K del factor bloque B y del bloque j-simo, j = 1,...,J del factor-bloque B, y del nivel k-simo del factor T. Se denota la k entre parntesis, para indicar que este ndice no se elige sino que viene condicionado por el par ij. * es el efecto global que mide el nivel medio de todos los resultados, * i es el efecto (positivo o negativo) sobre la media global debido al bloque i de B . Se verifica que i = 1Ii = 0, * j es el efecto (positivo o negativo) sobre la media global debido al bloque j de B. Se verifica que j = 1Jj = 0, * k es el efecto (positivo o negativo) sobre la media globa