1992 descripcion e inferencia lineal en estadistica

258
UNIVERSIDAD MAYOR DE SAN ÁNDRES FACULTAD DE CIENCIAS PURAS Y NATURALES CARRERA DE ESTADÍSTICA INTRODUCCIÓN A LA DESCRIPCIÓN E INFERENCIA LINEAL EN ESTADÍSTICA POR: DR. ROLANDO MORALES A. LA PAZ, ENERO 1992

Transcript of 1992 descripcion e inferencia lineal en estadistica

Page 1: 1992 descripcion e inferencia lineal en estadistica

UNIVERSIDAD MAYOR DE SAN ÁNDRES

FACULTAD DE CIENCIAS PURAS Y NATURALES

CARRERA DE ESTADÍSTICA

INTRODUCCIÓN A LA

DESCRIPCIÓN E INFERENCIA LINEAL

EN ESTADÍSTICA

POR: DR. ROLANDO MORALES A.

LA PAZ, ENERO 1992

Page 2: 1992 descripcion e inferencia lineal en estadistica

ii

TABLA DE MATERIAS PRESENTACIÓN PARTE A: ..................................................................................................................................................... 1 ELEMENTOS BÁSICOS DE ........................................................................................................................ 1 ALGEBRA L EALIN ...................................................................................................................................... 1

CAPÍ ULO I.T CONCEPTOS BÁSICOS .................................................................................................................................. 2 1. INTRODUCCIÓN.......................................................................................................................................................... 2 2. ESPACIOS VECTORIALES ......................................................................................................................................... 3 3. ESPACIOS VECTORIALES "V=Kn EN K" DONDE K ES UN CUERPO ........................................................................ 6 4. ESPACIOS VECTORIALES DE MATRICES .............................................................................................................. 11 5. SUB-ESPACIOS VECTORIALES............................................................................................................................... 13 6. SUBESPACIOS GENERADOS POR UN CONJUNTO DE VECTORES ..................................................................... 14

a. Combinaciones lineales de vectores ..................................................................................................................... 14 b. Conjuntos generadores, espacios generados por un conjunto de vectores............................................................ 14

7. DEPENDENCIA E INDEPENDENCIA LINEAL ........................................................................................................... 15 a. Dependencia lineal................................................................................................................................................ 15 b. Independencia lineal ............................................................................................................................................. 15 c. Consecuencias de las definiciones........................................................................................................................ 16

8. DIMENSIÓN DE UN ESPACIO VECTORIAL.............................................................................................................. 17 9. BASE DE UN ESPACIO VECTORIAL ........................................................................................................................ 17 10. CAMBIOS DE BASE................................................................................................................................................... 18 11. DUALIDAD EN LOS CAMBIOS DE BASE.................................................................................................................. 21

CAPÍ ULO II.T APLICACIONES LINEALES Y MATRICES............................................................................................... 25 1. DEFINICIÓN............................................................................................................................................................... 25 2. ALGUNAS CONSECUENCIAS IMPORTANTES DE LA DEFINICIÓN........................................................................ 26 3. APLICACIONES LINEALES Y MATRICES: MATRIZ DE UNA APLICACION LINEAL f. ............................................ 28 4. APLICACIONES LINEALES CUANDO E=Kn Y F=Km EN K ........................................................................................ 28

a. Una aplicación lineal como una combinación lineal en F ....................................................................................... 28 b. Producto de una matriz por un vector.................................................................................................................... 29 c. Suma de aplicaciones lineales y suma de matrices ............................................................................................... 30 d. Composición de aplicaciones lineales y producto de matrices............................................................................... 30 e. Caracterizaciones relativas al rango de una matriz................................................................................................ 31

5. APLICACIONES LINEALES INVERSAS E INVERSOS DE MATRICES ..................................................................... 32 6. ALGORITMO DE INVERSIÓN DE UNA MATRIZ ....................................................................................................... 35 7. INVERSIÓN DE MATRICES PARTICIONADAS......................................................................................................... 37 8. DETERMINANTES..................................................................................................................................................... 38

a. Definición .............................................................................................................................................................. 38 b. Algoritmo de cálculo de un determinante............................................................................................................... 38 c. Determinantes de matrices particionadas.............................................................................................................. 39 d. Determinante del producto de 2 matriz de rango máximo...................................................................................... 39

9. FACTORIZACIÓN DE UNA MATRIZ SINGULAR ....................................................................................................... 40 10. NUCLEO DE UNA APLICACIÓN LINEAL Y NUCLEO DE UNA MATRIZ.................................................................... 42 11. INVERSOS GENERALIZADOS DE MATRICES......................................................................................................... 44 12. ALG NAS APLICACIONES LINEALES PARTICULARESU .......................................................................................... 46

CAPÍ ULO III.T SISTEMAS DE ECUACIONES LINEALES............................................................................................... 51 1. PLANTEAMIENTO DEL PROBLEMA ......................................................................................................................... 51 2. CARACTERIZACIONES INICIALES DEL ESPACIO DE SOLUCIONES..................................................................... 51

a. Consistencia.......................................................................................................................................................... 51 b. Redundancia ......................................................................................................................................................... 52 c. Soluciones múltiples.............................................................................................................................................. 53 d. Número máximo de vectores LIN en S .................................................................................................................. 53

3. SOLUCIONES BASICAS A UN SISTEMA DE ECUACIONES LINEALES .................................................................. 54 4. UN ALGORITMO DE RESOLUCION Y ANÁLISIS DE UN SISTEMA DE ECUACIONES LINEALES.......................... 55

a. Rango de A. .......................................................................................................................................................... 57 b. Consistencia.......................................................................................................................................................... 57 c. Soluciones básicas................................................................................................................................................ 57 d. Solución única....................................................................................................................................................... 57 e. Soluciones múltiples.............................................................................................................................................. 58

5. SISTEMAS DE ECUACIONES CON LA RESTRICCION DE QUE LAS SOLUCIONES SEAN NO NEGATIVAS ........ 58

Page 3: 1992 descripcion e inferencia lineal en estadistica

iii

CAPÍ ULO IV.T FORMAS BILINEALES ............................................................................................................................. 62 1. DEFINICIÓN............................................................................................................................................................... 62 2. FORMAS BILINEALES Y MATRICES ........................................................................................................................ 63 3. DISTANCIAS.............................................................................................................................................................. 64 4. NORMAS Y ESPACIOS VECTORIALES NORMADOS .............................................................................................. 66 5. PRODUCTOS ESCALARES ...................................................................................................................................... 67 6. ................................................................................. 68 EXTENSIONES DEL PRODUCTO ESCALAR CLÁSICO EN Rn

a. Norma euclidiana .................................................................................................................................................. 68 b. Distancia euclidiana .............................................................................................................................................. 69 c. Ángulo entre dos vectores..................................................................................................................................... 70 d. Ortogonalidad........................................................................................................................................................ 72

7. BASES ORTOGONALES Y BASES ORTONORMADAS EN Rn ................................................................................. 73 8. MATRICES Y PRODUCTO ESCALAR CLASICO EN Rn ............................................................................................ 74 9. ...................................................................................................... 74 PRODUCTO ESCALAR GENERALIZADO EN Rn

CAPI ULO V.T LA ESPERANZA MATEMATICA COMO OPERADOR LINEAL ................................................................ 76 1. ESPERANZAS MATEMÁTICAS................................................................................................................................. 76 2. VARIANZAS Y COVARIANZAS.................................................................................................................................. 78 3. ESP RANZA MATEMÁTICA DE UNA FORMA QUADRÁTICAE .................................................................................. 81

CAPÍ ULO VI.T DERIVACIÓN CON VECTORES Y MATRICES ........................................................................................ 82 1. CONVENCIONES GENERALES ()............................................................................................................................. 82 2. DERIVADAS DE FORMAS LINEALES ....................................................................................................................... 85 3. DERIVADAS DE FORMAS CUADRÁTICAS............................................................................................................... 86 4. PROBLEMAS DE OPTIMIZACIÓN............................................................................................................................. 87

CAPÍ ULO VII.T VALORES Y VECTORES PROPIOS DE MATRICES SIMÉTRICAS......................................................... 93 1. DEFINICIONES.......................................................................................................................................................... 93 2. POLINOMIO CARACTERÍSTICO............................................................................................................................... 94 3. LA PROPIEDAD DE ORTOGONALIDAD DE LOS VECTORES PROPIOS ................................................................ 95 4. LA DESCOMPOSICIÓN ESPECTRAL DE UNA MATRIZ SIMÉTRICA....................................................................... 96 5. CARACTERIZACIONES POR MEDIO DE LOS VALORES PROPIOS ....................................................................... 97 6. FORMAS CUADRÁTICAS Y VALORES PROPIOS.................................................................................................... 98 7. VALORES SINGULARES Y DESCOMPOSICIÓN SINGULAR DE UNA MATRIZ RECTANGULAR ......................... 100 8. EL INVERSO GENERALIZADO DE PENROSE DE UNA MATRIZ RECTANGULAR................................................ 102 9. RESOLUCIÓN DE ECUACIONES LINEALES POR MEDIO DEL INVERSO ............................................................ 103 GENERALIZ DO DE PENROSE. PROPIEDADES DE LAS SOLUCIONESA ....................................................................... 103

CAPÍ ULO VIII.T LA DESIGUALDAD DE SCHWARTZ Y OTRAS DESIGUALDADES UTILES EN ESTADISTICA .......... 104 1. LA DESIGUALDAD DE SCHWARTZ Y SUS EXTENSIONES .................................................................................. 104 2. LA DESIGUALDAD TRIANGULAR Y SUS EXTENSIONES ..................................................................................... 106 3. IGUALDADES Y DESIGUALDADES UTILIZANDO TRANSFORMACIONES ORTOGONALES. .............................. 108 4. OTRAS DESIGUALDADES UTILES......................................................................................................................... 109 5. LOS PROBLEMAS DE PROCUSTE......................................................................................................................... 110

ANEXOS DE LA PARTE A. ..................................................................................................................................................... 112 PROGRAMACIÓN LINEAL EL ALGORITMO DEL SIMPLEX ................................................................................................ 112

1. PLANTEAMIENTO DEL PROBLEMA ....................................................................................................................... 112 2. REPASO DE ALGUNOS CONCEPTOS BÁSICOS DE TOPOLOGIA. ...................................................................... 114 3. CARACTERIZACIÓN DE LAS SOLUCIONES A UN PROGRAMA LINEAL .............................................................. 126 4. ALGORITMO DEL SIMPLEX.................................................................................................................................... 135

PARTE B: ................................................................................................................................................. 138 MODELOS LINEALES ............................................................................................................................. 138

CAPI ULO IX.T INTRODUCCIÓN..................................................................................................................................... 139 1. MODELOS LINEALES Y CAUSALIDAD EN ESTADÍSTICA ..................................................................................... 139 2. EL MODELO LINEAL. NOTACION Y DEFINICIONES.............................................................................................. 141

CAPÍ ULO X.T ESTIMACIÓN POR MÍNIMOS CUADRADOS DE UN MODELO LINEAL ............................................... 142 1. PLANTEAMIENTO DEL PROBLEMA ....................................................................................................................... 142 2. EL CRITERIO DE ESTIMACION DE MINIMOS CUADRADOS DE p........................................................................ 142 3. LA SOLUCIÓN DE MÍNIMOS CUADRADOS............................................................................................................ 144 4. EL TEOREMA DE LA PROYECCIÓN....................................................................................................................... 147 5. DESCOMPOSICIÓN DE LA VARIANZA.-................................................................................................................. 149

DESCOMPOSICIÒN TRIANGULAR DE LA NORMA .............................................................................................................. 151 6. CORRELACION PARCIAL ....................................................................................................................................... 155

CAPÍ ULO XIT VECTOR ALEATORIO NORMAL Y VARIABLES ALEATORIAS QUE LE SON DEDUCIDAS............... 157 1. EL VECTOR NORMAL ESTÁNDAR......................................................................................................................... 157 2. NOTA SOBRE LOS CAMBIOS DE VARIABLE EN LA INTEGRACION .................................................................... 158 3. FUNCIONES LINEALES DE VARIABLES NORMALES ........................................................................................... 159 4. FUNCIONES CUADRATICAS DE VARIABLES NORMALES ESTANDAR............................................................... 165 5. VARIABLE DE STUDENT ........................................................................................................................................ 165

Page 4: 1992 descripcion e inferencia lineal en estadistica

iv

6. VARIABLE DE FISHER............................................................................................................................................ 165 7. EXTENSIONES CON VECTORES NORMALES QUE NO SON ESTÁNDAR........................................................... 166

a. Variable Chi-Cuadrado con n grados de libertad ................................................................................................. 166 b. Variables Chi-Cuadrado y formas cuadráticas X'QX donde la matriz Q es un proyector de rango r. .................... 167

8. INDEPENDENCIA DE FORMAS LINEALES Y CUADRATICAS DE VECTORES NORMALES ESTANDAR ............ 168 a. Independencia de dos formas lineales................................................................................................................. 168 b. Independencia de una forma lineal y de una forma cuadrática ............................................................................ 169 c. Independencia de dos formas cuadráticas........................................................................................................... 170

CAPÍ ULO XII.T HIPOTESIS ALEATORIAS EN EL MODELO LINEAL ............................................................................ 171 1. LAS HIPOTESIS SIMPLES: NORMALIDAD, INDEPENDENCIA Y HOMOCEDASTICIDAD..................................... 171 ESQUEMA DE CAUSALIDAD............................................................................................................................................. 171 2. FUNCIONES DE DISTRIBUCION DEDUCIDAS DE LA HIPOTESIS SIMPLE PARA LOS ESTIMADORES Y OTROS ESTADISTICOS.................................................................................................................................................................. 172 3. TESTS DE HIPOTESIS SIMPLE PARA LOS ESTIMADORES DE CADA UNO DE LOS PARAMETROS ................ 176 4. ANÁL IS DE LA VARIANZA Y TEST COMPUESTO PARA UN CONJUNTO DE HIPOTESIS SIMULTÁNEASIS ..... 176

CAPÍ ULO XIII.T LA ESTIMACIÓN MÁXIMO VEROSIMIL DE UN MODELO LINEAL....................................................... 180 1. PLANTEAMIENTO DEL PROBLEMA ....................................................................................................................... 180 2. LA ESTIMACIÓN DEL MODELO CON Ω CONOCIDA.............................................................................................. 181 3. LA ES IMACIÓN DEL MODELO CON Ω DESCONOCIDAT ...................................................................................... 182

CAPI ULO XIV.T ASPECTOS PRÁCTICOS RELATIVOS A LA REGRESIÓN LINEAL ..................................................... 184 1. LA REGRESIÓN POR ETAPAS ............................................................................................................................... 184 2. AUTOMATICIDAD DE LOS CÁLCULOS DE REGRESIÓN ...................................................................................... 186

PARTE C................................................................................................................................................... 188 DISEÑO DE EXPERIMENTOS................................................................................................................. 188

CAPITULO XV. INTRODUCCIÒN..................................................................................................................................... 189 CAPI ULO XVI.T LOS MODELOS LINEALES SINGULARES............................................................................................ 191

1. DEFINICIONES Y PLANTEAMIENTO DEL PROBLEMA.......................................................................................... 191 2. TÈCNICAS DE ESTIMACIÒN DE FUNCIONES LINEALES DE LOS PARÀMETROS.............................................. 191

a. Inversos generalizados........................................................................................................................................ 191 b. Base para un espacio vectorial............................................................................................................................ 192 c. Res ricciones líneales sobre los parámetrost ........................................................................................................ 192

CAPÍTULO XVII. ESTIMACIÓN MÍNIMO CUADRÁTICA CON RESTRICCIONES LINEALES SOBRE LOS PARÁMETROS 193

1. PLANTEAMIENTO DEL PROBLEMA ....................................................................................................................... 193 2. CARACTERIZACION DE LAS SOLUCIONES AL PROBLEMA DE REGRESION LINEAL CON RESTRICCIONES SOB E LOS PARÁMETROSR .............................................................................................................................................. 195

a. Condiciones de rango para la existencia de una solución única .......................................................................... 195 b. Condiciones de rango para que exista una solución única e igual al punto óptimo sin restricciones .................... 197

CAPÍ ULO XVIII.T PROYECCIONES Y PROYECTORES ................................................................................................ 198 1. PLANTEAMIENTO DEL PROBLEMA ....................................................................................................................... 198 2. SUMA DIRECTA ...................................................................................................................................................... 198 3. PROYECCIÓN ......................................................................................................................................................... 199 4. PROYECTOR........................................................................................................................................................... 199 5. PROYECTORES ORTOGONALES.......................................................................................................................... 202 6. EXPRESIÓN EXPLICITA DE UN PROYECTOR ORTOGONAL............................................................................... 203 7. LAS ECUACIONES NORMALES ............................................................................................................................. 204 8. SECUENCIA DE PROYECTORES ORTOGONALES Y PROPIEDADES................................................................. 204 9. UNA SECUENCIA PARTICULAR DE PROYECTORES ORTOGONALES ............................................................... 207 10. OTRAS PROPIEDADES DE LOS PROYECTORES................................................................................................. 208 11. DESCOMPOSICIÓN DE LA VARIANZA EN EL MARCO DE LOS MODELOS DE "ANÁLISIS DE LA VARIANZA" CORRIENTES EN LOS DISEÑOS DE EXPERIMENTOS ................................................................................................... 210

TABLA DE ANÁLISIS DE LA VARIANZA............................................................................................................................... 211 ANEXOS DE LA PARTE C...................................................................................................................................................... 213

A. UNA CLASE PARTICULAR DE INVERSOS GENERALIZADOS .............................................................................. 213 1. PRESENTACIÓN............................................................................................................................................... 213 2. ALGUNAS CONSECUENCIAS ........................................................................................................................... 214 3. DEMOSTRACIÓN............................................................................................................................................... 214

B. SOBRE UNA CLASE PARTICULAR DE SOLUCIONES A UN SISTEMA DE ECUACIONES LINEALES ................. 217 1. PRESENTACIÓN................................................................................................................................................ 217 2. COMPROBACIÓN .............................................................................................................................................. 217 3. EXTENSIÓN ....................................................................................................................................................... 218

PARTE D................................................................................................................................................... 219 ELEMENTOS DE...................................................................................................................................... 219 ANALISIS MULTIVARIANTE................................................................................................................... 219

Page 5: 1992 descripcion e inferencia lineal en estadistica

v

CAPI ULO XIX.T ANÁLISIS FACTORIAL........................................................................................................................... 220 1. PLANTEAMIENTO DEL PROBLEMA ....................................................................................................................... 220 2. NOCION DE INERCIA DE UNA NUBE DE PUNTOS ............................................................................................... 221 3. EL MODELO DE MINIMOS CUADRADOS............................................................................................................... 225 4. LA DUALIDAD DE LOS ANALISIS POR LINEAS Y POR COLUMNAS DE UNA MATRIZ DE OBSERVACIONES... 229

CAPÍ ULO XX.T ANÁLISIS EN CORRELACIONES CANÓNICAS.................................................................................... 231 1. EL MARCO GENERAL DEL CONCEPTO DE CORRELACION EN ESTADÍSTICA.................................................. 231

a. Correlación como medida de dependencia lineal................................................................................................. 231 b. El coeficiente de correlación Lineal Simple.......................................................................................................... 231 c. Correlación Múltiple............................................................................................................................................ 233 d. Correlación parcial .............................................................................................................................................. 234 e. Correlación canónica........................................................................................................................................... 235

2. LA BA ERIA DE CORRELACIONES CANONICAST .................................................................................................. 235 CAPÍ ULO XXI.T ANÁLISIS EN CORRESPONDENCIAS PRINCIPALES ......................................................................... 240

1. INTRODUCCIÓN...................................................................................................................................................... 240 2. PLANTEAMIENTO DEL PROBLEMA ....................................................................................................................... 240 3. DESCOMPOSICIÓN SINGULAR ............................................................................................................................. 241 4. PROPIEDADES DE LA DESCOMPOSICIÓN SINGULAR DE C=P-½TQ-½ ............................................................... 242 5. MEDIAS, VARIANZAS, COVARIANZAS, CORRELACIONES .................................................................................. 244 6. LOS EFECTOS CRUZADOS DE LINEAS Y COLUMNAS ........................................................................................ 247 7. REPRESENTACIONES GRÁFICAS......................................................................................................................... 251 8. CONCENTRACIÓN O COMPACTACIÓN................................................................................................................. 252 9. COMENTARIOS FINALES ....................................................................................................................................... 254

BIBLIOGRAFIA ........................................................................................................................................ 255

Page 6: 1992 descripcion e inferencia lineal en estadistica

vi

PRESENTACIÓN El presente trabajo es el resultado del acopio y ordenamiento de notas de los cursos dictados por su

autor entre 1976 y 1990 en la Carrera de Estadística de la Facultad de Ciencias Puras y Naturales. Estas notas han podido concretizarse en el presento texto gracias al apoyo que la Universidad de

San Andrés de La Paz prestó al autor concediéndole un año sabático entre abril 1990 y abril 1991. Este texto está dedicado, en primera instancia, a los alumnos sin los cuales sería muy difícil que los

profesores puedan cristalizar sus conocimientos, siendo, de todas maneras obvio que lo contrario no es forzosamente cierto...

El texto está organizado para hacer parte de 4 cursos diferentes de 1 semestre. El primero

constituye una introducción al Algebra Lineal con una orientación particular hacia sus aplicaciones en estadística. Contiene además un capítulo relativo a la Programación Lineal. El segundo curso es de modelos lineales, el tercero, de diseño de experimentos y el cuarto de análisis multivariante.

Rolando Morales Universidad de San Andrés La Paz - Bolivia

Page 7: 1992 descripcion e inferencia lineal en estadistica

1

PARTE A:

ELEMENTOS BÁSICOS DE

ALGEBRA LINEAL

Page 8: 1992 descripcion e inferencia lineal en estadistica

2

CAPÍTULO I. CONCEPTOS BÁSICOS 1. INTRODUCCIÓN En matemáticas aplicadas, sobre todo en varias de las ramas de estadística y de investigación operativa, el investigador trabaja con grandes cantidades de datos que, en general, se presentan en la forma de tablas de n líneas y m columnas de números reales. Los elementos de cualquier columna (o línea) de esta tabla pueden ser interpretados como las coordenadas de un punto en Rn (o en Rm). La distancia de uno de estos puntos al origen, como se verá posteriormente, puede ser asociada al concepto de varianza en estadística1 y el ángulo que dos de estos puntos forman con el origen al concepto de correlación. La regresión lineal puede considerarse come una proyección ortogonal de un punto sobre un espacio vectorial. De manera a conceptualizar correctamente el enfoque geométrico de algunas ramas de la estadística así como de la investigación operativa conviene considerar esos puntos como elementos de un espacio vectorial y las tablas de números como matrices. Esta observación lleva naturalmente a introducir los espacios vectoriales. Las reflexiones anteriores ponen el acento en la importancia de espacios vectoriales conformados por n-uplas de números reales. Sin embargo, muchas aplicaciones necesitan también la consideración de espacios vectoriales de n-uplas de números complejos. El presente texto supone que los estudiantes han seguido previamente un curso de Algebra Lineal, limitando muchos de los desarrollo posteriores a espacios vectoriales conformados por n-uplas de reales o complejos.

1 La distancia es múltiplo de la varianza

Page 9: 1992 descripcion e inferencia lineal en estadistica

3

2. ESPACIOS VECTORIALES El juego de ajedrez (o todo otro juego) tiene un soporte, las fichas y el tablero, y un conjunto de reglas que definen las "operaciones" o jugadas posibles. Aún si es banal, cabe señalar que ninguna ficha puede jugar fuera del tablero y que todas ellas pueden desplazarse sólo según las reglas predefinidas del juego (por ejemplo, un caballo no puede desplazarse en línea recta). La expresión "puede" en este caso no significa una limitación absoluta, mas implica que toda violación a las reglas significa que ya no se trata de un juego de ajedrez.... Un espacio vectorial es definido a través de: -un conjunto de elementos V -un cuerpo K y un conjunto de reglas o de operaciones que se ejecutan al interior de V. Estas operaciones son de dos tipos: -las que se refieren sólo a los elementos de V (reglas o leyes de composición interna) -las que combinan elementos del cuerpo K con los de los elementos del conjunto V para dar lugar a otros elementos de V (reglas o leyes de composición externa) En el recuadro, se introduce V como un conjunto de elementos cualquiera. No es el caso de K, el cual tiene una estructura de cuerpo. En matemáticas aplicadas, K con frecuencia es el cuerpo de reales R o el de complejos C. La ley de composición interna asocia a 2 ó más elementos de V un tercer elemento, también en V. Con frecuencia se la denomina suma y se la abrevia + por que en los espacios vectoriales compuestos por todas las n-uplas de números reales, esta ley equivale a la suma en los reales. No obstante, si V es un conjunto cualquiera, esta abreviación puede prestar a confusión.

Page 10: 1992 descripcion e inferencia lineal en estadistica

4

La ley de composición interna en V asocia a 2 o más de sus elementos un tercer elemento también en V con las características siguientes: 1. Es una ley conmutativa en el sentido en que si X+Y = Z también Y+X = Z 2. Es una ley asociativa en el sentido en que si X+Y = A y Y+Z=B, se tiene A+Z = X+B

3. En relación a la ley de composición interna, para que V sea un espacio vectorial 4. tiene que existir en V un elemento neutro 0 común a todos sus elementos tal que para cualquier X en V, X+0 = X

5. En forma simétrica al punto anterior, para que V sea un espacio vectorial, para cada X en V tiene que existir un elemento simétrico X* tal que X+X* = 0

La ley de composición externa asocia a uno (ó varios) elementos de V y a uno (ó varios) elementos de K (denominados escalares) un elemento de V. Con frecuencia se la denomina "multiplicación por un escalar" y se la abrevia con un punto (.) por que en los espacios vectoriales compuestos por todas las n-uplas de números reales, esta ley equivale a la multiplicación en los reales. No obstante, como en el caso de la ley de composición interna, si V es un conjunto cualquiera, esta abreviación puede presta a confusión (2).

2) Desde el momento en que se usa el símbolo suma, el estudiante tiene la tendencia a

asimilar esta operación a la suma de los reales y se pregunta por qué complicar tanto una operación tan simple...que la conocía desde el primer año básico.

Page 11: 1992 descripcion e inferencia lineal en estadistica

5

La ley de composición externa está definida como sigue: Para todo X en V y para todo escalar a en K, a.X es un elemento de V. La ley de composición externa verifica los axiomas siguientes:

1. La ley de composición externa es asociativa en el sentido siguiente: si A=a.X y B =b.X se tiene b.A = a.B

2. En K, con relación a V, existe un elemento u, denominado neutro tal que para todo X en V, u.X= X (u es entonces el elemento neutro en relación a la multiplicación)

3. La ley de composición externa es distributiva en relación a la suma definida en V en el sentido siguiente:

a.(X+Y) = a.X + a.Y , con a en K y X,Y en V

4. La ley de composición externa es también distributiva en relación a la suma(3) definida en el cuerpo K:

(a+b).X = a.X + b.X , con a, b en K y X en V

Vocabulario: Un conjunto V donde se ha definido una regla de composición interna y otra de composición externa en relación a un cuerpo K se denomina "espacio vectorial

V en el cuerpo K". Los elementos de un espacio vectorial son denominados vectores.

3) La suma en K y en V no se refiere, necesariamente, a las mismas operaciones. Así el

signo + en a+b en relación a K no es el mismo que en X+Y en V.

Page 12: 1992 descripcion e inferencia lineal en estadistica

3. ESPACIOS VECTORIALES "V=Kn EN K" DONDE K ES UN CUERPO Kn es una abreviación para identificar el conjunto de n-uplas de escalares del cuerpo K. Utilizando la suma y la multiplicación definidas en K para definir las leyes de composición interna y externa en Kn (en el sentido que se verá posteriormente), se puede demostrar que "Kn es un espacio vectorial en K". Las n-uplas de K, por convención son presentadas en la forma de una lista vertical de escalares de K (o "vector columna) : Ejemplo:

⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢

= K en upla-n n

δ

γ

β

α

La ley de composición interna está definida como la suma (en K) "término a término" de los componentes de las n-uplas de V=Kn . Ejemplo:

⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢

⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢

⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢

+d

+c

+b

+a

=

+

d

c

b

a

δ

γ

β

α

δ

γ

β

α

La ley de composición externa está definida como la multiplicación (en K) de un escalar de K "por cada uno de las componentes de le n-upla que constituye un elemento de V=Kn" Ejemplo:

⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢

⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢

b.w

b.z

b.y

b.x

=

w

z

y

x

b.

6

Page 13: 1992 descripcion e inferencia lineal en estadistica

Cada n-upla en V=Kn es denominada vector o punto. Cada elemento de la n-upla es denominado componente o también coordenada. Un vector ei tal que todas sus componentes son nulas salvo la i-ésima que es igual al elemento neutro para la multiplicación en el cuerpo K es denominado "vector unidad-i". Ejemplo, si K=R :

⎥⎥⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢⎢⎢

0

0

1

0

0

0

= ei

El conjunto de n vectores ei, para i=1,2,..n, es denominado "base canónica usual para Kn". El término "base" tiene una importancia particular en Algebra Lineal y será explicado posteriormente. Por el momento, obsérvese que todo vector X en Kn puede escribirse en la forma:

X = x1e1 + x2e2 + ... + ......xnen

Como puede observarse por la expresión precedente, el término "coordenada" para identificar la i-ésima componente xi del vector X está relacionado a su representación en términos de la base canónica usual. Si R=K y n=2, los vectores e1 y e2 pueden representarse por 2 puntos ubicados sobre dos ejes ortogonales en forma equidistante a su intersección.

7

Page 14: 1992 descripcion e inferencia lineal en estadistica

e1

e2

Cualquier punto del primer eje puede representarse como un múltiplo de e1 así como cualquier punto del segundo eje como un múltiplo de e2. Por otra parte, cualquier punto X del plano puede representarse como la suma de un punto x1e1 ubicado sobre el primer eje y de otro punto x2e2 situado sobre el segundo eje.

x1e1

x2e2 X

En relación a la geometría elemental, se comprende entonces por que las componentes xi de un vector X se denominan coordenadas. Pero, obsérvese también que esta denominación se refiere a la representación gráfica de un punto en un sistema de ejes ortogonales definido por los vectores de la base canónica.

8

Page 15: 1992 descripcion e inferencia lineal en estadistica

Obviamente que un mismo vector puede representarse en otros sistemas de ejes y en consecuencia, con otras coordenadas. Imagínese solamente la rotación de los ejes del gráfico anterior en 30 grados o posibilidad de rotar solamente uno de ellos en 45 grados. La representación gráfica en ejes ortogonales de un vector o conjunto de vectores en Rn será utilizada con frecuencia en lo que sigue por lo que vale la pena prestarle alguna atención. Obsérvese que un vector X en Rn es, en consecuencia, un "punto" en el plano cuando n=2 y un punto en el espacio cuando n=3. Para n cualquiera, se seguirá identificando gráficamente un vector X por un punto. Un conjunto de vectores X,Y,Z,...en Rn forma, entonces, una "nube de puntos" en el espacio. Cuando n=2, estos vectores pueden ser representados como una nube de puntos en un plano. Obsérvese que si X es un punto en Rn y a es un número, el vector aX se encuentra en la misma dirección que X en relación al origen. Haciendo variar a entre -infinito y +infinito, el conjunto de vectores aX genera una línea que pasa por el origen. Intuitivamente, se puede observar la relación de dependencia lineal que tiene todo vector aX con X. Este concepto tiene gran importancia en estadística y será tratado con detalle posteriormente.

X

aX

Se puede determinar el valor del vector Z=X+Y gráficamente, como lo muestra el ejemplo siguiente:

9

Page 16: 1992 descripcion e inferencia lineal en estadistica

X

Y

Z

Si a y b son dos escalares no negativos que suman 1, el vector Z=aX+bY se encuentra sobre la línea que une los vectores X e Y; es denominado "combinación lineal convexa" de X e Y. Obsérvese que las coordenadas de Z son medias aritméticas ponderadas de las coordenadas de X e Y. Ejemplo:

Y

X

Combinación LinealConvexa

aX- (1-a)Y

0<a<1

10

Page 17: 1992 descripcion e inferencia lineal en estadistica

Un caso muy importante de representación gráfica de vectores es el de la representación de conjuntos definidos por medio de desigualdades lineales. Cabe, en primera instancia señalar que si y y x son dos vectores en Kn, la expresión x≤y significa que cada una de las componentes del vector x es inferior o igual a cada una de las componentes del vector y. Por ejemplo SxεR2/ x≥0 recubre la totalidad del primer cuadrante en R2. El conjunto S=xεR2/0≤x≤a, con a'=[1,1] esta conformado por todos los puntos que se encuentran sobre un cuadrado de lado igual a 1, sobre el primer cuadrante, comenzado en el origen [0,0]. ALGUNOS VECTORES PARTICULARES EN Rn: -VECTOR CERO : Sus componentes son iguales a cero -VECTOR UNO o SUMA : Sus componentes son iguales a uno -VECTOR PONDERACION : Sus componentes son no negativos y suman 1. -VECTOR DE CONTRASTE : Sus componentes suman cero 4. ESPACIOS VECTORIALES DE MATRICES En la sección precedente, se ha visto que el conjunto de n-uplas de K (conjunto Kn) es un espacio vectorial. A su vez, las m-uplas de vectores de Kn conforman un espacio vectorial sobre K, como se verá posteriormente. Así como se señaló anteriormente que, por convención, los vectores de Kn se escriben en forma de una lista vertical de escalares, las m-uplas de Kn se representan en forma de una lista horizontal de m vectores columna, es decir, en la forma de una tabla de n líneas y m columnas compuesta por escalares en K. Ejemplo:

⎥⎥⎥⎥

⎢⎢⎢⎢

i h g

f e d

c b a

= A

11

Page 18: 1992 descripcion e inferencia lineal en estadistica

Esta tabla recibe el nombre de matriz. Independientemente de la forma de escribirla, no se puede perder de vista de que el espacio de matrices de n líneas y m columnas no es otras cosa que el espacio de nxm-uplas de K y que, en consecuencia, se trata del espacio vectorial Knxm en K. Luego, la suma de 2 matrices está definida en forma similar a la suma de dos vectores: "término por término" Ejemplo:

⎥⎥⎦

⎢⎢⎣

⎥⎥⎦

⎢⎢⎣

⎡⎥⎦

⎤⎢⎣

h+d g+c

f+b e+a =

h g

f e +

d c

b a

De igual manera la multiplicación por un escalar equivale a multiplicar todos los términos de la matriz por el escalar. Ejemplo:

⎥⎦

⎤⎢⎣

⎡⎥⎦

⎤⎢⎣

.d .c

.b .a =

d c

b a .

λλ

λλλ

ALGUNAS MATRICES PARTICULARES: MATRIZ IDENTIDAD: Es una matriz cuadrada con 1 en su diagonal principal siendo ceros todas sus otras componentes MATRIZ CERO: Es una matriz llena de ceros MATRIZ UNO O MATRIZ SUMA Es una matriz llena de unos MATRIZ SIMÉTRICA Es una matriz cuadrada nxn en la cual la i-ésima línea es idéntica la i-ésima columna, con i=1,2,..n

12

Page 19: 1992 descripcion e inferencia lineal en estadistica

Cuando una matriz A es tal que sus líneas son iguales a las columnas de una matriz B se dice que A es la matriz transpuesta de B y vice-versa. Obsérvese que una matriz simétrica es igual a su transpuesta. TRAZA DE UNA MATRIZ nxn Se denomina traza de una matriz cuadrada a la suma de los elementos de su diagonal principal.

a = traza(A) ii

n

=1i∑

La traza tiene las siguientes propiedades: i. Traza (A+B) = Traza(A) + Traza (B) ii. Traza (µA ) = µ.Traza. (A)

iii. Traza (ABC) = Traza(BCA) = Traza(CAB) (circularidad).

5. SUB-ESPACIOS VECTORIALES Un sub-espacio vectorial no vacío del espacio vectorial V es un subconjunto de éste que a su vez es un espacio vectorial en relación al mismo cuerpo K y las mismas leyes de composición interna y externa que V. Luego, una condición necesaria y suficiente para que un subconjunto W del espacio vectorial V en K sea, a su vez, un espacio vectorial es que para todo X,Y en W y para todo par de escalares a,b en K, el vector (a.X + b.Y) pertenezca a W. Como consecuencia de la definición se remarcará que: a. Todo subespacio vectorial W de V contiene al elemento neutro 0 de V en relación a la ley de

composición interna. b. Un subconjunto de V conteniendo solo al vector neutro 0 es un subespacio vectorial de V

13

Page 20: 1992 descripcion e inferencia lineal en estadistica

14

Ejemplo: Sea V=R3 y H=xεV/ x= ae1 +be2, para todo a,b en R. El conjunto H es un subconjunto de

V y es fácil de demostrar que si x,y son elementos de H, también lo son cx+dy para todo c,d en R. Luego H es un subespacio vectorial en R3. Geométricamente, V representa un espacio de 3 dimensiones. H constituye un plano de este espacio.

6. SUBESPACIOS GENERADOS POR UN CONJUNTO DE VECTORES a. Combinaciones lineales de vectores Una combinación lineal de los vectores X1, X2,...Xn del espacio vectorial V en relación a un conjunto de escalares λ1,λ2,...,λn en K es un vector Z en V tal que: Z = λ1.X1 + λ2.X2 +.....λn.Xn Z es una combinación lineal convexa de estos vectores si los escalares λi, i=1,2,..n son no negativos y su suma es igual al elemento neutro en K en relación a la ley de composición externa (si K=R, este elemento es igual a 1). b. Conjuntos generadores, espacios generados por un conjunto de vectores Sea S un subconjunto de un espacio vectorial V. Se dirá que S genera o engendra el subespacio vectorial S en V si todo elemento de S puede escribirse como combinación lineal de los elementos de S. S es denominado el conjunto generador del espacio vectorial S en V y S el espacio vectorial engendrado por el conjunto de vectores S.

Page 21: 1992 descripcion e inferencia lineal en estadistica

15

7. DEPENDENCIA E INDEPENDENCIA LINEAL El vector X del espacio vectorial V es linealmente dependiente de un subconjunto S de vectores en V, si X pertenece al conjunto engendrado por S, es decir, si X es una combinación lineal de vectores contenidos en S. De manera simétrica, X es linealmente independiente de S, si X no pertenece al espacio vectorial engendrado por los vectores de S, es decir, si X no es una combinación lineal de los vectores contenidos en S. Un conjunto D en V está formado por vectores linealmente independientes, si cada uno de sus vectores es linealmente independiente del conjunto de vectores formado por los vectores restantes. De manera semejante: un conjunto D en V está formado por vectores linealmente dependientes, si por lo menos uno de sus vectores es linealmente dependiente de algún subconjunto de vectores formado por los vectores restantes. Las definiciones anteriores pueden traducirse de la siguiente manera: a. Dependencia lineal Un conjunto de vectores (X1,X2,...,Xn) en V es un conjunto de vectores linealmente dependientes si existen escalares ui no todos simultáneamente nulos tales que: u1X1 + u2X2 + ... + unXn = 0 b. Independencia lineal Un conjunto de vectores (X1,X2,...,Xn) en V es un conjunto de vectores linealmente independientes (LIN) si la igualdad: u1X1 + u2X2 + ... + unXn = 0 implica que todos los escalares ui son simultáneamente nulos.

Page 22: 1992 descripcion e inferencia lineal en estadistica

16

c. Consecuencias de las definiciones i) Un vector X es linealmente dependiente de un conjunto de vectores LIN (X1, X2,... Xn) en V si el

conjunto S=( X1, X2,..., Xn;X) está formado por vectores linealmente dependientes ii) Si S es conjunto de vectores LIN, cada uno de sus subconjuntos será también LIN. Demostración (por absurdo) Sea S=(X1,X2,...,Xr,Xr+1,...,Xn) un conjunto formado por vectores LIN. Supongamos que S1=(X1,X2,...,Xr) es un subconjunto de S formado por vectores que no son LIN; es decir, supongamos que existen escalares u1,u2,...ur no simultáneamente nulos tales que: u1X1 + u2X2 + ... + urXr = 0 Pero en tal caso: (u1X1+...+urXr) + (ur+1Xr+1+...+umXm)= 0 con ur+1=ur+2=...un=0, expresión que contradice el supuesto inicial de que S está formado por vectores LIN. iii. Si un conjunto S está formado por vectores que no son LIN, todo conjunto para el cual S sea un

subconjunto estará formado por vectores que no son LIN. iv. Si X1, X2,...Xn son LIN y si para dos conjuntos de escalares (v1, v2,..vn) y (w1, w2,..wn) se tiene: v1.X1 + v2.X2 +...vn.Xn = w1.X1 + w2.X2 + ...wn.Xn entonces, vi=wi, para todo i=1,2,...n. Demostración: Con ui=vi-wi la expresión precedente puede escribirse: u1.X1 + u2.X2 + ..unXn = 0, Si uno o más de los coeficientes ui fuesen diferentes de cero, los vectores Xi no serían

independientes, lo que contradice la hipótesis inicial. Luego ui=0, i=1,2,..n. En consecuencia: La representación de un vector X en términos de una combinación lineal de vectores LIN X1, X2,...Xn es única. Es decir, existe un solo juego de escalares vi, i=1,2,..n, tal que X=v1.X1 + v2.X2 + ...vnXn. En particular, si X=Xi, entonces, vi=1, y vj=0 para todo i≠j)

Page 23: 1992 descripcion e inferencia lineal en estadistica

17

8. DIMENSIÓN DE UN ESPACIO VECTORIAL El número máximo de vectores LIN en un conjunto de vectores S en V es igual a M si en S existe algún subconjunto conformado por M vectores LIN y si todo otro vector en S puede escribirse como combinación lineal de los vectores de ese subconjunto. Consecuentemente con la definición anterior, se denomina "dimensión de un espacio vectorial" al número máximo de vectores LIN que contiene el espacio vectorial. Obsérvese que en todo espacio vectorial puede definirse una infinidad de conjuntos diferentes de vectores conteniendo todos ellos el número máximo de vectores LIN. Obsérvese que si un conjunto de vectores S engendra S y si T es un subconjunto de S conteniendo el máximo número de vectores LIN, T también genera S. En ese caso T es el conjunto en S con menos vectores capaz de generar S. Si W es un subespacio vectorial del espacio vectorial V, es evidente que no puede contener más vectores LIN que V, luego:

dim W ≤ dim V 9. BASE DE UN ESPACIO VECTORIAL Sea V un espacio vectorial en K y B un subconjunto de V. El conjunto de vectores B es una BASE para V si: i. Esta compuesto de vectores LIN

ii. Todo otro vector en V es una combinación lineal de los vectores de B.

Page 24: 1992 descripcion e inferencia lineal en estadistica

18

Obsérvese que una base es un conjunto generador del espacio vectorial con la propiedad suplementaria de contener sólo vectores LIN. Puesto que todo otro vector en V es una combinación lineal de los vectores de B, el número de vectores que contiene es igual al número máximo de vectores LIN en V; luego, consecuentemente con la definición anterior ese número es igual a la dimensión del espacio vectorial V. Si n es la dimensión del espacio vectorial V, todo conjunto de n vectores LIN X1, X2,...Xn es una base para V. Esto muestra que para cada espacio vectorial existe una infinidad de bases diferentes. En la sección 3 se señaló que el conjunto de vectores unidad-i, para i=1,2,..n constituía una base para el espacio vectorial Kn. Con las definiciones anteriores queda en evidencia por qué este conjunto es efectivamente una Base para ese espacio vectorial. 10. CAMBIOS DE BASE A partir de una Base se puede construir nuevas Bases para V reemplazando sucesivamente algunos (o todos) los vectores de la base inicial por nuevos vectores en V. Esta operación se denomina "cambio de base". Obviamente que si se reemplaza un vector de la Base por otro que se encuentra fuera de ella, el nuevo conjunto es todavía una Base sólo si el nuevo vector es linealmente independiente de los demás. Sea, por ejemplo, B=X1,X2,...Xs una base para V y Xr un vector en V fuera de B. Si se introduce Xr≠[0] en lugar de Xs, obteniendo un nuevo conjunto B*=X1, X2,..,Xr, B* es todavía una base sólo si Xr es linealmente independiente de los Xi, i=1,2,,,s-1. La reflexión anterior nos lleva a platear el resultado siguiente: i. Puesto que B es una Base para V existen escalares ui, i=1,2,..s tales que Xr= u1.X1

+u2.X2...+usXs, ii. Si us=0, la expresión precedente muestra que Xr es una combinación lineal de X1, X2,..Xs-1,

luego B* no podría ser una base. En consecuencia, us≠0 es una condición necesaria para que B* pueda ser una base.

iii. Supóngase que con us diferente de cero, B* no contiene vectores LIN. Fácilmente se puede

demostrar que en ese caso, B tampoco contiene vectores LIN. Luego, us diferente de cero es también una condición suficiente para que B* sea una base para V.

Para muchos algoritmos, por ejemplo, el del SIMPLEX en el marco de la programación lineal o el de la inversión de matrices o el de la regresión lineal por etapas, es importante el algoritmo que permite representar un vector cualquiera como una combinación lineal de los vectores de una nueva Base partiendo de la representación relativa a una base anterior.

Page 25: 1992 descripcion e inferencia lineal en estadistica

Sea B =X1, X2,...Xs una base inicial y, sea B*=X1, X2,...Xr la nueva base. Supóngase que la representación del vector Xr en términos de B tiene la estructura siguiente:

Xa + Xa = X ssrkkr

1-s

=1kr ∑ (9)

De donde:

X)aa( - X)

a1( = X k

sr

kr1-s

=1kr

srs ∑ (10)

Si, inicialmente, la representación de un vector Xs+j cualquiera en términos de la base B era:

(11) Xa + Xa = X ssjkkj

1-s

=1kjs+ ∑

Reemplazando Xs en (11) por su expresión determinada en (10), se tiene la representación siguiente del vector Xs+j en términos de la nueva base B*:

X)a

aa - a( + X)aa( = X k

sr

krsjkj

1-s

=1kr

sr

sjjs+ ∑ (12)

Las relaciones (10) y (12) proporcionan los elementos básicos para los cambios de representación de un vector cualquiera Xs+j en términos de una nueva base.

19

Page 26: 1992 descripcion e inferencia lineal en estadistica

20

En efecto: Considérese la siguiente tabla denominada de Tucker:

Vectores fuera de la base B Vectores en

la base B Xs+1

.

Xs+j . Xr

X1 . . . .

Xk akj akr

. Xs asj asr

En esta tabla, la representación de los vectores que se encuentran fuera de la base se la hace con los escalares que se encuentran en las columnas de estos vectores. Estos escalares son los coeficientes asociados a cada uno de los vectores que se encuentran en la Base B. Obsérvese cómo esta tabla se modifica con la introducción del vector Xr dentro de la base, en lugar del vector Xs:

Vectores fuera de la base B* Vectores en la base B*

Xs+1

.

Xs+j . Xr

X1 . . . .

Xk akj-(asjakr)/asr -akr/asr

. Xr asj/asr 1/asr

Las expresiones que se encuentran en esta tabla corresponden a los coeficientes de las relaciones (10) y (11). Recuérdese que los coeficientes sobre una misma columna se interpretan, en cada una de las iteraciones, como los coeficientes asociados a los vectores de la base correspondientes a la representación del vector que se encuentra fuera de la base en la misma columna.

Page 27: 1992 descripcion e inferencia lineal en estadistica

21

Algoritmo. A partir de una tabla inicial de Tucker es posible realizar sucesivos cambios de base y obtener las nuevas representaciones de los vectores que se encuentran fuera de ellas en términos de combinaciones lineales de sus vectores de las bases.

1. Se denomina pivote al elemento que se encuentra en la intersección de la columna del vector que entra en la base y en la línea del que sale de la base. Consecuentemente con los desarrollo anteriores, el pivote debe ser diferente de cero. El valor orignal del pivote será reemplazado por su inverso.

2. Los elementos de la columna del pivote se dividen por el pivote y cambian de signo 3. Los elementos de la línea del pivote se dividen por el pivote

5. El resto de los elementos se calculan de la siguiente manera: al elemento que se encontraba en la celda (i,j) se le sustrae el producto de los elementos que se encuentran en la línea i y la columna del pivote y en la columna j y la línea del pivote dividido por el valor del pivote.

Las tablas anteriores ilustran estas operaciones. 11. DUALIDAD EN LOS CAMBIOS DE BASE En matemáticas aplicadas reviste particular importancia, como se señaló anteriormente, los espacios vectoriales del tipo Kn en K, particularmente, cuando K=R. Sean Xj, j=1,2,..n, n-vectores en Rm y reténgase como base inicial para Rm la base canónica usual E = e1, e2,..em en este espacio vectorial. Los vectores Xj pueden considerarse como vectores columna de una matriz X con m-líneas y n-columnas. La transpuesta de esta matriz, X', tiene n-líneas y m-columnas; cada uno de sus vectores columna Yj, j=1,2,..m puede ser representado en términos de los vectores B = bi,i=1,2,..n, de la base canónica usual de Rn. Obsérvese que sin esfuerzo adicional de cálculo, se puede realizar cambios de base simultáneamente en la base E y en la base B así como lograr las representaciones respectivas de los vectores en los espacios vectoriales Rm y Rn:

Page 28: 1992 descripcion e inferencia lineal en estadistica

22

Vectores fuera de la base E Vectores en

la base E Xm+1

.

Xm+j . Xm+n

e1 . . Yn+1

. . . ek akj akn Yn+k

. em amj amn Yn+m

Vectores en la Base B

b1 . bj bn Vectores fuera de la base B

Obsérvese que todo cambio de base en E implica un cambio automático de base en B. Se dice que E y B así como las bases siguientes son bases duales.

Page 29: 1992 descripcion e inferencia lineal en estadistica

25

CAPÍTULO II. APLICACIONES LINEALES Y MATRICES 1. DEFINICIÓN Sean E y F dos espacios vectoriales sobre un mismo cuerpo K. Sean X, W dos elementos cualesquiera de E y µ algún escalar en K. Una aplicación lineal f de E en F es una aplicación tal que: i. f(X + W) = f(X) + f(W) ii. f(µX) = µ.f(X) En muchos textos, ambas propiedades de una aplicación lineal son resumidas en una sola: Se dice que f es una aplicación lineal de E en F si para todo X, W en E y todo par de escalares η,µ se tiene:

f(ηX+µW) = η.f(X) + µ.f(W) Vocabulario: f(E) es el subconjunto de F con las imágenes de todos los elementos de E por la aplicación f. Cuando f(E)=F, se dice que f es una aplicación sobre F; si no, f es una aplicación en F. Se denomina rango de la aplicación lineal f al número máximo de vectores linealmente independientes contenidos en f(E) Posteriormente, se verá que f(E) es un espacio vectorial, en consecuencia, el rango de la aplicación lineal f es la dimensión del espacio vectorial f(E)).

Page 30: 1992 descripcion e inferencia lineal en estadistica

26

2. ALGUNAS CONSECUENCIAS IMPORTANTES DE LA DEFINICIÓN a. f(E) es un subespacio vectorial en F En efecto: Obsérvese que si Y1=f(X1) y Y2=f(X2) son dos elementos de f(E), para todo

par η,µ en K se tiene:

ηf(X1)+µf(X2) = f(ηX1+µX2) ε f(E) Puesto que f es una aplicación lineal de E en F. Se puede concluir, por otra parte, que si 0E es el elemento neutro en E, se tiene f(0E) = OF, donde

este último es el elemento neutro en F. b. Si f(X1),f(X2),..f(Xr) son LIN en F, entonces X1, X2,..Xr son LIN en E. En efecto: Partiendo de que f(X1), f(X2),..f(Xr) son LIN en F, supóngase que X1, X2,..Xr no son LIN en E y que en

consecuencia existen escalares λi tales que:

λ1.X1 + λ2.X2 +....λr.Xr = 0E Utilizando a la izquierda y a la derecha de esta expresión la aplicación lineal f, se tiene:

f(1.X1 + λ2.X2 +....λr.Xr)= f(0E) y, puesto que f es una aplicación lineal:

λ1.f(X1) + λ2.f(X2) + ....λr.f(Xr) = f(0E) = 0F

Lo que implicaría que los vectores f(X1), f(X2),..f(Xr) en F tampoco son LIN, contradiciendo la

hipótesis inicial.

Page 31: 1992 descripcion e inferencia lineal en estadistica

27

El resultado anterior implica que: dim f(E) ≤ dim E Para cualquier aplicación lineal f de E en F.

Y, puesto que f(E) es un subespacio vectorial de F, se tiene que dim f(E) ≤ dim F, juntando ambos resultados se concluye que:

dim f(E) ≤ min dim E, dim F Para cualquier aplicación lineal f de E en F. c. Si f y g son dos aplicaciones lineales de E en F, f+g es también una aplicación lineal de E en F. d. Sean E, F, G tres espacios vectoriales sobre un mismo cuerpo K y sea f una aplicación lineal de E

en F y g una aplicación lineal de F en g: E → F → G f g La aplicación lineal compuesta f.g es una aplicación lineal de E en G. Obviamente que la

composición de funciones lineales no es conmutativa (salvo pocas excepciones). e. Si E es igual a F y si el rango de la aplicación lineal f es igual a la dimensión de E, existe una

aplicación lineal g, tal que para todo X en E : g(f(X)) = X f(g(X)) = X Se dice que f es la aplicación inversa de g o que g es la aplicación inversa de f. (ver sección 5 de

este mismo capítulo). La composición de estas aplicaciones lineales f.g=g.f es uno de los pocos casos donde se observa la conmutatividad.

Page 32: 1992 descripcion e inferencia lineal en estadistica

f. El conjunto de aplicaciones lineales f de E en F constituye un espacio vectorial en K. 3. APLICACIONES LINEALES Y MATRICES: MATRIZ DE UNA APLICACION LINEAL f. Sea B = b1, b2,..bn una base para el espacio vectorial E y sea D= d1, d2,,,dm una base para el espacio vectorial F y f una aplicación lineal de E en F de rango m. Los vectores f(bj), j=1,2,..n, se encuentran en f(E) ε F, en consecuencia, para cada uno de estos vectores existen escales aij en K que permiten representarlos como combinaciones lineales de los vectores di de la base D del espacio vectorial F:

1,2,..n=j .da = )bf( iij

m

=1ij ∑

Se denomina "matriz de la aplicación lineal f de E en F relativa a las bases B y D de E y F respectivamente, a la tabla A, de m líneas y n columnas cuyos elementos son los escalares aij, i=1,2,..m y j=1,2,..,n, de la representación anterior. 4. APLICACIONES LINEALES CUANDO E=K Y F=K EN K n m

a. Una aplicación lineal como una combinación lineal en F Si E=Kn y F=Km y D es la base canónica usual de F, se tiene, según el recuadro precedente, que f(bj) = aj, es decir, el vector f(bj) es igual a la columna j de la matriz A. Este resultado pone en evidencia, también, que las columnas de la matriz A pertenecen al subespacio vectorial f(E). Sea X = Σxjbj, algún vector en E, con B=b1, b2,..bn la base canónica usual de E. Obsérvese que para todo X en E se tiene:

axbx=)bxf(=f(X) jj

n

j=1jj

n

j=1jj

n

j=1

)=f( ∑∑∑

28

Page 33: 1992 descripcion e inferencia lineal en estadistica

29

Esta expresión pone en evidencia que una aplicación lineal de E=Kn en F=Km de matriz A es una combinación lineal de los vectores columna de esta matriz (es decir, que la imagen de todo vector X en E es una combinación lineal en F de las columnas de la matriz A). La expresión precedente, muestra que las columnas de la matriz A constituyen un conjunto generador de f(E). En consecuencia, el número máximo de vectores columna LIN en A es igual a la dimensión del subespacio vectorial f(E), de donde, emerge, la expresión de rango de una matriz por asociación a la de rango de una aplicación lineal: rango(A) = número máximo de vectores LIN en A = número máximo de vectores LIN en f(E) = dim f(E) = rango de la aplicación lineal f de E en F b. Producto de una matriz por un vector Si f es una aplicación lineal de E=Kn en F=Km de matriz A relativa a las bases canónicas de ambos espacios, se acaba de mostrar que f(X), para todo X en E, puede escribirse como una combinación lineal de las columnas de la matriz A. Por convención, esa combinación lineal se escribe como el producto de la matriz A por el vector X: Producto de una matriz A por un vector x: f(X) = AX= Σxjaj es una combinación lineal de los vectores columna de la matriz A.

Page 34: 1992 descripcion e inferencia lineal en estadistica

30

c. Suma de aplicaciones lineales y suma de matrices Si f y g son 2 aplicaciones lineales de E en F de matrices A y B, la aplicación (f+g)(X) = f(X) + g(X) es una aplicación lineal de E en F de matriz A+B, donde la suma de matrices está definida de la misma manera que fue introducida en el capítulo I. d. Composición de aplicaciones lineales y producto de matrices Sean E, F, G tres espacios vectoriales sobre un mismo cuerpo K y sea f una aplicación lineal de E en F de matriz A de rango r y sea g una aplicación lineal de F en G de matriz B y de rango t. La aplicación compuesta g.f de E en G es, como se mencionó anteriormente, una aplicación lineal de E en G. Obsérvese que, cuando E=Kn, F=Km y G=Ks: la matriz A tiene m líneas y n columnas y rango r la matriz B tiene s líneas y m columnas y rango t y, que: todo elemento Y=f(X) en F se escribe f(X) = AX todo elemento Z=g(Y) en G se escribe g(Y) = BY ó, en forma equivalente: g(f(X)) = BAX Luego, C=BA es la matriz de la aplicación compuesta g.f La matriz BA es denominada producto de B por A. Es un producto no conmutativo. Recibe la interpretación siguiente: Considérese en E=Kn, los vectores ej, j=1,2,,,n de la base canónica usual. Las imágenes en F de los ej, j=1,2,,,n, en E, son, como se vio anteriormente, los vectores columna aj de la matriz A.

Page 35: 1992 descripcion e inferencia lineal en estadistica

Por otra parte, las imágenes en G de los ej, j=1,2,,n, en E, son los vectores columna cj de la matriz C=BA. Luego: Cj = Baj , j=1,2,..,n Como se explicó anteriormente, para todo Y en F, el vector g(Y)=BY es una combinación lineal de los vectores columna de la matriz B. De donde, los vectores columna de la matriz C=BA, producto de B por A, están definidos como las

siguientes combinaciones lineales de los vectores columna de la matriz B :

n,,1,2,=j Ba = C iij

m

=1ij ∑

De la expresión precedente, se deduce la definición clásica del producto de una matriz por un

vector. En efecto, si cij es el elemento de la línea i y columna j de la matriz C=BA se tiene:

ab = c kjik

n

=1kij ∑

e. Caracterizaciones relativas al rango de una matriz Reuniendo varios de los resultados anteriores, se llega a resultados muy útiles en la práctica en lo que concierne el rango de una matriz. Estos resultados son: i. rango(A) ≤ min m,n donde m es el número de líneas de A y n es el número de columnas Esta es una consecuencia directa de: dim f(E) ≤ min dim E, dim F ii. rango(BA) ≤ min rango(B), rango(A)

31

Page 36: 1992 descripcion e inferencia lineal en estadistica

Obsérvese, en primer lugar, que gf(E) está contenido en g(F) luego dim gf(E) ≤ dim g(F), lo que a su

vez implica que rango(BA) ≤ rango(B). Por otra parte, recuérdese que en la sección I se ha mostrado que el espacio imagen tiene una

dimensión menor o igual al espacio raíz, de donde: dim g(f(E)) ≤ dim f(E), de donde, rango(BA) ≤ rango(A) En consecuencia, rango(BA) ≤ min rango(B), rango(A) iii. Como consecuencia de los dos puntos anteriores, se tiene el resultado siguiente: rango(BA) ≤ min m,n,s , donde B es una matriz sxm y, A una matriz mxn iv. Si B es una matriz con m columnas y rango(B)=m, entonces rango(BA)=rango(A) y Si A es una matriz con m columnas y rango(A)=m, entonces rango(BA)=rango(B) 5. APLICACIONES LINEALES INVERSAS E INVERSOS DE MATRICES En la sección 2, se enunció de que si f es una aplicación lineal de E en F y que si F=E con el rango de f igual a la dimensión de E, existía una aplicación g, denominada inversa de f, tal que gf(X)=fg(X)=X para todo X en E. En la presente sección se demostrará este resultado y se introducirá la noción de inverso de una matriz. Si el rango de f es igual a la dimensión n de E y E=F, se tiene que f(E)=F=E y existen n vectores f(X1), f(X2),..f(Xn) en E que son LIN y que forman una base para E. Luego todo X en E, en particular, los Xj, j=1,2,,,n pueden escribirse como combinaciones lineales de estos vectores, es decir, existen escalares bij tales que:

(5) 1,2,..n=j )f( Xb = X iji

n

=1ij ∑

Por otra parte, si A=aij es la matriz asociada a la aplicación lineal f, se tiene:

32

Page 37: 1992 descripcion e inferencia lineal en estadistica

(6) Xa = )Xf( kik

n

=1ki ∑

Reemplazando la expresión (6) en (5), se tiene:

(7)

ab =

:donde X = X

ikji

n

=1ijk

kjk

n

=1kj

δ

δ

Teniendo en cuenta que X1, X2,..Xn forman también una base en E en virtud del resultado b. de la sección 2 y puesto que la representación de cualquier vector en términos de los vectores de una base es única, se tiene que existen coeficientes bij tales que:

δij = 1. si i = j δij = 0. si i j

puesto que Xj=Xj es la representación única del vector Xj en términos de la base X1, X2,...Xn El anterior resultado muestra que bajo las condiciones anteriormente enunciadas en relación a la aplicación lineal f, existe una relación "uno-a-uno" entre los vectores Xi y los vectores f(Xi), es decir, que para cada vector Xi existe un vector f(Xi) y vice-versa. ésta admite una inversa g en el sentido en que se cumple g.f(X)=X para todo X en E. En términos de las matrices A y B y de sus vectores columnas, los resultados anteriores pueden escribirse en la forma siguiente: Baj = ej , j=1,2,...n BA = I , Con I la matriz identidad nxn

33

Page 38: 1992 descripcion e inferencia lineal en estadistica

Por otra parte, reemplazando la expresión (5) en (6), se tiene:

(8)

1,2,..n=kj, ba

X=)Xf(

ikji

n

=1ijk

kjk

n

=1kj

=

:donde )f(

ω

ω

Nuevamente, teniendo en cuenta que f(X1), f(X2),..f(Xn) forman también una base en E en virtud del resultado b. de la sección 2 y puesto que la representación de cualquier vector en términos de los vectores de una base es única, se tiene que los coeficientes bij verifican también :

ωij = 1. si i = j ωij = 0. si i j

puesto que f(Xj)=f(Xj) es la representación única del vector Xj en términos de la base f(X1), f(X2),...f(Xn) En términos de las matrices A y B y de sus vectores columnas, los resultados anteriores pueden escribirse en la forma siguiente: Abj = ej , j=1,2,...n AB = I , Con I la matriz identidad nxn Con lo que se ha demostrado la existencia para toda matriz A de rango completo de otra matriz B, también de rango completo, denominada inversa de A, tal que AB= y BA=I. Definición: Sea A una matriz nxn. La nxn-matriz B es la matriz inversa de A si: AB = I BA = I

34

Page 39: 1992 descripcion e inferencia lineal en estadistica

6. ALGORITMO DE INVERSIÓN DE UNA MATRIZ A partir de los desarrollos anteriores, emerge, naturalmente, la idea de calcular el inverso de una matriz A a partir de sucesivos cambios de base, con un algoritmo similar al que fue propuesto en el capítulo I. En efecto, en la sección precedente se ha demostrado que los coeficientes bij de la matriz B inversa de A permiten representar los vectores de la base canónica usual ej de Kn en términos de los vectores columna a1, a2,..an de la matriz A, los que constituyen una base para Kn:

ab=Ab=e iij

n

=1ijj ∑

Recordando los puntos fundamentales del algoritmo de cambios de base expuesto en el Capítulo I, se puede diseñar un algoritmo para invertir una matriz: i. Planteando como base inicial la base canónica usual, ii. Representando los vectores aj, j=1,2,..n en esta base, iii. Introduciendo sucesivamente los vectores aj, j=1,2,..n, en la base hasta sacar de ella, todos

los vectores de la base canónica usual ei,i=1,2,..n Los coeficientes bij, obtenidos en la última tabla, permiten representar los vectores ej en términos de combinaciones lineales de los vectores columna de la matriz A, luego la matriz B=bij es la matriz inversa de A, acorde con los desarrollos anteriores. Algunos puntos prácticos en relación a este algoritmo: i. Un vector aj puede reemplazar dentro de la base un vector ei sólo si el pivote respectivo (elemento

de la celda i,j) es diferente de cero. ii. Si inicialmente los vectores de la base e1, e2,..en están ordenados, al igual que los que se

encuentran fuera de ella, a1, a2,..an, la tabla inicial es idéntica a la matriz A. iii. Si en cada etapa del algoritmo ha sido posible intercambiar vectores en el mismo orden, es decir,

utilizando como pivotes los elementos de la diagonal principal de la tabla, la última tabla es idéntica a la matriz B inversa de A.

iv. Si se utiliza pivotes que se encuentran fuera de la diagonal principal, la última tabla contiene todos

los coeficientes de la matriz B inversa de A pero, para identificarla con la matriz B, es necesario reordenar sus columnas, de manera a tener e1, e2,..en y, en su caso, también, las líneas de manera a tener a1, a2,..an.

35

Page 40: 1992 descripcion e inferencia lineal en estadistica

36

Si después de k < n iteraciones, han entrado dentro de la base k vectores aj, siendo imposible introducir en ella los vectores restantes por que todos los posibles pivotes son nulos, la matriz no es inversible, su rango es igual a k < n. La tabla siguiente ilustra esta situación, cuando los k-vectores que se han podido introducir son a1, a2,..ak: Considérese las particiones siguientes: A = [a1,..ak | ak+1....an] = [ A1 | A2] E = [e1,..ek | ek+1,...en] = [ E1 | E2] Con las cuales se construirá la siguiente tabla de Tucker: Vectores fuera de la base

Vectores en la Base E1 A2

A1' C G

E2' R D = 0 En este caso, los vectores que componen A2 no pueden reemplazar en la base a los que componen E2 puesto que todos los posibles pivotes, que se encuentran reagrupados en la matriz D, son nulos. Obsérvese que utilizando las convenciones usuales, los coeficientes de la matriz G contienen los escalares que permiten representar los vectores columna de A2 en términos de los vectores columna de A1 y puesto que D es igual a cero, se tiene: A2 = A1G Esta expresión muestra que los n-k vectores columna de A2 son linealmente dependientes de los de k-vectores columna que contiene la submatriz A1.

Page 41: 1992 descripcion e inferencia lineal en estadistica

37

Luego, a lo máximo, la matriz A contiene k vectores LIN, es decir, a lo máximo su rango es igual a k. Pero, por otra parte, obsérvese que los k-vectores columna de la submatriz A1 se encuentran en la base, luego son LIN, en consecuencia, k es igual al rango de la matriz A. 7. INVERSIÓN DE MATRICES PARTICIONADAS Es fácil demostrar que la inversión por bloques de una matriz A sigue reglas semejantes a las del algoritmo anterior. Considérese la siguiente partición de la nxn matriz A:

A11

A12

A21

A22

Donde A11 es una matriz kxk. Supóngase que, en una primera etapa, es posible introducir dentro de la base los k primeros vectores columna aj, j=1,2,..k, de la matriz A en lugar de los k primeros vectores ej, j=1,2,..k, de la base canónica usual para Rn. Se tendrá una tabla del tipo siguiente:

A11

-1

A11

-1A12

-A21A11

-1

D= [A22 - A21A11

-1A12]

Si en una segunda etapa es posible introducir dentro de la base los n-k vectores restantes de la matriz A, la tabla siguiente contendrá la matriz inversa de A:

A11

-1 - A11-1A12D-1A11

-1A21

-A11

-1A12D-1

-D-1A21A11-1

D-1

Page 42: 1992 descripcion e inferencia lineal en estadistica

8. DETERMINANTES a. Definición Sea A una matriz nxn particionada en forma de columnas: A = a1, a2,...an Se denomina determinante de la matriz A (det A) una función de A, d(a1, a2,...an) en R, que posee las 4 propiedades siguientes: i. Si B es una matriz obtenida de A permutando 2 de sus columnas, det B = - det A ii. Si a una de las columnas de A, por ejemplo a la primera, se le añade un vector c se tiene:

d(a1+c, a2,..,an) = d(a1, a2,..,an) + d(c, a2,..,an) iii. Si B es una matriz obtenida a partir de A multiplicando una de sus columnas por un escalar

µ, entonces det B = µ det A Luego, si A es una matriz nxn, det(-A) = (-1)ndet A. iv. El determinante de la matriz identidad es igual a 1. b. Algoritmo de cálculo de un determinante Existen muchos algoritmos diferentes para calcular un determinante. En el presente texto se presentará sólo aquel que está asociado al algoritmo de cambios de base y de inversos de matrices explicado anteriormente. Como se verá, no exige mayor esfuerzo de cálculo, pero, obviamente, no se pretende que sea el mejor desde el punto de vista numérico. i. Si piv(i), i=1,2,..n, es el valor del pivote en cada etapa del algoritmo de inversión de una matriz y si

los cambios de base se han realizado de manera a introducir dentro de la base, en cada etapa, un vector aj en lugar de un vector ej (es decir, si los pivotes han sido los elementos de la diagonal principal de la tabla entonces:

piv(i) = An

=1i∏det

ii. Si piv(i), i=1,2,..n, es el valor del pivote en cada etapa del algoritmo de inversión de una matriz y si

los cambios de base no se han realizado con pivotes de la diagonal principal de la tabla, la última

38

Page 43: 1992 descripcion e inferencia lineal en estadistica

tabla contendrá los elementos de la matriz inversa de A desordenados. Para obtener la matriz inversa a partir de esta tabla es necesario permutar sus columnas (siempre se puede organizar el algoritmo de manera a que no sea también necesario permutar las líneas). Si k es el número de permutaciones necesarias, acorde con la propiedad 1 de los determinantes, se tendrá:

piv(i))(-1 = An

=1i

k ∏det

c. Determinantes de matrices particionadas Considérese una partición de la matriz A como la analizada precedentemente:

A11

A12

A21

A22

Como en el caso escalar, el determinante de una matriz particionada puede ser calculado como el producto de los determinantes de sus pivotes, debiendo ser multiplicado por el factor (-1)k, en caso en que sea necesario realizar k permutaciones. Con k= 0 y las anotaciones de la sección anterior, se tendrá:

det A = det A11. det D

con D = [A22 - A21A11-1A12]

d. Determinante del producto de 2 matriz de rango máximo Si A y B son dos matriz nxn de rango máximo, se tiene que: det (AB) = det (BA) = det(A).det(B)

39

Page 44: 1992 descripcion e inferencia lineal en estadistica

40

9. FACTORIZACIÓN DE UNA MATRIZ SINGULAR Por factorización de una matriz A se entiende la descomposición de ésta en la forma del producto de 2 o más otras matrices. En la literatura sobre el tema, se puede encontrar una multiplicidad de formas de hacerlo. En el presente texto, se considerará algunas de ellas, las más relevantes para los desarrollos posteriores. Una forma simple de factorizar una matriz singular resulta del algoritmo de cambio de bases expuesto anteriormente. Esta factorización será utilizada con frecuencia en los capítulos que siguen. Sea A una matriz con m líneas y n columnas de rango igual a k. Considérese la partición siguiente:

A11

A12

A21

A22

Supongáse que se ha utilizado el algoritmo de cambio de base y se ha introducido dentro de la base los k primeros vectores aj de la matriz A en lugar de e1, e2,..ek. Teniendo en cuenta los desarrollos anteriores se tendrá una tabla de la forma:

A11

-1

G = A11

-1A12

R = -A21A11

-1

D= A22 - A21A11

-1A12 = 0

A partir de las matrices G y R calculadas de esta manera, se tiene: A21 = -RA11, matriz (m-k)xk A12 = A11G, matriz kx(n-k) A22 = -RA11G, matriz (m-k)x(n-k)

Page 45: 1992 descripcion e inferencia lineal en estadistica

41

De donde:

A11

A12 = A11G

A21 = -RA11

A22 = -RA11G

Fácilmente, se puede demostrar que esta matriz puede escribirse en la forma siguiente: con: A=VCW MATRIZ V

Ik

[0]rx(m-k)

-R

Im-k

MATRIZ C

A11

[0]kx(n-k)

[0](m-k)xk

[0](m-k)x(n-k)

MATRIZ W

Ik

G

[0](n-k)xk

In-k

Page 46: 1992 descripcion e inferencia lineal en estadistica

42

10. NUCLEO DE UNA APLICACIÓN LINEAL Y NUCLEO DE UNA MATRIZ Sea f una aplicación lineal de E en F. Se denomina núcleo de la aplicación lineal f (y se abreviará Kerf), al siguiente subconjunto de vectores en E: Kerf = X ε E / f(X) = 0F Si el rango de la aplicación lineal f es r, Kerf es un subespacio vectorial en E de dimensión igual a dim(E) - r. En efecto: i. Si X, Y pertenecen a Kerf, se tiene que: ηf(X)+µf(Y) = f(ηX+µY) = 0, luego ηX+µY también pertenece a Kerf lo que demuestra que es un espacio vectorial ii. Para mostrar que la dim del Ker(A) es igual a n-r se seguirá el siguiente razonamiento: 1. Si A es de rango r, f(E) tiene dimensión r. 2. A r vectores f(Xj) LIN en f(E), le corresponden r vectores Xj LIN en E, pero, en E

existen otros n-r vectores LIN que serán identificados por Xr+j, j=1,2,..n-r 3. Si f(Xr+j) vale vj, existe una combinación lineal Zj de X1, X2,...Xr tal que, también,

f(Zj)=vj. En efecto, puesto que la dimensión de f(E) es r y f(X1),..f(Xr) son LIN, existen coeficientes αij tales que f(Xr+j) = α1jf(X1) +....αrjf(Xr), como f es lineal, el término a la derecha es también igual a f(Zj) con Zj=α1jX1 + ...+ αrjXr

4. Luego, si Yj=Xr+j-Zj, se tiene f(Yj)=0, para j=1,2,..n-r con los Yj LIN. Si E = Kn y F = Km la definición de kernel se extiende a la mxn matriz de la aplicación lineal f: Ker(A) = X ε Kn / AX = [0] El Ker(A) es un subespacio vectorial en Kn. Si A es una matriz de rango r, la dimensión de este subespacio vectorial es igual a n-r. Se puede demostrar que Ker(A) tiene dimensión n-r, mostrando que existen n-r vectores LIN en Ker(A) y que cualquier otro vector en este espacio es combinación lineal de estos vectores.

Page 47: 1992 descripcion e inferencia lineal en estadistica

Para ello, se utilizará la descomposición de una matriz singular expuesta en la sección 9: A = VCW Considérese la partición en vectores columna de la matriz inversa de W: W-1 = [z1, z2,.., zn] Obviamente, por la definición de las matrices inversas, se tiene:

ej = Wzj j = 1,2,..n Considérese la partición siguiente del vector ej:

⎥⎥⎦

⎢⎢⎣

d

b = e

j

j

j

Donde el primero de los subvectores de la partición tiene r componentes y el segundo, n-r. Se remarcará que para cualquier j=r+1, r+2,...n, se tiene que bj = 0 y que los vectores dj son iguales a los vectores unidad-(j-r) en Rn-r. En consecuencia:

n2,..,+r1,+r=j

e

0

0 0

0 A

I R

0 I =

= VCe = VCWz = Az

r-j

11

r-n

r

jjj

⎥⎥⎦

⎢⎢⎣

⎡⎥⎦

⎤⎢⎣

⎥⎥⎦

⎢⎢⎣

De donde:

Azj = [0] , j=r+1, r+2,,,n

Puesto que los vectores zj hacen parte del inverso de la matriz W son obviamente LIN. El resultado anterior muestra que pertenecen al Ker(A).

43

Page 48: 1992 descripcion e inferencia lineal en estadistica

Se mostrará a continuación que todo otro vector en Ker(A) puede escribirse como combinación lineal de estos vectores y, que, en consecuencia, forman una Base para Ker(A). Puesto que z1, z2,..zn forman una Base en Rn, para cualquier vector X en Rn existen coeficientes cj, j=1,2,...n, tales que:

Azc + Azc = Ax

:Amatriz la por ndomultiplica

zc = x

jj

n

1+rj=jj

r

j=1

jjj=1

∑∑

∑n

El segundo término de esta sumatoria es igual a 0 puesto que los zr+j pertenecen al Ker(A). En relación, al primer término, obsérvese que Azj=aj, j=1,2,..r y que si el vector x pertenece al Ker(A) verifica Ax=0, de donde:

0 = ac=AX jj

r

∑j=1

Se concluye que si x pertenece al Ker(A), los coeficientes cj, j=1,2,..r son iguales a cero, puesto que los vectores a1, a2,..ar son LIN. Luego todo vector x en Ker(A) es combinación lineal de los vectores zr+1, zr+2,..zn, con lo cual se ha demostrado que estos vectores constituyen una Base para el Ker(A) y que la dimensión de este subespacio vectorial es (n-r). Por la facilidad de calcular los valores de los vectores de esta Base, ella será utilizada con frecuencia en el transcurso de los capítulos posteriores. 11. INVERSOS GENERALIZADOS DE MATRICES Sea A una matriz mxn. Se denomina inverso generalizado de A a una matriz B nxm que verifica la relación siguiente:

ABA = A

44

Page 49: 1992 descripcion e inferencia lineal en estadistica

Obsérvese que si A es una matriz cuadrada nxn de rango n, A admite un inverso y en ese caso la matriz B es igual a ese inverso. Contrariamente al inverso de una matriz, el inverso generalizado no es único, a no ser que A sea cuadrada de rango máximo. Con frecuencia, los inversos generalizados de una matriz son abreviados con A-. Dos ejemplos importantes de inversos generalizados son los siguientes: i. El que se calcula a partir de la descomposición de una matriz singular expuesta en la sección 9:

⎥⎦

⎤⎢⎣

0 0

0 A = C1-

11-

:con vcW = A -1--1-

ii. El inverso generalizado de Penrose. Este inverso es muy útil para muchos desarrollos en

estadística. Está definido de la siguiente manera: La matriz B es un inverso generalizado de Penrose de la matriz A si verifica: a. ABA = A b. BAB = B c. BA = (BA)' d. AB = (AB)' Para identificar este inverso, se utiliza la notación A+

45

Page 50: 1992 descripcion e inferencia lineal en estadistica

46

12. ALGUNAS APLICACIONES LINEALES PARTICULARES Algunos casos particulares de aplicaciones lineales en espacios vectoriales del tipo E=Rn en F=Rm son los siguientes:

1. Si f es una aplicación lineal de E en F de matriz A y g es una aplicación lineal de F en E de matriz A', se dice que g es la aplicación lineal transpuesta de f y vice-versa.

2. Si f es una aplicación lineal de E en E y es idéntica a su transpuesta, entonces f es una aplicación lineal simétrica en E.

3. Si f es una aplicación lineal de E en F tal que la aplicación compuesta con su transpuesta g.f arroja el mismo elemento en E, se dice que f es una aplicación ortonormada de E en F.

4. Si f es una aplicación lineal de E en E y en E existe un subespacio vectorial W tal que para todo xεW, se tiene f(x)=x, f es una aplicación idempotente en W, si, además f es simétrica, f es un proyector ortogonal en W.

Page 51: 1992 descripcion e inferencia lineal en estadistica

CAPÍTULO III. SISTEMAS DE ECUACIONES LINEALES 1. PLANTEAMIENTO DEL PROBLEMA Sea A una matriz mxn, x un vector en Rn y b un vector en Rm. Se denomina sistema de ecuaciones lineales a una relación del tipo siguiente: Ax = b Donde los elementos aij de la matriz A y los elementos bi del vector b son conocidos y se trata de determinar los elementos xi del vector x que generalmente se los denomina las "incógnitas del sistema". Sea S el espacio de soluciones: S = xεRn / Ax = b. Este espacio puede ser vacío, contener un solo elemento o una infinidad de elementos. Cuando S es vacío se dice que el sistema de ecuaciones es inconsistente ó que "no admite solución", mientras que si S contiene por lo menos un elemento, el sistema es consistente. Cuando S contiene más de un elemento, se dice que el sistema "admite soluciones múltiples" En gran medida, el análisis de un sistema de ecuaciones está orientado a determinar si su espacio de soluciones S contiene un sólo elemento, muchos o ninguno. 2. CARACTERIZACIONES INICIALES DEL ESPACIO DE SOLUCIONES a. Consistencia A partir de la definición del producto de una matriz por un vector expuesta en el capítulo anterior, obsérvese que plantear un sistema de ecuaciones lineales es equivalente a plantear el problema de determinar los coeficientes xi de la representación del vector b como combinación lineal de los vectores columna de la matriz A:

ax ...++ ax + ax = b nn2211

Sea G(A) el espacio engendrado por los vectores columnas de la matriz A:

R) en todo para a...++a+a= /R( = G(A) inn2211n δδδδββε

51

Page 52: 1992 descripcion e inferencia lineal en estadistica

Recuérdese que en el Capítulo II se ha mostrado que si el rango de A es r, G(A) es un espacio vectorial de rango r. Obviamente que si el vector b pertenece a G(A), el espacio de soluciones S contiene por lo menos un elemento y viceversa, es decir, si b no pertenece a G(A), S es vacío y el sistema es inconsistente. Luego, una condición necesaria y suficiente de consistencia del sistema es que el vector b pertenezca a G(A), es decir que:

rango[A] =b] |rango[A

Si la relación anterior no se cumple, el vector b no es una combinación lineal de los vectores columna de la matriz A y en consecuencia no pertenece a G(A) y el espacio de soluciones es vacío. Simétricamente, si la relación anterior se cumple, ello significa que el vector b es combinación lineal de los vectores columna de la matriz A y que en consecuencia existe una solución para el sistema. b. Redundancia Si el rango de la mxn matriz A es igual a r<m, el sistema es consistente, pero, m-r ecuaciones del sistema son superfluas o redundantes ó el sistema es inconsistente. Para demostrar este resultado, supóngase que las r primeras líneas de la matriz A son LIN y están contenidas en una rxn submatriz A1, mientras que las m-r líneas restantes están contenidas en la matriz A2. Puesto que estas últimas son combinaciones lineales de las líneas de A1, existe una matriz R tal que A2=RA1. Particionando el vector b en consecuencia, el sistema Ax=b puede escribirse:

⎥⎥⎦

⎢⎢⎣

⎥⎥⎦

⎢⎢⎣

b

b = x

RA

A

2

1

1

1

de donde:

A1x = b1RA1x = b2

52

Page 53: 1992 descripcion e inferencia lineal en estadistica

El sistema es consistente, es decir S no es vacío, sólo si Rb1=b2, pero, en ese caso, el primer conjunto de r-ecuaciones es suficiente para determinar x, siendo redundantes las m-r ecuaciones restantes. c. Soluciones múltiples Supóngase que el sistema es consistente y que el vector w es un elemento de S. Si el Ker(A) es diferente a 0, obsérvese que para todo vector yεKer(A), el vector x=w+y pertenece a S, es decir, es también una solución al sistema Ax=b, en cuyo caso, el sistema admite soluciones múltiples. Si el Ker(A) es igual a 0, S contiene 1 sólo elemento, es decir, la solución al sistema Ax=b es única. Recuérdese que S es vacío sólo si rango(A)=r=n y que en ese caso, los n-vectores columna de la matriz A son LIN; téngase en cuenta, también, que la representación de un vector en términos de vectores LIN es única (Capítulo I). d. Número máximo de vectores LIN en S Supóngase que b ≠ [0], que el rango de la matriz A es r y que el sistema es consistente. Se demostrará, a continuación, que el espacio S contiene a lo máximo n-r+1 vectores LIN (Si b=[0], el espacio de soluciones S es igual al Ker(A) y tiene n-r soluciones LIN, como se mostró en el capítulo II). i. Se mostrará, primero, que en S existen n-r+1 vectores LIN. Sea w una solución particular en S, sean Y1, Y2,..Yn-r los vectores de una base de Ker(A) y sea y0=0 Sean: xj = w + Yj j=1,2,..n-r Estos vectores pertenecen a S (lo que es evidente) y son LIN. Para mostrar que son LIN considérese la relación siguiente:

µµµδ

µδµ

r-n10

ii

r-n

=1ãii

r-n

=0i

...+++=:con

[0] = Y + w = x ∑∑

Si se pre-multiplica la relación precedente, a la izquierda y derecha de la igualdad, por la matriz A, se tiene δAw=0, puesto que Aw=b≠0, se tiene que δ=0, puesto que los vectores Yj son LIN, los coeficientes restantes

53

Page 54: 1992 descripcion e inferencia lineal en estadistica

µi, i=1,2,..n-r son también nulos. Todo ésto muestra que la relación del recuadro puede realizarse sólo si todos los coeficientes µi, i=0,1,2,...n-r son nulos, lo que demuestra que los vectores x0, x1,..xn-r son LIN. ii. Se mostrará a continuación que en S no hay más de n-r+1 vectores LIN. Sea w una solución particular cualquiera al sistema Ax=b y sea Y un vector cualquiera del Ker(A). Una solución general al sistema Ax=b o elemento cualquiera de S se escribe: x = w + Y Si Y1, Y1,..Yn-r forman una base para el Ker(A), existen λi tales que: Y = λ1Y1 + λ2Y2 +...λn-rYn-r De donde:

1,2,..n=i =y -1= con )+(w iii

r-n

=1i0ii

r-n

=0iii

r-n

=1iY = Y + w=x λµλµµλ ∑∑∑

Lo que demuestra que todo otro vector xεS es una combinación lineal de los vectores xi, mostrándose de esta manera que en S hay sólo (n-r) vectores LIN. Téngase en cuenta que S no es un espacio vectorial. 3. SOLUCIONES BASICAS A UN SISTEMA DE ECUACIONES LINEALES Sea G(A)=βεRm/β=Ax, para todo xεRn el subespacio vectorial en Rn generado por las columnas de la matriz A de rango r. Supóngase que las r primeras de la mxn matriz A, reagrupadas en la mxr submatriz A1 de la matriz A conforman una base para G(A). Descomponiendo el vector x en 2 subvectores , x1 y x2, con r y n-r componentes cada uno, el sistema de ecuaciones Ax=b se puede escribir:

b = x

x ] A ; A [

2

121

⎥⎥⎦

⎢⎢⎣

54

Page 55: 1992 descripcion e inferencia lineal en estadistica

Puesto que si b pertenece a G(A) y se ha supuesto que los r primeros vectores columna de la matriz A constituyen una base para este espacio vectorial, el vector b puede expresarse sólo en términos de estos vectores, es decir, existe un vector x1 tal que:

55

b = ax = xA ii

r

=1i11 ∑ (8)

Un n-vector xB'=[x1'|x2'=0] donde el subvector x1 verifica la relación precedente es una solución al sistema de ecuaciones Ax=b denominada solución básica por la asociación de sus coeficientes a los vectores de una base del espacio G(A) generado por las columnas de la matriz A. Obviamente, que entre las n columnas de la matriz A, se puede escoger de diferentes formas r vectores que siendo linealmente independientes conformen una base para G(A). A cada una de estas elecciones, le corresponde una solución básica, luego,

b=Ax ecuaciones de sistemaun para

básicas s solucioner

n áximo m lo

a haber puede

⎟⎟⎠

⎞⎜⎜⎝

4. UN ALGORITMO DE RESOLUCION Y ANÁLISIS DE UN SISTEMA DE ECUACIONES LINEALES Como se observó en la sección 1, la determinación del vector de incógnitas de un sistema de ecuaciones lineales Ax=b equivale a encontrar una (ó más) representación del vector b en tanto que combinación lineal de los vectores columna de la matriz A:

(10) ax...+ax+ax = b nn2211

Por otra parte, es posible expresar el vector b como una combinación lineal de los vectores ej, j=1,2,..m, de la base canónica usual de Rm:

Page 56: 1992 descripcion e inferencia lineal en estadistica

(11) eb...+eb+eb = b mm2211

Las relaciones (10) y (11) sugieren que es posible determinar una solución para el sistema Ax=b introduciendo sucesivamente dentro de la base canónica inicial vectores columna LIN de la matriz A hasta lograr una representación del vector b del tipo de la relación (10), pero, teniendo en cuenta que no se podrá introducir en la base más de r vectores aj, la solución que se encontrará de esta manera es una solución básica del tipo que muestra la relación (8). Plantéese la siguiente tabla de Tucker como punto de partida del algoritmo :

Vectores en la Base Vectores fuera de la Base b a1.........ak ak+1......an

e1 . . ek

b1. .

bk

A11

A12

ek+1 . . em

bk+1. .

bm

A21

A22

Introduciendo dentro de la Base los vectores aj en lugar de los ej, después de k sucesivos cambios de base con el algoritmo explicado en el capítulo I, sección 10, se llegará a una tabla de la siguiente estructura:

Vectores en la Base Vectores fuera de la Base

b e1.........ek ak+1......an

a1 . . ak

x1. . xk

A11-1

G=A11-1A12

ek+1 . . em

zk+1. .

zm

R=-A21A11

-1D=

A22-A21A11-1A12

A partir de esta tabla, se puede llegar a algunas conclusiones en relación a la caracterización del espacio de soluciones S y a determinar una solución básica para el sistema de ecuaciones.

56

Page 57: 1992 descripcion e inferencia lineal en estadistica

En efecto: a. Rango de A. Como se expuso en el Capítulo I, sección 10, si la matriz D es igual a la matriz Cero, el rango de la matriz A es r=k y vice-versa, es decir, si el rango de la matriz A es igual a r=k, la matriz D es igual a la matriz Cero.

57

ez ...++ ez + ax....+ ax + ax = b mm1+k1+kkk2211

b. Consistencia

Obsérvese que el vector z cuyas componentes son los coeficientes zk+1,...zm de la tabla anterior es igual a: z = b2-A21A11

-1b1 = b2 -Rb1 Donde b1 y b2 son los 2 subvectores de B con k y m-k componentes respectivamente. Si la matriz D es igual a Cero, no se puede introducir nuevos vectores aj dentro de la base y, en ese caso, el vector b se escribe de la forma siguiente:

Luego, con D=0, el sistema es consistente si y solamente si el vector z=0. c. Soluciones básicas Si D=0 y z=0, el nx1 vector x cuyas primeras k=r componentes son los coeficientes xj de la tabla anterior y el resto de componentes son ceros es una solución básica particular al sistema Ax=b. d. Solución única El sistema admite una solución única si k=r=n, es decir, si todos los vectores columna de la matriz A han podido ser introducidos dentro de la Base

Page 58: 1992 descripcion e inferencia lineal en estadistica

e. Soluciones múltiples La matriz D es igual a Cero cuando k=r. Si r es inferior a n, se ha visto anteriormente que existen n-r+1 soluciones LIN en S. Estas soluciones pueden calcularse fácilmente a partir de los resultados de la tabla anterior. En efecto: En el Capítulo II, sección 10, se ha demostrado que una Base para el Ker(A) estaba formada por los n-r últimos vectores columnas del inverso de una matriz W definida como sigue:

58

⎥⎥⎦

⎢⎢⎣

I[0]

G I = W

k-n

r

Cuyo inverso es:

⎥⎥⎦

⎢⎢⎣

I[0]

G - I = W

k-n

r

Denomínese Yj a los n-r últimos vectores columna del inverso de la matriz Z introducida en el Capítulo II sección 10. Como se expuso anteriormente, los vectores xj=x+yj, j=0,1,2,..n-r con y0=0 son n-r+1 soluciones LIN en S. Una solución general para el sistema Ax=b se escribe:

. escoeficient dejuego cualquier para

)y+ x = x

j

r-nr-n2211B

λ

λλλ ...+y + y(

5. SISTEMAS DE ECUACIONES CON LA RESTRICCION DE QUE LAS SOLUCIONES SEAN NO

NEGATIVAS En numerosas aplicaciones prácticas, interesa sólo el conjunto de soluciones no negativas a un sistema de ecuaciones lineales. En ese caso el problema se plantea en los términos siguientes:

Page 59: 1992 descripcion e inferencia lineal en estadistica

Encontrar una o más soluciones al sistema: Ax = b con x≥0 La expresión x≥0 significa que cada una de las componentes xj del vector x es positiva o nula Sea S=xεRn/ Ax=b y sea P=xεRn/x≥0, el espacio de soluciones que se busca identificar para resolver este problema es igual a la intersección S+ de los conjuntos S y P Diferentes formulaciones de este sistema pueden llevar a caracterizaciones también diferentes de S+: a. Si S es vacío, también S+ es vacío. Cuando S es vacío, se dice que el sistema de ecuaciones

presenta inconsistencia de primer tipo. b. Si S no es vacío y S+ es vacío, significa que en S no existe ningún vector que pertenece

simultáneamente a P. En este caso se dice que el sistema manifiesta inconsistencia de segundo tipo.

c. Si el rango de la mxn matriz A es igual a n, S contiene un sólo elemento. Este elemento puede

encontrarse también en P, en cuyo caso S=S+, si no, S+ es vacío. El algoritmo que se ha desarrollado precedentemente, con pequeñas modificaciones, puede también ser utilizado para analizar y encontrar soluciones, cuando éstas existen, a un sistema de ecuaciones de este tipo. En efecto: En primer lugar, arréglense las líneas del sistema Ax=b de manera a que todos los coeficientes bi del vector b sean positivos o nulos. Luego, considérese la siguiente tabla de Tucker para iniciar el algoritmo:

Vectores en la Base Vectores fuera de la Base b a1.........aj ar......an

e1 . . ei

b1. . bi

ai1........aij

air......ain

es . . em

bs. .

bm

asj........asj

asr......asn

amr......amn

59

Page 60: 1992 descripcion e inferencia lineal en estadistica

60

La estrategia fundamental del presente algoritmo es utilizar la técnica de los cambios de base vistos en la sección precedente, pero, de manera a que en cada cambio de base, las posibles soluciones al sistema, es decir, los coeficientes de la primera columna de las tablas de Tucker sean no negativas. Ello significa básicamente, escoger de una manera determinada el par de vectores que se intercambiará en la base. Supóngase que se desea introducir en la base el vector ar en lugar del vector es. Denominando zs a los coeficientes de la primera columna del cuadro anterior se tendrá: zs = bs/asr (1) zi = bi - (bsair)/asr = bi - airzs (2) Teniendo en cuenta que se desea que zs>0 y que bs>0, la primera de estas relaciones implica que asr tiene que se superior a cero. Luego una condición necesaria para que el vector ar pueda ser introducido en la base en lugar del vector es que asr>0 Para que zi>0 a partir de la segunda relación, pueden darse diferentes casos: a. Si para algún i, air=0, se tiene zi=bi>0 b. Si para algún i, air<0, se tiene igualmente que zi>0 c. Si para algún i, air>0, la condición zi>0, aplicada a la segunda relación implica: zs ≤ bi/air Teniendo en cuenta que, según la primera relación, zs=bs/asr, para que se cumpla zi>0, se tiene que

tener: bs/asr ≤ bi/air Supóngase a continuación que s está dado y que se trata de escoger el índice r del vector ar que

entrará en la base en lugar del vector es. La última relación se cumplirá, con air>0, si se escoge el índice r del vector ar de manera a que se

verifique la siguiente condición:

Page 61: 1992 descripcion e inferencia lineal en estadistica

0>a mple secuales lospara i los todos entre

ab =

ab

ir

ir

i

sr

s⎥⎦

⎤⎢⎣

⎡min

cu

La condición del recuadro es una condición necesaria y suficiente para mantener, en cada una de las iteraciones del algoritmo, a los coeficientes de la primera columna con valores no negativos. Si los cambios de base, siguiendo esta regla, concluyen con la introducción de r vectores aj en la base, se habrá logrado una solución básica no negativa para el sistema Ax=b. Pero, con alguna frecuencia, se presenta en la práctica problemas de mala especificación de las ecuaciones llevando a que el espacio de soluciones S+ sea vacío. En ese caso, la inconsistencia puede originarse en el hecho en que S es vacío, como se mencionó anteriormente, lo que puede detectarse mediante las observaciones que se hicieron anteriormente, o que S, no siendo vacío, no contiene soluciones no negativas. Este último caso se dará cuando la matriz D es diferente de cero, pero que es imposible encontrar un par de índices r,s que verifiquen la condición anterior, es decir, cuando todos los elementos de esta matriz son no positivos.

61

Page 62: 1992 descripcion e inferencia lineal en estadistica

CAPÍTULO IV. FORMAS BILINEALES 1. DEFINICIÓN Sean V y W dos espacios vectoriales sobre un mismo cuerpo K. Una aplicación g de V x W en

K se llama bilineal si satisface las siguientes propiedades: Para todo v1, v2, v en V , w1, w2, w en W y µ en K: a. g(v1+v2,w) = g(v1,w) + g(v2+w) b. g(v,w1+w2) = g(v,w1) + g(v,w2)

c. g(µv , w) = g(v,µw) = µg(v , w) d.

VOCABULARIO: Una forma bilineal g(v,w) con v en V y w en W es: i. Simétrica, si g(v,w) = g*(w,v) (conjugada) ii. Definida , si g(v,v) = 0 implica v=0 ( con V=W) iii. Semi-definida, si g(v,v) = 0 puede realizarse con v ≠ [0] iv. Positiva, si g(v,v) ≥ 0 para todo v ≠ [0] Una forma bilineal "definida positiva" verifica g(v,v)>0 para todo vector v diferente de cero. Una forma bilineal "semi-definida positiva" ó "definida semi-positiva" verifica g(v,v)≥0 para todo vector v diferente de cero.

62

Page 63: 1992 descripcion e inferencia lineal en estadistica

2. FORMAS BILINEALES Y MATRICES Sean V = Km y W = Kn dos espacios vectoriales compuestos por uplas de K. Se muestra que para toda forma bilineal g de V x W en K existe una mxn matriz A cuyos coeficientes aij, i=1,2,..m y j=1,2,..n, verifican:

awv = w)g(v, ijji

n

j=1

m

=1i∑∑

Utilizando la definición de producto de una matriz por un vector introducida en el Capítulo II, se verifica fácilmente, que:

vAw =Awv =

awv = w)g(v, ijji

n

j=1

m

=1i

′′′

∑∑

Para mostrar la existencia de los coeficientes aij que permiten escribir g(v,w) en la forma precedente, represéntese para comenzar v y w en sus respectivas bases canónicas:

ew = w

ev = v

jj

m

j=1

ii

n

=1i

Utilizando los puntos a y c de la definición de formas bilineales se tiene que:

,w)g( ev =

w),evg( = w)g(v,

ii

m

=1i

ii

m

=1i

63

Page 64: 1992 descripcion e inferencia lineal en estadistica

Y, utilizando en esta última expresión el punto b y, nuevamente, el punto c de la definición de formas bilineales, se tiene que:

)e,eg(wv = w)g(v, jiji

n

j=1

m

=1i∑∑

La expresión precedente muestra que planteando aij=g(ei,ej) se verifica el enunciado. Es también fácil mostrar que para cada aplicación bilineal g, los coeficientes aij son únicos. En efecto: supóngase que existen coeficientes bij que conforman una matriz B tal que: g(v,w) = v'Aw = v'Bw Recuérdese que ei'Aej = aij y, también, ei'Bej = bij, de donde, remplazando en la expresión precedente v por ei y w por ej, se tiene:

aij = bij , i=1,2,..m y j=1,2,..n Es decir, se tiene, A=B. 3. DISTANCIAS Sea E un conjunto de elementos cualesquiera. Una aplicación d de ExE en R es denominada

distancia en E si, para todo x,y,z en E, verifica los axiomas siguientes: a. d(x,y) = d(y,x) b. d(x,y) = 0 implica x=y y vice-versa

c. d(x,y) ≤ d(x,z) + d(z,y)

La palabra "métrica" es frecuentemente utilizada como sinónimo de distancia. Sobre un mismo conjunto se puede definir muchas aplicaciones diferentes que verifican los axiomas que definen una distancia.

64

Page 65: 1992 descripcion e inferencia lineal en estadistica

Algunos ejemplos de distancia: a. Sea x,y dos elementos de un espacio cualquiera E, una aplicación d de ExE en R definida de

la siguiente manera: d(x,y) = 1 si x es diferente a y d(x,y) = 0 si x es igual a y Verifica todos los axiomas que definen una distancia en E.

b. Sean x, y dos vectores en E=Rn cuyos elementos serán identificados con xi y yi respectivamente, La aplicación d de ExE en R definida de la siguiente manera:

)|y-x|(=y)d(x, r1r

ii

n

=1ã∑

Donde . identifica al valor absoluto, verifica todos los axiomas que definen una distancia en

E=Rn. Se la denomina "Distancia de Minkowski". Cuando r=2, es conocida con el nombre de "distancia euclidiana"

c. El concepto de distancia anterior se extiende fácilmente al espacio de matrices. Sean X=xij,

Y=yij, i=1,2,..m, j=1,2,..n:

)|y-x|( = Y)d(X, r1r

ijij

n

j=1

m

=1i∑∑

Con r=2, la distancia euclidiana entre dos matrices se representa fácilmente a partir de la traza

de un producto de matrices:

])Y-Y)(X-traza[(X =

Y)]-(X)Y-traza[(X = Y)(X,dist2

′′

En estadística, se ha introducido algunas extensiones útiles al concepto de distancia. Estas son:

65

Page 66: 1992 descripcion e inferencia lineal en estadistica

i. La semi-distancia. La aplicación d de ExE en R es una semi-distancia en E si verifica los axiomas a, c que definen una distancia, pero, el axioma b se verifica sólo parcialmente, en el siguiente sentido:

x = y implica d(x,y) = 0, pero: d(x,y) = 0 no implica necesariamente que x=y ii. La ultra-distancia. La aplicación d de ExE en R es una ultradistancia si verifica los axiomas a y

b de la definición de una distancia y, además, el axioma siguiente, que reemplaza al axioma c: d(x,y) = max d(x,z), d(z,y) 4. NORMAS Y ESPACIOS VECTORIALES NORMADOS Sea V un espacio vectorial sobre R. Una aplicación η de E en R es una norma en E si, para

todo x, y en E y λ en R, verifica los axiomas siguientes: a. η(x) = 0 implica x = [0] b. η(x+y) ≤ η(x) + η(y) (desigualdad triangular)

c. η(λx) = λη(x)

Ejemplo: Si E = Rn, la aplicación siguiente es una norma sobre E:

)|x|(=(x) r1r

i

n

=1i∑η

Como en el caso de la distancia, esta norma se extiende fácilmente al espacio de matrices. Con r=2, se tiene la norma euclidiana, la cual puede ser expresada en términos de la traza del producto de la matriz por ella misma:

66

X)Xtraza( = X)Xtraza( =

x = (X) 2ij

n

j=1

m

=1i

2

′′

∑∑η

Page 67: 1992 descripcion e inferencia lineal en estadistica

Fácilmente se demuestra el resultado siguiente: Si η es una norma en un espacio vectorial V, η(x-y) define una distancia d(x,y) 5. PRODUCTOS ESCALARES Sea E un espacio vectorial sobre K. Una aplicación g de ExE en K es un producto escalar si la aplicación g es: bilineal, simétrica, (semi)-definida positiva. Un espacio vectorial E con un producto escalar definido positivo es un espacio de pre-Hilbert. Sea E=Rn. una forma bilineal simétrica g es denominada producto escalar clásico si para dos vectores cualesquiera ei, ej de la base canónica usual de E se tiene: g(ei,ej) = 1 si i=j g(ei,ej) = 0 si i≠j Si x, y son dos vectores cualesquiera en E, se tiene entonces:

yx =

)e,eg(yx = y)g(x,

ii

n

=1i

jiji

n

j=1

n

=1i

∑∑

Teniendo en cuenta de la definición del producto de una matriz por un vector presentada en el Capítulo II, esta última expresión, normalmente se escribe de la siguiente manera:

yx =y x ii

n

=1i∑′

67

Page 68: 1992 descripcion e inferencia lineal en estadistica

Donde x' es la transpuesta del vector x. Por la propiedad de simetría se tiene que x'y = y'x, expresiones que no deben ser confundidas con xy'= yx',las que son matrices nxn. 6. EXTENSIONES DEL PRODUCTO ESCALAR CLÁSICO EN Rn

El producto escalar clásico en Rn permite: -definir una norma, en el sentido de la distancia al origen de un vector representado por un

punto en el espacio de coordenadas e1, e2,...en, -en consecuencia, define una distancia -y, el coseno del ángulo entre dos vectores así como -la noción de ortogonalidad entre vectores a. Norma euclidiana Obsérvese que para todo xεRn, se tiene:

(x) = xx = x)g(x, 2η′

Esta expresión muestra que el producto escalar clásico de un vector x por si mismo es igual al cuadrado de la norma euclidiana en Rn

Con n=2, obsérvese que la norma euclidiana reproduce el conocido teorema de Pitágoras relativo a la relación entre la hipotemusa de un triángulo rectángulo y sus catetos:

x+x =

xx = (x)22

21

′η

68

Page 69: 1992 descripcion e inferencia lineal en estadistica

En la representación en el plano engendrado por e1, e2, esta hipotemusa es igual a la distancia entre el punto que representa al vector x de coordenadas x1, x2 y el origen:

x1

x2 X

b. Distancia euclidiana Sea x, y dos vectores cualesquiera en E=Rn. El producto escalar clásico en E, al definir la norma euclidiana, define simultáneamente la distancia euclidiana entre 2 vectores:

y)d(x, =

)y-x( =

y)-(x)y-(x =

y)-(x = y)-xy,-g(x

2ii

n

=1i∑

η

Cuando n=2, la expresión anterior es, simplemente, una otra aplicación del viejo teorema de Pitágoras:

69

Page 70: 1992 descripcion e inferencia lineal en estadistica

X

Y

y1x1

y2

x2

c. Ángulo entre dos vectores Supóngase, nuevamente que n=2 y que x, y son dos vectores en E:

X

Y

y1e1x1e1

y2e2

x2e2

Sea θ el ángulo que forman los vectores x,y con el origen, sea α el ángulo que forma el vector y con el vector e1 y β el ángulo entre x y e1:

70

Page 71: 1992 descripcion e inferencia lineal en estadistica

Por geometría elemental, es inmediato que: cos β = η(x1e1)/η(x) sen β = η(x2e2)/η(x) cos α = η(y1e1)/η(y) sen β = η(y2e2)/η(y) Obsérvese que θ = β - α, teniendo en cuenta que: cos(β-α) = cos(β)cos(α) + sen(β)sen(α) Se tiene: cos(θ) = x1y1/η(x)η(y) + x2y2/η(x)η(y) cos(θ) = x'y/η(x)η(y) Considérese a continuación el ángulo formado por dos vectores cualesquiera z y w con respecto a un tercer vector a:

z

w

w1e1z1e1

w2e2

z2e2

a

Angulo entre dos vectoresen relación a un tercero

Tomando al vector a como el origen de un nuevo sistema de coordenadas, los vectores x=(z-a) e y=(w-a) tienen, como nuevo origen, al vector 0.

71

Page 72: 1992 descripcion e inferencia lineal en estadistica

Aplicando el resultado anterior, se tiene: cos(z,w/a) = cos(x,y/0)= x'y/η(x)η(y) = (z-a)'(x-a)/η(z-a)η(x-a) Donde la expresión cos(z,w/a) significa el coseno del ángulo entre los vectores z y w en relación al punto o vector a. En el plano los desarrollos anteriores son elementales. Partiendo de los desarrollo en Rn con n=2, se extiende la noción de ángulo entre 2 vectores a espacios vectoriales de mayor dimensión utilizando las mismas relaciones que las del recuadro. Si el coseno entre 2 vectores es igual a 0, obviamente que son linealmente dependientes, es decir, el uno es múltiplo del otro, y vice-versa. La noción de ángulo entre 2 vectores o su coseno como indicador de dependencia lineal es utilizado en estadística, como se verá posteriormente, bajo el concepto de correlación lineal. d. Ortogonalidad El concepto de ortogonalidad de 2 vectores tiene una gran importancia en Algebra Lineal y en sus aplicaciones en Estadística. Dos vectores son ortogonales entre si, si el coseno del ángulo que forman con el origen es igual a cero, es decir, si su producto escalar clásico es nulo.

0cos =y x = y)(x, y x ′⇔⊥

El concepto de ortogonalidad entre 2 vectores es utilizado en muchos campos diferentes, entre otros, en el de optimización, en parte, por el resultado muy conocido de que la distancia más corta entre un punto y una línea o plano es la distancia ortogonal. Un ejemplo de la utilización de este género es el siguiente: Sea L=zεRn/z=λx, con x fijo en Rn, cuando n=2, el conjunto de puntos que contiene L generan una línea en el plano. Sea y un vector cualquiera en Rn y considérese el problema siguiente: determinar el escalar λ tal que la distancia entre el vector con el espacio L sea la mínima posible.

72

Page 73: 1992 descripcion e inferencia lineal en estadistica

xy

y

Proyección de y

El gráfico sugiere que la distancia más pequeña entre algún vector de L y el vector y estará dada escogiendo el escalar λ de manera a que el vector (y-λx) sea ortogonal a L, es decir, λ óptimo verificará: (y-λx)'[λx] = 0 De donde, se obtiene el valor óptimo de λ y, obviamente, del punto λx en L con distancia menor al vector y: λ = x'y/x'x 7. BASES ORTOGONALES Y BASES ORTONORMADAS EN Rn

Sea B=b1, b2,..bn una base para Rn. B es una base ortogonal de Rn si sus vectores son ortogonales de dos en dos. B es una base ortonormada de Rn si es una base ortogonal y si, además, sus vectores tienen

norma igual a 1. Por ejemplo, la base canónica usual es una base ortonormada para Rn.

73

Page 74: 1992 descripcion e inferencia lineal en estadistica

8. MATRICES Y PRODUCTO ESCALAR CLASICO EN Rn

a. Producto escalar clásico y producto de matrices Sea A una matriz mxn y B una matriz nxp. Considérese la partición de la matriz A en m vectores líneas, los que serán denominados αi, i=1,2,..m y una partición de la matriz B en p vectores columnas, los que se los identificará con bj, j=1,2,..p. Sea C=AB, se demuestra fácilmente que los elementos cij de la matriz C son iguales a:

b = c jiij α ′

Es decir, cada cij puede expresarse como el producto escalar de la línea i de la matriz A por la columna j de la matriz B. b. Matrices ortogonales y matrices ortonormadas. La nxm matriz A tiene vectores columna ortogonales entre sí, cuando A'A es una matriz diagonal y tiene vectores línea ortogonales entre sí, cuando AA' es una matriz diagonal. Una matriz cuadrada nxn es una matriz ortogonal si sus columnas son ortogonales entre sí al igual que sus líneas. Una matriz cuadrada nxn es una matriz ortonormada si es una matriz ortogonal y sus líneas y columnas tienen norma 1. En ese caso: A'A = AA' = In 9. PRODUCTO ESCALAR GENERALIZADO EN Rn

Acorde con la definición de producto escalar introducida en la sección 5, todo producto escalar generalizado en Rn tiene la forma: g(x,y) = x'Qy Con Q alguna matriz nxn simétrica y semi-definida positiva, es decir, que cumpla que para todo vector xεRn diferente a cero, se tenga x'Qx ≥ 0

74

Page 75: 1992 descripcion e inferencia lineal en estadistica

Sin embargo, en la mayor parte de las utilizaciones, se exige que la aplicación g sea definida estrictamente positiva, es decir, que para todo xεRn, diferente del vector 0, se tenga x'Qx > 0. x'y es el producto escalar clásico en E f(x)'f(y) es el producto escalar clásico en F, el que corresponde a la noción de

producto escalar generalizado en E, puesto que:

f(x)'f(y) = x'A'Ay = x'Qy con Q=A'A Q definida de esta manera es simétrica semi-definida positiva. Es definida positiva si A tiene rango máximo.

75

Page 76: 1992 descripcion e inferencia lineal en estadistica

CAPITULO V. LA ESPERANZA MATEMATICA COMO OPERADOR LINEAL 1. ESPERANZAS MATEMÁTICAS Sea Xi una variable aleatoria de dominio Di y de función de densidad fi(z/θ). En la presente notación, z es el argumento de la función y θ es un vector conteniendo los m parámetros que definen la función de densidad. Por ejemplo, si Xi es una variable normal de parámetros µ y σ2, θ es un vector cuyas componentes son µ y σ2 y Di es la recta de los reales entre menos infinito y el infinito. Por definición la esperanza matemática de una variable aleatoria Xi es igual a:

)dz(z/ iiD

i zf = )XE(i

θ∫

Con a y b constantes, es muy fácil demostrar el siguiente resultado:

E(aXi + b) = aE(Xi) + b En consecuencia, la esperanza matemática es un operador lineal. Sea X un vector cuyas componentes son las variables aleatorias Xi. La esperanza matemática del vector X es el vector de esperanzas matemáticas de las variables aleatorias Xi:

⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢

⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢

)XE(

..

)XE(

)XE(

=

x

..

x

X

E = E(X)

n

2

1

n

2

1

76

Page 77: 1992 descripcion e inferencia lineal en estadistica

Sea Z una variable aleatoria tal que: Z = a1.X1 + a2.X2 + ....an.Xn + b Se tiene que: E(Z) = a1.E(X1) + a2.E(X2) + ...an.E(Xn) + b Listando los escalares ai en un vector columna a, la variable Z puede escribirse como: Z = a'X + b ,con a = [a1,a2,...an]' E(Z) = a'E(X) + b Este último resultado es una consecuencia directa del resultado en el recuadro anterior. Con A una matriz con m líneas y n columnas y c un vector con m constantes, considérese el vector aleatorio siguiente: W = AX + c, Del resultado anterior, puede deducirse que: E(W) = AE(X) + c Con A una matriz mxn y c un vector con m componentes

77

Page 78: 1992 descripcion e inferencia lineal en estadistica

2. VARIANZAS Y COVARIANZAS La varianza de la variable aleatoria Xi se define en la forma siguiente:

V(X i)= ( ) dz)/z(fi iiiiD

)XE(-z(i

θ2

∫o tambien, como :

V(X i)= ( )2)XE(-(xE ii

Utilizando el hecho de que la esperanza matemática es un operador lineal, se puede demostrar fácilmente el resultado siguiente:

V(aXi+b) = a2V(Xi)

Para todos los número reales a≠0 y b. Supóngase que las n variables aleatorias Xi listadas en el vector aleatorio X tienen como función de densidad conjunta a f(w/β) donde w representa aquí un vector con n argumentos de la función n-dimensional f y β un m-vector conteniendo los parámetros de esta función. Se supondrá que cada variable tiene como dominio Di, i=1,2,..,n Con n=2, la covarianza entre 2 variables aleatorias, X1 y X2, está definida como sigue:

dzdz)/z,z)f(ZE(-z)(XE(-z(=)X,XCOV( 21212211

DD

21

21

β∫∫

78

Page 79: 1992 descripcion e inferencia lineal en estadistica

Se denomina matriz de varianzas-covarianzas del vector aleatorio X a una matriz V tal que en su diagonal principal se encuentren las varianzas de las variables Xi, i=1,2,..n y fuera de la diagonal principal las covarianzas entre 2 variables Xi, Xj, i.e: Si se denomina Vij a los elementos de la matriz V se tiene: Vii = V(Xi) i=1,2,...n Vij = Cov(Xi,Xj) i,j=1,2,..n Obsérvese que: V(X) = E[(X-E(X))(X-E(X))'] = E(XX') - E(X)E(X)' Cuando X ha sido definido como un vector y no hay lugar a confusión, se utiliza con frecuencia una de las anotaciones siguientes para identificar su matriz de varianzas-covarianzas:

ΣΩΦΘΓ = = = = = V = COV(X)

Sea Z una variable aleatoria tal que: Z = a1.X1 + a2.X2 + ....an.Xn + b Se tiene que:

)x,xCOV(aaXa=V(Z) jiji

n

j=1i

n

j=1i

2i

n

=1I

+).V( ∑∑∑≠

Para todo ai, i=1,2,..n e independientemente de la valor de b.

79

Page 80: 1992 descripcion e inferencia lineal en estadistica

Listando los escalares ai en un vector columna a, la variable Z puede escribirse como: Z = a'X + b ,con a = [a1,a2,...an]' V(Z) = a'Φa ,con Φ la matriz nxn de varianzas covarianzas del vector aleatorio X Esta expresión no es otra cosa que la escritura matricial del resultado anterior. Con A una matriz con m líneas y n columnas y c un vector con m constantes, considérese el vector aleatorio siguiente: W = AX + c Del resultado anterior, puede deducirse que: V(W) = AΦA' con V(W) la mxm matriz de varianzas covarianzas del vector W y Φ la matriz de varianzas y covarianzas del vector X. Con A una matriz mxn y c un vector con m componentes

80

Page 81: 1992 descripcion e inferencia lineal en estadistica

3. ESPERANZA MATEMÁTICA DE UNA FORMA QUADRÁTICA Sean X un vector conteniendo n-variables aleatorias, Q una matriz simétrica definida no-negativa y Z la forma cuadrática siguiente: Z = X'QX, puesto que Z es un escalar, Z puede también

escribirse en la forma: Z= Traza(X'QX) = Traza(QXX') puesto que la esperanza matemática es un operador

lineal se tiene: E(Z) = E(Traza(QXX') = Traza(QE(XX')) Un caso particular importante de este resultado es cuando el vector X tiene esperanza matemática Cero, lo que implica que E(XX')=V(X) y cuando su matriz de varianzas-covarianzas es múltiplo de la matriz diagonal: V(X) = σ2I. En este caso: E(Z) = σ2.Traza(Q) En el marco de los modelos de análisis de varianza, con frecuencia Q es una matriz

idempotente de rango r<n. Puesto que la traza de matrices de este tipo es igual a su rango, se tiene:

E(Z) = σ2.r

81

Page 82: 1992 descripcion e inferencia lineal en estadistica

CAPÍTULO VI. DERIVACIÓN CON VECTORES Y MATRICES 1. CONVENCIONES GENERALES (4) a. Funciones de Rn en R Sea f una función de Rn en R continua en un cierto conjunto D de Rn y dos veces derivable. Las componentes de todo vector X en Rn serán denominadas Xi. f(X) = f(X1, X2,...,Xn) Se denomina gradiente de f(X) a un vector cuyas componentes son las primeras derivadas parciales de f(x): δf/δX1 δf/δX2 grad f(x) = . . δf/δXn

82

Sea η un vector en Rn cuyas componentes son los diferenciales o incrementos de las variables Xi alrededor de cualquier punto X en Rn: dX1 dX2 η = . . . dXn

4) Este capítulo tiene como único objetivo recordar conocimientos básicos de cálculo y

las convenciones de notación matricial generalmente utilizadas en este campo. El lector interesado en los desarrollos téoricos, deberá consultar algún libro apropiado de cálculo diferencial.

Page 83: 1992 descripcion e inferencia lineal en estadistica

La diferencial de f, df, alrededor de alguno punto X en Rn, está definida como sigue:

f(X) gradiente = f conf)( = )f( = df

: siguecomo smatriciale términos enescribirse puede tambien que ón expresi

dXXf = df i

i

n

1=i

∆∆′′∆

ηη

δδ

Se denomina Hesiano de la función f a una matriz nxn cuyas componentes hij son las segundas derivadas parciales de f en relación a las variables Xi, Xj :

⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢

XXf............

XXf

...................

XXf............

XXf

XXf........

XXf

XXf

= H

nn

2

1n

2

n2

2

12

2

n1

2

21

2

11

2

δδδ

δδδ

δδδ

δδδ

δδδ

δδδ

δδδ

La segunda diferencial de f está definida como siendo la diferencial de la primera diferencial de f. Así como df, d2f admite una escritura matricial pudiéndose expresar como una forma cuadrática del vector η:

ηη

δδδ

H = fd

:smatriciale términos en o,

dXdXXX

f = fd

2

jiji

2n

1=j

n

1=i

2

⎥⎥⎦

⎢⎢⎣

⎡∑∑

Se denomina vecindad-ε de centro x0 a la bola: xεRn / (x-x0)'(x-x0)≤ ε²

83

Page 84: 1992 descripcion e inferencia lineal en estadistica

Algunas caracterizaciones importantes de la función f(X) a la ayuda de las diferenciales son las siguientes: Si en la vecindad-ε de centro X0 la función f(X) está definida, es continua y derivable dos

veces y, si: a. df > 0, f(X) es creciente alrededor de X0 b. df < 0, f(X) es decreciente " " c. df = 0, f(X) no es ni creciente ni decreciente d. d²f > 0, f(X) es cóncava alrededor de X0 e. d²f < 0, f(X) es convexa " " g. d²f = 0, f(X) no es cóncava ni convexa Puesto que d²f = η'Hη, las últimas 3 condiciones pueden expresarse en términos de las propiedades de la matriz H: Si: d'. H es definida positiva, f(X) es cóncava alrededor de X0 e'. H es definida negativa, f(X) es convexa " " g'. H no es definida, f(X) no es cóncava ni convexa b. Conjuntos de funciones de Rn en R Sea X un vector en Rn y sean m funciones fi de X en R, cada una de ellas continua y 2 veces derivable en un dominio D común para todas ellas. Sea Yi = fi(X), i=1,2,..m, y considérese el vector Y en Rm definido de la siguiente manera: f1(X) f2(X) Y = .. .. fm(X)

84

Cuando no hay lugar a confusión, se planteará Y = f(X), esta última expresión identifica, entonces, un vector de m-funciones fi.

Page 85: 1992 descripcion e inferencia lineal en estadistica

Se denomina Jacobino de la transformación X > Y a la matriz J cuyos elementos Jij son las primeras derivadas de las funciones fi en relación a las variables Xj:

⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥

⎦⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢

⎣ Xf............

Xf

...................

Xf............

Xf

XXX

= J

n

m

1

m

n

2

1

2

n

1

2

1

1

1

δδ

δδ

δδ

δδ

δδδ⎤⎡ f........ff δδδ

La matriz J tiene m líneas y n columnas. En cada una de sus líneas se encuentra el gradiante de cada una de las funciones fi. Sea n=m, una condición necesaria y suficiente para que la transformación f: X> Y

tenga un inverso g: Y>X, es decir, para que existen m funciones gi, tales que Xi=gi(Y) continuas y derivables, es que el

Det(J) ≠ 0

2. DERIVADAS DE FORMAS LINEALES Sea f una función de Rn en R tal que: f(X)=α'X, con α un vector de constantes. Es evidente que:

X = X = f(X) ii=1i

αα ∑′n

85

Page 86: 1992 descripcion e inferencia lineal en estadistica

Teniendo en cuenta que la derivación tiene la propiedad de respetar la linearidad se tiene que δf/δXi = αi, de donde: α1 α2 grad f(x) = . . . αn Y, obviamente, el Hesiano es nulo. Considérese, a continuación, m funciones fi, del tipo descrito anteriormente, en forma simultánea: fi(X)=aiX, donde ai representa, ahora, un vector con n componentes. Insertando los m vectores a'i en las líneas de una matriz A, el conjunto de transformaciones Yi=fi(X) puede escribirse: Y = AX Y, el Jacobiano de la transformación X>Y, ó, también, la matriz de derivadas del vector Y en relación al vector X será, por lo que se ha visto anteriormente, igual a la matriz A:

A =

dXdY = J

entonces AX,= Y Si

Puesto que la transformación es lineal el Hesiano es nulo. 3. DERIVADAS DE FORMAS CUADRÁTICAS Sea f una función de Rn en R tal que:

XXc + Xa = f(X)

CXX + Xa = f(X)

jiij

n

j=1

n

=1iii

n

=1i∑∑∑

′′

86

Page 87: 1992 descripcion e inferencia lineal en estadistica

Con C una matriz simétrica. Se verifica fácilmente que: Si Y = a'X + X'CX, entonces: dY/dX = grad f(X) = a + 2 CX d²Y/d²X = H = 2C 4. PROBLEMAS DE OPTIMIZACIÓN

a. Planteamiento general del problema

Definición 1. Se dice que f(X0) es un máximo de f(X) en un dominio dado D0 de Rn, si para todo X ≠ X0 en D se verifica: f(X0) > f(X) Independientemente si f(X) es continua y derivable en la vecindad de X0

Obsérvese que si D1 es otro conjunto de Rn, contenido en D0, y en este conjunto el máximo de f(X) está dado por X1, se tiene: f(X0) ≥ f(X1) Definición 2. Se dice que f(X0) es un mínimo de f(X) en un dominio dado D0 de Rn, si para todo X ≠ X0 en D se verifica: f(X0) < f(X) Independientemente si f(X) es continua y derivable en la vecindad de X0

87

Page 88: 1992 descripcion e inferencia lineal en estadistica

Cómo en el caso del máximo, obsérvese que si D1 es otro conjunto de Rn, contenido en D0, y en este conjunto el mínimo de f(X) está dado por X1, se tiene: f(X0) ≤ f(X1) Las definiciones anteriores son completamente generales y no necesitan que f(X) sea derivable, ni siquiera, que sea continua. Cuando f ese continua y 2 veces derivable, los resultados siguientes son muy útiles en la práctica: Sea f una función de Rn en R, continua y dos veces derivable: F TIENE UN MÁXIMO LOCAL EN EL PUNTO X0 SSI: i. grad f(X0) = [0] ii. el Hesiano en el punto X=X0 es una matriz definida negativa. F TIENE UN MÍNIMO LOCAL EN EL PUNTO X0 SSI: i. grad f(X0) = [0]

ii. el Hesiano en el punto X=X0 es una matriz definida positiva.

Obsérvese que los enunciados del recuadro son mucho menos generales que las definiciones 1 y 2. Téngase en cuenta, por ejemplo, que en un dominio D, se verifiquen las condiciones i. y ii. para varios puntos Xi, i=0,1,..r. Todos estos puntos son óptimos (máximos o mínimos) LOCALES de f(X) en D, es decir, óptimos sólo en las vecindades-ε de los puntos Xi, i=1,2,..r. Piénsese por ejemplo en funciones que reproducen la espalda de un dromedario con varias jorobas. Si el dominio D es cerrado, un óptimo de f(X) en D puede no implicar el cumplimiento de ninguna de los dos condiciones i.y ii. Supóngase por ejemplo que f(X)=a + bx2 y que D=xεR / x ≥ 2 y x ≤ 3, en este caso el mínimo de f(X) está dado en X=2 y el máximo en X=3, en ninguno de estos puntos se verifica la condición de que el gradiante sea nulo... Para determinar el óptimo (máximo o mínimo) absoluto de f(X) en el dominio D, cuando existen varios puntos Xi que verifican las condiciones i. y ii. es necesario recurrir a las definiciones 1 y 2. Por otra parte, si el dominio D en el cual se desea determinar un óptimo para f(X) es cerrado y diferente al dominio de definición de f(X) es necesario utilizar otras reglas de optimización que las que figuran en el recuadro precedente. En esos casos, se dice que la optimización se realiza bajo restricciones, las cuales pueden ser de diferente tipo. Muy comunes en estadística son las restricciones de carácter lineal.

88

Page 89: 1992 descripcion e inferencia lineal en estadistica

b. Optimización con restricciones lineales Considérese el problema siguiente: Encontrar el máximo en el dominio D de la función f(X) continua y 2 veces derivable donde D está definido por D=X ε Rn / GX = b con G una mxn matriz constante con rango igual a m y b un mx1 vector, también, constante. Obviamente que si el rango de la matriz G es igual a n, lo que implica m ≥ n, es decir, que el número de restricciones lineales m es superior o igual al número de variables Xi, entonces, como se ha visto en el Capítulo III, el sistema de ecuaciones Gx=b tiene una solución única. Dicho de otro modo, el dominio D tiene, en ese caso, un solo punto, y el problema de optimización es banal. También se explicó en dicho capítulo que si r < m, existía m-r ecuaciones redundantes en la ecuación GX=b. Luego, con el fin de facilitar el tratamiento de este problema se considerará sólo el caso en que m=r < n :

Máx f(X)

X ε D =X ε Rn / GX = b con G una mxn matriz constante con rango igual a m = r < n y b un mx1 vector, también,

constante. El problema anterior se resuelve conformando una nueva función, L(X,λ) con n+m variables,denominada Lagrangien. La función Lagrangien está definida de la siguiente manera: L(X,λ) = f(X) + λ'(GX - b) Las denominadas condiciones de primer orden para un óptimo (sea máximo o mínimo) están

dadas por las ecuaciones:

δL(X,λ)/δX = grad f(X) + G'λ = 0

δL(X,λ)/δλ = GX - b = 0

89

Page 90: 1992 descripcion e inferencia lineal en estadistica

Obsérvese que si en D existe un X0 tal que grad f(X0) = 0, entonces, una solución a este sistema de n+m ecuaciones es: X = X0 λ = 0 Y, si el Hesiano H de f(X) es definido negativo, X0 es la solución al problema planteado. El vector X0 es, en ese caso, un máximo local de f(X) en el dominio D en el sentido en que esta expresión ha sido definida anteriormente. Si la matriz H no es definida positiva, X0 debe ser descartado como solución óptima al problema planteado. Si el vector X0 es una solución óptima, se tiene, sea grad f(X0)=0 sea X0 se encuentra sobre la frontera del dominio admisible. Considérese el Hesiano de la función L(X,λ) que es un matriz simétrica (n+m)x(n+m) definida de la siguiente manera:

⎥⎥⎦

⎢⎢⎣

⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢

[0] G

G H =

[0]

XL

XL

XXL

= Vt

2

2

ji

2

δλδδ

δλδδ

δδδ

Donde Gt es la matriz transpuesta de G. Considérese, por otra parte nxm matrices Vjk j=1,2,..n, k=1,2,...m, con j+1 líneas y columnas, definidas de la siguiente manera: i. En el bloque nor-oeste, se insertará las j primeras líneas y j primeras columnas del Hesiano H de f(X). Sea Hj esta submatriz.

ii. En las j primeras líneas de la columna j+1 se insertará los j primeros elementos de la columna k de la matriz Gt. Sean gjk, j=1,2,..n, k=1,2,..m, las columnas de la nxm matriz Gt.

iii. En el bloque sud-este se inscribirá un 0. iv. La última línea (línea j+1) será igual a la última columna (columna j+1)

90

Page 91: 1992 descripcion e inferencia lineal en estadistica

En resumen las nxm matrices Vjk estarán definidas de la siguiente manera:

⎥⎥⎦

⎢⎢⎣

′ 0 g

g H = V

kj

jkj

jk

Las condiciones de segundo orden para la optimización con restricciones lineales están dadas por: i. Si det (Vjk) < 0, en el punto X0, se trata de un mínimo

ii. Si det (V2k) >0 , det (V3k)<0, det (V4k)>0, etc., para k=1,2,..m y j=1,2,..n, en el punto X0, se trata de un máximo.

Como puede observarse, estas condiciones son generalmente de difícil manejo, pero, en un buen número de problemas en matemáticas aplicadas existen otras formas, basadas esencialmente en las definiciones 1 y 2, para demostrar que un punto X0, que satisface las condiciones de primer orden es un máximo o un mínimo. Por otra parte, obsérvese que los problemas de este tipo pueden ser reducidos de dimensión. En el capítulo III, se mostró que en el espacio de soluciones de un sistema de ecuaciones del tipo GX=b existían sólo n-r+1 vectores linealmente independientes Xi, i-1,2,..n-r+1 y que toda otra solución puede escribirse en la forma:

1=i1+r-n

=1i

ii

1+r-n

=1i

con

X=X

α

α

Es posible remplazar el vector X en la función f(X) y considerarla a ésta como una función de los αi que serán reagrupados en un vector α: f(X) = f(α1X1 + α2X2...αn-r+1Xn+r-1) = g(α) El Lagrangian de esta función tendrá sólo n-r+2 variables:

91 L(α,η) = g(α) + η([1]'α -1)

Page 92: 1992 descripcion e inferencia lineal en estadistica

Pudiéndose reducir de esta manera la magnitud del problema tratado. Finalmente, cabe remarcar que salvo en el caso donde f(X) sea lineal en X, la mayor parte de los problemas de optimización sólo pueden ser resueltos en forma numérica para lo cual existen, hoy en día, poderosos logiciales, sin embargo, téngase en mente que la optimización de funciones no lineales exige de algún arte y de mucho criterio por parte de los usuarios de estos programas, puesto que los resultados no se determinan completamente de forma automática. En la parte C del presente texto se presentará algunos interesantes resultados de optimización de funciones lineales con restricciones lineales aplicados a modelos estadísticos.

92

Page 93: 1992 descripcion e inferencia lineal en estadistica

CAPÍTULO VII. VALORES Y VECTORES PROPIOS DE MATRICES SIMÉTRICAS 1. DEFINICIONES Sea V un espacio vectorial sobre el cuerpo K y f una aplicación lineal simétrica de V en V. Se denomina ecuación característica de f a la ecuación: f(x) = λx Donde x es un vector en V diferente al vector 0 y λ un escalar en K. Si V es un espacio vectorial del tipo Kn sobre K, se puede asociar a f una nxn matriz simétrica A y la ecuación característica se escribe: Ax = λx El vector x se denomina "vector propio" o "vector característico" de la aplicación lineal f o de la matriz A y el escalar λ es un "valor propio" o una "raíz característica" de la aplicación f o de la matriz A. Obsérvese que si x verifica la ecuación característica, también el vector ηx verifica esta ecuación para todo η≠0. Como una forma de evitar esta indeterminación y de considerar una infinidad de múltiplos de un mismo vector, se ha acordado la normalización de los vectores propios, es decir, llamarlos tales, solo a los que tienen NORMA 1. Notése, igualmente, la importante característica siguiente de los valores propios de las matrices simétricas: Anx = λnx n= -∞,..-1, 0, 1,...+∞ Es decir, los valores propios de las potencias de la matriz A son iguales a las respectivas potencias de sus valores propios. En particular, si A admite inversa, los valores propios de su inversa son iguales a los inversos de sus valores propios.

93

Page 94: 1992 descripcion e inferencia lineal en estadistica

En lo que sigue, se demostrará, para el caso en el que K=R, que: i. existen n valores propios λi en K ii. que a cada uno de estos valores propios está asociado un vector propio xi en V iii. y que los n vectores propios son ortogonales entre sí. 2. POLINOMIO CARACTERÍSTICO La ecuación característica implica que: (A-λI)x = 0 es decir, si se desea otra solución que x=[0], la matriz B(λ)=(A - λI) tiene que tener un rango inferior a n, lo cual asegura, como se vió en el capítulo II, que el Ker(B(λ)) sea diferente al espacio nulo 0 y que al interior de este subespacio vectorial se pueda escoger un vector x que verifique la ecuación precedente. Siendo la matriz B(λ) función de λ, se puede escoger λ de manera a que su rango sea inferior a n. Recuérdese que una condición necesario y suficiente para que esta condición de cumpla es que el determinante de B(λ) sea igual a cero. El determinante de B(λ) es un polinomio P(λ) de grado n en λ, en consecuencia admite n soluciones λi, eventualmente, no todas diferentes: Definición. Se denomina polinomio característico de la nxn matriz A al

determinante de la matriz B(λ)=(A - λI) P(λ) = det (B(λ)) que es un polinomio de grado n. Considérese, en primera instancia, que existe alguna raíz del polinomio característico que sea compleja cuando A es simétrica, es decir, que pueda escribirse en la forma: λ = a + bi con i= √-1 En ese caso, las componentes del vector propio asociado a este valor propio deberían ser también números complejos, es decir, el vector x podría escribirse en la forma: x = w + zi

94

Page 95: 1992 descripcion e inferencia lineal en estadistica

Con la convención de normalización del vector x, es decir, con la convención de que el producto escalar del vector x por su conjugada valga 1, se tiene que la norma del vector Ax es igual al módulo del escalar λ:

2Ax = λ² = (a²-b²)

Sea x* la conjugada del vector x. Se tiene que:

2Ax = x*A'Ax = x*A²x = λ²x*x = λ² = (a²-b²) +2iab Este resultado es compatible con el precedente sólo si b=0, es decir, sólo si los valores propios de A son reales, lo que implica, a su vez, que los vectores propios son también reales. 3. LA PROPIEDAD DE ORTOGONALIDAD DE LOS VECTORES PROPIOS a. Caso en que todos los valores propios son diferentes entre sí Supóngase, en primera instancia, que todos los valores propios son diferentes, λi≠λj, si i≠j y considérese las relaciones: Axi = λixi, i=1,2,..n Pre-multiplíquese la relación precedente por el vector propio xj: x'jAxi = λix'jxi, i,j=1,2,..n Pero, puesto que x'jA=λjxj', se tiene: λjxj'xi = λi xj'xi, i,j =1,2,..n Si todos los valores propios son diferentes, es evidente que esta última relación es posible sólo si los vectores propios son ortogonales entre sí: xj'xi = 0 i≠j b. Caso en que existe varios valores propios iguales a cero. Si Ker(A) es diferente al espacio nulo 0 y tiene dimensión m, se puede escoger arbitrariamente en este subespacio vectorial m vectores ortonormados para los cuales se verifica la ecuación característica con λ=0 : Ax = 0x

95

Page 96: 1992 descripcion e inferencia lineal en estadistica

Es decir, en ese caso,la matriz A tendrá m valores propios nulos. Obsérvese la importante relación que existe entre el rango de la matriz A y el número de valores propios no nulos que contiene: si el rango de la matriz A es r, el Ker(A) tendrá dimensión n-r = m, luego:

rango(A) = número de valores propios no nulos

Por otra parte, obsérvese que todo otro vector propio x asociado a un valor propio λ no nulo es ortogonal al Ker(A). En efecto: sea y un vector cualquiera del Ker(A), obsérvese que: x'y = x'Ay/λ =x'[0]`/λ = 0 En la expresión precedente se ha reemplazado x' por x'A/λ y, posteriormente, Ay por el vector [0]. c. Caso en que existen multiplicidad de valores propios no nulos Supóngase que el polinomio característico P(λ) tiene m raíces con igual valor λ. Obsérvese que por la definición de la ecuación característica, cualquier vector propio de la matriz A es un elemento del Ker(B(λ)). Si el Ker(B(λ)) tiene dimensión 1, el vector propio asociado a λ es único. Si el Ker(B(λ)) tiene dimensión m, se puede escoger en este espacio vectorial m vectores ortonormados y1, y2,..yn que verifiquen la ecuación característica y que en consecuencia sean m vectores propios asociados a los m valores propios iguales a λ. Finalmente, obsérvese que teniendo en cuenta la definición de la ecuación característica, el número m de valores propios iguales a λ es igual a la dimensión del Ker(A). Por lo expuesto en las secciones precedentes, estos vectores son también ortogonales al resto de los vectores propios de la matriz A. 4. LA DESCOMPOSICIÓN ESPECTRAL DE UNA MATRIZ SIMÉTRICA En las secciones precedentes se ha mostrado que toda nxn matriz A tiene n vectores xi ortonormados. Nótese que la reagrupación de estos vectores en una matriz da lugar a una matriz ortonormada: Sea V = x1, x2,...xn Se tiene V'V = VV' = I

96

Page 97: 1992 descripcion e inferencia lineal en estadistica

Estos vectores, obviamente, constituyen una base para Rn. Luego, existe una matriz T tal que: A = VT Obsérvese que a partir de las n-relaciones Axi=λixi, i=1,2,..n, se pueden escribir en forma matricial de la forma siguiente: AV = VΛ Donde la matriz Λ es una matriz diagonal conteniendo los valores propios λi: Λ = diag λ1, λ2,..λn Utilizando el hecho de que V es una matriz ortonormada, post-multiplicando la relación precedente por V' se obtiene, la denominada DESCOMPOSICIÓN ESPECTRAL DE A:

xx = VV = A iii

n

=1i′∑′Λ λ

Luego T=ΛV' Obsérvese que las matrices Vi=xixi' son de rango 1, idempotentes y ortogonales entre sí. Cada una de ellas puede constituirse en una base para un subespacio vectorial de dimensión 1 en Rn, En la medida en que son mutuamente ortogonales, los subespacios que generan no tienen elementos en común (salvo el [0]) y su suma directa genera Rn (ΣVi = I). 5. CARACTERIZACIONES POR MEDIO DE LOS VALORES PROPIOS Sea A una nxn matriz simétrica. Utilizando su descomposición espectral A=VΛV' y el hecho de que la nxn matriz V es ortonormada, se demuestra fácilmente los resultados siguientes:

97

Page 98: 1992 descripcion e inferencia lineal en estadistica

a. Traza(A) = Traza(VΛV') = Traza(ΛV'V) =Traza(Λ) = Σλi b. det(A) = det(V)det(Λ)det(V') = Πλi, puesto que det²(V)=1 El rango de una matriz, como se explicó anteriormente, es igual al número máximo de valores propios no nulos. Si una matriz A simétrica es de rango máximo, la descomposición espectral de su inverso es: A-1 = VΛ-1V' Toda matriz definida positiva tiene sus valores propios superiores a cero. Todos los valores propios de una matriz ortonormada son +1 ó -1. Una matriz Q simétrica e idempotente (Q`=Q y Q²=Q) de rango r, tiene r valores propios iguales a 1 y n-r valores propios iguales a 0. Obsérvese que el subespacio vectorial S(Q)=yεRn / y=Qβ, para todo βεRn generado por las columnas de Q es de dimensión r y que: i. todo vector yεS(Q) verifica la ecuación característica con λ=1 Qy = 1.y ii. todo vector z que no pertenece a S(Q) verifica la ecuación característica con λ=0 Qz = 0.z Sea B una matriz rectangular cualquiera. Se demuestra fácilmente que las matrices B'B y BB' tienen los mismos valores propios no nulos los que son positivos. 6. FORMAS CUADRÁTICAS Y VALORES PROPIOS Sea A una nxn matriz simétrica y sea w un vector en Rn de norma 1. La forma cuadrática w'Aw puede expresarse como una media ponderada de los valores propios de la matriz A, lo que constituye una propiedad muy útil en numerosos problemas de optimización asociados a formas cuadráticas.

98

Page 99: 1992 descripcion e inferencia lineal en estadistica

En efecto, sea A=VΛV' la descomposición singular de A, obsérvese que:

( )

1

02

=

≥′=

′′Λ′′

′′

′∑∑

p

yxwp

con

p=

wxx = )wxx(w = wVVw = Aww

i

n

1=i

ii

ii

n

1=i

iii

n

1=iiii

n

1=i

w

λ

λλ

A partir de este resultado, utilizando propiedades simples de la media aritmética se tiene que:

λmin ≤ w'Aw ≤ λ max

para todo wεRn tal que W =1

Si los valores propios están ordenados en forma decreciente, se tiene que:

max w'Aw = λ1 y se dá cuando w=x1

min w'Aw = λn y se dá cuando w=xn

Entre todos los vectores w en Rn de norma 1.

99

Page 100: 1992 descripcion e inferencia lineal en estadistica

7. VALORES SINGULARES Y DESCOMPOSICIÓN SINGULAR DE UNA MATRIZ

RECTANGULAR Sea A una matriz mxn de rango igual a r. Considérese la siguiente matriz simétrica construida a partir de A:

⎥⎥⎦

⎢⎢⎣

]0['

]0[

A

A = C

C tiene m+n líneas e igual número de columnas, su rango es igual al de la matriz A. Siendo una matriz simétrica, sus valores propios λi así como sus vectores propios vi son reales. Considérese la ecuación característica: Cvi = λivi i=1,2,..r Particionando, los vectores propios vi de la siguiente manera:

⎥⎥⎦

⎢⎢⎣

i

i

id

g = v

Donde los gi son vectores con m componentes y los di vectores con n componentes, i=1,2,..r. Por el momento, no se considerará el supuesto de que los vectores vi están normados. Resulta de la ecuación característica que: Adi = λigi (1) A'gi = λidi (2) para i=1,2,..r Premultiplicando la primera de estas relaciones por A', se tiene que: A'Adi = λiA'gi = λi²di para i=1,2,..r Esta relación muestra que los vectores di son vectores propios de la matriz A'A y que los valores propios no nulos de esta matriz son iguales a λi², i=1,2,,,r

100

Page 101: 1992 descripcion e inferencia lineal en estadistica

Pre-multiplicando la relación (2) por la matriz A se tiene que: AA'gi = λiAdi = λi²gi para i=1,2,...r Relación que muestra a su vez que los vectores gi son vectores propios de la matriz AA' y que los escalares λi² son sus valores propios no nulos. Se considerará que los vectores di y gi tienen norma igual a 1. Las r relaciones (1) pueden escribirse matricialmente en la siguiente forma: AD = GΦ (3) Donde D es la nxn matriz de vectores propios de A'A, G es la mxm matriz de vectores propios de AA' y Φ es una mxn matriz rectangular construida de la siguiente forma:

⎥⎥⎦

⎢⎢⎣

⎡ ΛΦ

]0[]0[

]0[

=

r

Donde Λr es una matriz diagonal conteniendo escalares λi no nulos. Post-multiplicando (3) por la matriz ortonormada D', se tiene: A = GΦD' Que constituye una de las formas en que se presenta la descomposición singular de la matriz A. Sin embargo, en general, de manera a obviar los ceros en la diagonal principal de la matriz Φ se prefiere escribirla de la forma siguiente: Descomposición singular de la nxm matriz rectangular A de rango r: A = GrSDr' Donde la nxr matriz Gr contiene los r primeros vectores propios de la matriz AA', mientras que la mxr matriz Dr contiene los r primeros vectores propios de la matriz A'A y S es una rxr matriz diagonal conteniendo las raíces cuadradas de los valores propios no nulos de las matrices AA' y A'A. Los elementos de la matriz S se denominan valores singulares de la matriz A, mientras que a los vectores que componen las matrices gr y Dr se los denomina vectores singulares a la "izquierda" y a la "derecha", respectivamente, de la matriz A.

101

Page 102: 1992 descripcion e inferencia lineal en estadistica

8. EL INVERSO GENERALIZADO DE PENROSE DE UNA MATRIZ RECTANGULAR Recuérdese que en el capítulo II se ha dado la definición axiomática del inverso de Penrose de la siguiente manera: La nxm matriz B es un inverso generalizado de la mxn matriz A si verifica los siguientes axiomas: a. ABA = A b. BAB = B c. BA = (BA)' d. AB = (AB)' Sin perjudicar a la generalidad de los resultados que siguen se puede asumir que m≤n, que el rango de A es r≤m y que los valores propios de las matrices A'A y AA' se encuentran ordenados en forma decreciente. Se puede definir el inverso generalizado de Penrose a partir de valores y vectores propios de la siguiente manera: Sea G una matriz nxm conteniendo los m primeros vectores propios de la nxn matriz A'A Sea D una matriz mxm conteniendo los vectores propios de la mxm matriz AA' Sea S² una mxm matriz diagonal conteniendo los valores propios si² de la mxm matriz AA' y

los m primeros valores propios de la nxn matriz AA' (recuérdese que el resto de los valores propios de esta matriz son nulos)

Se verifica fácilmente que la nxm matriz siguiente: A+ =G(S²)+D' es un inverso de Penrose en el sentido en que verifica los 4 axiomas precedentes. La matriz (S²)+ contiene en su r primeros elementos de su diagonal principal los inversos de los r primeros valores propios no nulos de las matrices AA' y A'A. Algunas propiedades de este inverso generalizado son las siguientes: a. Rango de A+ es el mismo que el de A b. Se tiene que A+A = GrGr' donde la matriz Gr contiene las r primeras columnas de la matriz G.

Obsérvese que los axiomas a y c implican (A+A)A'= A' c. La nxn matriz A+A es simétrica e idempotente, de rango r y es un proyector ortogonal en el

espacio generado por las líneas de A: S(A') = xεRn / x= A'α, para todo α en Rm.

102

Page 103: 1992 descripcion e inferencia lineal en estadistica

d. Se tiene que AA+= DrDr', donde la matriz Dr contiene las r primeras columnas de la matriz D. El axioma b muestra que: (AA+)A = A

e. La matriz AA+ es también simétrica e idempotente, de rango r, es un proyector en el espacio

engendrado por las columnas de A: S(A) = yεRm / y = Aβ, para todo β ε Rn 9. RESOLUCIÓN DE ECUACIONES LINEALES POR MEDIO DEL INVERSO GENERALIZADO DE PENROSE. PROPIEDADES DE LAS SOLUCIONES Supóngase que el sistema de ecuaciones Ax=b tiene un espacio de soluciones S no vacío, con A una matriz mxn de rango r y b un vector en Rm. Una solución particular a este sistema de ecuaciones está dada por: X0 = A+b y, una solución general por: x= A+b + (I-A+A)z Donde z es cualquier vector en Rn. Obsérvese que la matriz (I-A+A) genera el Ker(A) y constituye un proyector en este sub-espacio vectorial. Nótese, también, que los 2 vectores a la derecha de la igualdad son ortogonales entre sí. Se puede encontrar la solución particular precedente maximizando alguna función objetivo en S. Una sugerencia de especificación de función objetivo es la norma al cuadrado del vector solución x:

máx 2x /2

con xεRn y Ax=b Para demostrar que xo es la solución óptima a este problema es suficiente partir de la solución general especificada anteriormente y verificar que:

2x =

20x + ( ) 2

zAAI +−

De donde:

2x ≥

20x

103

Page 104: 1992 descripcion e inferencia lineal en estadistica

CAPÍTULO VIII. LA DESIGUALDAD DE SCHWARTZ Y OTRAS DESIGUALDADES UTILES

EN ESTADISTICA 1. LA DESIGUALDAD DE SCHWARTZ Y SUS EXTENSIONES a. La desigualdad básica Sea A una matriz con n líneas y dos columnas definida como sigue: A = [x ; y] donde x, y son vectores en Rn. Considérese la matriz C = A'A:

⎥⎥⎥

⎢⎢⎢

⎥⎥⎦

⎢⎢⎣

′′

′′′

2

2

y xy

y x x =

yy xy

y x xx = AA = C

Puesto que esta matriz es semi-definida positiva, su determinante es positivo o nulo:

det (C) =2x . 2y - (x'y)² ≥ 0

De donde nace la desigualdad de Schwartz, muy útil en numerosas aplicaciones del álgebra lineal:

x'y ≤ x . y ó también:

x'y ≤ x . y La igualdad se realiza solamente si det (C) = 0, es decir, si el rango de la matriz A es igual a 1, lo que equivale a decir que la igualdad se realiza si y solamente si existe algún escalar η tal que y = ηx.

104

Page 105: 1992 descripcion e inferencia lineal en estadistica

b. Extensiones El resultado anterior se extiende a matrices permitiendo poner en relación a trazas y normas para determinar límites máximos y mínimos (cf. Capítulo IV, sección 4). Muchos de estos resultados facilitan considerablemente la resolución de problemas de optimización (cf. Capítulo VI). Sea X e Y matrices con m líneas y n columnas particionadas por columnas: los vectores columnas de X serán identificados por xj, j=1,2,..n y los de Y por yj, j=1,2,..n; estos vectores pertenecen a Rm. Utilizando la desigualdad básica de Schwartz se tiene que:

i

n

1=i

ii

n

1=i

y

yx = Y)XTraza(

.x i∑

′ ′

A la desigualdad anterior, es posible darle un valor superior en términos de las normas de las matrices X y Y. Para ello, se puede crear dos vectores, a y b, cuyos n elementos sean, respectivamente, las normas de los vectores xi e yi, i=1,2,..n. Téngase en cuenta que las normas de los vectores a y b son, respectivamente, igual a las normas de las matrices X, Y. A partir de la desigualdad de Schwartz se tiene:

Y =b a ba =y x ii

n

1=i

.X.. ≤′∑

Utilizando este resultado en la ecuación precedente, se tiene la siguiente doble desigualdad de Schwartz aplicada a las trazas de productos de matrices:

Y.X y.x Y)XTraza( ii

n

1=i

≤≤′ ∑

El signo ≥ se realiza bajo la forma de la igualdad en los siguientes casos:

105

Page 106: 1992 descripcion e inferencia lineal en estadistica

i. Si cada vector yi es múltiplo de cada vector xi, es decir, si existen n escalares ηi tales que yi=ηixi, entonces, la primera desigualdad se realiza sobre la forma de igualdad y la segunda bajo la forma de desigualdad estricta, salvo si todos los escalares ηi son idénticos.

ii. La segunda desigualdad de realiza en la forma de igualdad sólo si la matriz Y es

múltiplo de la matriz X, es decir, si existe un escalar λ tal que Y = λX. En ese caso, la primera desigualdad también se realiza en forma de igualdad.

2. LA DESIGUALDAD TRIANGULAR Y SUS EXTENSIONES a. La desigualdad básica Sean nuevamente X, Y dos matrices mxn. A partir del resultado anterior se tiene que:

2.Traza(X'Y) ≤ 2. X . Y Añadiendo a la derecha y a la izquierda de esta expresión las normas al cuadrado de las matrices X, Y se obtiene:

2X + 2Y + 2.Traza(X'Y) ≤ 2X + 2Y + 2. X . Y

De donde:

2YX + ≤ ( X + Y )²

Sacando la raíz cuadrada en ambos lados de la desigualdad, se llega a la expresión básica de la desigualdad triangular:

YX + ≤ X + Y

YX − ≤ X + Y Estas desigualdades se cumplen bajo el signo de la igualdad solamente si la desigualdad de Schwartz se cumple también bajo el signo de la igualdad, es decir, si una de las matrices es múltiplo de la otra.

106

Page 107: 1992 descripcion e inferencia lineal en estadistica

b. Extensiones i. Siguiendo un razonamiento similar al precedente, considérese la desigualdad:

-2.Traza(X'Y) ≥ -2 X . Y De donde:

2X + 2Y - 2.Traza(X'Y) ≥ 2X + 2Y - 2. X . Y

2YX − ≥ ( X - Y )²

YX − ≥ Abs( X - Y )

YX + ≥ Abs( X - Y ) ii. Considérese a continuación que X=A-B e Y = A+B, utilizando la desigualdad de Schwartz se

tiene:

Traza [(A-B)'(A+B)] = 2A - 2B ≤ BA − . BA +

Si BA − ≥ BA + , se tiene que:

Traza [(A-B)'(A+B)] = 2A - 2B ≤

2BA − Obsérvese que esta última desigualdad se realiza sólo si

Traza(A'B) = 2B , es decir, si:

Traza[(A-B)'B] = 0 (condición de ortogonalidad)

107

Page 108: 1992 descripcion e inferencia lineal en estadistica

3. IGUALDADES Y DESIGUALDADES UTILIZANDO TRANSFORMACIONES

ORTOGONALES. a. Igualdades i. Sea M una nxn matriz ortonormada y A una nxm matriz cualquiera. Se verifica que:

MA = A ii. Sea P una matriz nxn tal que P=GG', donde G es una matriz rectangular con n líneas y r

columnas ortonormadas, verificándose, entonces, G'G=Ir. Se tiene que:

PA = GA iii. Obsérvese que una matriz P como la definida en el punto precedente es un proyector ortogonal de rango r y que se tiene (PA)'(A-PA) = 0, luego, la última desigualdad de la sección precedente se cumple bajo el signo de la igualdad, teniéndose:

2PAA − = 2A - 2PA

iv. Sea Q = DD' otro proyector ortogonal mxm del tipo de P, donde D es una matriz de m líneas y

g columnas ortonormadas, fácilmente se demuestra que, además:

2PAQA − = 2A - 2PAQ

b. Desigualdades v. Del punto iii. se concluye que:

≥2A

2PA O, en forma equivalente que: Traza[G'(AA')G] ≤ Traza (AA') O, dicho en términos aún más generales: Si C es una matriz simétrica semi-definida positiva y G una matriz a vectores columna

ortonormados, se tiene que:

Traza(G'CG) ≤ Traza(C)

108

Page 109: 1992 descripcion e inferencia lineal en estadistica

La igualdad se cumple sólo si G es una matriz cuadrada. vi. Del punto iv. anterior, se concluye que:

≥2A

2PAQ O, en forma equivalente:

≤2' ADG

2A = Traza (A'A) Una generalización de este resultado está dada por: Sea C una nxn matriz simétrica semi-definida positiva y sean G y D dos matrices con n líneas y m y r vectores ortonormados, respectivamente. Se tiene que:

Traza (G'AD) ≤ Traza (A)

4. OTRAS DESIGUALDADES UTILES a. Sea C una nxn matriz simétrica definida positiva con valores propios iguales a λi. Puesto que log λi ≥ λi-1, que det(C) = Πλi y que traza(C) = Σλi, se tiene: log(det(C)) ≥ Traza(C) - n Este resultado permite una demostración elegante del estimador máximo verosímil de la

matriz de covarianzas de un vector normal multivariante. b. Regla del paralelogramo:

2YX + + 2YX − =2( 2X + 2Y )

109

Page 110: 1992 descripcion e inferencia lineal en estadistica

c. Si C es una matriz simétrica semi definida positiva, se tiene que:

Traza (C²) ≤ [Traza (C)]² d. Si P es un proyector ortogonal de rango r y Q un proyector ortogonal de rango m, se tiene

que:

Traza(PQ) ≤ min r, m

e. Lema de Kristof

Considérese m matrices Mk, k=1,2,..m, con vectores columna ortonormados, y m matrices Ak cualesquiera, con descomposiciones singulares iguales a GkSkDk y sea: Z= Π MkAk Se demuestra que: Traza(Z) ε [-T, T] Donde: T = Traza Π Sk

Utilizando este lema, se puede determinar, por ejemplo, un intervalo para el valor de la traza del producto de m matrices. 5. LOS PROBLEMAS DE PROCUSTE Los problemas siguientes, que pueden ser resueltos con base en las desigualdades anteriores y en la descomposición singular de matrices rectangulares, se encuentran a la base de numerosos problemas de optimización en matemáticas aplicadas. a. Sea el sistema de ecuaciones A=CB donde A es una matriz nxm conocida, B una matriz kxm

también conocida mientras que C es una matriz nxk conteniendo las incógnitas del sistema.

110

Page 111: 1992 descripcion e inferencia lineal en estadistica

Considérese el siguiente doble problema de optimización: encontrar una matriz C* tal que

2CBA − tome un valor mínimo (solución de mínimos cuadrados a la ecuación A=CB entre

todas las nxk matrices C y, si existe varias soluciones C* a este problema, encontrar C** tal

que **C ≤ *C Solución: C** = AB+

b. Sea el sistema de ecuaciones A = DCB, donde se supone que las matrices A, B y D son

conocidas, mientras que la matriz C contiene las incógnitas del sistema. La solución de mínimos cuadrados con norma mínima a este problema es: C** = D+AB+ (es

decir, esta matriz es solución al problema min 2DCBA − ).

c. Considérese nuevamente el primer problema, pero, con la rstricción suplementaria que las

matrices CC' y C'C sean proyectores ortogonales. La solución estará dada por C* = DG' donde D y G son matrices de vectores propios

asociadas a la descomposición singular de: BA' = GSD' d. Sea A una nxm matriz de rango r. Encuéntrese la matriz C* más próxima a A de rango g < r

en el sentido de la distancia euclidiana:

min 2CA − entre todas las mxn matrices C de rango g.

Si A=GSD es la descomposición singular de A, la solución óptima es C* = GS*D donde en S

se han anulado los g-r valores singulares más pequeños para obtener S*.

111

Page 112: 1992 descripcion e inferencia lineal en estadistica

ANEXOS DE LA PARTE A.

PROGRAMACIÓN LINEAL EL ALGORITMO DEL SIMPLEX

1. PLANTEAMIENTO DEL PROBLEMA Sea el conjunto S = xεRn / Ax = b , x ≥ 0 con A una matriz con m líneas y n columnas de rango igual a m. Se recordará (Capítulo III) que cuando S no es es un conjunto vacio puede contener un solo punto (si el rango de A es igual a m=n) o una infinidad de puntos (si el rango de A es estrictamente inferior a n). En S diferente al vacio se puede definir una función líneal f(x) = c'x. Si S tiene un solo elemento, f(x) está definida sobre un punto, luego puede tomar un solo valor. Si S tiene una infinidad de puntos, los valores que puede tomar f(x) en S son también en número infinito. Bajo algunas condiciones que veremos posteriormente, uno de estos valores es finito y más grande que todos los otros valores de f(x) en S. A ese valor se lo denomina "máximo" de f(x) en S. Un Programa Líneal es el problema que plantea la búsqueda de un valor máximo de f(x) en S. Generalmente se lo plantea bajo la siguiente forma:

Máx c'x

Bajo la restricción de que x verifique:

Ax = b y x ≥ 0

Como se verá posteriormente, es fácil convertir un problema de máximo en un problema de mínimo y vice-versa. Por problema de mínimo se entiende la determinación del valor más pequeño de la función f(x) en el conjunto S. En algunos textos, se introduce la noción de Programa Líneal como el problema que plantea la búsqueda de un valor mínimo de f(x) en S:

Mín c'x

Bajo la restricción de que x verifique:

Ax = b y x ≥ 0

112

Page 113: 1992 descripcion e inferencia lineal en estadistica

En el presente texto, se retendrá la presentación siguiente de un Programa Líneal:

Máx c'x x ε S

con S = xεRn / Ax = b , x ≥ 0

En este capítulo se discutirá en detalle la naturaleza de la solución (o de las soluciones a este problema) así como la forma de calcularla. Cabe, sin embargo, hacer en esta introducción algunas reflexiones preliminares. a. La función f(x) es contínua en S y además es monótona. Esto implica que si

x1 es un punto interior en S, existirá un punto x2 en la frontera de S, tal que f(x2) ≥ f(x1). Esta observación sugiere que si f(x) tiene un máximo finito en S, éste se encuentra en una de sus fronteras.

b. El conjunto S, como se verá posteriormente, tiene vértices (o puntos extremos) sobre

sus fronteras, es decir puntos que no pueden expresarse como combinaciones lineales convexas de otros puntos de S. Si x1 es punto frontera de S, al cual le corresponde el valor máximo de f(x) en S, se puede imaginar que existe un punto vértice x2 en S para el cual también la función f(x) tome su valor máximo (eventualmente x1=x2).

Los dos puntos anteriores, pueden ser aceptados en forma un tanto intuitiva, pero, obviamente, necesitan ser demostrados con más detalle. Toda la lógica de la programación líneal se basa en estos 2 puntos y, en otro, que no tiene carácter intuitivo: c. A todo vértice o punto extremo en S, le corresponde una solución básica del sistema

de ecuaciones Ax=b. Luego, el problema de búsqueda de un máximo de f(x) en S se resume a explorar las diferentes soluciones básicas no negativas al sistema Ax=b. Para ello, los capítulos anteriores han permitido acumular muchos conociemientos, pero, se hace necesario de todas maneras, hacer un breve repaso de algunos conocimientos de topología.

113

Page 114: 1992 descripcion e inferencia lineal en estadistica

2. REPASO DE ALGUNOS CONCEPTOS BÁSICOS DE TOPOLOGIA. D1. Hiperesfera en Rnde centro en a y de radio ε>0

|=a-x|x/ ε

con

)a-x(=|a-x| 2ii

2 ∑

D2. Interior de una hiperesfera en Rn de centro en a y radio ε>0 o vecindad ε alrededor del punto

a.

|<a-x|x/ ε

D3. Punto interior de un conjunto A ⊆ Rn. El vector a es un punto interior de A, si existe una

vecindad ε de a que contiene solamente puntos de A. D4. Punto frontera de un conjunto A ⊆ Rn. El vector a es un punto frontera de A, si cualquier

vecindad ε de a contiene puntos de A y puntos que no están en A. D5. El conjunto A ⊆ Rn es abierto si contiene únicamente puntos internos. D6. El conjunto A ⊆ Rn es cerrado contiene todos su puntos frontera. D7. El conjunto A ⊆ Rn es estrictamente acotado. Si para todo X ε A, existe un escalar c tal que:

c|<x|

Con:

x|=x| 21∑

D8. El conjunto A ⊆ Rn es acotado por abajo si para todo x ε A, existe un vector b ε Rn, tal que x ≥

b.

114

Page 115: 1992 descripcion e inferencia lineal en estadistica

Ejemplo:

0xb,=Ax|x ≥

D9. Hiperplano. Sean c ε Rn y z un escalar . Un hiperplano en Rn está definido de la siguiente

manera:

z=xc|x 1

Si n = 2 el hiperplano es una recta.

z=xc+xc 2211

xcc-z

c1=x 2

2

1

22

Propiedades de los hiperplanos: h1. Un hiperplano pasa por el origen si z = 0 h2. La relación c'x = 0 implica que c y x son ortogonales h3. Si x1 y x2 pertenecen al hiperplano:

z=xc|x ′

se tiene que:

0=)x-x(c 21′

d. Sea

z=xc|x=H 11 ′ 0>,=yc,xc,+x=y|y= λλ ′∈ zHH 212

115

Page 116: 1992 descripcion e inferencia lineal en estadistica

Se demuestra que z2 > z1 Luego los hiperplanos H1 y H2 son paralelos. h4. Los coeficientes: ci/ c se denominan "unit normal". El vector c/⎮c⎮ es denominado

vector de norma 1

xc=z ′ xc=z ′λλ

Dos hiperplanos son paralelos si poseen los mismos vectores de norma 1.

c)(|c|

=(c)|c|

λλ

11

h5. Un hiperplano divide Rn en dos subconjuntos disjuntos

z<xc|x ′ z>xc|x ′

estos conjuntos se denominan "medios espacios abiertos". Los subconjuntos:

zxc|x ≤′ zxc|x ≥′

Se denominan "medios espacios cerrados". h6. Un hiperplano es un conjunto cerrado.

116

Page 117: 1992 descripcion e inferencia lineal en estadistica

D10. Conjunto convexo. X es un conjunto convexo si para todo par de puntos (o vectores) (x1, x2)

en X y para todo:

10 ≤≤ λ

se tiene que el vector

x)-(1+x=y 21 λλ

pertenece también a X. D11. Combinación lineal convexa. El vector y es una continuación lineal convexa de (x1, x2,...x7) si

este vector puede expresarse en la forma

x=y iiλ∑

con

1<0 i ≤λ

1=iλ∑

El conjunto de vectores A es convexo si cualquier combinación lineal convexa de puntos en A pertenecen a A. D12. Punto extremo. El vector Xo es un punto extremo del conjunto convexo X, si no existe en X un

par de vectores x1, x2 tal que:

x)-(1+x=x 210 λλ

con

1<<0 λ

(necesaria desigualdad estricta)

117

Page 118: 1992 descripcion e inferencia lineal en estadistica

Ejemplo 1. Sea A los puntos interiores y frontera de un triángulo, los puntos extremos son los vértices. Ejemplo 2. Sea A=x/x = c , todos los puntos de este conjunto son puntos extremos. D13. Un hiperplano es un conjunto convexo. Considérese el hiperplano:

XXc + Xa = f(X)

CXX + Xa = f(X)

jiij

n

j=1

n

=1iii

n

=1i∑∑∑

′′

Sean x1 y x2 dos vectores que pertenecen a H, luego, que verifican:

z=xc 1′

z=xc 2′

Ciertamente que el vector:

x)-(1+x=y 21 λλ

También pertenece a H, luego H es convexo. D14. La intersección de 2 conjuntos convexos A y B es un un conjunto convexo. En efecto: Sean A y B dos conjuntos convexos y C su intersección:

BA=c ∩

Sean x1 y x2 dos vectores perteneciendo simultáneamente a A y B, es decir, a su intersección:

Cx,x 21 ∈

Para todo λ tal que:

10 ≤≤ λ

118

Page 119: 1992 descripcion e inferencia lineal en estadistica

Considérese los vectores y del tipo siguiente:

Cx)-(1+x=y 21 ∈λλ

Puesto que A es convexo, y ε A, puesto que B es convexo y ε B, luego y ε (A ∩ B), con lo cual

se ha demostrado que la intersección de dos conjuntos convexos es otro conjunto convexo. D15. Sea X un conjunto convexo, cerrado en Rn; cualquier vector y ε En sea pertenece a X sea

existe un hiperplano H conteniendo y tal que X se encuentra en uno de los medios espacios abiertos engendrados por H

z<xc|x=A ′

ó

z>xc|x=A ′

D16. Sea w un punto frontera de un conjunto convexo X. El hiperplano H = xc'x=z es un

hiperplano de soporte (o de apoyo) de X, si w ε H y si todo X está contenido en uno de los medios espacios cerrados engendrados por H. Dicho de otra manera: H = xc'x = z es un hiperplano de soporte para X en el punto w, si w ε X y si para todo y ε X se tiene, sea c'y ≥ z, sea c'y ≤ z.

Ejemplo: Sea el conjunto convexo S = xAx ≥ b, x ≥ 0 y sea H = xεRn/ c'x=z un

hiperplano tal que z ha sido escogigo como el valor más grande de la función c'x en S. Si w es un vector en S∩H, obviamente que H es un hiperplano de soporte para S. Luego, si un programa líneal planteado en la forma siguiente:

Máx c'x x ε S = xAx ≥ b, x ≥ 0 admite una solución óptima w, el hiperplano H = xεRn/c'x=c'w constituye un

hiperplano de soporte para S. D17. Teorema. Si w es un punto frontera de un conjunto convexo cerrado X, existe por lo menos un

hiperplano de soporte H para S en el punto w. D18. Teorema. Un conjunto cerrado y acotado por abajo contiene puntos extremos en cada uno de

sus planos de soporte.

119

Page 120: 1992 descripcion e inferencia lineal en estadistica

D19. Puntos Extremos y Soluciones Básicas a un sistema de ecuaciones con restricciones de

signo. Sea el sistema: S = xεRn / Ax = b , x ≥ 0 . a. Todas las soluciones básicas en S son puntos extremos para S. Demostración: El sistema de ecuaciones Ax=b puede escribirse en la forma:

b=)xA|(B 2

⎟⎟⎠

⎞⎜⎜⎝

0

x=x 1

Donde se supondrá que la matriz B es cuadrada y tiene el mismo rango que la matriz A. Con x1=B-1b, el vector x es, en consecuencia, una solución básica en S. Si existiesen en S, dos puntos (y,z) diferentes de x tales que:

)z-(1+y=x λλ

para poderse respetar la condición x ≥ 0, ambos tendrían que tener la misma estructura de ceros que

x:

⎟⎟⎠

⎞⎜⎜⎝

0

x=x 1

En efecto, sean:

⎥⎦

⎤⎢⎣

⎡yy=y

2

1

m

m-n

⎥⎦

⎤⎢⎣

⎡zz=z

2

1

m-n

m

120

Page 121: 1992 descripcion e inferencia lineal en estadistica

la relación expresando x como combinación líneal convexa de y,z puede escribirse:

z)-(1+y=x 211 λλ∧ z)-(1+y=x=0 222 λλ∧

puesto que ambos vectores y,z pertenecen a S, deben tener componentes no negativas, en particular, y2 ≥ 0, z2 ≥ 0, pero, la última relación implica, entonces, que y2 =z2 = 0. Por otra parte, puesto que y,z ε S, y, z verifican: Ay = b Az = b De la primera de estas relaciones, se concluye que:

b=0y]A|[B 1

2 ⎥⎦⎤

⎢⎣⎡

b=yB 1

x=bB=y 1-1

1∧

De man era similar tenemos, de la otra relación se concluye que:

x=bB=z 1-1

1∧

pero, en ese caso y, z tendrían que ser necesariamente iguales a x, puesto que: Bx1 = b, tiene una sola solución:

z=y=x∧

Luego, x es punto extremo.

121

Page 122: 1992 descripcion e inferencia lineal en estadistica

b. Todo punto extremo es una solución básica Sea:

,0,...0)w,...,w,w(=w k21

un punto extremo de S con 0 ≤ k ≤ n Puesto que: w ε S, w verifica: Aw = b (1) Si:

]a|...|a|a[=A n21

la relación (1) puede escribirse como:

b=aw ii

k

=1i∑

Se analizará los siguientes dos casos: i. Si K = m y si (a1, a2,...,an) son LIN, entonces w es una solución básica.

ii. Si (a1, a2,...ak) no son lin, existen coeficientes λi, i = 1,2,....k, no todos nulos, tales que:

0=aii

k

=1iλ∑

Sea:

0 todo para ,||

x= ii

1(i) ≠λ

λη min

y sea ε tal que:

122

n<<0 ∈

Page 123: 1992 descripcion e inferencia lineal en estadistica

Se remarcará que para todo i = (1,2,...,k)

0>+w ii λ∈ 0<-w ii λ∈

Sea

⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢

0...0

.

.

.

= k

2

1

λ

λλ

λ

Obviamente que:

0=Aλ

sean:

λ∈w+=x1 λ∈w-=x2

Obsérvese que x1, x2 ε S, en efecto: i. x1 ≥ 0, x2 ≥ 0

b=AAw+=xA 1 λ∈ b=AAw-=Ax2 λ∈

Luego, x1 y x2 pertenecen a S.

123

Page 124: 1992 descripcion e inferencia lineal en estadistica

Puesto que:

λ∈w+=x1 λ∈w-=x2

tenemos que:

2w=x+x 21

x21+x2

1=w 21

x)-(1+x=w 21 λλ

con

21=λ

y

Sx,x 21 ∈

luego, w no es punto extremo lo que contradice la hipótesis de partida. En consecuencia, bajo el supuesto que w sea un punto extremo, a1, a2,...ak son LIN. Luego: i. Si k = m, y w es punto extremo, existe una sola solución básica igual a w

124

Page 125: 1992 descripcion e inferencia lineal en estadistica

⎥⎦

⎤⎢⎣

⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢

0bB=

0...0x...x

=x1-

m

1

*

ii. Si k < m

b=ax ii

k

1=i∑

⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢

0...00...0x...x

=x

k

1

m-n

*

m

125

Page 126: 1992 descripcion e inferencia lineal en estadistica

con

lin vectores )a,...,a,a( k21

Se puede completar el conjunto de vectores (a1, a2,...ak) con (m-k) vectores hasta formar una base. Pero, en general, existe más de una manera de completar la base. Luego, si k < m pueden existir diferentes soluciones básicas degeneradas iguales al mismo punto extremo.

b=a0+ax *i

m

1+k=iii

k

=1i∑∑

Nota. En los casos de solución básica degenerada, es posible asociar bases diferentes a un mismo punto extremo. 3. CARACTERIZACIÓN DE LAS SOLUCIONES A UN PROGRAMA LINEAL Considérese el siguiente Programa: Máx c'x x ε S = xAx = ≤ b, x ≥ 0 Sean las siguientes caracterizaciones de las soluciones a este problema: C1. Si x0 es una solución óptima, x0 es un punto frontera de S. Se demostrará esta afirmación por

el absurso. Supóngase que x0 es una solución óptima y es un punto interior. En ese caso, se puede definir una vecindad ε alrededor de x0 conteniendo sólo puntos de S. Sea x1 un punto de esta vecindad:

126

Page 127: 1992 descripcion e inferencia lineal en estadistica

c|c|2

+x=x 01ε

εε <4

=x-x2

01

el vector x1 hace parte de la bola xx - x0<ε ⊆ S Se tiene:

cc|c|2

+cc=xc 01 ′′′ ε

con

|c=|cc 2′

Luego:

xc|c|2

+xc=xc 001 ′≥′′ ε

Como tanto x0 como x1 pertenecen a S, la expresión anterior muestra que función a c'x toma

un valor más grande cuando x=x1 que cuando x=x0, en el supuesto de que x0 es un punto interior. Luego toda solución optimal es es un punto frontera del dominio admisible S..

C2. Si x0 es una solución optimal a un programa lineal, el hiperplano c'x = z que pasa por x0 es un

hiperplanode soporte del dominio admisible c. C3. Teorema Fundamental del Simplex. Si un Programa Líneal admite una solución óptima,

existe alguna solución básica que también es óptima. (Nota: Puesto que el teorema dice que existe alguna solución básica que es una solución óptima, para resolver un programa líneal sería suficiente explorar los valores de la función c'x en sus soluciones básicas, es decir, en los puntos extremos o vértices del dominio admisible S).

Demostración: Sea el Programa Líneal: Máx z = c'x Ax = b x ≥ 0 rg (A) = m mxn

127

Page 128: 1992 descripcion e inferencia lineal en estadistica

Supóngase que:

,0...,0x,...x,x,...,x,x(=x 2+m1+mn21

Sea una solución optima, con k cualquier número entre:

m)-n1,2,...,=(k

Supóngase que los m primeros vectores columna de la matriz A:

)a|...|a|a( m21

son LIN. Luego, existen coeficientes yi,m+k que permiten expresasr los vectores restantes de la

matriz, en términos de sus m primeros vectores:

ya=a k+mi,i

m

=1ik+m ∑

y sea Θ una constante cualquiera, la relación Ax = b puede escribirse

b=xa ii

k+m

=1i∑

Sumando y sustrayendo a la izquierda de esta igualdad la misma expresión θam+k , ésta puede

escribirse:

b=ya-a+a+xa k+mi,i

m

=1ik+mk+mii

1-k+m

=1i∑∑ θθ

Reordenando los términos, se tiene:

b=a)+x(+xa+a)y-x( k+mk+mii

1-k+m

1+m=iik+mi,i

m

=1i

θθ ∑∑

128

Page 129: 1992 descripcion e inferencia lineal en estadistica

Definiendo un vector x* de la forma siguiente: x*

i = (xi -θyi,m+k) para i = 1, 2, ......m x*

i = xi para i = m+1, m+2,....m+k-1 x*

i = xi + θ para i =m+k x*

i = 0 para i > m+k Se tiene Ax* = b. Para que x* sea una solución admisible, es decir, sea un elemento de S,

deben verificarse otras condiciones que aseguren que sus elementos son no negativos. Considérese los siguientes casos:

i) Si Yi,m+k < 0. Para i=1,2,..m, la condición de no negatividad de x*

i exige:

0y-x=x k+mi,i*i ≥θ

De donde:

θ≤y

xk+mi,

i

Por otra parte, la misma condición exige, para i=m+k, que:

0+x=x k+m*

k+m ≥θ

x- k+m≥θ

Reuniéndo en una sóla condición, el parámetro θ tiene que ser tal que:

1,2,..m=i para 0<y|y

x,x- k+mi,k+mi,

ik+mMax≥θ

ii) Si Yi,m+k > 0. La condición de no negatividad de x*i, para i=1,2,...m, exige:

0y-x=x k+mi,i*i ≥θ

De donde:

129

Page 130: 1992 descripcion e inferencia lineal en estadistica

θ≥y

xk+mi,

i

Por otra parte, la misma condición exige, para i=m+k, que:

0+x=x k+m*

k+m ≥θ

De donde:

x- k+m≥θ

luego, para conservar la no negatividad de x*, el rango de Θ deberá ser:

0>y|y

x0<y|y

x,x- k+mi,k+mi,

ik+mi,

k+mi,

ik+m MinMax ≤≤ θ

Para i=1,2,...m. Obsérvese que el término a la izquierda de esta relación es negativo

o nulo, mientras que el de la derecha es positivo o nulo. Obviamente que la cota inferior existe sólo si existe por lo menos un índice i, para el cual yi,m+k < 0. Si no fuese el caso, es decir, si para todo i=1,2,..m, yi,m+k > 0, entonces, θ podría tomar arbitrariamente pequeño por debajo de su cota superior. En forma simétrica, se puede señalar que la cota superior existe sólo si existe por lo menos un índice i, para el cual yi,m+k > 0. Si no fuese el caso, es decir, si para todo i=1,2,..m, yi,m+k < 0, entonces, θ podría tomar arbitrariamente grande por encima de su cota inferior.

El vector x* es solución admisible si Θ verifica la relación precedente. Sea

xc=z ** ′

Donde se supondrá que θ ha sido escogido de manera a que x* sea una solución

admisible. Esta expresión puede desglosarse en la forma:

)+x(c+xcyxc=z k+mk+mii

1-k+m

1+m=ik+mi,ii

m

=1i

* +)-( θθ ∑∑

Reordenando los términos de esta igualdad, se tiene:

130

Page 131: 1992 descripcion e inferencia lineal en estadistica

)yc-c(+xc=z k+mi,i

m

1+m=ik+mii

k+m

=1i

* ∑∑ θ

El primer término a la derecha de la igualdad es igual el valor que toma la función c'x

en el punto x=x0, es decir, es igual a z0 ; el segundo término, será abreviado por θc'ym+k. Obsérvese que los vectores ym+k son los vectores que conforman la base para el Kernel de A explicada en el capítulo II, sección 10. Se tiene que:

yc+z=z k+m0* ′θ

A partir de esta expresión, se analizará diferentes posibilidades: i. Si para algún k, c'ym+k>0 se puede escoger un Θ>0 y se tendría que el valor

de la función objetivo c'x en el punto x0 es inferior al valor de esta función en el punto x* :

z1>z0 lo que contradice la premisa que x0 es optimo. ii. Si para algún k, c'ym+k>0 se puede escoger un Θ<0, y, como

precedentemente, se tendría que el valor de la función objetivo c'x en el punto x0 es inferior al valor de esta función en el punto x* :

z1>z0 lo que contradice, igualmente el hecho que x0 es optima. Es evidente, que sólo se puede evitar estas contradicciones si c'ym+k = 0, de donde se establece la siguiente condición de optimalidad: Supóngase que los m primeros vectores de la matriz A son LIN. El vector x0= x1, x2,...xm, xm+1,...xm+k, 0,0..0 es una solución óptima al programa líneal planteado si y solamente si, para todo k=1,2,..n-m, se tiene: c'ym+k = 0, donde los vectores ym+k constituyen una base para el Kernel de A.

Pero, obsérvese que si c'gm+k = 0, para todo k=1,2,..n-m, todos los vectores x* son también

soluciones óptimas. Aceptando que c'gm+k = 0, para todo k=1,2,..n-m, se puede escoger Θ de manera que x* tenga

m+k-1 componentes no nulos, por ejemplo:

131

Page 132: 1992 descripcion e inferencia lineal en estadistica

0>y|y

x= k+mi,k+mi,

1minθ

ó

0<y

x,xx- m=k+mi,

1k+mθ

Con una solución óptima con m+k-1 componentes no nulas, se puede repetir este proceso

para disminuir una componente más. Repitiendo k veces este procedimiento se habrá logrado una solución óptima con sólo m componentes nulas y que es una solución básica. Con ésto se acaba de demostrar el importantísimo Teorema Fundamental del Simplex.

C4. Soluciones infinitas. Supóngase que el vector:

,0,...0)x,...x,x=x k+m21

es una solución admisible cualquiera (no necesariamente optima). Siguiendo exactamente el

desarrollo precedente se llega a:

yc+z=z k+m01 ′θ

Recuérdese que en la sección precedente, se explicó los casos en los cuales θ podía tomar

valores infinitamente grandes o infinitamente pequeños. En esos casos, la expresión precedente sugiere que podría darse que la función objetivo tome valores infinitos (positivos o negativos).

Se recordará que si para todo i =1,2,..m, yi,m+k < 0 , Θ puede ser escogido arbitrariamente

grande y, si además, c'ym+k > 0, se tiene que, escogiendo θ arbitrariamente grande, la función objetivo puede crecer y crecer hasta el infinito.

En el caso de un problema de mínimo, se recordará, igualmente, que si para todo i=1,2,...m,

Yi,m+k > 0, θ puede ser escogido arbitrariamente pequeño y, si además, c'ym+k <0 , entonces, escogiendo θ arbitrariamente pequeño, entre los números negativos, la función objetivo puede decrecer y decrecer hasta menos el infinito.

C5. Si x0 es un solución óptima finita de un programa líneal, el hiperplano H= xεRn/ c'x=c'x0 es un

hiperplano de soporte para S, puesto que x0 pertenece también a S y que todo S está incluido en uno de los medios planos generados por H. Esta última observación resulta, simplemente, del hecho que que puesto x0 es óptimo, todo xεS, verifica c'x ≤ c'x0.

132

Recuérdese, por otra parte, el teorema expuesto en el punto D18:Un conjunto cerrado y acotado por abajo contiene puntos extremos en cada uno de sus planos de soporte.

Page 133: 1992 descripcion e inferencia lineal en estadistica

Obviamente, el conjunto S es convexo y acotado por abajo. Supóngase además que S es

cerrado. Sea x0 un punto frontera cualquiera de S y sea: H = xc'x = z = c'x0 , para todo wεS, c'w ≤ z H es un hiperplano de soporte para S en el punto x0 . Sea T la intersección de los conjuntos S

y H:

∅≠∩ H S= T

Obsérvese que puesto que H y S son convexos, T= X ∩ S es convexo y puesto que S es

cerrado, T también es cerrado. Puesto que X es acotado por abajo, T también es acotado por abajo.

Se demostrará los 2 resultados siguientes: i. Todo punto extremo en T es punto extremo en S. ii. T posee puntos extremos. Se demostrará, en primer lugar, que todo punto extremo en T es punto extremo en S. Sea t ε T. Si t no es punto extremo en X, tampoco es punto extremo en T. En efecto: si existen

vectores (x1 , x2) ε S tal que:

x)-(1+x=t 121 λλ

con

1<<0 λ

(1) Puesto que t ε T, también t ε H y verifica c't = z, es decir:

z=)x)-(1+x(c 12 λλ′

O, en forma equivalente:

Z=xc)-(1+xc 12 ′′ λλ

Puesto que H es un hiperplano soporte de S se tiene que para todo (x1,x2) ε X,

133

Page 134: 1992 descripcion e inferencia lineal en estadistica

zxc 1 ≤′ zxc 2 ≤′

(2) Las relaciones (1) y (2) implican:

Z=xc 11

Z=xc 21

En consecuencia x1, x2 pertenecen también a H y como por hipótesis pertenecen a S, entonces, también pertenecen a T. Luego, t, no siendo un punto extremo en S, tampoco lo es en T, que es el resultado que se quería demostrar.

Si t es un punto extremo en T no debe existir en consecuencia dos vectores x1 y x2 en S tales

que:

x)-(1+x=t 21 λλ

1<<0 λ

134

Puesto que t es igualmente un elemento de S, es también un punto extremo en este conjunto.

Puesto que S es acotado por abajo, T es también acotado por abajo, luego existe un punto a,

tal que para todo tεT, se verifica t ≥ a. Existe entonces un punto a* ε T tal que para todo tεT, t ≥ a* ≥ a. Luego a* es un punto extremo de T. Si a* no fuese punto extremo en T, existirían dos puntos t1

y t2 en T tales que:

puesto que t1 ≥ a* y t2 ≥ a* esta igualdad es posible únicamente si: t1 = a*

A continuación se demostrará la afirmación que T posee puntos extremos.

t)-(1+t=a 21* λλ

1<<0 λ

t2 = a*

Page 135: 1992 descripcion e inferencia lineal en estadistica

135

lo que muestra que a* es un punto extremo.

Definiendo:

Ax ≤ b

El vector b tiene componentes no negativas. Con x* conteniendo las variables de holgura, este problema puede escribirse en la forma:

Ejemplo de construcción de a* : Sea un vector tεT:

T)t,...t,t(=t n21 ∈

Y, sea un vector a tal que:

)a,...a,a(=at n21≥

1,2,..n=/it = t i*i min

Se tiene:

t,...t,...t,t=a n*i21

*

4. ALGORITMO DEL SIMPLEX

Máx c'x

x ≥ 0

Caso Estándard: La matriz A tiene m líneas y n columnas, su rango es igual a m.

)x0+xc( *′′Max

b=Ix+Ax *

0x ≥

Page 136: 1992 descripcion e inferencia lineal en estadistica

136

O, en forma resumida:

Lw = b w ≥ 0

w = x'; x'

w = wb + θym+k

Obsérvese que si θ es igual a su cota su cota superior, el vector w continuará teniendo sólo m componentes no nulas, constituyendo una nueva solución básica.

La lógica del algorítmo del SIMPLEX es precisamente ésa: elecciones apropiadas de θ y de reemplazos de vectores en la base permiten pasar de una base a otra, incrementando cada vez más el valor de la función objetivo.

0x* ≥

Max (d`w)

donde: d = c'; 0'

* L = [ A ; I ]

Una solución básica wb = x ; x* para el sistema Lw=b está dada por: x=0 y x* = b. En este punto, la función objetivo d'w vale d'w=0.

Tomando a wb como solución inicial, se puede obtener una otra solución al sistema Lw=b definiendo:

Donde, ym+k es algún vector del Kernel de L. Inicialmente, los vectores ym+k se construyen

con los vectores columna de la matriz A, puesto que la base inicial es la base canónica usual.

Premultiplicando a la izquierda y a la derecha de la última expresión por el vector d', se tiene:

d'w = d'wb + θd'ym+k (1)

Se recordará que una expresión de este tipo ha sido desarrollada en ocasión de la demostración del Teorema Fundamental del Simplex en la sección precedente. Mucho de lo que se señaló en dicha demostración será utilizado en el presente desarrollo. En particular, recuérdese que la solución w = wb + θym+k respertará la restricción w ≥0 , si θ verifica:

0>y|y

x0<y|y

x,x- k+mi,k+mi,

ik+mi,

k+mi,

ik+m MinMax ≤≤ θ

Puesto que se ha demostrado anteriormente que si un programa líneal tiene solución óptima, también, hay una solución básica que es óptima, es suficiente explorar los valores de la función c'w en los puntos donde w constituye solución básica para resolver el problema.

Teniendo en cuenta que si θ es igual al valor de su cota máxima, θ toma un valor no negativo.

La relación (1) muestra que:

Page 137: 1992 descripcion e inferencia lineal en estadistica

137

i. Si para todo k, d'ym+k ≤ 0, entonces, cualquier nuevo cambio de base sólo provocará la disminución del valor de la función objetivo. En consecuencia, la última solución básica constituye la solución óptima.

ii. Si existen algunos índices k, para los cuales d'ym+k ≥ 0, entonces conviene introducir

dentro de la base el vector columna m+k de la matriz L para el cual el incremento de la función objetivo sea el más grande posible, es decir, el vector m+k entrará en la base en la medida en que:

d'ym+k = máx d'ym+j/ d'ym+j > 0 y ym+j > 0

Inicialmente, ym+j = [-ej',aj]'

El resto del algorítmo se estructura exactamente igual al desarrollado en el Capítulo III relativo

a la solución de un sistema de ecuaciones con restricciones de signo.

Desde el punto de vista numérico, el algorítmo del SIMPLEX se presenta en forma muy similar al algorítmo de cambio de bases para resolver un sistema de ecuaciones líneales con restricciones de signo, explicado en el capítulo III, sección 5. Es suficente añadir a la tabla de Tucker una línea con los valores de los coeficientes d'ym+k y realizar los cambios de base según las reglas señaladas anteriormente.

Page 138: 1992 descripcion e inferencia lineal en estadistica

PARTE B:

MODELOS LINEALES

138

Page 139: 1992 descripcion e inferencia lineal en estadistica

CAPITULO IX. INTRODUCCIÓN

139

b. Para predecir el comportamiento futuro de un variable en base al comportamiento de

otras variables (incluso cuando no exista relación de causalidad) c. Para modificar el comportamiento de una variable instrumentando otras variables

(cuando existe una relación de causalidad solamente).

insumos o variables Xi en un producto final Z al cual se le añade el resultado U de factores incontrolables para dar lugar al producto Y, finalmente observable.

En general se admite que existe algún esquema de probabilidad que permite explicar el comportamiento de la variable U, resultado de factores incontrolables; es decir, se supone que es una variable aleatoria.

1. MODELOS LINEALES Y CAUSALIDAD EN ESTADÍSTICA

Los Modelos Lineales sirven : a. Para determinar el impacto de las variaciones de una variable sobre las variaciones

de otras (cuando existe relación de causalidad).

Esquema de Causalidad:

Se supone que existe un mecanismo dado (generalmente, desconocido) que convierte los

El gráfico siguiente ilustra este proceso, con una "caja negra" como mecanismo de conversión de los insumos en producto final:

Page 140: 1992 descripcion e inferencia lineal en estadistica

x1x2x3

CAJANEGRA Z V

U

Y=Z+U

Es muy importante describir con precisión la naturaleza de cada una de las variables de este esquema.

140

El resto de las variables:

Y : Observable y aleatorio; suma de dos variables, una, Z, observable no

aleatoria, la otra, U, no observable aleatoria Y = f(X1, X2, ......, Xm) + U

i. En algunos casos, es suficiente estimar el impacto global de las variaciones de los insumos sobre el producto observable Y; ello permite, en particular, docimar la hipótesis :

ii. En otros casos, se busca estimar los impactos cuantitativos de las variaciones de cada uno de los insumos sobre el producto Y. En esos casos es necesario recurrir a técnicas de estimación de funciones, siendo la de mínimos cuadrados y la de máximos de verosimilitud las más usuales.

Los insumos o variables X1, X2, ......, Xm son observables, no son aleatorios y son, eventualmente, controlables.

Z : Z = f(X1, X2,.....Xm) no es observable directamente, no es aleatoria.

U : No es observable, es aleatorio, su E(U) = 0.

Las diferentes técnicas existentes de estimación de un modelo lineal intentan detectar el funcionamiento del mecanismo que permite convertir los insumos en el producto final Z.

Para ello es necesario suponer que se ha realizado por lo menos n-repeticiones de la misma experiencia o que se dispone de n-observaciones de los valores de las diferentes variables observables, donde n es un número por lo menos igual al número de parámetros desconocidos del modelo. La investigación de las características del mecanismo de conversión se orienta, generalmente, en una o en las dos direcciones siguientes:

" X1,X2,...Xm son insumos en el mecanismo de transformación que arroja Y". Este objetivo es posible de ser alcanzado con sólo descomponer la varianza de Y en el sentido en que se ver posteriormente.

Page 141: 1992 descripcion e inferencia lineal en estadistica

141

2. EL MODELO LINEAL. NOTACION Y DEFINICIONES El modelo lineal es un caso particular de la representación anterior donde se supone que la función Z=f(X1, X2,..,Xm) es una función lineal:

. = . ............................... . + .

Yn n1 xn2 ........ xnm α U

En términos matriciales:

Y = Xp + U

Y : nx1 vector aleatorio observable. X : nx(m+1) matriz no aleatoria observable.

U : no aleatorio, no observable.

X......+X + X + = Z

U + Z= Y

mm22110 αααα

Como se mencionó en la sección precedente, se supondrá que se dispone de n-observaciones de cada una de estas variables, permitiendo la representación matricial del modelo de la siguiente manera:

Y1 1 X11 X12 .......... X1m α0 U1 Y2 1 X21 X22 .......... X2m α1 U2 . . ...................... ........ . .

. ................................. . . 1 x n m

p : (m+1) vector no aleatorio, no observable (desconocido).

Z = Xp nx1 vector no observable, aleatorio.

Page 142: 1992 descripcion e inferencia lineal en estadistica

142

CAPÍTULO X. ESTIMACIÓN POR MÍNIMOS CUADRADOS DE UN MODELO LINEAL

1. PLANTEAMIENTO DEL PROBLEMA

Retómese el modelo explicado en el capítulo precedente en su notación matricial:

Y = Ap + U Con A una matriz nx(m+1) de rango m+1

Posteriormente se introducirá algunas hipótesis en relación al vector aleatorio U. En este capítulo se explicará un método para estimar el vector p de parámetros desconocidos; él se basa en el criterio geométrico de lograr una función lineal que se acerque tanto como sea posible del conjunto de observaciones Y1, Y2,...Yn

2. EL CRITERIO DE ESTIMACION DE MINIMOS CUADRADOS DE p

En esta sección, la distancia entre dos vectores cualesquiera será definida como la distancia euclidiana.

En este modelo, se representa simultáneamente n-observaciones del producto Y en su relación con las n-observaciones de los m+1 insumos contenidos en la matriz A.

El criterio de mínimos cuadrados en el modelo lineal Y = Ap+U consiste en retener como estimador de p un vector en Rm+1 tal que la distancia entre Y y Ap sea la más pequeña posible. Si pe es este vector, ello implica que la siguiente relación se verifica:

2eApY − ≤

2ApY − para todo pεRm+1

Dist2( Y,Ape ) ≤ Dist2( Y,Ap )

Page 143: 1992 descripcion e inferencia lineal en estadistica

143

Recuérdese que se utiliza la notación x para abreviar la norma euclidiana del vector x, recuérdese también que:

Supuestos Algebraicos para determinar pe con el criterio mínimos

i. p puede ser cualquier vector en Rm+1 .

La consecuencia de este supuesto es que el vector Z = Ap es un un elemento del espacio vectorial S(A) generado por los vectores columnas de la matriz A:

)y-x(=y)dist(x, 2ii

n

=1i∑

Luego, el estimador pe de mínimos cuadrados de p está definido por:

Ap)](Y,dist[ = )Ap(Y,dist 2(p)e

2 Min

cuadrados.-

S(A) = z/ z = Ap, p ε Rm+1 ii. r( A ) = m+1

La consecuencia de este supuesto es que el rango de la matriz A'A es también igual a m+1, lo que permite, como se verá posteriormente, definir al estimador de mínimos cuadrados de p en forma unívoca (sin embargo, en los capítulos que siguen se prescindirá de esta condición para estudiar modelos más generales).

Consecuencia de ambos supuestos :

La matriz Q = A(A'A)-1A' es un proyector ortogonal sobre S(A), y el subespacio vectorial S(A) de Rn puede también expresarse en la forma (la noción de proyector fue introducida en el Capítulo II, sección 12):

S(A) = S(Q) = z/ z = Qβ , para todo vector β ε Rn .

Page 144: 1992 descripcion e inferencia lineal en estadistica

144

3. LA SOLUCIÓN DE MÍNIMOS CUADRADOS

El problema minp 2

ApY − tiene como solución óptima

pe = (A'A)-1A'y

( Notación : = Ape)

La medida estadística de dependencia lineal de y del espacio vectorial S(A) corresponde al coseno del más pequeño ángulo entre este

Y

Para todo Y ε Rn existe un Y ε S(A) y un e en el espacio Sˆ c(A) complementario a S(A) ,tal que :

Y = Y + e con = QY = Ap y e = (I - Q)Y ˆ Y

PROYECCIÓN ORTOGONAL DEL VECTOR Y SOBRE EL SUBESPACIO VECTORIAL S(A)

Y

0 Y eApQY ==ˆ S(A) R=Cos α

Page 145: 1992 descripcion e inferencia lineal en estadistica

145

La expresión:

Minp (2

ApY − )

Resume el problema consistente en encontrar en el espacio vectorial S(A) un punto Ape lo más próximo posible al vector Y, "próximo" en el sentido de la distancia euclidiana. El gráfico precedente y las apuntes que lo acompañan sugieren que QY, es decir la "la proyección ortogonal de Y en S(A)" es el vector más próximo a Y entre los vectores pertenecientes al espacio vectorial S(A). A partir de esa constatación se deduce fácilmente la forma del estimador del vector p, como se verá en las demostraciones que siguen a continuación. DEMOSTRACIÓN Para resolver el siguiente problema:

Minp 2

ApY −

Se definirá la siguiente función cuadrática en p:

F( p) = 2

ApY − = (Y - Ap)'(Y - Ap)

= Y'Y - Y'Ap - p'A'Y + p'A'Ap = Y'Y - 2p'A'Y + p'A'Ap Obsérvese que se trata de una forma cuadrática en p definida positiva. Con el objeto de determinar el mínimo de F(p) se igualará a cero todas sus primeras derivadas parciales (recuérdese que el vector conteniendo las derivadas parciales de una función es denominado gradiente de esa función).

Page 146: 1992 descripcion e inferencia lineal en estadistica

ApA2 + 2AY- =

pF/

.

.

.

pF/

pF/

= pF

1+m

2

1

⎥⎥⎥⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢⎢⎢⎢

δδ

δδ

δδ

δδ

El mínimo de F(p) en relación a p se obtiene planteando δF/δp = [0] (vector cero de m+1 componentes), es decir.

146

Recuérdese que la solución precedente constituye un punto mínimo de la función F(p) sólo si su HESIANO:

Es una matriz definida positiva (condición de segundo orden para un mínimo). En este caso, se tiene que el Hessiano vale:

δF/δp = -2A'Y + 2A'Ape = [0] De donde :

A'Ape = A'Y pe = (A'A)-1A'Y

⎥⎥⎦

⎢⎢⎣

ppF = H

ji

2

δδδ

H = 2( A'A )

Recuérdese también que una mxm matriz B es definida positiva si para todo vector x diferente del vector cero en Rm, se tiene: x'Bx > 0.

Page 147: 1992 descripcion e inferencia lineal en estadistica

En este caso, es evidente que la matriz H es definida positiva, puesto que:

2Ax

147

x'Hx = 2x'A'Ax = 2 ≥ 0

Esta forma cuadrática es igual a cero si y solo si Ax = [0] lo que es imposible puesto que r(A) = m+1 (recuérdese que la matriz A tiene n líneas y m+1 columnas). 4. EL TEOREMA DE LA PROYECCIÓN El resultado de la sección precedente puede ser demostrado a partir del teorema de la proyección que tiene mucho más generalidad que la demostración anterior. Este teorema dice que dado un subespacio vectorial S en un espacio vectorial V y dado un vector Y en

V, existe en S un único punto tal que su distancia con Y es la más pequeña entre todos los puntos

de S y además el vector [Y- ] es ortogonal a todos los vectores en S. Se dice que el vector es la proyección ortogonal de Y en S.

Y∧

Y∧

Y

En lo que concierne a este curso, el espacio vectorial V es Rn y el subespacio S(A) es el generado por las columnas de la matriz A. El teorema no exige que la matriz A sea de rango máximo, lo que resulta ser de gran utilidad para tratar los modelos lineales singulares del próximo capítulo, pero, el rango de A debe ser máximo para poder deducir de este teorema un estimador único del vector p. En primera instancia, se demostrará este teorema:

Puesto que S(A) = zεRn / z = Ap , para todo p ε Rm+1 es un espacio vectorial, se tiene :

min(pεRm+1)2ApY − = min(zεS(A))

2zY − El término de la derecha puede ser escrito en la forma :

2zY − = 2zQYQYY −+−

Page 148: 1992 descripcion e inferencia lineal en estadistica

Puesto que z ε S(A), se tiene que Qz = z; reemplazando:

148

2zY − = 2QzQYQYY −+−

=

de donde:

2)()( zYQYQI −+− Obsérvese que los vectores (I-Q)Y , Q(Y-z) son ortogonales entre sí, es decir, su producto escalar es igual a cero.

Sean: e = (I-Q)Y y Z* = Q(Y-z) Se tiene:

2zY − =

2*Ze +

= 2e +

2*Z + 2e'Z*

Puesto que e y Z* son ortogonales, su producto escalar es nulo, de donde se tiene:

= 2QYY − +

2)( zYQ − luego :

2zY − ≥ 2QYY −

Page 149: 1992 descripcion e inferencia lineal en estadistica

149

Puesto que el segundo término a la derecha de la igualdad precedente es positivo o nulo.

En consecuencia z=QY es el punto único en S(A) cuya distancia al vector Y es mínima entre todos los

vectores de este subespacio vectorial y, tal como enuncia el teorema, el vector Y- es ortogonal a S(A).

Y

De este resultado es posible derivar la solución de mínimos cuadrados para p cuando la matriz

A es de rango máximo :

z = QY Ap = QY

Pre-multiplicando a ambos lados de la igualdad precedente por A'se tiene: A'Ap = AQY pero A'Q = A' De donde se obtiene el siguiente sistema de m+1 ecuaciones en p con igual número de

desconocidas y de rango máximo (r(A'A)=m+1), lo que es un condición suficiente para garantizar la existencia y unicidad de la solución para p.

A'Ape = A'Y pe = (A'A)-1A'Y

5. DESCOMPOSICIÓN DE LA VARIANZA.- El modelo : Y = Ap + U

admite para p el estimador de mínimos cuadrados pe = (A'A)-1A'Y

y la proyección de Y en S(A) es = Ap∧

Y e.

Y = A (A'A)-1A'Y = QY (Q proyector ortogonal)

Page 150: 1992 descripcion e inferencia lineal en estadistica

150

puesto que :

de donde:

I = Q + (I - Q) se tiene: Y = QY + (I - Q)Y

Y = + e ∧

Y

Teniendo en cuenta que los vectores ( ,e) son ortogonales entre sí, se tiene la siguiente descomposición ortogonal de la norma de Y:

Y

2Y =

2Y +

2e

En efecto:

2Y =

2ˆ eY +

= ( + e)'( + e) ∧

Y∧

Y

= ' + 2 'e + e'e ∧

Y∧

Y∧

Y Puesto que : Q(I - Q) = [0] se tiene que:

'e = Y'Q(I - Q)Y = 0 ∧

Y

Y'Q = ' ; (I - Q)Y =e ∧

Y De donde:

2Y =

2Y +

2e

Page 151: 1992 descripcion e inferencia lineal en estadistica

151

DESCOMPOSICIÒN TRIANGULAR DE LA NORMA

Y e

Y

Descomposición triangular de la norma Origen Norma Grados de Libertad

Regresión 2

Y = Y'QY r(Q) = m+1 = dim S(A)

2e Error = Y'(I - Q)Y r(I-Q) = n - (m+1)

Total

2Y = Y'Y

r(I) = n = dim Rn

Page 152: 1992 descripcion e inferencia lineal en estadistica

152

Obsérvese que si la Matriz A contiene en una de sus columnas, el vector [1], entonces Q[1] = [1] y :

a) [1]'Y = [1]`QY b) QH es un proyector con H = (In - 1/n[1][1]') 5

entonces, Qxj = xj j=1,2,..m

Obsérvese que QH = Q(I - 1/n[1][1]') = Q - 1/n(Q[1][1]')

Esta última expresión pone de manifiesto que QH es una matriz simétrica.

En efecto:

(QH) = QHQH = HQQH

En efecto: Si

A = [x1 , x2 , . . . , xm]

y, obviamente, si x1 = [1] entonces:

Q[1] = [1] , [1]'Q' = (Q[1]) '= [1]'Q

luego :

Media de Y = [1]'Y/n = [1]'QY/n

= Q - 1/n([1][1]') puesto que Q[1] =[1]

Por otra parte, QH es idempotente, es decir, se verifica que: (QH)(QH) = QH

= HQH = QHH = QH

5 La matriz H es un proyector tal que para todo vector x, la forma cuadrática x'Hx es un múltiplo

de la varianza del vector x: x'Hx = Σ(xi-mx)2. H es un proyector ortogonal en el espacio complementario en Rn al generado por el vector [1]

Page 153: 1992 descripcion e inferencia lineal en estadistica

153

Se puede llegar a una descomposición de la varianza semejante a la de la norma a partir de :

2Y = 2

Y + 2e

y sustrayendo de ambos lados de la igualdad nm², donde m es la media del vector Y, se llega a:

2Y - nm² =

2Y - nm² + 2e

es decir: nSY = nS + nSe puesto que la media del vector e es 0.

= Y'QHQY + Y'(I - Q)Y

Error e'e = Y'(I - Q)Y = nSe r(I - Q) = n - m

[r(H) = n - 1]

y

Y'HY = Y'HY =+ e'e

El resultado anterior es con frecuencia presentado en la forma de una tabla denominada de análisis o de descomposición de la varianza:

ANALISIS DE LA VARIANZA.- (ANVAR)

Origen Suma de Cuadrados Grados de Libertad

Regresión Y'QHQY = nS_ r(QHQ) = m - 1

Total Y'HY = nSy

Page 154: 1992 descripcion e inferencia lineal en estadistica

154

PROYECCIÓN ORTOGONAL DEL VECTOR Y

SOBRE EL SUBESPACIO VECTORIAL S(A)

Y

Y e

==ˆ

Y QY eAp

Y

S(A) R=Cos α= Y / Y

El porcentaje de la varianza de Y explicado por la varianza de su proyector en el espacio vectorial S(A) es denominado el coeficiente de correlación múltiple entre el vector Y y el espacio vectorial S(A). Geométricamente, este coeficiente, tal como lo sugiere la figura, es igual al coseno del más pequeño ángulo que puede formar Y con S(A) en relación a un vector que tiene como coordenadas las medias de Y y las medias de los vectores que componen la matriz A. Ese ángulo corresponde al que conforman los vectores Y y QY en relación a sus medias comunes:

Page 155: 1992 descripcion e inferencia lineal en estadistica

155

Corr múltiple = Corr[(Y-m[1]),(_-m[1])]

[ ] 21ˆ mY − nS_ Y'QHQY

R2 = = = [ ] 21mY − nSY Y'HY

Es una medida de la calidad de ajuste.

Esta está definida de la siguiente manera:

I = Q + (I-Q) Tenemos que cualquier vector en Rn como la suma de su proyección en ortogonal en S(Q) y de su proyección ortogonal en S(I-Q):

Esta descomposición se interpreta como la suma de los efectos de la matriz A sobre Z más todos aquellos efectos que no pueden ser explicados por los vectores que componen A.

6. CORRELACION PARCIAL

Un instrumento importante en estadística es la correlación parcial.

Sea S(A) el espacio engendrado por las m columnas de una matriz A. Sea Q=A(A'A)-1A' un proyector ortogonal en este espacio. Obsérvese que S(A)=S(Q). Teniendo en cuenta que Q y (I-Q) son dos matrices ortogonales entre si y que:

Z = QZ + (I-Q)Z

Naturalmente emerge la idea de correlación parcial como la correlación entre 2 vectores después de haber eliminado los efectos sobre ambos de los vectores que contienen una matriz A (la correlación parcial, en consecuencia, está definida en relación a la proyección de los vectores en un cierto espacio vectorial).

Page 156: 1992 descripcion e inferencia lineal en estadistica

Explicitamente:

156

Corr Parcial(Z, Y/ A) = Corr Simple ((I-Q)Z, (I-Q)Y)

Sean Z, Y dos vectores en Rn y A una matriz nxm de rango m y Q el proyector en S(A) definido anteriormente.

Se tiene:

Z = QZ + (I-Q)Z Y = QY + (I-Q)Y

La correlación parcial entre Z,Y estando dado A está definida como sigue:

Con Q=A(A'A)-1A'

Page 157: 1992 descripcion e inferencia lineal en estadistica

157

E(Xj) = 0 V(Xj) = 1 Para j = 1, 2,.........,n

Y la función de densidad de cada una de ella es N(0,1), es decir:

Con X un nx1 vector conteniendo las variables Xi,i=1,2,..n, y teniendo en cuenta que la suma de cuadrados de los Xi puede escribirse como X'X , la expresión precedente es equivalente a:

CAPÍTULO XI VECTOR ALEATORIO NORMAL Y VARIABLES ALEATORIAS QUE LE SON DEDUCIDAS

1. EL VECTOR NORMAL ESTÁNDAR

Sea X1, X2,......Xn una secuencia de variables aleatorias idénticamente e independientemente distribuidas, es decir, i.i.d., del tipo normal de esperanza matemática 0 y varianza igual 1, caracterización que se abreviará con N(0,1).

Es decir, las variables Xj tiene:

)2x(-)

21( = f(x)

2

expπ

El supuesto de independencia lleva a plantear:

)xf( = )x,..x,xf( i

n

=1in21 ∏

)2xx(-.)

21( = f(x) n ′

expπ

Page 158: 1992 descripcion e inferencia lineal en estadistica

158

Recuérdese que si dos variables Xi, Xj son normales N(0,1) se tiene:

Luego, si un vector aleatorio X está compuesto de n variables N(0,1) independientes

idénticamente distribuidas (i.i.d), se tiene que su matriz de covarianzas es igual a la matriz identidad de orden n.

Independencia <==> cov(Xi,Xj) = 0 i ≠ j

Cov(X) = In Decir que la secuencia de variables aleatorias X1, X2,......Xn es i.i.d. N(0,1) es equivalente a señalar que el vector X es N([0],In)

Considérese la siguiente integral múltiple:

2. NOTA SOBRE LOS CAMBIOS DE VARIABLE EN LA INTEGRACION

(4) dx...dxdx)x,..x,xw(... n21n21

x

x

x

x

x

x

**n

*n

**2

*2

**1

*1

∫∫∫

Supóngase que existe n-funciones hi del vector X que determinan nuevas variables Yi y n-funciones gi del vector Y que determinan cada una de las variables Xi contenidas en el vector X.

Xi = gi(Y) i=1,2,...n

Yi = hi(X) i=1,2,...n

El supuesto de que el vector Y puede determinarse a partir del vector X y vice-versa es una condición necesaria y suficiente para que el Jacobiano sea diferente a cero.

Page 159: 1992 descripcion e inferencia lineal en estadistica

159

δY1/δx2 δY2/δx2 ......... δYn/δx2

. . . . . . . .

w(y1, y2,...yn) δg(y)/ δx

Es la función de densidad de Y1, Y2, ....Yn

Sea X un nx1 vector aleatorio de función de densidad N([0], In), sea A una matriz cuadrada nxn de rango máximo y b un nx1 vector de constantes.

Y = AX + b

Recuérdese que el Jacobiano está definido de la siguiente manera:

δY1/δx1 δY2/δx1 ......... δYn/δx1

δY1/δx3 δY2/δx3 ........ δYn/δx3 J = Jacobiano = δY/δX= . . . .

δY1/δxn δY2/δxn ........ δYn/δxn

En términos del vector Y, la integral (4) puede expresarse como sigue:

dy...dydy|y

g(y)|(y))g(y),..g(y),gw(... n21n21

)y(g

)y(g

)y(g

)y(g

)y(g

)y(g

**nn

*nn

**22

*22

**11

*11

δδ

∫∫∫ (5)

Luego, si w(x1, x2, ....., xn) es la función de densidad del vector aleatorio X se tiene que :

3. FUNCIONES LINEALES DE VARIABLES NORMALES

Considérese la siguiente transformación lineal del vector X:

Page 160: 1992 descripcion e inferencia lineal en estadistica

160

Demostración:

En primer lugar, obsérvese que la esperanza matemática del vector Y es igual al vector b y que su matriz de varianzas-covarianzas es igual a AA'.

En efecto:

= b

Cov (Y) = E [(Y - E(Y))(Y - E(Y))'] = E[AX(AX)']

= A cov(X) A' = AA'

En segundo lugar, se determinará la función de densidad del vector Y a partir de la del vector X.

Y = AX + b

Se puede demostrar que la función de densidad del vector aleatorio Y es N(b, AA'). Es decir, Y es un vector Normal de esperanza matemática igual al vector b y de matriz de varianzas-covarianzas igual a la matriz AA.'

E(Y) = A E(X) + b

= E[AXX'A'] = AE(XX')A'

La función de densidad del vector X es:

)2xx(-.)

21(=f(x) n ′

expπ

Teniendo en cuenta que:

Se tiene:

X = A-1(Y - b)

Page 161: 1992 descripcion e inferencia lineal en estadistica

161

J = δX/δY = A-1 Pero, obsérvese que:

Luego, tenemos:

Esta expresión constituye la forma general de una función de densidad de un vector normal N(b,Σ). Obsérvese la analogía de las diferencias entre una variable normal cualquiera y una estándar y entre un vector normal cualquiera y un vector normal estándar.

Por convención, cuando Y es un vector normal de esperanza matemática igual a b y de matriz de varianzas-covarianzas igual a Ω, se escribe:

Y ≈ N ( E[Y] , Cov[Y] )

Y, el Jacobino de esta transformación es igual a:

J = A-1 = 1/A = 1/(AA')1/2 = 1/ AA'1/2 = 1/cov(Y)1/2

|J|)2

b)-(y)AA()b-(y(-.()21(=f(x)

-1n ′′

expπ

Con Cov(Y)= Σ, la función de densidad precedente, puede escribirse:

)2

b)-(y)b-(y(-.()||2

1(=f(x)-1

n Σ′Σ

expπ

N ( b , Ω )

Page 162: 1992 descripcion e inferencia lineal en estadistica

Con n=2, las expresiones siguientes permiten insistir en el

162

V(x ) cov(x1,x2)

=

[x2-E(x2)][x1-E(x1)] [x2-E(x2)]

contenido de las transformaciones precedentes:

1cov (X) = cov(x2,x1) V(x2)

E[x1-E(x1)]2 E[x1-E(x1)][x2-E(x2)]

E[x2-E(x2)][x1-E(x1)] E[x2-E(x2)]2

[x1-E(x1)] [x1-E(x1)][x2-E(x2)] =E

= E [X - E(X)] [X - E(X)]'

Resumen:

Sea X es un nx1 vector aleatorio, A una matriz cuadrada nxn de constantes con rango igual a n, b un nx1 vector de constantes e

Y = AX + b Entonces :

E(Y) = A E(X) + b cov(Y) = Acov(X)A'

Si el vector aleatorio X es N(µ,Σ), entonces: E(Y) = Aµ + b cov(Y) = AΣA' Y, el vector aleatorio Y es un vector N(Aµ + b, AΣA')

Page 163: 1992 descripcion e inferencia lineal en estadistica

163

Es decir:

Extensión: Si X es un n-vector aleatorio N(0,I), A una matriz rectangular mxn de constantes de rango igual a m y b un m-vector de constantes, el m-vector aleatorio Y = AX + b es un vector normal de esperanza matemática igual a b y de matriz de varianza covarianzas igual a AA'

Si X es N(0, In)

Y = AX + b con r(A) = m ≤ n

Y es N(b,AA').

Demostración :

Sea P una matriz rectangular de n-m líneas y n columnas de rango igual a n-m, tal que PA' = [0]. La existencia de una matriz P que reúna estas condiciones está asegurada teniendo en cuenta que los n-m vectores columna de la matriz P' pueden ser escogidos de cualquier base del kernel de la matriz A. Recuérdese que puesto que A es una matriz mxn de rango igual a m, su kernel es un espacio vectorial de dimensión n-m.

Sea Y*= PX un n-m vector aleatorio obtenido a partir de X y considérese el siguiente sistema de n relaciones lineales:

⎥⎦

⎤⎢⎣

⎡⎥⎦

⎤⎢⎣

⎡⎥⎦

⎤⎢⎣

0

b + X

P

A =

Y

Y *

Page 164: 1992 descripcion e inferencia lineal en estadistica

Obsérvese que:

164

Obsérvese también que:

w(Y ) = k1 (AA'-½)exp(-(y - b)'(AA')-1(y - b)/2)

La integración de w(Y,Y*) en relación a Y* termina de demostrar que Y es un vector normal.

[ ]

⎥⎦

⎤⎢⎣

⎥⎦

⎤⎢⎣

′′

′′⎥⎦

⎤⎢⎣

⎡′

P

A =B Con

. PP 0=AP

0= AP AA = P A

P

A = BB

Puesto que AP' = Cov(Y,Y*) = [0] , los vectores Y e Y* son independientes.

⎥⎥

⎢⎢

′′

)PP(0

0)AA(=)BB(

1-

-1

1-

La independencia de Y,Y*, asegurada por la nulidad de la matriz de sus covarianzas, implica que la función de densidad conjunta puede expresarse como el productos de sus funciones de densidad respectivas:

w(Y,Y*) = w(Y) * w(Y*)

donde:

w(Y*) = k2 (PP'-½)exp(-(y*- 0)'(PP')-1(y*- 0)/2)

Page 165: 1992 descripcion e inferencia lineal en estadistica

165

4. FUNCIONES CUADRATICAS DE VARIABLES NORMALES ESTANDAR

Si X es un vector N(0,I) entonces X'X es una variable Chi-Cuadrado con n grados de libertad.

Bajo su forma estándar, la aplicación de este resultado es limitada, pero en sus extensiones, que serán analizadas posteriormente, es de gran utilidad.

5. VARIABLE DE STUDENT

Sea X es una variable aleatoria N(0,1) y Z una variable Chi-Cuadrado con n grados de

libertad. Si X, Z son independientes, entonces :

X/[Z/n]½ es una variable de Student con n grados de libertad

6. VARIABLE DE FISHER

Si Z es una variable Chi-Cuadrado con n grados de libertad y W es otra variable Chi-Cuadrado

con m grados de libertad y si Z, W son independientes, entonces :

m grados de libertad en el denominador.

(Z/n)/(W/m) es una variable de Fisher con n grados de libertad en el numerador y

Page 166: 1992 descripcion e inferencia lineal en estadistica

166

Sea Y un nx1 vector aleatorio N(µ,V) y sea D una nxn matriz tal que V = DD'

X = D-1 (Y-µ)

E[X] = D-1[E(Y)-µ] = 0

X'X = (Y-µ)'V-1(Y-µ)

7. EXTENSIONES CON VECTORES NORMALES QUE NO SON ESTÁNDAR

a. Variable Chi-Cuadrado con n grados de libertad

Con la matriz D definida como alguna raíz cuadrada de la matriz de varianzas-covarianzas del vector Y, la transformación siguiente permite obtener un vector X del tipo N(0,I), es decir, un vector normal estándar:

Siendo el vector X una transformación lineal de un vector normal es también normal de parámetros E(X)=0 y Var(X)=I, puesto que:

Cov(X) = D-1Cov(Y)D-1' = D-1VD-1' = D-1DD'D-1' = I Recuérdese que X'X es una variable Chi-Cuadrado con n grados de libertad. En términos del vector Y, la variable X'X se escribe:

X'X = (Y-µ)'D-1'D-1(Y-µ) ;

y, puesto que V-1 = (DD')-1 = D-1'D-1, se tiene que:

es una variable Chi-Cuadrado con n grados de libertad.

Page 167: 1992 descripcion e inferencia lineal en estadistica

167

Resumiendo:

Si Y es un vector normal de esperanza matemática igual a µ y de matriz de varianzas-covarianzas igual a V, entonces, la variable:

(Y-µ)'V-1(Y-µ) es Chi-Cuadrado con n-grados de libertad. Obsérvese que este resultado se ha obtenido simplemente estandardizando el vector normal y que en términos de Y, la expresión precedente es un elipsoide con centro en µ (Si V=I,se trata de un círculo).

Sea Q una nxn matriz de rango m que se supondrá que es un proyector en el espacio vectorial S(A) generado por los vectores columnas de la matriz A:

b. Variables Chi-Cuadrado y formas cuadráticas X'QX donde la matriz Q es un proyector de rango r.

S(A) = ZεRn / Z = Ab para todo vector bεRm, r(A) = m

Se recordará que un proyector es una nxn matriz simétrica e idempotente tal que QQ=Q. Un proyector de rango m, tiene m-valores propios iguales a uno y n-m valores propios iguales a cero. El rango de la matriz Q corresponde a la dimensión m del espacio vectorial S(A).

Se puede escribir la descomposición espectral de la matriz Q de la siguiente :

⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢

⎥⎦

⎤⎢⎣

d

.

.

d

d

.

.

d

00

0I] d...d|d,...,d,d[ = Q

m

1+m

m

1

mn1+mm21

Donde los dj representan a los vectores propios de las matriz Q.

Page 168: 1992 descripcion e inferencia lineal en estadistica

168

Puesto que Z'Z=X'D1D1'X =W'W con D1 una nxm matriz conteniendo los m primeros vectores propios de Q, el vector W=D1'X es un mx1 vector normal N(0,I).

Luego, se tiene que:

Sea X un n-vector aleatorio N(0,In) y sea Z = QX . Obsérvese que Z es la proyección ortogonal de X en el espacio vectorial generado por las columnas de A.

Z'Z = X'QX es una variable Chi-Cuadrado, con m = r(Q) = r(A) grados de libertad.

Sea Y un n-vector aleatorio N(µ,Σ) y sea V una matriz tal que Σ=VV' y considérese la siguiente estandardización del vector Y:

Con Q un proyector de rango m, el resultado siguiente es inmediato:

estocasticamente independientes?

X = V-1(Y-µ) es N(0,I)

X'QX = (Y-µ)'V'-1QV-1(Y-µ) es una variable Chi-cuadrado con m grados de libertad

8. INDEPENDENCIA DE FORMAS LINEALES Y CUADRATICAS DE VECTORES

NORMALES ESTANDAR

a. Independencia de dos formas lineales

Sea X un nx1 vector aleatorio N(0,In) y sean: Y = AX + b Bajo que condiciones Y y Z son

Z = CX + d

Page 169: 1992 descripcion e inferencia lineal en estadistica

169

Recuérdese que Y, Z son vectores aleatorios normales y que la condición necesaria y suficiente de independencia vectores normales es que su matriz de covarianzas sea nula :

Puesto que:

Cov(Y,Z) = E[(Y-E(Y))(Z-E(Z))'] = E[(AX)(CX)']

= ACov(X)C'

Y = AX + b Bajo que condiciones Y y Z son

Cov(Y,Z) = [0]

= E[AXX'C'] = AE[(X-E(X))(X-E(X))']C'

= AC'

Entonces AC' = [0] es la condición necesaria y suficiente para que los vectores Y,Z sean independientes en probabilidad.

b. Independencia de una forma lineal y de una forma cuadrática

Considérese a continuación las siguientes transformaciones del vector X del tipo N(0,I):

independientes en probabilidad, Z = X'QX con Q un proyector de rango m?

Y y Z = W'W son independientes si los vectores normales Y,W son independientes (Z = X'QX = W'W).

Sea Q = D1D1' con D1 una matriz nxm con m vectores columna ortonormados

W = D1'X ; el vector W tiene m componentes y es del tipo N(0,I) Se tiene:

Z = X'QX = W'W (suma de cuadrados de m variables i.i.d N(0,1))

Page 170: 1992 descripcion e inferencia lineal en estadistica

170

D1'A' = 0

Luego :

Por el resultado de la sección precedente, los vectores normales Y, W son independientes si:

Pero, AD1 = 0 ,entonces, también, AD1D1' = [0] = AQ y vice-versa.

Las variables aleatorias X'QX , Y = AX + b son independientes ssi QA' = 0

c. Independencia de dos formas cuadráticas

Por razonamientos similares a los precedentes se concluye que si P, Q son dos proyectores de rangos r y s respectivamente, las formas cuadráticas X'PX y X'QX

si y solamente si las matrices P y Q son ortogonales entre si, es decir, si PQ = QP = 0.

del vector X del tipo N(0,I son variables chi-cuadrado mutuamente independientes

Page 171: 1992 descripcion e inferencia lineal en estadistica

171

ESQUEMA DE CAUSALIDAD

CAPÍTULO XII. HIPOTESIS ALEATORIAS EN EL MODELO LINEAL

1. LAS HIPOTESIS SIMPLES: NORMALIDAD, INDEPENDENCIA Y HOMOCEDASTICIDAD

x2x3x4

CAJANEGRA

Z V

U

Y=Z+U

Z=ApA=((1) X2 X3........Xm)

Con gran frecuencia, el estudiante tiene problemas de identificación de la naturaleza de cada una de las variables que intervienen en el esquema anterior. Con el propósito de aclarar la naturaleza de cada variable se presenta el cuadro siguiente:

C L A S I F I C A C I Ó N

Xj Variables No aleatorias Conocidas Observables

pj Constantes No aleatorias Desconocidas No observables Z Variable No aleatoria Desconocida No observable U Variable Aleatoria Desconocida No observable

Y Variable Aleatoria Conocida Observable

Page 172: 1992 descripcion e inferencia lineal en estadistica

172

U es un vector aleatorio N ([0], σ²In )

Las hipótesis aleatorias simples en el modelo líneal consisten en plantear que las componentes del vector U son normales, independientes e identicamente distribuidas, es decir:

La hipótesis anterior puede desglosarse en las siguientes hipótesis:

c) Las variables Uj son independientes en probabilidad

ii) Cov( Y ) = σ²I

pe = (A'A)-1A'Y = WY Con W=(A'A)-1A'

a) E( Uj ) =[0] para todo j

b) Var(Uj) = σ² " (homocedasticidad)

d) Las variables Uj tienen distribución Normal con esperanza matemática cero y covarianza 0.

2. FUNCIONES DE DISTRIBUCION DEDUCIDAS DE LA HIPOTESIS SIMPLE PARA LOS ESTIMADORES Y OTROS ESTADISTICOS

Las consecuencias de los supuestos anteriores son las siguientes:

a. En el modelo líneal:

Y = Ap + U r(A) = m Se tendrá: i) E( Y ) = Ap

iii) Y es un nx1 vector N( Ap ,σ²I )

b. En los estimadores Recuérdese que el estimador de mínimos cuadrados es :

Page 173: 1992 descripcion e inferencia lineal en estadistica

173

Puesto que pe es una función del vector aleatorio Y, es también un vector aleatorio. Teniendo en cuenta los resultados precedentes, se tiene que:

vii) E(_) = Q E( Y ) = QAp = Ap = E(Y)

Luego, se tiene que:

= Q(Y - Ap) = Q(Y - E(Y))

iv) E(pe) = W E( Y ) = WAp

= (A'A)-1A'Ap = Ip = p

(Luego pe es un estimador insesgado de p )

v) Cov(pe) = W cov( Y ) W'

= W(σ2I)W' = σ2WW' =σ2(A'A)-1

vi) pe es un vector N(p, σ2(A'A)-1)

c. En los proyectores

Sea la proyección = QY con Q = A(A'A)∧

Y -1A'. Proyector, teniendo en cuenta que : QA = A, se determina fácilmente los siguientes resultados:

-E( ) = QY - E(Y) ∧

Y∧

Y = QY - Ap = QY - QAp

Page 174: 1992 descripcion e inferencia lineal en estadistica

174

Luego la variable siguiente:

22/)ˆ(ˆ σYEY − = ( -E( )) '( -E( ))/σ²

Y∧

Y∧

Y∧

Y es una variable Chi-Cuadrado con un número de grados de libertad igual al rango de la matriz Q (en este caso r(Q)=m+1) Sea m la media del vector Y y sea H = I-[1][1]'/n una matriz idempotente de rango igual a n-1. Si la matriz A contiene al vector [1] se tiene que:

[ ] [ ] 22/)ˆ(1ˆ σYEmmY −+− = [ ] 22 /)( σYEYQH −

Es una variable Chi-Cuadrado con m = rango(QH) grados de libertad.

E(Y) = µ[1] para algún µ

Obsérvese que si se verifica la siguiente hipótesis:

Puesto que H[1] = [0], se tiene que la variable precedente puede escribirse en la forma:

[ ] 22 /1 σYY − siendo, entonces, una variable Chi-Cuadrado con m grados de libertad. d. En el vector de errores de regresión

El vector de errores de regresión, definido de la siguiente forma:

e'e/σ² = Y'(I - Q)Y/σ² donde esta última variable es Chi-Cuadrado con un número de grados de libertad igual al del rango de la matriz I-QH, es decir, n-m

e = (I - Q)Y = Y - Y Tiene las siguientes características: E( e ) = [0] Cov( e ) = (I - Q)σ²

Page 175: 1992 descripcion e inferencia lineal en estadistica

Es posible mostrar que los vectores ( ,e) son independientes en probabilidad. En efecto: ∧

Y

Cov( ,e ) = Q Cov( Y ) (I - Q) = [0] ∧

Y

175

Luego la variable siguiente:

nYEY /)ˆ(ˆ 2−

e'e/(n-m)

es una variable de Fisher con m grados de libertad en el numerador y n-m grados de libertad en el denominador.

Luego :

i) Sea πi la i-ésima componente del vector pe. La variable aleatoria πi es una variable N(pi , σii ) donde σii = σ²bii (Donde bii es el i-ésimo elemento de la diagonal principal de la matriz B=(A'A)-1 ), luego:

es una variable N(0,1)

ii) e'e/σ² es una variable Chi-Cuadrado con n-m grados de libertad

También es posible mostrar que los vectores pe, e son independientes en probabilidad. Cov( pe,e ) = W Cov( Y ) (I - Q) = σ²W(I - Q)

= (A'A)-1 A'(I - Q) =[0]

puesto que A'Q = Q

πi - pi

σii

Page 176: 1992 descripcion e inferencia lineal en estadistica

176

H0 : E(πi)= pi = 0

4. ANÁLISIS DE LA VARIANZA Y TEST COMPUESTO PARA UN CONJUNTO DE HIPOTESIS SIMULTÁNEAS

a. Test Simultáneo de Hipótesis

Considérese el siguiente modelo lineal:

Y, la hipótesis compuesta que señala que ninguna de las variables Xj tomadas en cuenta en la regresión tiene impacto sobre la variable endógena Y:

iii) e, pe son independientes.

iv) La variable siguiente es una variable de Student con n-m grados de libertad

bii

m-nee

)p-( =

m-n/ee

)p-(ii

2

ii

ii

′′π

σ

σπ

3. TESTS DE HIPOTESIS SIMPLE PARA LOS ESTIMADORES DE CADA UNO DE LOS

PARAMETROS

La variable de Student, deducida en el cuadro anterior, sirve para docimar la Hipótesis simple:

Y = α1[1]+ α2X2 + α3X3 + . . . + αmXm + e

H0 : α2 = α3 = α4 = . . . = αm = 0 Es posible docimar esta hipótesis haciendo uso de la variable de Fisher que se

deduce de la descomposición de la varianza en el sentido en que se verá a continuación:

Page 177: 1992 descripcion e inferencia lineal en estadistica

177

(Y - Ap)'HQH(Y - Ap)

Es una variable Chi-Cuadrado con m grados de libertad

Haciendo el producto de la matriz H con la matriz A, se tiene: HA = H [ [1] X2 . . . Xm+1 ] = [ H[1] HX2 . . . HXm+1 ]

.

b. Análisis de varianza

Y'HY = Y'HQHY + Y'(I - Q)Y con H = I - 1/n[1][1]' Supóngase que la nx(m+1) matriz A contiene al vector [1], es decir que:

A = [[1] X2 X3 . . . Xm+1 ]

Y, recuérse que:

σ2

Obsérvese que: H(Y - Ap) = HY - HAp

Puesto que : H[1] = [0] se tiene:

HA = H [ [0] X2 X3 . . . Xm+1 ] α1 HAp = H [[0] X2 X3 . . . X+1m ] α2 . .

αm+1

HAp = H [ X2α2 + X3α3 + . . . + Xm+1αm+1 ]

Page 178: 1992 descripcion e inferencia lineal en estadistica

De donde:

178

Si H0 : α2 = α3 = . . . = αm = 0

Entonces, la variable:

(Y - Ap)'HQH(Y - Ap) (Y-X2α2-. . .-Xmαm)'HQH(Y-X2α2-. . .-Xmαm) = -

σ2 σ2

Y'QHQY [ ] 2

ˆ 1ˆymY −

=

Por otra parte, puesto que ( ,e) son independientes en probabilidad, la variable siguiente:

σ2 σ2

donde es la media del vector Y , es Chi-Cuadrado con m grados de libertad ym ˆˆ

Y

m)-/(ne

/m[1]m-Y=

m)-(nee

.mQHQYY

2

2Y

2

2 ˆˆ

σ

σ′

Page 179: 1992 descripcion e inferencia lineal en estadistica

179

Es una variable de Fisher con m grados de libertad en el numerador y n- m grados de libertad en el denominador, SIEMPRE Y CUANDO, H0 SEA VERDAD.

Page 180: 1992 descripcion e inferencia lineal en estadistica

180

1. PLANTEAMIENTO DEL PROBLEMA

c parámetros desconocidos contenidos en el vector θ

Luego, la estimación completa del modelo implica la estimación de m+1+c parámetros así como la especificación de una función que ponga en relación al vector θ con las covarianzas ω.

En primera instancia se analizará la estimación máximo verosímil de este modelo suponiendo que la matriz Ω es conocida. En una segunda etapa se pondrá en evidencia las dificultades de estimación cuando esta matriz no es conocida y algunos modelos que generalmente se utilizan para poner en relación el vector θ con las covarianzas ωij.

CAPÍTULO XIII. LA ESTIMACIÓN MÁXIMO VEROSIMIL DE UN MODELO LINEAL

Considérese el siguiente modelo lineal: Y = Ap + U

Con las siguientes hipótesis algebraicas y estocásticas:

i. La nxm matriz A es de rango m ii. El vector U es aleatorio y tiene une función de densidad del tipo N(η,σ²Ω)

iii. Los elementos ωij de la matriz Ω dependen de un cx1 vector de parámetros θ

En consecuencia, el modelo contiene:

m parámetros desconocidos contenidos en el vector p 1 parámetro σ²

Page 181: 1992 descripcion e inferencia lineal en estadistica

2. LA ESTIMACIÓN DEL MODELO CON Ω CONOCIDA

181

ˆ ˆ

donde ˆ = Ap*

El principio de máximo de verosimilitud establece que, en cualquier experiencia aleatoria, los datos han podido ser observados debido a su más alta probabilidad de realización frente a otros conjuntos de datos, es decir, establece que sólo los eventos con más grandes probabilidades de realización se realizan efectivamente.

Basado en este principio, el estimador máximo verosímil de la cupla p, σ² estará dada por la cupla que maximiza la probabilidad de que el vector Y (observado) se realice.

Formalmente, p,σ²* es el estimador de máximo de verosimilitud de p,σ² si es solución al siguiente problema de máximo:

⎥⎥⎦

⎢⎢⎣

⎡ Ω′

Ω)

2Ap)-(Y)Ap-(Y(-

/221 = )L(p,

)L(p,

2

1-

12

2

σπσσ

σ

exp

Max

El vector de derivadas de L(p,σ²) es proporcional a:

δL/δp = A'Ω-1Ap - A'Ω-1Y De donde, igualando esta relación a [0] se tiene el estimador máximo verosímil de p:

p* = (A'Ω-1A)-1A'Ω-1Y Y, el estimador máximo verosímil de σ² está simplemente dado por:

σ² = (Y-Y )Ω-1(Y-Y )/n

Y Fácilmente se muestra, como se hizo en la sección anterior, que este modelo puede ser tratado como un modelo de regresión lineal simple transformándolo de manera a que tenga un vector de residuos ε del tipo N([0], σ²).

Sea Ω-1 = VV' cualquier descomposición simétrica del inverso de la matriz Ω. Pre-multiplicando el modelo original por la matriz V se tiene: VY = VAp + VU

Page 182: 1992 descripcion e inferencia lineal en estadistica

Cambiando la nominación de las variables de la siguiente manera:

182

Con ε un vector N([0], σ²).

m parámetros desconocidos contenidos en el vector p

Z=VY, B=VA, ε = VU

Se obtiene el siguiente modelo: Z = Bp + ε

Todos los resultados desarrollados en el capítulo anterior y en los precedentes se aplican a este modelo transformado, en particular, los diferentes test de hipótesis.

3. LA ESTIMACIÓN DEL MODELO CON Ω DESCONOCIDA

El caso en que la matriz Ω es conocida es extremadamente teórico. En la realidad, existen razones suficientes para plantear la hipótesis de la independencia de los residuos ó, cuando no las existen, tampoco se conoce la estructura de su matriz de varianzas y covarianzas. El desconocimiento de la matriz de varianzas y covarianzas plantea problemas difíciles a resolver y vuelca el análisis de los modelos lineales hacia otras técnicas complejas de la estadística como las relativas a las series de tiempo. En primer lugar, obsérvese que es necesario hacer alguna especificación (ó modelización) para los errores correlacionados ó, directamente, para su matriz de varianzas-covarianzas desde el momento en que el número de parámetros desconocidos del modelo, si no se hiciera esas hipótesis superaría siempre al número de observaciones. En efecto, se tendría:

n(n-1)/2 parámetros desconocidos contenidos en la matriz Ω Es decir, el número de parámetros a estimar, m+n(n-1)/2, sería sistemáticamente superior al número n de observaciones. Una de las especificaciones corrientemente utilizadas es la de los modelos ARMA para los errores en el marco de regresiones utilizando series de tiempo.

Page 183: 1992 descripcion e inferencia lineal en estadistica

183

En este caso, cada observación del vector Y tiene una dimensión temporal así como cada una de las líneas de la matriz A. Cada una de las n ecuaciones que incluye el sistema, puede escribirse en la forma:

Yt = At'p + Ut

Un modelo ARMA(π,q) para los errores de regresión Ut puede ser especificado en los términos siguientes:

Ut - φ1Ut-1 -φ2Ut-2....- φpUt-p = εt - δ1εt-1 -δ2εt-2 ....- δqεt-q

Donde, las variables εt son i.i.d. N(0,σ²).

En general, el número π de variables Ut rezagadas así como el número q son también desconocidos y necesitan ser estimados. El vector de parámetros desconocidos θ contiene, entonces, π elementos φj, q elementos δj, π y q, es decir, π+q+2 desconocidas. Existen varios excelentes logiciales para estimar modelos lineales con especificaciones ARMA para los residuos, pero, es necesario poner énfasis sobre las siguientes complicaciones: i. Las técnicas ARMA no pueden ser consideradas automáticas, puesto que necesitan

la participación inteligente del usuario en varias de sus etapas. Para utilizarlas correctamente, es necesario seguir un curso específico al respecto.

ii. Las técnicas ARMA utilizan técnicas de estimación de funciones no lineales con restricciones. Algunas de ellas de apariencias complicadas, por ejemplo, se requiere que los polinomios conformados por los parámetros φj y δj tengan raíces con módulos inferiores a la unidad.

iii. Se requiere mucha precaución en la utilización de los test estadísticos usuales en el

marco de la regresión lineal. Para terminar, cabe señalar que existen otras espeficicaciones para los errores que permiten reducir el número de parámetros a estimar en el modelo. Pero, ellas o son banales y arbitrarias o son serias pero difíciles a ser utilizadas sin una formación adecuada por parte del usuario.

Page 184: 1992 descripcion e inferencia lineal en estadistica

184

Considérese a continuación los siguientes m sub-modelos que pueden crearse con los m vectores Xk que contiene la matriz A:

Y = Xkπk + ek

CAPITULO XIV. ASPECTOS PRÁCTICOS RELATIVOS A LA REGRESIÓN LINEAL 1. LA REGRESIÓN POR ETAPAS Uno de los algoritmos más útiles para el cálculo de los estimadores y el análisis de la "situación de regresión" es el que resulta del algoritmo de cambio de bases expuesto en los capítulos I, II y III. En el inglés, este algoritmo se conoce bajo el nombre de "step wise regression". Sus cualidades numéricas son, posiblemente inferiores a los de otros algoritmos, pero, se presta para realizar regresiones donde en todo momento haya posibilidad de juzgar sobre el aporte de cada variable a la regresión y modificar el modelo inicialmente planteado. Considérese el modelo Y=Ap + U y la siguiente partición de la nxm matriz A:

A= [Xk Xkm ]

Donde se supondrá que la matriz Xk tiene k columnas, k siendo un número que variará entre 1 y m. La matriz Xkm contiene los m-k vectores restantes de la matriz A.

X....++X + X = Ze + Z = Y

kkk22k11kk

kk

ααα

Y, en forma simultánea considérese, además, el conjunto de regresiones que se puede realizar tomando como vectores exógenos los vectores Xk+j, j=1,2,..m-k y como vectores explicativos a los vectores Xi, i=1,2,..k:

g + X.....+.+X + X = X kjkkkj22kj11kjj+k βββ

Donde los gkj son los vectores conteniendo los errores de regresión. En su forma matricial, estos modelos pueden escribirse:

para k=1,2,..m

Page 185: 1992 descripcion e inferencia lineal en estadistica

185

Para determinar los vectores πk, βkj se trata de resolver las ecuaciones normales: (Xk'Xk)πk = Xk'Y

Xk'Y

Xk+j = Xkβkj + gkj

para j = 1,2,..m-k

Donde el k x 1 vector πk contiene los coeficientes de regresión αik, i=1,2,..k y los vectores βkj contienen los coeficientes de regresión βikj, i=1,2,..k

para k=1,2,..m

(Xk'Xk)βkj = Xk'Xk+j

para j=1,2,..m-k

ó, en forma simultánea, para los m-k modelos:

(Xk'Xk)βk = Xk'Xkm

Donde βk es una matriz de k líneas y m-k columnas. El algoritmo de cambio de bases por etapas permite resolver estos sistemas en cada una de sus etapas, es decir, sin cálculos suplementarios. Permite además, calcular automáticamente, otros estadísticos útiles en el análisis de regresión.

En efecto. A partir de una tabla de Tucker inicial, construida de la siguiente forma:

Xk'Xk

Xk'Xkm

Xkm'Xkm

Xkm'Xk

Xkm'Y

Y'Xk

Y'Xkm

Y'Y

Después de k cambios de base, utilizando como pivote matricial a la matriz (Xk'Xk) se llega a una tabla cuya estructura es la siguiente:

Page 186: 1992 descripcion e inferencia lineal en estadistica

186

(Xk'Xk)-1

[βk] πk

[βk]'

Gk'Gk Ck

πk'

Ck' ek'ek

A partir de su k-ésimo elemento, la diagonal principal de esta matriz contiene los cuadrados de los

errores de regresión, es decir, primero, 2

kjg y, al último, 2

ke El resto de los elementos de este

bloque, es decir, a partir de la línea y de la columna k se interpretan como los productos escalares de los errores de regresión de los diferentes modelos considerados. Si inicialmente, la matriz A contiene al vector [1], entonces estos productos escalares se interpretan como las covarianzas entre los errores de regresión y, sobre todo, como las covarianzas parciales entre los vectores endógenos Xk+1, Xk+2,..Xm, Y después de haber despejado la influencia de las variaciones de los vectores exógenos X1, X2,..Xk. Obsérvese que si X1=[1], entonces, al cabo de la primera iteración, a partir de la segunda línea y segunda columna, después de la primera iteración se encontrará la matriz de varianzas y covarianzas del conjunto de vectores que entran en el análisis. A partir de estos resultados iniciales, fácilmente puede construirse: a. Tablas de análisis de la varianza para cada uno de los modelos considerados, b. Matrices de correlaciones parciales que proporcionan información importante sobre el aporte

de cada variable a la explicación de la varianza de la variable endógena c. Criterios de decisión para decidir sobre el orden de introducción de las variables en el modelo

de regresión para el vector Y. 2. AUTOMATICIDAD DE LOS CÁLCULOS DE REGRESIÓN Con el avance de la tecnología en materia de computadores y el avance en la construcción de logiciales que le acompañó, es muy fácil encontrar en el mercado logiciales de excelente calidad para determinar regresiones. Sin embargo de ello, cabe poner énfasis en el hecho de que la regresión lineal no puede ser de ninguna manera enfocada como una metodología de estimación que funciona en forma automática, es decir, que calcula estimadores, realizada test, y aconseja aceptar o rechazar el modelo. Es necesario, además, que el usuario de estos modelos pueda realizar un análisis cualitativo de los resultados y, muy particularmente, de la "situación de estimación", para, ello, a veces es importante realizar gráficos o utilizar otros instrumentos simples de análisis. Se presenta a continuación un ejemplo de regresión que vence con éxito todas las pruebas de hipótesis siendo inaceptable.

Page 187: 1992 descripcion e inferencia lineal en estadistica

187

Imagínese, primero, que se tiene sólo dos variables (Y,X) y que graficando la nube de puntos correspondiente a sus observaciones, se tiene que todas ellas se ubican sobre un círculo de radio r y de origen (0,0). En ese caso, el coeficiente de correlación entre ambas variables será igual a 0 y, obviamente, todos los test indicarán que no se puede considerar como válida una regresión de Y con X.

En una segunda instancia (ver figura), imagínese la misma situación de regresión anterior, pero, con una observación suplementaria ubicada en alguna parte del plano a una distancia de unas 20 veces el origen. ¡Con esta estructura, Ud. obtendrá una excelente regresión...con un R2=1!, ¿Qué decir al respecto?

or otra parte, un buen consejo para el usuario de regresiones es analizar con mucho cuidado el ector de errores de regresión. Recuérdese que se supone que las componentes de este vector se istribuyen aleatoriamente alrededor del 0 con una distribución normal. Cuando las componentes de

este vector tienen alguna estructura determinada, por ejemplo, son crecientes, decrecientes, están concentrados en algunos puntos, es necesario que el usuario, independientemente de los resultados de las dócimas de hipótesis, re-plantee su modelo de regresión.

Pvd

Page 188: 1992 descripcion e inferencia lineal en estadistica

188

PARTE C

DISEÑO DE EXPERIMENTOS

Page 189: 1992 descripcion e inferencia lineal en estadistica

CAPITULO XV. INTRODUCCIÒN Por Diseño de Experimentos se entiende, en estadística, normalmente dos tipos de construcción lógica, complementarios entre sí, pero, diferentes: El primero consiste en un conjunto de técnicas orientadas a establecer formas precisas de experimentación. Por ejemplo, diferentes sugerencias podrían darse para testar la hipótesis "el fertilizante A es mejor que el fertilizante B en el cultivo de la papa". Se podría sembrar el mismo tamaño de parcelas con ambos fertilizantes o tamaños diferentes o se los podría intercalar en el tiempo, para evitar el efecto de la calidad de la tierra, etc. Estas diferentes formas de "experimentar" dan lugar a una "teoría" en estadística, la que se encuentra en los textos de Diseño de Experimentos. El Segundo tipo de construcción lógica se refiere a la forma como se va a tratar la información estadística originada en la fase de experimentación para poder llegar a conclusiones o por lo menos establecer dócimas de hipótesis. Se trata de técnicas estadísticas de resolución de problemas prácticos. Con gran frecuencia, se refieren a la resolución de modelos lineales singulares, asociados a las diferentes formas de "análisis de la varianza". Un ejemplo simple de un modelo de análisis de la varianza es el siguiente: Se trata de determinar si en la manufactura existe discriminación sexual en relación a los salarios. El tratamiento líneal clásico a este problema emerge en los siguientes términos:

189

El Salario Y de los varones se explicar por el modelo:

Yt = a + b1 + Ut t = 1, 2,...n1 El Salario Y de las mujeres a su vez se explicar por:

Yt = a + b2 + Ut t = n1+1,n1+2,...n

Comparando ambos modelos, el efecto "sexo" viene especificado por los parámetros b1, para los varones, y b2 para las mujeres. Ambos modelos pueden escribirse en la forma resumida siguiente:

Yt = a + bi + Ut t = 1, 2,.....n

Donde i =1 si el trabajador es varón y i =2 si es mujer. Los Ut son variables aleatorias i.i.d N(0,σ2)

Page 190: 1992 descripcion e inferencia lineal en estadistica

En forma matricial, este modelo se escribe: Y = Ap + U Donde Y es un vector conteniendo n-observaciones; A es una matriz con n líneas y 3 columnas, el vector p tiene 3 componentes a, b1,b2 y el n-vector U es N(0,σ²I). Fácilmente se comprueba que la nx3-matriz A es de rango igual a 2 y se verifica que todos sus componentes son ceros o unos. La matriz A es conocida como la "matriz del diseño" y el espacio vectorial que generan sus columnas como el "plan del diseño". En general, los modelos de "análisis de la varianza" son modelos lineales singulares. En el presente texto, se desarrollará el problema de los modelos singulares a través de dos de sus grandes líneas: - la estimación de combinaciones lineales de los parámetros - las descomposiciones sucesivas de la varianza total Esta Parte está estructurada de la siguiente manera: en el capítulo XVI se hará una presentación general de los modelos lineales singulares, en el siguiente se mostrará las técnicas de resolución basadas en la introducción de restricciones, en el capitulo XVIII se desarrollará los proyectores como instrumentos para aproximar el problema de la descomposición de la varianza y, en el anexo, se presentará los desarrollos pertinentes al tipo de inverso generalizado que se utiliza en esta parte del texto.

190

Page 191: 1992 descripcion e inferencia lineal en estadistica

CAPITULO XVI. LOS MODELOS LINEALES SINGULARES 1. DEFINICIONES Y PLANTEAMIENTO DEL PROBLEMA Definición: Sea el modelo lineal siguiente: Y = Ap + U Donde Y es un vector n x 1, A una matriz nxm, p un vector mx1 y U un n-vector N(0,σ²I). Si el rango r de la matriz A es inferior a m, se dice que el modelo es singular 2. TÈCNICAS DE ESTIMACIÒN DE FUNCIONES LINEALES DE LOS PARÀMETROS

191

a. Inversos generalizados. Desde el momento en que el rango r de la nxm matriz A no es máximo, la matriz A'A no tiene inverso, implicando la existencia de soluciones múltiples a las ecuaciones normales (cf. Capítulo III). En este caso, tiene algunas ventajas usar algún inverso generalizado H de la matriz A'A para resolver estas ecuaciones: A'Ap = A'Y P = HA'Y + (I - HA'A)z (z arbitrario) En general, la indeterminación introducida por el vector arbitrario z se levanta llevando el interés del análisis sobre diferentes combinaciones lineales de las componentes del vector p. Estas se presentan en la forma de un rx1 vector q tal que q=Lp, con L una matriz tal que L=LHA'A. Recuérdese que la matriz I-HA'A es simétrica y que sus m vectores (líneas o columnas) constituyen un conjunto generador del Kernel de A, el que tiene dimensión m-r. El vector (I-HA'A)z es un vector cualquiera del Kernel de A. La relación L=LHA'A implica (I-HA'A)L'=[0], es decir, que los vectores línea de la matriz L deben ser escogidos fuera del Kernel de A. Eventualmente, se puede retener una matriz L con menos de

Page 192: 1992 descripcion e inferencia lineal en estadistica

m-r vectores líneas LIN.

192

b. Base para un espacio vectorial.

Sea S(A) el espacio vectorial de dimensión r generado por las m-columnas de la matriz A y sea K una matriz n x r conteniendo r vectores LIN de S(A), es decir, conformando una base para S(A). Obviamente, existe una r x m matriz L tal que: A = KL

En el modelo lineal Y = Ap + U, esta técnica sugiere reemplazar A por KL y estimar el rx1 vector q=Lp en lugar del mx1 vector p:

Y = Ap + U Y = KLp + U Y = Kq + U con q=Lp

En general, el tipo de matriz L que se desea (con frecuencia, una matriz de constraste) está dada a priori, de tal manera que la matriz K se deduce de A = KL con K = AL'(LL')-1

Finalmente, es posible levantar la indeterminación introducida por la singularidad de la matriz A en la estimación del vector p introduciendo m-r restricciones lineales sobre este vector. Estas revisten la forma Cp = d, con C una matriz con m-r líneas y m columnas y d un vector con m-r componentes. La utilización de combinaciones lineales de las componentes del vector p se justifica ampliamente en este marco. Por ejemplo en el problema sobre la posible discriminación sexual en el salario fabril, lo que interesa no son los valores absolutos de los parámetros b1 y b2, si no, y sobre todo, la diferencia entre ambos, ['por ejemplo, (b1-b2)] ó, sólo el signo, [por ejemplo, b1+b2=0]

c. Restricciones líneales sobre los parámetros

Posiblemente, la técnica más potente para resolver las ecuaciones normales en el marco de estos modelos es aquella que sugiere el introducir restricciones lineales sobre los parámetros, es decir, incluire una relación del tipo Cp=d. La mayor parte de las técnicas utilizadas antiguamente, por ejemplo, las expuestas en el libro clásico de Cochran and Cox sobre análisis de experimentos utilizan, en forma subyacente, diferentes esquemas de restricciones sobre los parámetros. Hoy, con el avance de la estadística, es posible presentar estos problemas en forma matricial, no desprovista de elegancia.

El capítulo siguiente está destinado a tratar estos problemas.

Page 193: 1992 descripcion e inferencia lineal en estadistica

193

CAPÍTULO XVII. ESTIMACIÓN MÍNIMO CUADRÁTICA CON RESTRICCIONES LINEALES

SOBRE LOS PARÁMETROS

1. PLANTEAMIENTO DEL PROBLEMA

Se impondrá al vector de parámetros p la restricción de satisfacer la siguiente igualdad lineal:

El criterio de estimación mínimo cuadrática del vector p establece que su estimador es solución al siguiente problema de optimización:

Consideremos el siguiente modelo lineal: Y = Ap + U Donde Y es un vector nx1, A una matriz nxm de rango igual a r, p es un vector mx1 conteniendo los parámetros desconocidos del modelo y U el vector nx1 de errores aleatorios.

Cp = d

Donde d es un kx1 vector conocido y C una matriz kxm de rango igual a k; se supondrá que k es estrictamente inferior a m, puesto que si k fuese exactamente igual a m, el vector de parámetros p estaría exclusivamente determinado por la restricción independientemente de los valores que tomen las variables endógenas y exógenas del modelo.

minp 2Apy −

con: Cp=d

Sea λ un kx1 vector conteniendo los multiplicadores de Lagrange de la función de mismo nombre L(p,λ) asociada a este problema y definida de la siguiente manera:

L(p,λ) = 2Apy − + λ'(Cp - d)

Derivando L en relación a p y a λ, respectivamente, e igualando sus derivadas a cero se obtiene el siguiente sistema de ecuaciones lineales:

Page 194: 1992 descripcion e inferencia lineal en estadistica

194

p* = b -(A'A)-C'(C(A'A)-C')-1(Cb-d)

Este inverso generalizado ha sido desarrollado en el anexo; en él se ha demostrado que el término de la derecha de esta igualdad es también un inverso generalizado de la matriz C'C.

(1) A'Ap - A'y + C'λ = [0]

(2) Cp - d = [0] Reuniendo los dos subsistemas en uno sólo, se tiene: Rx = b Donde el (m+k)x1 vector x contiene a los vectores p y λ y el vector b a A'y y d. La matriz R está definida de la siguiente manera:

D C' R = con D = A'A C 0 Como se verá posteriormente, la matriz R es inversible ssi:

a. rango(C) = k b. rango(A'|C') = m

Si se reúnen estas condiciones, el estimador p* del vector p es único y puede escribirse en la forma siguiente:

donde (A'A)- es cualquier inverso generalizado de la matriz A'A y b es un estimador mínimo cuadrático de p sin la restricción Cp = d, es decir:

b = (A'A)-A'y Si, además, se cumple la siguiente condición: c. rango(A') + rango(C') = m

La solución p* es igual al vector b cuando éste es definido mediante la siguiente forma de inverso generalizado de la matriz A'A:

(A'A)- = (A'A + C'C)-1

Page 195: 1992 descripcion e inferencia lineal en estadistica

195

B =

Esta observación lleva a confirmar que (C(A'A)-C')-1C=C, resultado útil para demostrar la afirmación anterior. 2. CARACTERIZACION DE LAS SOLUCIONES AL PROBLEMA DE REGRESION LINEAL

CON RESTRICCIONES SOBRE LOS PARÁMETROS a. Condiciones de rango para la existencia de una solución única

La solución será única si el rango de la matriz R es igual a m+k, es decir, si esta matriz es inversible. A este respecto cabe señalar: i. Si el rango de la kxm matriz C es inferior a k, la matriz R es singular, puesto que la condición

de que el rango de la kxm matriz C sea igual a k es imprescindible para que la matriz R tenga un kernel igual al espacio nulo 0, es decir, tenga rango máximo.

En efecto: Sea x = (z'|w') donde z=[0] y w algún vector del kernel de C', es decir, algún vector que verifique C'w=[0]. El kernel de C' es diferente al espacio nulo 0 si el rango de C' es inferior a k. En este caso se tiene Rx=[0], luego el kernel de R tampoco es igual al espacio nulo 0 ni su rango es máximo

ii. En forma similar la condición de que el rango de la mx(m+k) matriz (A'|C') sea igual a m es

una condición necesaria para que la matriz R tenga rango máximo. En efecto: Con la misma partición del vector x del inciso anterior, pero esta vez con w=[0], la relación Rx es equivalente a la relación Bz, donde B está definida de la siguiente manera:

A'A

C

Si el kernel de B no es vacío, existe algún w tal que Bw=[0], en consecuencia, Rx = [0].

Obsérvese que el rango de la matriz B es igual al rango de la matriz (A'|C'); luego, si ese rango es inferior a m, el rango de R no es máximo.

Page 196: 1992 descripcion e inferencia lineal en estadistica

196

iii. Ambas condiciones a y b, conjuntamente, son suficientes para asegurar que el rango de la matriz R sea igual a m+k.

En efecto: A partir de la expresión siguiente:

Q = C'(CC')-1C

z'Hz = z'C'Cz + z'D(I-Q)Dz

Una alternativa a esta segunda condición es que el rango de C sea igual a m, en cuyo caso I-Q=[0]; pero, esta posibilidad ha sido excluida de los supuestos inicialmente planteados. No obstante, si se diera, H sería definida positiva, puesto que C'C lo sería también.

En consecuencia, si rango(A'|C') = m, es imposible que D (ó A') pertenezca al espacio generado por las columnas de la matriz C', en consecuencia, el segundo término de la igualdad precedente ser estrictamente positivo para todo vector z diferente de cero.

D2 + C'C DC' R'R = CD CC' Se tiene (det(R))² = det(R'R) = det(CC')det(H)

Con H = C'C + D(I-Q)D donde Q es el mxm proyector ortogonal en el espacio vectorial que genera C' y está definido de la siguiente manera:

Obviamente, la matriz H es definida no negativa, es decir,sus valores propios son positivos o

nulos. Se mostrará que bajo las condiciones mencionadas H es estrictamente definida positiva, lo que implica que sea de rango máximo.

Para que la siguiente forma cuadrática:

...sea nula, ambos términos de la derecha de la igualdad tendrían que ser nulos, lo que

necesita simultáneamente que: z pertenezca al Ker(C) D pertenezca al espacio vectorial generado por las columnas de la matriz C' (i.e

(I-Q)D=0)

Luego, si existe un z tal que z'Hz=0, la primera condición implica que se tendría rango(A'|C') = rango(C') = k (recuérdese que k es estrictamente inferior a m).

Page 197: 1992 descripcion e inferencia lineal en estadistica

197

Las condiciones de unicidad de la solución:

rango(A') + rango(C') sea superior o igual a m.

A fin de demostrar esta afirmación, obsérvese que:

b. Condiciones de rango para que exista una solución única e igual al punto óptimo sin restricciones

a. rango(C) = k (con k inferior a m) b. rango(A'|C') = m ...implican:

Si en esta relación la igualdad se verifica, es decir, si:

c. rango(A')+rango(C') = m

entonces, las tres condiciones a,b,c implican que la solución al problema de minimizar la distancia que separa al vector Ap de y con la restricción Cp=d es la misma que en el caso en que no se utilizara esta restricción, es decir, es igual a uno de los óptimos libres.

i. Las condiciones a y b aseguran la unicidad de la solución,

ii. Si en el sistema de ecuaciones Rx = b, se plantea a priori que x = (p'|t') = (p'|0), el valor del vector p puede ser determinado resolviendo el siguiente sistema de ecuaciones:

(1) A'Ap = A'y (2) C'Cp = C'd Las condiciones b y c aseguran, según los resultados desarrollados en el anexo, que estas ecuaciones admiten solución única.

La verificación del primer subsistema de ecuaciones, implica que p* es también el mínimo libre ó

mínimo absoluto de la función 2Apy − .

La solución p* tiene la siguiente forma:

p* = (A'A+C'C)-1(A'y+C'd) C.Q.F.D

Page 198: 1992 descripcion e inferencia lineal en estadistica

CAPÍTULO XVIII. PROYECCIONES Y PROYECTORES 1. PLANTEAMIENTO DEL PROBLEMA

198

Luego, si V es la suma directa de V1, V2,...Vk, se tiene que su dimensión es igual a la suma de las dimensiones de estos subespacios:

En el capítulo precedente se ha enfocado el problema planteado por los problemas lineales singulares introduciendo restricciones lineales sobre los parámetros. En muchas aplicaciones prácticas, incluso a lo largo de la historia del desarrollo de las técnicas de Diseño de Experimentos, el investigador concentró su interés sólo en la medición de la capacidad predictiva de los factores, es decir, sólo en la parte de la varianza de la variable endógena que podía ser explicada por una o varias de las variables exógenas.

En este marco de ideas, este capítulo está enteramente orientado a presentar desarrollos importantes sobre la descomposición de la varianzas partiendo de diferentes formas de composición de Proyectores.

2. SUMA DIRECTA

Sean V1, V2, V3,...Vk subespacios vectoriales disjuntos pertenecientes al espacio vectorial V. Dos subespacios vectoriales son disjuntos si no tienen ningún elemento en común salvo el elemento neutro [0] en relación a la ley de composición interna.

Si para todo vector X, existe un vector Xk, en cada uno de los subespacios vectoriales Vk, tal que:

X = X1 + X2 + ...Xk

Entonces, V es la "Suma directa de V1, V2,...Vk", y se escribe:

V = V1 + V2 + ...Vk

Puesto que los subespacios V, son disjuntos, cualquier conjunto X1, X2, ...Xn de vectores es linealmente independiente.

dim(V) = dim(V1) + dim(V2) +....dim(Vk)

Page 199: 1992 descripcion e inferencia lineal en estadistica

3. PROYECCIÓN

199

X = X1 + X2

iii. f(X2) = 0

Sea V la suma directa de los subespacios vectoriales disjuntos V1 y V2; para todo X en V, existen dos vectores X1 y X2 en V1 y V2, respectivamente, tales que:

Se denomina "Proyección de V en V1 a lo largo de V2" a toda aplicación f de V en V1.

Teniendo en cuenta la relación X = X1 + X2, se observará que si f es una aplicación de V en V1, se tiene:

i. f(X) = X1 ii. f(X1) = X1

4. PROYECTOR

Una de las propiedades más importantes de la "Proyección es que se trata de una aplicación lineal (Rao, 1973, p47).

Y = Y1 + Y2 Se tiene, X + Y = (X1 + Y1) + (X2 + Y2); se observará que el primer vector entre paréntesis a la derecha de la igualdad pertenece a V1 y el segundo a V2.

En efecto:

Sean (X, Y), (X1, Y1), (X2, Y2) pares de vectores en V, V1, V2 respectivamente, tales que:

X = X1 + X2

Page 200: 1992 descripcion e inferencia lineal en estadistica

200

f(Y) = Y1

f(X) = PX

Teniendo en cuenta las propiedades de una proyección, (cf.sección 3), se tiene:

ii. PX1 = X

Una de las más importantes propiedades de un proyector es que se trata de una matriz idempotente, es decir, que PP = P.

PPX = PX1 = X1 = PX

Si se define X sucesivamente como los vectores ej de la base canónica usual en RxRx,,,,R, se tiene:

Lo que muestra que PP = P2 = P

Obsérvese también que:

f(X) = X1

f(X + Y) = X1 + Y1 = f(X) + f(Y)

Por otra parte, para todo escalar µ, se tiene µX= µX1 + µX2, de donde: f(µX)) = µX1 = µf(X). Ambos resultados muestran que f es una aplicación lineal.

Siendo f una aplicación lineal, existe una matriz P que le está asociada, conocida con el nombre de "Proyector", tal que:

i. PX = X1

1 iii. PX2 = [0]

En efecto: para todo X en V se tiene:

PX = X1 Pre-multiplicando por P en ambos lados de la igualdad se llega a:

PPej = Pej

Page 201: 1992 descripcion e inferencia lineal en estadistica

201

a. Si P es "Proyector sobre V1 a lo largo de V2", la matriz (I-P) es un "Proyector sobre V2 a lo

largo de V1". En efecto: para todo X en V, (I-P)X = (I-P)X1 + (I-P)X2 = X2, lo que muestra simplemente que el

vector (I-P)X pertenece a V2 y que (I-P)X1 = 0 b. Si P es un "Proyector sobre V1 a lo largo de V2", la matriz

c.

Luego dim V = r(P) + r(I-P). d. Sean P1 y P2 dos proyectores sobre los dos subespacios V1 y V2, respectivamente, del

espacio vectorial V. La matriz P = P1 + P2 es un proyector sobre el subespacio V*= V1 + V2 si solamente si P1P2 = P2P1 = [0]

En efecto: las condiciones P1P2 = P2P1 = [0] son necesarias y suficientes para P2 = P.

Obsérvese que éstas condiciones implican que los subespacios generados por P1 y P2 son disjuntos.

i. P1P1 = P1

Las características y propiedades siguientes de los proyectores son muy útiles en estadística:

(I -P) es un proyector a lo largo de V2. En efecto: a partir de i., ii., iii., anteriores, se muestra fácilmente que S(P) pertenece a V1 y que V1 pertenece a S(P), con lo cual, V1 = S(P).

El resultado anterior permite afirmar que el rango de la matriz P es igual a la dimensión del espacio vectorial V1 y el de la matriz (I-P) al de la dimensión del espacio vectorial V2.

e. Si los subespacios vectoriales V1, V2,...Vk permiten definir V como su suma directa, existen proyectores Pj, j=1,2,...k, sobre cada uno de éstos subespacios tales que (Rao, 1973, p47):

ii. PiPj = [0] para i diferente a j.

iii. P = P1 + P2 +....Pk, donde P es un proyector sobre V a lo largo de Vc

iv. r(P) = r(P1) + r(P2) + ....r(Pk)

f. Toda matriz idempotente P es un proyector en el espacio vectorial S(P) a lo largo de S(I-P).

Page 202: 1992 descripcion e inferencia lineal en estadistica

5. PROYECTORES ORTOGONALES

202

Si V es la suma directa de V1 y V2 y si V2 es el complemento ortogonal en V a V1, la matriz P asociada a la "Proyección de V en V1 a lo largo de V2" se denomina "Proyector ortogonal sobre V1".

iii. BP es una matriz simétrica

Se recordará que V2 es el complemento ortogonal de V1 en V si los productos escalares entre dos vectores cualesquiera de V1 y V2 son idénticamente nulos. Si el producto escalar en V está definido por Y'BX, con B una matriz definida positiva, este enunciado implica que para todo Y en V1 y todo X en V2, se tiene Y'BX = 0, cuando V1 y V2 son dos espacios ortogonales entre sí.

Una matriz P es un "Proyector ortogonal sobre V1 a lo largo de V2" si solamente si:

i. Para todo X en V, el vector PX pertenece a V1 ii P es idempotente, es decir, PP = P

Los dos primeros puntos hacen parte de la definición de lo que se entiende por proyector. El tercero se demuestra de la siguiente manera: Puesto que PX pertenece a V1 y (I-P)X a V2 y ambos espacios son ortogonales entre sí, se tiene:

El caso más frecuente en las aplicaciones prácticas se presenta con B igual a la matriz identidad, con lo cual el tercer punto se reduce al enunciado de que P es una matriz simétrica. Obsérvese que si P es alguna matriz que verifica los puntos ii. y iii., existe algún espacio vectorial S sobre el cual P es un proyector a lo largo de su complemento ortogonal. Puesto que las columnas de P constituyen un conjunto generador de ese espacio, se tiene S = S(P).

(PX)'B(I-P)X = [0] Es decir:

X'P'B(I-P)X = [0]

Para que esta expresión sea válida para todo X, se necesita que: P'B(I-P) = [0]

De donde: P'B = P'BP

Puesto que P'BP es simétrica, la igualdad anterior muestra que también lo es P.

Page 203: 1992 descripcion e inferencia lineal en estadistica

203

6. EXPRESIÓN EXPLICITA DE UN PROYECTOR ORTOGONAL

Sea A una nxm-matriz de rango r y S(A) el espacio vectorial generado por sus columnas. Se supondrá que se define un producto escalar en S(A) con la ayuda de la nxn-matriz B definida positiva.

La matriz P construida de la siguiente manera:

a. Es un proyector sobre S(A)

P = A(A'BA)-A'B

b. Es un proyector ortogonal c. Es única, independientemente de la elección del inverso generalizado de la matriz

A'BA Haciendo el producto de P por P, se demuestra fácilmente que P2=P

Obsérvese que S(P) es un subespacio vectorial de S(A) y que el espacio complementario en RxR...R a S(P) no contiene ningún elemento de S(A), luego S(P) = S(A), lo que implica PA = A (ver también anexo) Para demostrar que P es simétrica, se construye la matriz D =[ P - P'] y se muestra que D'D = [0], lo que pone en evidencia que P = P' (Rao, 1973, p.26)

Los tres puntos anteriores demuestran que P es un proyector ortogonal sobre S(A). Para demostrar que P es único, independientemente de la elección del inverso generalizado de la matriz (A'BA) considérense las matrices:

P = Q.

P = A(A'ABA)-A'B y Q = A(A'ABA)+A'B

Y, sea G= P - Q; obsérvese que G'G = P - Q - 2PQ

Puesto que PA = QA = A, se tiene PQ = P = Q, lo que, al mostrar que G'G = [0], pone en evidencia que

Page 204: 1992 descripcion e inferencia lineal en estadistica

204

7. LAS ECUACIONES NORMALES

Y = Ap + Cq

p = HA'BY + (I-H(A'BA)z

Ap = A(A'BA)-A'BY = PY

Sobre cada uno de estos subespacios se definirá un proyector ortogonal Qj, j = 1, 2, 3,....k. Los complementarios a los espacios Sj se encuentran contenidos en orden inverso: el complementario del último contiene al del penúltimo, éste a su vez al del antepenúltimo, etc.

Sea Sc el complemento ortogonal del subespacio vectorial S(A) generado por los m-vectores columnas de una matriz A de rango r en Rn y sea C una nx(n-r)-matriz con vectores columnas conformando una base para Sc(A). Obviamente, A'BC = [0]

Para todo vector y en Rn existe un m-vector p y un (n-r)-vector q tales que:

Pre-multiplicando por A'B en ambos lados de esta igualdad, se obtiene el conjunto siguiente de m ecuaciones relativas al rx1-vector p, denominado "Sistema de ecuaciones normales":

A'BY = (A'BA)Ap + [0] La solución general a este sistema de ecuaciones se escribe en la forma:

Donde H es algún inverso generalizado de la matriz A'BA y z es un mx1 vector arbitrario. Puesto que A=AH(A'BA), la expresión precedente permite deducir directamente la forma analítica del proyector P sobre S(A). En efecto:

8. SECUENCIA DE PROYECTORES ORTOGONALES Y PROPIEDADES

Sean S1, S2, S3,...Sk subespacios vectoriales en V tal que el primero esté contenido en el segundo, éste a su vez en el tercero y así, sucesivamente.

S S ... S S S k1-k321 ⊂⊂⊂⊂⊂

Page 205: 1992 descripcion e inferencia lineal en estadistica

205

Si las matrices Qj son proyectores ortogonales en los espacios Sj, las matrices (I-Qj) son proyectores ortogonales en sus espacios complementarios.

A partir de los planteamientos y observaciones anteriores, se deducen fácilmente las propiedades siguientes:

QjQk = QkQj = Qj si Sj está contenido en Sk, es decir:

i. QjQk = QkQj = Qs donde s=min(j,k) Esta propiedad también puede expresarse en los términos siguientes:

S S kj ⊂

donde r=max(j,k)

Si:

ii. (I-Qj)(I-Qk) = (I-Qk)(I-Qj) = (I-Qr)

Esta propiedad es idéntica a la anterior, solamente que es relativa a los espacios complementarios de los Sj.

Esta propiedad también puede expresarse en los términos siguientes:

(I-Qj)(I-Qk) = (I-Qk)(I-Qj) = (I-Qk)

S S ... ... S S jk

kj

ck ⊃⊂

iii. Qi(I-Qj) = (I-Qj)Qi = [0] si i=min(i,j),

es decir, si Si está contenido en Sj. Obsérvese que:

∅∩

= S S

:entoncesS S Si

icj

ji

Page 206: 1992 descripcion e inferencia lineal en estadistica

206

Las propiedades anteriores sugieren el establecimiento de matrices del tipo Pkj = Qk - Qj, con Sj incluido en Sk, muy útiles para la descomposición de la varianza.

Algunas de las propiedades de estas matrices son las siguientes:

i. Son simétricas

= (I-Qj)QkX = (I-Qj)Z pertenece a Scj

Con:

S S kj ⊂

Sea: Pkj = Qk - Qj

= Qk(I-Qj)

= (I-Qj)Qk

= (I-Qj)-(I-Qk)

ii. Son idempotentes

iii. r(Pkj) = r(Qk) - r(Qj)

La matriz Pkj es un proyector ortogonal sobre

S S = S cjkjk ∩

es decir, sobre el conjunto de vectores de Sk que no pertenecen simultáneamente a Sj.

En efecto, para cualquier vector x:

PkjX = Qk(I-Qj)X = QkY pertenece a Sk

Page 207: 1992 descripcion e inferencia lineal en estadistica

207

[0] si S(Pkj)∩S(Prs) = ∅

iv. PkjPrs = PrsPkj = Pmn si S(Pkj)∩S(Prs) = S(Pmn)

Una cuarta propiedad de estas matrices es la siguiente:

con m=min(k,r) n=max(j,s) 9. UNA SECUENCIA PARTICULAR DE PROYECTORES ORTOGONALES Sea AjεRnxj/j=1, 2,....k una secuencia de matrices de n líneas y j columnas LIN, j = 1, 2,....k, donde las matrices Aj-1 son submatrices de las matrices Aj.

Qk = Q1 + (Q2-Q1) + (Q3-Q2) +....(Qk - Qk-1) = P10 + P21 + P32 + .....Pkk-1

Cada proyector Pjj-1 está asociado al subespacio vectorial:

Sean S(Aj) y Qj, j = 1, 2,...k, los espacios generados por las matrices Aj y sus proyectores ortogonales respectivos.

Se verifica que:

)A S( )A..S(.... )A S( )AS( k1-k21 ⊂⊂⊂⊂

Para cualquier k inferior o igual a n se tiene:

La descomposición precedente se encuentra a la base de la explicación de la descomposición de la varianza de la regresión de los modelos lineales.

)A(S )A S(= )A S(- )AS( 1-jc

j1-jj ∩

Page 208: 1992 descripcion e inferencia lineal en estadistica

208

Para facilitar la notación, en lo sucesivo se suprimirá el segundo sub-índice en las matrices P (la matriz Pjj-1 se escribirá Pj).

iv. QkPj = Pj, luego, Qk - Pj = Qk(I-Pj) = (I-Pj)Qk

Y a la descomposición precedente de Qk le corresponde a la siguiente suma directa:

S(Ak)=S(A1)+S(A2)-S(A1)+S(A3)-S(A2)+...+ S(Ak)-S(Ak-1)

Las propiedades siguientes resultan de las mencionadas anteriormente para los proyectores y

este tipo de matrices:

i. PiPj = PjPi = [0] si i ≠ j

ii. La suma de cualquier número de estos proyectores es un proyector ortogonal.

iii. Luego el rango de la suma de éstos proyectores es igual a la suma de sus rangos.

En efecto:

Sea D = PA - A y D'D = A'A - A'PA, pero: A'PA = A'A(A'A)-A'A = A'A (usando la definición de A'A)-, luego,

10. OTRAS PROPIEDADES DE LOS PROYECTORES

a. Si P = A(A'A)-A' , se tiene PA = A

D'D = 0, lo que implica PA = A

Page 209: 1992 descripcion e inferencia lineal en estadistica

209

b. BD-D = B si la matriz B pertenece al espacio vectorial generado por las columnas de D'. En efecto:

Sea H = D-D y H' = D'(D-)', luego H'D = D'. Si B' pertenece a S(D'),

Pre-multiplicando y post-multiplicando P por A'B y A, respectivamente, se obtiene: A'BPA = (A'BA)(A'ABA)-(A'BA) = (A'BA)

Con X = VA y R un proyector ortogonal sobre S(X) (R=X(X'X)-X'=VPV-1). Puesto que (I-R) es también un proyector ortogonal (matriz simétrica e idempotente), la expresión anterior es posible sólo si:

(R-I)X =[0]

De donde:

entonces existe una matriz T tal que B'= D'T, de donde, H'B' = H'D'T = D'T = B' y BH = B

Obsérvese que H = D-D = D-DD-D = H2 es un proyector sobre S(A').

c. Sea P = A(A'BA)-A'B con B una matriz definida positiva. Se demuestra que PA = A; en efecto:

De donde: A'(BP -B)A = [0]

Esta igualdad implica PA = A; para mostrarlo, se recordará que existe una matriz cuadrada V de rango máximo tal que B = V'V y se observará que la expresión precedente puede escribirse en la forma:

X'(R-I)X = [0]

Reemplazando R por VPV-1 y X por VA, se tiene:

(VPV-1 - I)VA = [0]

VPA = VA Y, puesto que V es inversible, se tiene finalmente: PA = A

Page 210: 1992 descripcion e inferencia lineal en estadistica

11. DESCOMPOSICIÓN DE LA VARIANZA EN EL MARCO DE LOS MODELOS DE "ANÁLISIS

DE LA VARIANZA" CORRIENTES EN LOS DISEÑOS DE EXPERIMENTOS Considérese, nuevamente el modelo lineal singular: Y = Ap + U

210

Y, por otra:

Q = Q1 + (Q2-Q1) + (Q3-Q2) +....(Q - Qr-1)

Donde A es una nxm matriz de rango r<m<n y U un vector N([0], σ²).

Como en cualquier otro modelo lineal, cada columna aj de la matriz A tiene una interpretación específica, representando, en este caso, la influencia o impacto de un factor fj. Pero, puesto que el rango de la matriz A es r<m, se tiene que entre los m efectos fj, j=1,2,..m, existen sólo r efectos independientes. En la mayor parte de los problemas prácticos existen criterios suficientes para determinar un juego de r vectores LIN en el espacio vectorial S(A) generado por las m columnas de la matriz A, de tal manera que este espacio pueda descomponerse como la suma directa de los subespacios generados por estos r vectores LIN:

S(A) = S1 + S2 + ....Sr

Como una alternativa a la imposibilidad de determinar, en forma única, un estimador π para el vector de parámetros p, se puede plantear la medición de los impactos sobre la varianza del vector Y de las varianzas de los factores fj*, j=1,2,..r, asociados a los vectores de la base escogida en S(A). Para ello, se necesita aislar los impactos de estos factores sobre la varianza de Y.

Una posibilidad para ello, es precisamente, la descomposición del proyector Q=A(A'A)-A' explicada en la sección 9. En lo sucesivo, se supondrá que Q[1] = [0], es decir, que los vectores del espacio vectorial generado por las columnas de Q tienen media igual a cero, Esto puede obtenerse reemplazando Q por QH, suponiendo que la matriz A contenga al vector [1] y con H = I-[1][1]'/n. Obsérvese que este supuesto implica QH=HQ=Q=HQH Para descomponer la varianza del vector Y, recuérdese que se tiene, por una parte, que: H = HQH + (H-HQH)

= P10 + P21 + P32 + .....Prr-1

Donde los proyectores Qj están asociados a los espacios vectoriales S(Aj) j-1,2,..r construidos con j de los r vectores LIN escogidos para hacer parte de una base de S(A).

Page 211: 1992 descripcion e inferencia lineal en estadistica

211

Como se vio anteriormente, a la descomposición precedente de Q le corresponde la siguiente suma directa:

S(A)=S(A1)+S(A2)-S(A1)+S(A3)-S(A2)+...+ S(Ar)-S(Ar-1)

En lo sucesivo la matriz Pjj-1 se escribirá Pj. Obsérvese que se tiene la siguiente descomposición ortogonal de la varianza del vector Y:

Y'HY = Y'HQHY + Y'(I-Q)Y Siendo Y'HQHY la varianza del vector Y explicada por el conjunto de factores implícitos en la matriz A. Se la denomina varianza de la regresión o suma de cuadrados de la regresión, puesto que es igual a la varianza de la proyección Y del vector Y sobre el espacio vectorial generado por las columnas de la matriz A.

ˆ

Utilizando la descomposición del vector Q, esta varianza, a su vez, puede descomponerse en r-1 varianzas asociadas a cada uno de los factores fi*:

Y'HQHY = Y'P2Y + Y'P3Y +....+ Y'PrY Suponiendo que el primer vector de la base escogida sea [1]. Esta descomposición dá lugar a la siguiente tabla de análisis de la varianza:

TABLA DE ANÁLISIS DE LA VARIANZA

ORIGEN DE LA

VARIACIÓN

SUMA DE CUADRADOS

GRADOS DE LIBERTAD

f2* Y'P2Y 1 f3* Y'P3Y 1 ... ..... . ... ..... . fr* Y"PrY 1

SSR Y"HQHY r-1 SSE Y'(I-Q)Y n-r SST Y'HY n-1

Page 212: 1992 descripcion e inferencia lineal en estadistica

212

Luego, la descomposición anterior de la varianza sirve para docimar las hipótesis de efectos nulos de los factores fi*, aislados o en grupo, sobre las variaciones del vector endógeno Y.

Tratándose de una descomposición ortogonal de la varianza, bajo la hipótesis de un efecto nulo del factor fj*, las variables Y'PjY/σ² son chi-cuadrado independientes con 1 grado de libertad. La suma de k de estas variables, es una variable chi-cuadrado con k grados de libertad. Estas variables son también independientes en relación a la variable Y'(I-Q)Y/σ², la cual es una variable chi-cuadrado con n-r grados de libertad.

Page 213: 1992 descripcion e inferencia lineal en estadistica

213

A. UNA CLASE PARTICULAR DE INVERSOS GENERALIZADOS

ANEXOS DE LA PARTE C

En el presente anexo se presentará y demostrará una clase particular de inversos generalizados de gran utilidad para la resolución de problemas de regresión lineal con restricciones lineales sobre los parámetros. Inicialmente fue sugerida por Rao (1965), habiendo recibido la atención posterior de John P.W. (1971), Seegrist (1973), entre otros. 1. PRESENTACIÓN

Sean D y F dos matrices mxm de rango inferior a m y sea G=D+F. El inverso de la matriz G es un inverso generalizado (o g-inverso) de las matrices D y F simultáneamente así:

i. rango (D+F) = m ii. rango (D | F) = m iii. rango (D)+rango(F) = m

Rao (1973, p. 34) presenta este mismo resultado aproximadamente en los términos siguientes:

Sean A una matriz nxm de rango r y B una matriz sxm de rango m-r tales que los espacios vectoriales que generan sus líneas en Rm no tienen elementos en común. El inverso de la mxm matriz (A'A+B'B) es un g-inverso de la matriz A'A Obsérvese que las condiciones que contiene el enunciado de Rao son:

rango (A'|B') = rango (A') + rango (B') = m lo que implica: rango (A'A + B'B) = m Obviamente que ambas presentaciones son idénticas con D = A'A y F = B'B, pero la presentación con matrices D y F cualesquiera parece ser más general. Obsérvese que Rao no explícita que el inverso de (A'A + B'B) es también un g-inverso de B'B, quizás, por que es obvio.

Page 214: 1992 descripcion e inferencia lineal en estadistica

2. ALGUNAS CONSECUENCIAS Si la matriz G = D + F reúne las condiciones para que su inverso sea un g-inverso de D o F, se tiene:

214

Obsérvese que W = I - V y W* = I - V*; si F y D son simétricas:

a. Necesidad

Con: Entonces:

C1 V* = G-1F Dv* = 0 C2 V = FG-1 VD = 0

C3. W* = G-1D FW*= 0 C4. W = DG-1 WF = 0 Cada uno de estos cuatro resultados implica que el inverso de G es un g-inverso de D y F, a la sola condición de que exista.

C5. V2 = V (*)2 = V* W2 = W (W*)2 = W*

V* = V' y W* = W' Se demuestra estos resultados utilizando las dos relaciones siguientes:

G-1(D+F) = I de donde G-1D = I - G-1F

(D+F)G-1 de donde DG-1 = I - FG-1

3. DEMOSTRACIÓN

Si el inverso de G = D + F es un g-inverso de D y F, entonces:

i. G-1 existe, lo que necesita que rango (D + F) = m

Page 215: 1992 descripcion e inferencia lineal en estadistica

215

G = (F|D *

La expresión anterior implica que los rangos de las dos matrices a la derecha de la igualdad (con m líneas y 2m columnas) tenga que ser igual al de la matriz G, es decir, a m. En particular:

rango (V*) = rango (F) Y, por otra, la relación DV* = 0 implica:

b. Suficiencia

La condición es rango (D|F) = m y rango (D) + rango (F) = m significan que en las matrices D y F existen r y m-r vectores LIN, respectivamente, siendo ambos conjuntos de vectores mutuamente independientes.

D = (D1|D2) con rango (D) = rango (D1) = r

F1 = F2X

ii. G = D + F puede escribirse G = DG-1 + FG-1 = DW* + FV* de donde:

) W V*

rango (F|D) = rango (G) = m iii. De C1, se concluye, por una parte que:

rango (V*) inferior o igual a (m - rango D)

Este resultado es compatible con el de ii. sólo si se realiza la igualdad en esta última expresión.

Suponiendo que las r primeras columnas de D y las m-r últimas de F sean LIN y mutuamente independientes, se tiene:

F = (F1|F2) rango (F) = rango (F2) = n-r

Con D1 y F1 matrices mxr y D2 y F2 matrices mx(m-r). Existen una rx(m-r) matriz Y y una (m-r)xr matriz X tales que:

D2 = D1Y

Page 216: 1992 descripcion e inferencia lineal en estadistica

216

Sea C = (D1|F2), matriz que supondremos de rango máximo. Se demuestra fácilmente que:

X O

DG-1 = D(I + A)C-1D

De la relación: G = D + F = C(I+A) se deduce: C-1D = -C-1F + (I+A)

Reemplazando en la expresión anterior se obtiene:

DG-1D = D(I+A)(-C-1F + (I+A)) = D - D(I+A)-1C-1F = D - D1(I|Y)(I+A)-1C-1F

O O

X I

I-Y(I-XY)-1X -Y(I-XY)-1

O Y G = C(I+A) con A =

La condición de que m sea el rango de G implicas que el rango de la mxm matriz I+A es también igual a m, luego, que es inversible.

A continuación, se mostrará que bajo estas condiciones se cumple

DG-1 = D

Se demuestra fácilmente que la matriz H = (I|Y)(I+A)-1C-1F es igual a la matriz cero.

Para ello, son útiles los resultados siguientes:

C-1F = (D1|F2)-1(F2X|F2) =

(I+A)-1 = -X(I-XY)-1 (I-XY)-1

C.Q.F.D

Page 217: 1992 descripcion e inferencia lineal en estadistica

217

Bibliografía

John P.W. (1971), Statistical design and analyses of experiments, The Macmillan Co, New York. Rao C.R. (1973), Linear Statistical Inference and its application, Wiley, 2a edición.

Consideremos el sistema siguiente de ecuaciones lineales:

(1) Dx = a

Consideremos el sistema:

obtenido sumando los subsistemas (1) y (2).

2. COMPROBACIÓN

i. WD = D ii. WF = [0] iii. VF = F iv. VD = [0]

Seegrist D. (1973), Least Squares Analysis of Experimental Design Models by Augmenting the Data with Side Conditions, Technometrics, Vol. 15, No. 3, agosto.

B. SOBRE UNA CLASE PARTICULAR DE SOLUCIONES A UN SISTEMA DE ECUACIONES LINEALES

1. PRESENTACIÓN Sean D y F dos matrices de mxm, de rangos r y m-r respectivamente, reuniendo las condiciones necesarias (cf. anexo 30.1) para que el inverso de la matriz G = F+D sea un inverso generalizado (o g-inverso) de D y F.

(2) Fx = b

Donde x, a, b, son vectores de Rm; a y b son vectores conocidos; los dos sistemas juntos tienen 2m ecuaciones de las cuales sólo m son linealmente independientes; luego a las m desconocidas del vector x se determinan en forma unívoca.

(3) Gx = (a+b) con G = D + F

Se quiere comprobar que la solución al sistema 3, es decir, x=G-1(a+b) verifica las ecuaciones establecidas en los subsistemas (1) y (2).

Las matrices W = DG-1 V = FG-1 verifican:

Page 218: 1992 descripcion e inferencia lineal en estadistica

218

a. Pre-multiplicado (1) por W y V, en forma independiente:

Dx = Wa = a

Dx = a Fx = b

Consideremos el siguiente sistema de ecuaciones lineales:

(2) Bx = b Sea D=A'A y F=B'B; el vector x = (D+F)-1(A'a+B'b) es la solución:

i. A los dos subsistemas, si entre ambos conforman un sistema de ecuaciones consistente, ii. Es la solución de mínimos cuadrados, si (1) y (2) conforman un sistema inconsistente de

ecuaciones.

Es decir: A'(Ax-a) = [0] y B'(Bx-b) = [0]

y, también, (A|B)'( A x - a ) = [0]

Obsérvese que (D+f)-1(A'|B') es el inverso generalizado de Penrose de la matriz (A'|B')'

C.Q.F.D.

WDx = Wa VDx = Va = [0]

b. Pre-multiplicando (2) por W y V, en forma independiente: WFx = Wb = [0] VFx = Fb Fx = Fb = b c. Pre-multiplicando (3) por W y V, en forma independiente:

W(D+F)x = W(a+b) V(D+F)x = V(a+b)

(WD + WF)x = Wa + Wb (VD+VF)x = Va+Vb

3. EXTENSIÓN

Sea A y B matrices nxm y sxm de rangos r y m-r respectivamente, cumpliendo la condición r (A'|B')=m

(1) Ax = a

B b

Page 219: 1992 descripcion e inferencia lineal en estadistica

219

ELEMENTOS DE

PARTE D.

ANALISIS MULTIVARIANTE

Page 220: 1992 descripcion e inferencia lineal en estadistica

CAPITULO XIX. ANÁLISIS FACTORIAL

220

1. PLANTEAMIENTO DEL PROBLEMA

Con el nombre de análisis factorial se conoce en estadística técnicas de naturaleza y contenido muy diferentes. Lo mismo ocurre con el denominado análisis en componentes principales. La dispersión de conceptos está asociada al hecho de que ambas expresiones han sido desarrolladas independientemente en dominios diferentes (psicología, sociología, economía, matemáticas) acorde con las necesidades de cada ciencia. Dentro de estas técnicas, existe, por otra parte, vastos vocabularios que, en ciertos casos, identifican el mismo objeto.

Los p vectores Xj conforman una nube de puntos en Rn, mientras que los n vectores Zj lo hacen en Rp.

En uno de sus enfoques, el análisis factorial intenta poner en evidencia algunas características básicas de la disposición de estos puntos en el espacio.

En particular, se busca: a. comparar las varianzas de los vectores entre sí, que como se vio en el capítulo IV, son

múltiplos de las distancias euclidianas al origen cuando los vectores están centrados a sus medias.

Otro de los enfoques del análisis factorial, semejante al primero, pero con algunas ventajas adicionales es determinar un subespacio vectorial de dimensión inferior a n o p, de manera a que las proyecciones ortogonales de los puntos Xj o Zi en este espacio conserven de la manera más fidedigna posible las características antes mencionadas de la nube de puntos.

Considérese una matriz X de n líneas y p columnas. Las n líneas de esta matriz serán identificadas con los px1 vectores Zi', y sus p columnas con los nx1 vectores Xi.

Se supone que la matriz X es una matriz de observaciones, por ejemplo, que cada una de sus p columnas Xj , j=1,2,..p, contiene n observaciones de una variable χj y que cada una de sus líneas contiene las p variables observadas en la unidad de observación ui.

Demás está decirlo que la disposición por líneas o por columnas de variables y de unidades de observación es completamente arbitraria.

b. Se busca comparar las correlaciones de 2 en 2, las que, como se vio en el capítulo IV, son

iguales a los cosenos entre vectores. c. Se busca identificar un panorama global sobre el grado de dispersión de la nube de puntos.

¡ Pero, una nube de puntos en Rn o Rp cuando n o p es grande es algo muy difícil de imaginar!. Inmediatamente surge la idea de proyectar esa nube en un espacio vectorial de dimensión menor, incluso, con una dimensión que permita una apreciación "visual" de la nube de puntos.

Page 221: 1992 descripcion e inferencia lineal en estadistica

2. NOCION DE INERCIA DE UNA NUBE DE PUNTOS

221

Se definirá la distancia entre dos nubes de puntos X=X1, X2,..Xn e Y = Y1, Y2,..Yn como la distancia euclidiana entre las matrices X,Y.

La dispersión total de una nube de puntos, denominada "inercia" en la terminología del Análisis de Datos, es un escalar igual al promedio de las distancias euclidianas de 2 vectores columna o de 2 vectores línea de la matriz de datos.

Explícitamente:

) n.Traza( =

X-Xp21 = )X,...X,X(I

xx

2ji

p

j=1

p

=1i2p21

2

Σ

∑∑ __

Con gran frecuencia, se considera que los vectores Xj o Zi han sido centrados previamente a sus medias antes de iniciar el análisis, de tal manera que, en lo que sigue, se aceptará que Σxx = X'X/n, y, también, Σzz = XX'/p

Es importante recordar que para cualquier matriz W, se tiene Traza(WW')=Traza(W'W), lo que implica nTraza(Σxx) = pTraza(Σzz), poniendo de manifiesto que la inercia de la nube de puntos Xj es la misma que la inercia de la nube de puntos Zi Obsérvese en la expresión precedente, que la inercia de una nube de puntos, definida como la distancia media entre éstos, es un múltiplo de la traza de la matriz de varianzas y covarianzas de éstos.

Explícitamente:

)2-+n.Traza( =

Y-X

YXdist = Y)(X,dist

xyyyxx

2ii

p

1=i

ii2

p

1=i

2

=

),(

ΣΣΣ

__

Page 222: 1992 descripcion e inferencia lineal en estadistica

El problema que plantea el primer enfoque propuesto del Análisis Factorial consiste en una doble operación de optimización:

222

Encontrar un subespacio vectorial de dimensión d < n en Rn tal que en este subespacio

nube de puntos X sea mínima en relación a todos las nubes de puntos en este sub-espacio

dimensión d en Rn.

vectorial exista una nube de puntos Y (es decir, p vectores Yj) tal que su distancia con la

y con relación a todas las nubes de puntos EN CUALQUIER OTRO subespacio vectorial de

La dimensión d está dada a priori.

Las explicaciones siguientes se centran en la nube de puntos X, pero, se reitera que el razonamiento es absolutamente similar para el análisis de la nube de puntos Z. Para resolver el problema planteado en el recuadro, en primer lugar cabe recordar que la distancia más pequeña de un punto a un espacio vectorial es la distancia ortogonal:

Dist²(X,Y) =

En efecto, considérese el desarrollo siguiente (6) :

2YX − =

2ˆˆ YYYX −+− = 2

YX − +2ˆ YY − ≥ Dist²(X- )

Para toda matriz tal que: Traza[(Y ] = 0, que es la condición de ortogonalidad vista en el capítulo IX.

Con ε E, la matriz puede expresarse en la forma =QX, de donde:

Dist²(X, ) =

Y

Y - Y )'Y

La relación precedente muestra que una matriz Y que verifica la condición de ortogonalidad es la matriz más próxima de un subespacio vectorial a la matriz de observaciones X.

ˆ

Sea Q un proyector ortogonal en un subespacio vectorial E, aún no definido, de dimensión d<p en Rn. Recuérdese que puesto que los valores propios de un proyector son ceros o unos, ésta puede expresarse en la forma Q = GG' donde G es una matriz con n líneas y d vectores ortonormados.

Y Y Y

Y2

YX − = 22 YX − =

22 QXX −

El segundo problema de optimización consiste en determinar Q tal que la distancia entre Z y QZ sea la más pequeña posible entre todas las matrices Q simétricas, idempotentes de rango igual a d.

6) Ver también el Capítulo VIII

Page 223: 1992 descripcion e inferencia lineal en estadistica

223

Este problema es equivalente al de identificar un espacio vectorial de dimensión d en Rn tal que permita la mejor aproximación posible de la nube de puntos X en el sentido de la distancia euclidiana.

Considérese la siguiente función de Q:

g(Q) = dist²(X,Y) = ( 22 QXX − )= (

22 ' XGGX − ) g(Q) = Traza(XX') - Traza(G'XX'G)

g(Q)/n = Traza(Λ)-Traza (TΛT') ≥ (λ1+λ2 +...λp) - (λ1+λ2+..λd)

Donde XX' es un múltiplo de la matriz de segundos momentos, ó matriz de varianzas covarianzas si las observaciones están centradas, de las n líneas Zj . Sea XX'/n = VΛV', la descomposición espectral de esta matriz. Reemplazando en la expresión precedente, se tiene:

g(Q) = n.Traza(VΛV') - n.Traza(G'VΛV'G)

Obsérvese que la dxn matriz T=G'V tiene líneas ortonormadas, es decir, que TT'=I. Luego, teniendo en cuenta los desarrollos del Capítulo VIII, se tiene que:

Dándose la igualdad, es decir, el óptimo, sólo si la matriz T tiene la estructura siguiente:

T = [ Id | [0] ]

Para que T pueda tener esta estructura, es evidente que las d columnas de la matriz G tienen que ser iguales a los d primeros vectores propios de la matriz XX'/n.

Page 224: 1992 descripcion e inferencia lineal en estadistica

224

De donde, la solución al problema planteado puede resumirse como sigue:

El espacio vectorial buscado E es aquel generado por los d primeros vectores propios de la matriz XX'/n.

La nube de puntos en E más próxima en el sentido de la distancia euclidiana a la matriz de observaciones X está contenida en los vectores columna de la matriz Y =GG'X

Un indicador de la calidad con que la nube de puntos en E reproduce las principales características de la nube de puntos X está dada por:

r= (λ1 + λ2 +..λd)/(λ1+λ2 +..λd +...λp)

o como un coeficiente de correlación múltiple.

La distancia entre ambas nubes de puntos está dada por:

p.(λd+1 + λd+2 + ..λp)

que se interpreta como el porcentaje de la inercia de X explicada por su proyección en E

Con d=2, en muchos casos, la representación sobre el plano de las principales características de la nube de puntos, dadas por varianzas y correlaciones, con el soporte de la matriz de varianzas y covarianzas de la proyección de X sobre E, permite una excelente visualización de las características de la nube original de puntos. Sea Σ la matriz de varianzas covarianzas de la proyección de X en E, con d=2, se tiene:

Sea σij el elemento de la línea i y de la columna j de esta matriz. Obsérvese que cada σij puede escribirse en la forma: σij = ai'aj i,j = 1,2,..p

ai' = [ λ1Vi1 | λ2Vi2 ]

VV+VV= 222111 ′′Σ λλ

Donde los ai son vectores en R2 definidos de la siguiente manera:

Estos vectores pueden representarse como puntos en un sistema de ejes ortogonales en una hoja de papel. La distancia de estos puntos al origen representa la varianza y el coseno del ángulo entre dos puntos representa su correlación.

Page 225: 1992 descripcion e inferencia lineal en estadistica

225

Xj = Bαj + εj j=1,2,..p

Donde B es una nxd matriz conteniendo n observaciones de d variables

3. EL MODELO DE MINIMOS CUADRADOS

El segundo enfoque explicado en la sección 1 es complementario al primero: él explícita las regresiones lineales implícitas en las regresiones precedentes con el objetivo de poner en evidencia algunas características del espacio vectorial E y, eventualmente, de dar una interpretación a los vectores de alguna de sus bases, según el problema tratado, en el sentido en que se daría a las variables explicativas de un modelo de regresión lineal múltiple.

En lo que sigue, las explicaciones estarán centradas en el análisis por columnas de la matriz X; como en la sección precedente, se puede observar que se puede realizar el mismo tipo de análisis para las líneas de esta matriz.

Considérese el modelo lineal siguiente:

βk, k=1,2,..d, desconocidas, denominadas "FACTORES" ó, también, "VARIABLES LATENTES".

X = BΑ + ε Donde A es una dxp matriz conteniendo los vectores αj con los coeficientes de regresión y ε una nxp con los vectores de errores de regresión.

Obsérvese que en este modelo, se supone que todos los vectores de observaciones Xj pueden ser explicados por combinaciones lineales de un mismo conjunto de vectores Bk, k=1,2,..d. Los vectores ej ("errores de regresión") absorben las variaciones de los vectores Xj que no pueden ser explicados por los vectores Bk.

El modelo anterior puede escribirse simultáneamente para los p vectores Xj de la siguiente manera:

Page 226: 1992 descripcion e inferencia lineal en estadistica

226

- de determinar el "mejor" espacio vectorial de dimensión d en Rn, lo que equivale a

determinar la matriz B; es decir, entre todos los subespacios vectoriales de dimensión

la matriz X, es decir, la proyección ortogonal de X en el espacio engendrado por los

Como en la sección precedente, se trata:

d en Rn, se retendrá aquel que permita realizar la mejor proyección de X, en el sentido en que la norma de los errores de proyección sea mínima, y.

- dentro de este espacio vectorial, se determinará la matriz BA la más próxima posible a

vectores columna de la matriz B.

Suponiendo, en primera instancia, conocida la matriz B de factores, el estimador de mínimos cuadrados de la matriz A está dado por:

Sea W la proyección de X sobre E, es decir,

La distancia entre X y su proyección será:

Ae = (B'B)-1B'X

W = BAe = [B(B'B)-1B']X = QX

Donde la matriz Q = B(B'B)-1B' es un proyector ortogonal en E (de rango d).

dist²(X,W) = 2WX − = Traza(XX') - Traza(QXX'Q)

Como en la sección precedente, esta última relación puede ser considerada como una función de Q ó de sus vectores propios G:

f(G) = Traza(XX') - Traza(G'XX'G), con Q = GG'

Retomando las demostraciones de la sección anterior, resulta que f(G) alcanza su mínimo cuando los d vectores de la matriz G son iguales a los d primeros vectores propios Vj de la matriz XX'/n.

Page 227: 1992 descripcion e inferencia lineal en estadistica

227

Bπ = Gπ

Obsérvese, también, que si µ es un escalar cualquiera, diferente de cero, B=µGπ es también una solución posible

Obsérvese que la elección arbitraria de µ,π no hace cambiar la proyección QX = BA = µGπ([1/µ]πG'X) = GG'X y que este vector tiene como la siguiente norma:

Luego, el espacio vectorial buscado E es el generado por los d primeros vectores propios Vj de XX'/n

Obsérvese, sin embargo, que la matriz B de factores, no está definida de manera única. Cualquier conjunto de d vectores en Rn que constituya una base para el espacio vectorial E=xεRn/ x=Gz,para todo z en Rd constituye una solución posible para la matriz de factores B. Por ejemplo, para toda dxd matriz ortonormada π, las matrices:

constituyen, todas ellas, soluciones óptimas al problema planteado.

El subespacio vectorial E solución a este problema es único, así como la proyección ortogonal QX de la matriz X en este espacio. Para comprender la multicidad de soluciones para B, recuérdese que todo espacio vectorial puede tener una infinidad de bases diferentes y que todas ellas, obviamente, permiten la representación de los vectores de la matriz QX como combinaciones lineales de sus componentes. Con B=µGπ, la matriz A puede expresarse de la siguiente manera:

A = (µπ'G'Gπµ)-1µπG'X =(1/µ)πG'X

2QX = Traza(GG'XX'GG') = Traza(nG'(XX'/n)G) =n.(λ1+λ2+...λd)

Independientemente de la elección de la matriz π, la elección de la constante µ como siendo igual a √n permite una presentación adecuada de la descomposición de las varianzas asociadas a estas regresiones.

Por convención µ=√p, si π=I, se tiene, entonces:

B = √nG A = (1/√n)G'X

Page 228: 1992 descripcion e inferencia lineal en estadistica

228

ai' = (1/√n)gi'X

Estandardizando las líneas de la matriz A por sus normas respectivas (matriz Λ-½A), sus coeficientes reciben el nombre de "component loading" y la matriz A es conocida como "factor structure" ó "factor pattern".

Cuando los vectores Xj han sido normalizados al inicio del análisis, es decir, cuando tienen media 0 y varianza 1, los coeficientes de regresión αkj se intepretan como los COEFICIENTES DE CORRELACIÓN ENTRE LAS VARIABLES ≥J Y LOS FACTORES ΒK.

Por otra parte, la suma de cuadrados de la regresión de la variable χj está dada por la suma de los cuadrados de los elementos de la columna j de la matriz A multiplicada por n:

Cada px1 vector línea ai', i=1,2,..d, de la matriz de coeficientes de regresión A recibe el nombre de I-IÉSIMA COMPONENTE PRINCIPAL :

La norma de cada uno de estos vectores es igual al i-ésimo valor propio de la matriz Σzz. Las componentes principales son ortogonales entre sí, es decir, se cumple ai'aj=0

Con B alguna base ortonormada para E, considérese nuevamente el modelo lineal:

εααα jddj22j11jj +B...++B+B=X

Obsérvese que para todo k=1,2,..d y todo j=1,2,..p, se tiene:

αkj = (1/√n)gk'Xj

Obsérvese que la suma de los elementos de la matriz A que se encuentran sobre una linea i es igual al valor propio λi de la matriz de varianzas covarianzas Σxx:

jkkj XB '=α

)...++n.(=aan.=QX=SSR 2dj

22j

21jjjjj ααα′

Page 229: 1992 descripcion e inferencia lineal en estadistica

229

En algunas ciencias (i.e. psicología) se explota la presencia de algunos coeficientes de correlación elevados para asociar los factores respectivos con las variables con las que muestran alta correlación. La asociación va, incluso, a la asimilación, permitiendo de esa manera dar interpretaciones concretas a los factores o variables latentes.

Variables

Poniendo de relieve la importancia del valor de estos coeficientes en la calidad de la estimación.

Ese tipo de ejercicio es un arte, no siempre fácil de ser desarrollado... Con frecuencia, exige la inspección de diferentes bases B del espacio vectorial A.

El siguiente cuadro de análisis de la varianza permite tener una perspectiva global de los problemas tratados en esta sección: TABLA DE ANALISIS DE LA VARIANZA

Componentes Principales χ1 χ2 .. .......χp

Varianza total

A1 α11² α12².. ....α1p² λ1

A2 α21² α22².. ....α2p² λ2

. . .

. . . Ad αd1² αd2².. .... αdp² λd

SSR/n Σαi1² Σαi2²......Σαip² λ1+λ2+...λd

SSE/n 222

21 peee K λd+1+λd+2+...λp

SST/n Traza (Σxx) 222

21 pxxx K

4. LA DUALIDAD DE LOS ANALISIS POR LINEAS Y POR COLUMNAS DE UNA MATRIZ DE OBSERVACIONES

Los análisis factoriales de la matriz X por columnas y por líneas no se encuentran completamente en paralelo como podría pensarse a primera vista, por el contrario, tienen muchos puntos en común.

Considérese, nuevamente, una nxp matriz de observaciones X, de rango igual a r, cuyos vectores columna serán denominados Xj y sus vectores línea Zi, y considérese la siguiente descomposición singular de X/√n: X/√n = GSD'

Dónde, como es sabido, los r vectores columna de la nxr matriz G son ortonormados así como los r vectores columna de la pxr matriz D. La matriz S es diagonal.

Page 230: 1992 descripcion e inferencia lineal en estadistica

Obsérvese que:

Σxx = X'X/n = DS²D' Σzz = XX'/n = GS²G'

230

Análisis

Donde los elementos si²de la matriz S²son iguales a los valores propios no nulos λi de las matrices Σxx y Σzz. Las matrices D y G contienen los vectores propios de cada una de estas matrices.

Nótese que, en consecuencia: a. Las nubes de puntos X1, X2,..Xp y Z1, Z2,..Zn tienen la misma inercia b. Las distancias de estas nubes de puntos a sus proyecciones respectivas en el sentido de los

desarrollos precedentes es también idéntica. Luego, también es idéntico el coeficiente de correlación múltiple. Este punto y el anterior implican que las últimas columnas de las tablas de análisis de varianza, en su formato presentado anteriormente, serán idénticas en los análisis por líneas y por columnas.

Análisis c. Items por columnas por líneas

i. Factores D=√n[d1,....dd] G =√n[g1,...gd]

ii. Componentes Principales

di'X/√n gi'X/√n

iii. Coeficientes de regresión y de correlación

(1/√n)D'X' = SG' (1/√n)G'X = SD'

iv. Component loading

G√n D√n

Page 231: 1992 descripcion e inferencia lineal en estadistica

231

CAPÍTULO XX. ANÁLISIS EN CORRELACIONES CANÓNICAS

1. EL MARCO GENERAL DEL CONCEPTO DE CORRELACION EN ESTADÍSTICA

a. Correlación como medida de dependencia lineal.

La idea de correlación estadística aparece, desde el punto de vista del álgebra lineal, como una medida de dependencia lineal en diferentes contextos.

El grado de dependencia lineal entre 2 vectores X, Y puede ser detectado a través del coseno del ángulo que conforman con el origen. Cómo se mostró en el capítulo IV, el coseno que forman los vectores X,Y con el origen se expresa como X'Y/

( YX ) La dependencia lineal entre un vector Y y un espacio vectorial H puede ser medida, por similitud con el caso anterior, por el coseno del ángulo más pequeño que pueda formar algún vector en H con Y.

b. El coeficiente de correlación Lineal Simple

En el mismo marco conceptual, la dependencia lineal entre 2 espacios vectoriales H y G puede ser medida por el coseno del ángulo más pequeño que sea posible encontrar entre algún vector de H y algún otro de G.

Cuando los vectores son centrados a sus medias, el primer caso da lugar al concepto de correlación simple en estadística, el segundo caso, al de correlación múltiple o coeficiente de determinación y el tercero al de correlación canónica.

En una medida de "dependencia lineal" de dos vectores de media cero. Corresponde al coseno del ángulo que dos vectores forman con el origen. Toma el valor de 1 cuando la dependencia es máxima, es decir, cuando uno de los vectores es proporcional al otro (Y =αX) y toma el valor cero cuando la dependencia es mínima, es decir, cuando son ortogonales (X'Y = 0).

Page 232: 1992 descripcion e inferencia lineal en estadistica

Y

X

Cos = 1

Correlaciónlineal =1

Y

Cos = -1

Correlaciónlineal =-1

X

Y

Cos = 0

Correlaciónlineal =0

X

232

Page 233: 1992 descripcion e inferencia lineal en estadistica

233

Si X,Y son dos vectores no centrados, su coeficiente de correlación se define en relación a

sus medias mx, my:

ρ(X,Y) = [(X-mx[1])'(Y-my[1])]/ [ [ ] [ ]11 yx mYmX −− ]

c. Correlación Múltiple

CON EL SUBESPACIO VECTORIAL S(A)

Y

Es una medida de dependencia lineal de un vector y con un espacio vectorial H generado por un conjunto de vectores X1, X2,..,Xm".

INDEPENDENCIA LINEAL DE UN VECTOR Y

Y e 0 α Y =ˆ QY

QY S(X) R=Cos α

La medida estadística de dependencia lineal de Y del espacio vectorial H corresponde al coseno del más pequeño ángulo entre este vector y alguno perteneciente al espacio vectorial H.

Gráficamente, ese ángulo corresponde al que forman el vector y su proyección ortogonal en H (ver figura).

Page 234: 1992 descripcion e inferencia lineal en estadistica

234

R = ρ(_,Y)

Formalmente, el coeficiente de correlación múltiple se define de la siguiente manera:

= Máx (Z-mz[1])'(Y-my[1])]/[ [ ] [ ]( )1.1 yz mYmZ −−

ZεH

Este coeficiente se calcula fácilmente con la ayuda de los desarrollos realizados en la Parte C en lo que se refiere a la proyección ortogonal de un punto en un espacio vectorial.

Luego, obsérvese que el ángulo más pequeño que un vector Y formará con algún vector del espacio vectorial H corresponde precisamente al ángulo que forma con su proyección ortogonal en ese espacio vectorial. Luego Y = QY con Q un proyector ortogonal en H. Cuando H contiene al vector [1], el cuadrado del

coeficiente de correlación múltiple se escribe simplemente:

R² =

[ ]1YmQY − / [ ]1YmY −

y, se interpreta como el porcentaje de la varianza del vector Y explicado por su proyección en H.

X = QX + (I-Q)X El concepto de correlación parcial entre dos vectores X, Y después de haber despejado la influencia del espacio vectorial S(A) corresponde a la correlación simple de las proyecciones ortogonales de X, Y sobre el espacio vectorial Sc(A):

CORR PARCIAL (X,Y/A) = ρ((I-Q)X, (I-Q)Y)

d. Correlación parcial

Este concepto fue introducido en el Capítulo X. Si Q es un proyector en el espacio vectorial S(A), el espacio complementario Sc(A) es generado por las columnas de la matriz I-Q, luego todo vector X en Rn puede ser expresado como la suma de un vector en S(A) y otro en Sc(A):

Page 235: 1992 descripcion e inferencia lineal en estadistica

235

Es una medida de dependencia lineal entre dos conjuntos de vectores X, Y :

Sean H1, H2 los espacios vectoriales generados por ambos conjuntos de vectores.

Sean: X una nxp matriz conteniendo en sus n líneas observaciones de p variables Χj

ZεH1,WεH2 α,β

e. Correlación canónica

Como se mencionó anteriormente, la correlación canónica se define como el coseno del ángulo más pequeño que existe entre dos vectores de los espacios vectoriales H1 y H2.

Formalmente,

Y una nxq matriz conteniendo en sus n líneas observaciones de q variables εj

Y, sean H1 y H2 los espacios vectoriales generados por las columnas de X y de Y, respectivamente:

H1 = ZεRn/ Z = Xα , para todo α en Rp

H2 = WεRn/ W = Yβ , para todo β en Rq

La correlación canónica entre los conjuntos de vectores X, Y está definida de la siguiente

manera: can(X,Y) = Máx ρ(Z,W) = Máx ρ(Xα, Yβ)

Sin embargo, el concepto de correlación canónica se extiende más allá de esta definición.

2. LA BATERIA DE CORRELACIONES CANONICAS

Sean H1 y H2 los espacios vectoriales de dimensión p y q, introducidos anteriormente, generados por los vectores columnas de los matrices de observaciones X, Y.

Así como en el caso del análisis en componentes principales, se puede mostrar que se puede determinar una batería de correlaciones canónicas ordenadas en forma decreciente asociada a transformaciones ortogonales de los vectores iniciales.

Page 236: 1992 descripcion e inferencia lineal en estadistica

236

Sea Zj = Xαj y Wj = Yβj dos combinaciones líneales de los vectores columna de la matriz X y de la matriz Y, respectivamente.

Sea A una pxd matriz de rango d, conteniendo en sus columnas los vectores αj, j=1,2,..d y B una qxd matriz de igual rango cuyas columnas son los vectores βj , j=1,2,..d

La distancia entre estas nubes de puntos está dada por:

Luego, el problema puede ser reducido a su forma canónica:

Los vectores Zj y Wj forman nubes de puntos en los subespacios vectoriales H1 y H2.

B)A2-BB+AATraza(=

Y-Xn1=Z)(W,dist

Z-Wn1=Z)(W,dist

yxyyxx

2ii

d

=1i

2

2ii

d

=1i

2

Σ′Σ′Σ′

__

__

βα

El problema de la determinación de las correlaciones canónicas puede ser identificado con el de la búsqueda de 2 matrices A y B de rango d que permitan volver mínima la distancia entre las nubes de puntos en Rd.

Como puede observarse, con el propósito de evitar la solución trivial A=[0], B=[0], se necesita, además, una restricción de normalización. Generalmente ésta toma la forma:

A'ΣxxA = I B'ΣyyB = I

Con estas restricciones, la distancia precedente toma la forma simple:

B)]A-Traza[2(I=Z)(W,dist yx2 Σ′

Page 237: 1992 descripcion e inferencia lineal en estadistica

237

Las restricciones Σxx = Σyy = I a su vez implican:

αi'Σxxαj =0 , i≠j βi'Σyyβj =0 , i≠j

Obsérvese, entonces. que las vectores Zi = Xαi tienen varianza 1 y covarianza 0 al igual que los vectores Wi= Yβi por las restricciones de normalización.

ρ(Zi,Wi) = αi'Σyxβi

Posteriormente, se mostrará que la solución óptima a este problema es tal que la correlación entre Wi y Vj para i≠j es también nula.

El problema general puede ser resuelto asociándole una función de Lagrange definida de la siguiente forma:

Los vectores de derivadas parciales de L(A,B) en relación al vector αi están dado por:

I = BB = AAd = Rango(B) = rango(A)

:nesrestriccio las conB)ATraza(x M

yyxx

yxB)(A,

Σ′Σ′

Σ′

Obsérvese que la función objetivo puede escribirse como: f(A,B) = Σ (αi'Σyxβi)

αi'Σxxαi =1 , i=1,2,..p βi'Σyyβi =1 ,i=1,2,..q

Luego, la función objetivo puede expresarse como la suma de las correlaciones entre las nuevas variables Vi,Wi:

( ) ( )[ ] ( )[ ]∑ ∑ ∑= = =

−∑−−∑−∑=d

iiyyi

d

i

d

iiixxiiiyxiBAL

1 1 1

'' 1211

21, ββηααλβα

δL/δαi = Σxyβi - λiΣxxαi = [0] (1)

δL/δβi = Σxy'αi - ηiΣyyβi = [0] (2)

Page 238: 1992 descripcion e inferencia lineal en estadistica

238

Pre-multiplicando la primera de estas relaciones por el vector αi' y la segunda por el vector βi', se tiene que:

Σxx-½Σxyβi - ηiΣxx-½αi = [0] (1')

Σyy-½(Σyy+½βi) en lugar de βi

Y, denominando:

Pre-multiplicando la primera de estas relaciones por C' y utilizando (2") se tiene:

ρ(Wi,Zi) = λi = ηi = αi'Σxyβi Para resolver el sistema completo de ecuaciones se multiplicará el sistema (1) de p ecuaciones por la matriz Σxx-½ y el sistema (2) de q ecuaciones por la matriz Σyy-½

Σyy-½Σxy'αi - ηiΣyy-½βi = [0] (2')

Por otro lado, introduciendo en estas relaciones:

Σxx-½(Σxx+½αi) en lugar de αi

di = (Σxx+½αi) gi = (Σyy+½βi) (5)

Las ecuaciones (1') y (2') toman la forma:

Cdi - ηigi = [0] (1") C'gi -ηidi = [0] (2") Con C = Σxx-½ΣxyΣyy-½

C'Cdi -ηi²di = [0] (3) De igual forma: pre-multiplicando la segunda de estas relaciones por C y utilizando (1") se tiene: CC'gi -ηi²gi = [0] (4)

Page 239: 1992 descripcion e inferencia lineal en estadistica

239

El sistema (3) y el sistema (4) forman los sistemas de ecuaciones características para las matrices C'C y CC', respectivamente.

los escalares ηi² son los valores propios de ambas matrices.

αi = (Σxx

-½di) βi = (Σyy-½gi) (5')

Luego, los vectores di son los vectores propios de C'C los vectores gi son los vectores propios de CC'

Recuérdese además que los ηi²son iguales a las correlaciones entre las variables Wi, Zi. Como la

suma de estas correlaciones es igual a la función objetivo, el máximo de esta función será alcanzando reteniendo los d -primeros valores propios de las matrices C'C ó CC'.

Los vectores αi y βi buscados, componentes de las matrices A y B se deducen de la definición de los vectores di, gi como vectores propios de las matrices C'C y CC' y de la relación definitoria (5):

Obsérvese que aún si en la función de Lagrange considerada no fue tomado en cuenta explicitamente la restricción de que las correlaciones entre las variables Wi y entre las variables Vi debía ser igual a cero para respetar la condición de que las matrices de correlaciones sean iguales a la identidad, ésta condición se cumple automáticamente con la solución lograda. Más aún, los vectores Wi y Vj tienen también correlaciones nulas cuando i≠j.

I Λ² COV(XA,YB) =

Obsérvese que:

Λ² I

Se denomina al par de variables Zi, Wi, j-ésimas variables canónicas y a su correlación λj² la j-ésima correlación canónica.

Page 240: 1992 descripcion e inferencia lineal en estadistica

240

-matrices de flujos sectoriales -tablas de r observaciones temporales de m variables -tablas de contingencia -tablas de los resultados de una experiencia con factores cruzados.

CAPÍTULO XXI. ANÁLISIS EN CORRESPONDENCIAS PRINCIPALES 1. INTRODUCCIÓN

En numerosos estudios, se hace necesario resumir y relievar las principales características de una tabla rxm de números reales. En general el interés se centra en la comparación de las estructuras porcentuales por líneas y columnas y los efectos de interacción entre líneas y columnas.

Algunas tablas o matrices que generalmente necesitan ese tipo de estudio son las siguientes:

En este texto se sugiere un método para realizar dicho análisis; él se inspira en la estructura matemática del Análisis en Correspondencias Principales, aplicable a tablas de contingencia, es decir, a matrices de números enteros no negativos.

Sin embargo de que el enfoque es diferente, la mayor parte de los resultados de esa técnica pueden ser utilizados en el análisis de tablas de números reales, a condición de que las sumas de líneas y de columnas sean números no negativos. 2. PLANTEAMIENTO DEL PROBLEMA

La metodología propuesta es aplicable a cualquier rxm matriz T para la cual las estructuras porcentuales de líneas o columnas tengan significación (lo que supone, en primera instancia, que las sumas de líneas y columnas sean positivas) y que tenga sentido determinar los efectos cruzados. Puesto que el interés se centra en las estructuras porcentuales, se supondrá, sin pérdida de generalidad, que la matriz T objeto de estudio esta normalizada, en el sentido en que la suma de todos sus elementos es igual a 1.

Una segunda normalización que se considerará en lo sucesivo es la de dividir cada uno de los elementos de la matriz por el producto de las raíces cuadradas de las sumas de líneas y columnas donde éstos se encuentran.

Page 241: 1992 descripcion e inferencia lineal en estadistica

241

Formalmente:

Sea T una matriz rxm con marginales positivas y suma de todos sus elementos igual a 1.

ci,j= ti,j/(piqj)½ con ti,j los elementos de T.

Q = diag(q1,..........qm)

C'gj=sjdj (2)

En el caso en que las marginales correspondientes a una celda sean iguales, la normalización propuesta lleva a considerar el elemento correspondiente como un porcentaje relativo a la línea y a la columna simultáneamente.

Sea pi la suma de los elementos de la línea i Sea qj la suma de los elementos de la columna j Sea C la matriz normalizada asociada a T; los elementos ci,j de C son:

Matricialmente, C=P-½TQ-½ donde: P = diag(p1,...........,pr )

Para simplificar la presentación, en lo sucesivo se supondrá que r es superior o igual a m, es decir, que la tabla T tiene más o igual líneas que columnas. 3. DESCOMPOSICIÓN SINGULAR

Gran parte de los desarrollo posteriores se basan en la descomposición singular de una matriz, por lo cual es conveniente recordar brevemente este concepto. En el Capítulo VII se ha mostrado que para toda matriz rxm, por ejemplo, la matriz C, anteriormente definida, existen 2 conjuntos de vectores ortogonales (g1,...,gm) y (d1,....dm) y m números no negativos s1,...,sm tales que: C dj=sjgj j=1,2,......m (1)

Estas relaciones permiten representar la matriz C de la siguiente forma: C = s1g1d'1 + s2g2d'2....+....+ smgmd'm

Page 242: 1992 descripcion e inferencia lineal en estadistica

Esta representación de C es conocida con el nombre de descomposición singular. A los vectores gj se los denomina vectores propios a la izquierda y a los dj, vectores propios a la derecha. Los escalares sj son los valores singulares.

242

4. PROPIEDADES DE LA DESCOMPOSICIÓN SINGULAR DE C=P-½TQ-½

a. El máximo valor singular de C es inferior o igual a 1.

En efecto: Considérese la siguiente forma cuadrática:

= y'(T'P-1)(TQ-1)z con y'=x'Q-½ z= Q½x

x'C'Cx = x'[Q-½(T'P-1)(TQ-1)Q½]x

Utilizando la desigualdad de Schwartz y el hecho de que los valores propios de las matrices estocásticas T'P-1y TQ-1 son inferiores o iguales a 1, se tiene:

x'C'Cx ≤ zTQPyT 11' . −− ≤ zy .

Con x un vector cualquiera tal que x'x=1, se tiene:

b. Sea v el r-vector cuyas componentes son iguales a las raíces cuadradas de las marginales por líneas pi y w el m-vector cuyas componentes son las raíces

cuadradas de las marginales por columnas qj.

máx (x'C'Cx) ≤ max (x'Q-1 x)(x'Q-1x) ≤ 1.

Se verifica fácilmente que: Cw = v

C'v= w

Es decir, v y w verifican (1) y (2); de donde, teniendo en cuanta el resultado anterior,v y w son los vectores propios asociados al máximo valor singular. Este es, obviamente, igual a 1.

Page 243: 1992 descripcion e inferencia lineal en estadistica

c. La matriz C tiene más de un valor singular igual a 1 si y solamente si es

243

descomponible, es decir, si el reordenamiento de líneas y columnas permite escribir la matriz en forma de bloques diagonales.

Por la convención anterior, se tiene:

= pi½[(ti,j/pi - qj)/qj½]

En lo sucesivo, se supondrá que los valores singulares sj se encuentran ordenados en forma decreciente y los vectores dj y gj ordenados en consecuencia.

s1= 1. d1 = w g1 = v

Teniendo en cuenta que los vectores d1 y g1 no representan otra cosa que las marginales de T, en los análisis sucesivos se considera la matriz siguiente:

M = C - vw' = s2g2d'2 +...+...+ smgmd'm

Sean G una rx(m-1) matriz conteniendo en sus columnas los vectores gj, D una mx(m-1) matriz cuyas columnas son los vectores dj y S una (m-1)x(m-1) matriz diagonal conteniendo los valores singulares sj, j=2,3,..m. La matriz M puede representarse de la siguiente forma: M = G S D' Puesto que los vectores gj y los dj son ortogonales, se tiene:

G'v=0 D'w=0 M'v=0 M'w=0 Fácilmente se verifica que los elementos mi,j de la matriz M pueden escribirse, alternativamente, en una de las formas siguientes: mi,j = (ti,j - piqj)/(piqj)½

= qj½[(pi,j/qj - pi)/pi½]

Las notaciones anteriores relievan el papel de la matriz M en la comparación de las estructuras porcentuales de las líneas y columnas con las marginales respectivas.

Page 244: 1992 descripcion e inferencia lineal en estadistica

5. MEDIAS, VARIANZAS, COVARIANZAS, CORRELACIONES

244

Sea Ai un m-vector construido con la línea i de la matriz T normalizado por la suma de esa línea pi, para i=1,2,...r

Sea A una rxm-matriz cuyas líneas son los vectores A'i,i=1,2..r.

-La media de los vectores Ai ponderada por sus importancias respectivas pi es igual al vector q

V(Ai) = Σ [ti,j/pi - qj]²/qj

En esta definición de distancia la diferencia de un elemento con su marginal respectiva es ponderada por el inverso de esta zltima a fin de relievar la importancia de una diferencia grande en relación a una marginal pequeña y vice-versa.

fi,i = pi V(Ai)

a. Líneas de la matriz T

Se tiene: A = P-1T

-La distancia del vector Ai a la media q sera definida de la siguiente manera:

V(Ai) = (Ai - q )'Q-1(Ai - q ) Es decir,

A fin de ponderar las distancias de las líneas Ai al vector q por los pesos respectivos de cada línea, se utilizara también la distancia estandardizada siguiente:

En el desarrollo de este trabajo, la noción de "varianza" será asimilada a la de distancia de un vector a su media y la de "covarianza" a la del producto interno de dos vectores centrados a sus medias; el coseno del ángulo entre dos vectores, en tanto que una medida de asociación lineal, será asimilado a la noción de correlación lineal.

Page 245: 1992 descripcion e inferencia lineal en estadistica

245

corr(Ai,Ak)) = fi,k/[fi,ifk,k]½

-Las covarianzas entre dos líneas de la matriz A serán definidas con la misma métrica utilizada

para las distancias:

C(Ai,Ak) = (Ai - q)'Q-1 (Ak - q)

y, la covarianza estandardizada será igual a:

fi,k = (pipk)½C(Ai,Ak) -Finalmente, la correlación o coseno del ángulo entre 2 líneas de la matriz A estará dada por:

Varianzas y covarianzas pueden insertarse en matrices definidas de la siguiente forma:

F = MM' = G S G'

V(A) = P-½MM'P-½ = U S U'

con U = P-½G matriz rx(m-1)

Obsérvese que UP'[1] = G'P [1] = G'v =0, luego las medias ponderadas de líneas y columnas de la matriz de varianzas y covarianzas V(A) son iguales a cero. Este hecho relieva el carácter relativo de las comparaciones. Con las expresiones anteriores, se comprende la importancia de la matriz M en la definición de varianzas y covarianzas. b. Columnas de la matriz T En forma similar a la de las líneas, se definirá la media, las distancias a la media, las covarianzas y correlaciones de columnas: Sea Bj un r-vector cuyos componentes son iguales a los de la columna j de la matriz T divididos por sus marginales correspondientes qj.

Page 246: 1992 descripcion e inferencia lineal en estadistica

246

B = TQ-1

W = M'M = DS²D'

Sea B una rxm-matriz cuyas columnas son los vectores Bj; se tiene:

-La media de los vectores Bj es igual al vector p -La varianza estará definida por: V(Bj) = (Bj-p)'P-1 (Bj-p)

-Las covarianzas estarán dadas por la expresión:

C(Bj,Bk) = (Bj-p)'P-1 (Bj-p) -la estandardización por las marginales respectivas dará:

Wj,k =(pjpk)½Cov(Bj,Bk)

Matricialmente, el conjunto de resultados anteriores se escribe:

V(B) = Q-½ M'MQ-½ = V S V'

con V = Q-½ D matriz mx(m-1)

Puesto que V'Q[1] = D'Q [1] =D'w =0, las medias ponderadas de líneas y columnas de la matriz V(B) son iguales a cero. Como anteriormente, este hecho pone en evidencia el carácter relativo de las comparaciones. c. Propiedades de las matrices F y W

ii. Los elementos i,i y j,j de las diagonales principales de F y W son inferiores a 1-pi y 1-qj, respectivamente.

i. Las matrices F y W son definidas no negativas

iii. En consecuencia, por la desigualdad de Schwartz, el resto de los elementos son inferiores a 1 en valor absoluto.

Page 247: 1992 descripcion e inferencia lineal en estadistica

247

En lo sucesivo, los espacios vectoriales del tipo "RxRx...xR en R",donde R es el cuerpo de números reales, serán identificados por R(n), donde n es la dimensión del espacio.

Una forma de medir el peso o la influencia de la celda i,j de la matriz T sobre la varianza de las líneas o columnas es de considerar simplemente el aporte de mi,j a su composición:

6. LOS EFECTOS CRUZADOS DE LINEAS Y COLUMNAS

En la presente sección se propondrá dos mediciones diferentes de los efectos de una línea sobre una columna y vice-versa. Ambas mediciones darán lugar a representaciones de la matriz T con distinto valor informativo.

a. Comparaciones asimétricas

Sean: ai,j = mi,j/Fi,i½

bi,j = mi,j/Wj,j½

Desde el punto de vista geométrico, los coeficientes a,b pueden ser interpretados como correlaciones o cosenos entre ángulos.

En efecto:

Sea gL'i la i-ésima línea de la matriz G dL'i la i-ésima línea de la matriz D

mi,j = gL'iSdLj = cos(SgLi,dLj). LjLi dSg .

= cos(SdLj,gLi). LiLj dSg .

Puesto que: LiSg = Fi,i

½

LjSg = Wj,j

½

Page 248: 1992 descripcion e inferencia lineal en estadistica

Se tiene : ai,j =cos(SgLi,dLj). Ljd

bi,j =cos(SdLj,gLi). Lid Obsérvese que sobre una misma columna j, los coeficientes ai,j son múltiplos de los cosenos de los ángulos entre los vectores SgLi y dLj, luego, estos últimos permiten la comparación del impacto de la columna j en las varianzas de las líneas. De igual manera, los coeficientes bi,j, sobre una misma línea i, son múltiplos de los cosenos de los ángulos entre los vectores SdLj y y gLi, luego permiten la apreciación del impacto de la línea i en la varianza de las columnas. Sean:

GS G PL = y PC =

D DS

Las r+m líneas de la matriz PL y de la matriz PC pueden ser consideradas como r+m puntos en R(m-1) y en R(r-1), respectivamente. Las normas de los r primeros puntos de PL y de los m últimos puntos de PC son las varianzas (estandardizadas) de los vectores Ai y Bj respectivamente; los cosenos de los ángulos de dos puntos en relación al origen se interpretan como correlaciones. Los coeficientes a,b son múltiplos de los cosenos de los ángulos entre las líneas Ai y los ejes kdj y las columnas Bj y los ejes hgj, con k y h dos números reales no nulos. Nótese que:

F M GG' M PLPL' = y PCPC' = M' DD' M' W

b. Covarianzas generalizadas La covarianza, en el sentido del producto interno, puede ser definida únicamente entre vectores pertenecientes a un mismo espacio vectorial R(n). Luego es imposible definir una covarianza entre los vectores Ai en R(m) y los vectores Bj en R(r); por ello, es necesario introducir el concepto más amplio de covarianza generalizada. La idea básica de la covarianza generalizada entre dos vectores pertenecientes a espacios vectoriales de diferente dimensión es la de asimilarla a la covarianza de las imágenes de estos vectores por

248

Page 249: 1992 descripcion e inferencia lineal en estadistica

aplicación lineal en un espacio vectorial común; las aplicaciones lineales respectivas están sujetas a dos principios básicos: la igualdad de varianzas de los vectores y de sus imágenes y la maximización de la covarianza entre imágenes. Sean: k una aplicación lineal de R(m) en R(m-1) l una aplicación lineal de Rr en R(m-1) Sean: KM' la imagen de las r líneas de M en R(m) sobre R(m-1) LM la imagen de las m columnas de M en Rr sobre R(m-1) La (m-1)xm matriz K de rango (m-1) y la (m-1)xr matriz L de rango (m-1) definen la covarianza generalizada entre líneas y columnas de la rxm matriz M cuando reúnen las siguientes condiciones: i) si (MK')(MK')' = F ii) si (LM)'(LM) = W iii) Si la norma de la matriz de covarianzas (MK)'(LM) es la más grande en relación a

todas las otras aplicaciones lineales que verifican i) y ii). Nótese que las condiciones i) y ii) implican D'K'KD=I y G'L'LG=I y, puesto que KD y LG son matrices de rango máximo, también KDD'K=I y LGG'L=I. La norma al cuadrado de una matriz es igual a la traza del producto por su transpuesta, de donde: LMMK ' = traza(MK'LMM'L'KM') = traza[(LMM'L')(KM'MK')]

Puesto que los valores propios de MM' y M'M son los sj al cuadrado,por la desigualdad de Schwartz, el máximo de esta traza, sujeta a la condición KDD'K'=I y LGG'L'=I, verifica: Máx (traza[(LMM'L')(KM'MK')]) ≤ '' LLMM . '' MKKM ≤ traza(S¼)

La igualdad se realiza si: L=G' y K =D'; esta solución verifica i y ii, luego es la solución óptima. Sea P(LC) el conjunto de r+m puntos en el espacio vectorial R de dimensión (m-1), definidos por las líneas de la matriz siguiente: MK' GS PLC = = M'L' DS

249

Las líneas de esta matriz configuran en R(m-1) una nube de puntos, tales que sus normas representan las varianzas (estandardizadas) de las líneas Ai o de las columnas Bj y los cosenos de los ángulos de los puntos con el origen representan correlaciones entre las líneas Ai o entre las columnas Bj o entre líneas Ai y columnas Bj.

Page 250: 1992 descripcion e inferencia lineal en estadistica

Obsérvese que: GS²G' GS²D' F M² PLCPLC' = = DS²G' DS²D' M'² W Con F =MM'=GS²D' W = M'M =DS²D' M² = GS²D' Es posible llegar a estos mismos resultados haciendo un desarrollo diferente, el que ilustra la proximidad simultánea de la configuración PLC a las configuraciones PL y PC, aspecto que contribuye a la interpretación de los resultados. Sea X una rxm matriz y F(X) la suma de las distancias al cuadrado entre X y PL y X y PC. El criterio de distancia que será retenido es el de la norma euclidiana:

Sea F(X) = dist²(X,PL) + dist²(X,PC) Consideremos el siguiente problema: Min F(X) Con las restricciones siguientes: X1X1' = F y X2X2' = W Con X'= (X1'; X2')

Como se recordará, la configuración PL no permite comparar las columnas entre si ni la configuración PC las líneas; luego, de buscarse una aproximación simultánea a ambas matrices, resulta natural imponerle las dos restricciones anteriores.

250

Page 251: 1992 descripcion e inferencia lineal en estadistica

Fácilmente se verifica que la solución óptima a este problema esta dada por X=PLC y, también, que: i. X=PLC es equidistante a PL y PC, aspecto que pone de relieve la posibilidad de realizar

comparaciones simultáneas entre los efectos de las líneas sobre la columnas y vice-versa,

ii. La diferencia promedio entre cada elemento de X=P(CL) y de PL o de PC es pequeña,

siendo igual a : traza(I-S)(I-S)/rm Obsérvese, igualmente, que: dist²(L,C)= dist²(L,X)+dist²(X,C) Para el caso de representaciones simultáneas, puede resultar más útil trabajar con varianzas-covarianzas no estandardizadas. Estas representaciones se deducen muy simplemente de la anterior reemplazando G por U y D por V. Las rxm matriz siguiente proporciona la nueva configuración de puntos en R(m-1): US PVLC = VS

251

Se verifica fácilmente que esta nueva configuración de puntos satisface condiciones del tipo i),ii), y iii) que definen la covarianza generalizada. Obsérvese que: US²U' US²V' V(A) C(A,B) PVLCPVLC = = V'S²U VS²V' C(B,A) V(B) Puesto que UP'[1]=0 y VQ'[1]=0 , se tiene que las sumas de líneas y columnas de las matrices V(A),V(B),C(A,B) son iguales a cero. Nuevamente, esta propiedad pone de relieve el carácter relativo de las comparaciones. 7. REPRESENTACIONES GRÁFICAS Hasta el presente, se ha supuesto, en forma implícita, que el rango de la rxm matriz estudiada T era igual a m. Si el rango de esta matriz fuese igual a un número t superior a 1 pero inferior a m, todos los desarrollo anteriores se mantienen invariables definiendo las matrices G y D únicamente con (t-1) vectores columnas y la matriz S con los (t-1) valores singulares no nulos, a excepción del 1.

Page 252: 1992 descripcion e inferencia lineal en estadistica

Obsérvese que si t=3, las configuraciones PL,PC,PLC,PVLC son matrices de 2 columnas y, en consecuencia, las líneas de estas matrices pueden ser representadas como puntos en un plano de 2 dimensiones. Las normas y los ángulos de estos puntos con el origen se interpretan, sin dificultad, en los sentidos mencionados en la sección precedente. Si el rango t de la matriz T es superior a 3, es posible lograr una adecuada representación gráfica a 2 dimensiones en el "mejor plano" de proyección ortogonal de estas configuraciones. La expresión "mejor plano" se refiere al plano para el cual la figura y su proyección ortogonal tiene distancia mínima. Obviamente, se trata del problema clásico de Componente Principales. A fin de uniformizar el tratamiento para las 4 configuraciones, se recordará, simplemente, que la mejor aproximación de rango 3 de la matriz C está dada por una matriz con los mismos vectores propios que C, y sus 3 más grandes valores singulares (siendo los restantes iguales a cero). De igual manera, la mejor aproximación de rango 2 a M se construye con los 2 valores singulares más grandes de M (o C) a excepción del 1 y con sus vectores propios correspondientes. Las aproximaciones en el plano de las configuraciones consideradas se deducen simplemente de las aproximaciones de C o M. 8. CONCENTRACIÓN O COMPACTACIÓN

Al analizar una tabla, el interés se centra, además de los puntos anteriormente desarrollados, en la forma como los coeficientes ti,j se hallan distribuidos, es decir, a definir un índice que

permita detectar su grado de homogeidad o similitud o sus discrepancias. Para ello, se retiene con frecuencia la entropía de la tabla, la que se halla definida de la siguiente manera: H(T) = Σ ti,jlog ti,j

La entropía toma su valor máximo cuando todos los ti,j son iguales entre si e iguales a 1/rm, es decir, cuando la tabla es fuertemente compacta y su valor mínimo cuando uno solo de estos coeficientes vale 1 y el resto cero, es decir, si los valores de la tabla se encuentran concentrados en una sola celda; en este último caso, la entropía vale cero. De esta manera, este índice emerge como una medida de compactación de la tabla.

252

Page 253: 1992 descripcion e inferencia lineal en estadistica

Otra forma de escribir este índice, muy útil en la practica, es la siguiente: H(T) = -Adj(T/pq') + H(p) + H(q) Donde H(p) y H(q) son las entropías de las marginales de líneas o columnas respectivamente. El primer término de la derecha de la igualdad, que se puede demostrar que es no negativo, está definido de la siguiente manera: Adj(T/pq') = Σ ti,jlog(ti,j/piqj) Con las marginales p y q fijos, el máximo de H(T) se logra cuando ti,j=piqj. Obsérvese que de la descomposición singular de C desarrollada en la sección 3, permite la siguiente descomposición de T: T = pq' + Σ sjP gjd'jQ Luego, Adj(T/pq') depende exclusivamente del segundo término de esta última igualdad. Utilizando la relación Log x ≤ x-1, se obtiene:

Adj(T/pq') ≤ Σ ti,j²/piqj - 1 = Σ (ti,j-piqj)/piqj

≤ Σ piV(Ai) = Σ qjV(Bj)

≤ Traza F = Traza W

253

Luego, la traza de S2 aparece como una cota superior de Adj(T/pq'), y a tal título puede ser utilizada como una medida del grado de concentración de la tabla.

≤ Σ sj²

Page 254: 1992 descripcion e inferencia lineal en estadistica

254

Cramer, por su parte, propuso el siguiente índice de concentración: c(T) = Σ sj

2 /(m-1)

9. COMENTARIOS FINALES La técnica desarrollada constituye un instrumento muy útil para el análisis de las interrelaciones existentes entre líneas y columnas de una matriz de datos. Las representaciónes gráficas sugeridas permiten apreciaciones visuales del carácter de estas relaciones.

Page 255: 1992 descripcion e inferencia lineal en estadistica

255

Anderson T.W.(1958), An Introduction to Multivariate Statistical Analysis (Wiley), pp1-43

Chang Potter & Afifi A.A.(1987), Goodness of fit statistics for general linear regression equation in the

presence of replicated responses, AMS 41, 3

Ehrenberg A.S.C.(1983), Deriving the least square regression equation, AMS 37, 3

BIBLIOGRAFIA

Amemiya T. (1985), Advanced Econometrics, Harvard University Press

Arthanari T.S., Dodge Y.(1981), Mathematical Programming in statistics, Wyley

Bajgier S.M.(1989), The visual fits en the teaching of regression concepts, AMS 43, 4

Becker M.P.(1989), Models for the analysis of association in multivariate contingency tables, JASA, 85,

408

Benzecri J.P.(1973), L'analysis de données, Dunod

Betz M.A. and Levin J.R.(1982), Coherent Analysis of Variance Hypothesis Testing Strategies: A

General Model (Journal of Educational Statistics, Vol 7, No 3)

Boullon bT. and Odell P.(1971), Generalized Inverse Matrices,

Bryant P.(1984), Geometry, Statistics, Probability: Variations on a Common Theme (The American

Statistician, Vol 38, No 1)

Caillez & all (1971), Analyse de données multidimensionnelles

Carter W.H. and Myers R.(1972), Orthogonal Contrast and Generalized Inverse in Fixed Effects

Analysis of Variance (AMSA, Vol 26, No 5)

Cooley & Lohnes(1971), Multivariate Data Analysis, Wiley

Cooper J.C.B.(1983), Factor analysis: an overview

Deaton A. (1997), The analyse of household surveys. A microeconometric approach to development

policy, Banco Mundial 1997

Dhrymes P. (2000), Mathematics for econometrics,

Diets J. (1989), Teaching regression in a nonparametric statistics course, AMS 43, 1

Donner A.(1982), The relative effectiveness of procedures commonly in multiple regression analysis for

dealing with missing values, AMS 36, 4

Draper-Smith (1966), Applied Regression Analysis (Wiley)

Dumas de Rauly (1966), L'Estimation Statistique (Gauthier - Villar)

Freedman D.A.(1983), A note on screening regression equation, AMS 37, 2

Galpin J.S.(1984), The use of recursive residuals in checking model fit in linear regression, AMS 38, 2

Gilula Z.(1986), Grouping and association in contingency tables: An exploratory canonical correlation

approach, JASA 82, 395

Goldberger A.(1964), Econometric Theory, (Wiley)

Good I.J.(1969), Somme Applications of the Singular Decomposition of a Matrix (Technometrics, Vol

11, No 4)

Page 256: 1992 descripcion e inferencia lineal en estadistica

Goodman A.L.(1981), Association models and canonical correlation in the analysis of cross-

classification having ordered categories, JASA 76, 374

Greene W.H. (2000), Econometric Analysis, Foruth Edition, Prentice Hall

Guajarati D. (1995), Basic Econometrics, McGraw Hill

Haberman J.,Shelby (1986), Canonical analysis of contingency tables by maximum likelihood, JASA,

81

Hamilton D.(1987), Sometimes R2 > r2yx1 + r2yx2 ( AMS, Vol 41, No 2)

Hastie T & Greenacre M.(1987), The geometric interpretation of correspondence analysis, JASA 82

Heiberger R.(1981), The Specification of Experimental design to Anova Programs (AMS, Vol 35, No 2)

256

Huitson A.(1971), The Analysis of Variance: A Basic Course (Griffins)

Intriligator M.(1978), Econometric Models, Techniques and Applications (Prentice Hall)

Koch G.G.(1985), A basic demonstration of the [-1,1] range for the correlation coefficient, AMS 39, 3

Lebart & Fénelon (1975), Statistique et informatique appliquées, Dunod

Mansfield E.R.(1982), Detecting multicollinearity, AMS 36, 3

Mostelller,Siegel(1981), Eye fitting straight lines, AMS 35, 3

John J.A. (1969), Use of Generalized Inverse Matrices in Manova (JASA)

John P.W. (1971), Statistical Design and Analyses of Experiments, The Macmillan Co., New York

Johnson A. F. (1971), Linear Combinations in Design Experiments (Techonometrics, Vol 13, No 3)

Johnston J. and Dinardo J.(1997), Econometric Methods, Fourth Edition McGraw-Hill

Kendall& Stuart (1966), The advanced theory of statistics, Griffin

Koopmans L.H.(1983), Teaching singular distribution to undergraduates, AMS 37, 4

Lang S.(1976), Álgebra Lineal, Fondo Educativo Interamericano

Lay D.C. (2002), Linear Algebra and its applications, 3th edition

Little R.J.A.(1982), Direct standardization: A tool for teaching linear models for un balanced data

Lowerre J.(1982), An Introduction to Modern Matrix Methods and Statistics (The American Statistician,

Vol 36, No 2)

Maddala G.S. (1988), Introduction to econometrics, Macmillan

Mandel J. (1982), Use of the singular value decomposition in regression analysis, AMS 36, 1

Marks E.(1982), A note on a geometric interpretation of the correlation coeficient (Jorunal of

Educational Statistics)

Mayer C.D. (2000), Matriz Analysis and Applied Linear Algebra

Morales R. (1976), Les modèles ARMA de Box-Jenkins et leur application en econométrie, Université

de Genéve, Ed.Lang, Berne

Morales R. (1987), Redes de Causalidad y Modelos (Carrera de Estadistica, UMSA)

Muller K.E.(1982), Understanding canonical correlation through the general linear model and principal

components, AMS 36, 4

Page 257: 1992 descripcion e inferencia lineal en estadistica

Paige CC.& Kourouklis S.(1981), A constrained least square approach to the general gauss-Markov

linear model, JASA 76, 375

Pisot-Zamansky (1972), Mathématiques générales, DUNOD

Press J.(1972), Applied Multivariate Analysis (Holt-Rinehart and Wiston)

Raghavachart M.(1986), A linear programming proof of Kantorovich's inequality, AMS 40, 2

Ramanathan Ramu (2002), Statistical Methods in Econometrics.

Ranney G.B & Thigpen C.C.(1981), The sample coefficient of determination in simple linear regression,

AMS 35, 3

Rao (1973), Linear Statistical Inference and Its Application.

Rodgers J.L.& Nicewander A.(1988), Thirteen Ways to look at the correlation coefficient (The American

Statistician, vol 42,

Rodgers,Nicewander,Toothaker(1984), Linearly Independent, orthogonal and Uncorrelated Variables

(The American Statistician, Vol 38, No 2)

257

Rogers G.S.(1984), Kronecker Products in Anova (The American Statistician, Vol 38, No 3)

Thurman W.N.(1989), Unconditional asymptotic results for the simple linear regression, AMS 43, 3

Ruppert D. &Carrol J.R.(1982), A comparison between maximum likelihood and generalized least

squares in a heteroscedastic linear model, JASA 77, 380

Russel D. and Mackinon J. (2003), Ecometric Theory and Methods

Saville D.J., Wood G.R. (1986), A method for teaching statistics using N-dimensional geometry (The

American Statistician, Vol 40, No 3)

Schey H.(1985), A Geometric description of Orthogonal Contrast in One Way Analysis of Variance

(AMS, Vol 39, No 2)

Searle (1971), Matrix Algebra for Business and Economics (Wiley),

Searle S.R.(1984), Restrictions and Generalized Inverses in Linear Models (The American

Stastistician, Vol 38, No 1)

Seegrist D. (1973), Least Square Analysis of Experimental Design Models by augmenting the Data

with Side Conditions (Technometrics, Vol 15, N 3)

Simo P. Styan G.P.(1989), The equality of the ordinary least squares estimator ant the best linear

unbiased estimator, AMS, 43, 3

Steven C.Pinault (1988), An analysis of subset regression for orthogonal designs, AMS 42, 4

Taylor W.H. and Hilton H.G. (1981) A Structure Symbolization for Analysis of Variance (AMS, Vol

35, No 2)

Thomas M.(1983), Linear estimation with an incorrect dispersion matrix in linear models with a

common linear part, JASA 78, 382

Watts D.(1981), A Task Analysis Approach to Designing a Regression Analysis Course (AMS, Vol 35,

No 2)

Wooldridge J.M. (2003), Introductory econometrics. A modern approach, Publisher: South Western

Page 258: 1992 descripcion e inferencia lineal en estadistica

Thompson Learning

Yoav Benjamin (1988), Opening the box of a boxplot, AMS 42, 4

258