Newbold Capitulo13

88
5/20/2018 NewboldCapitulo13-slidepdf.com http://slidepdf.com/reader/full/newbold-capitulo13 1/88 Regresi n multiple Esquema del capi tulo 13.1. J modele de regresion multiple Especificaci6n del modele Desarrollo del modele Graficos tridimensionales 13.2. E stimaci6n de coeficienles Metoda de minimos cuadrados 13.3. Poder explicativo de una ecuaci6n de regresi6n multi pl e 13.4. Intervalos d e confianza y conlrastes de h ip6 tesis de coeficientes de regresion individuales Intervalos de confianza Contrastes de hip6tesis 13.5. Contrastes de los coeficientes de regresi6n Cont r astes de lodos os coeficientes Contraste de un conjunto de coeficientes de regresi6n Comparaci n de los contrastes F y t 13.6. Predicci6n 13.7. Tra nsformacion es de mode l os de regresion no lineal es Transfo r mac iones de modelos cuad rali cos Tr ansformaciones logaritmicas 13.8. Utilizaci6n de variables fict i cias en modelos de regresi6n Diferencias entre las pendie nte s 13.9. Metodo de aplicaci6n del analisis de regresi6n multiple Especificaci6n del modelo Regresi6n mu l tiple Efecto de la eliminaci6n de una variable estadfsticamente si gni fi cativa Analisis de l os residuos Introducci n En el Cap i tulo 12 presentamos el metodo de regresi6n simple para obtener u na ecua- ci6n li neal que predice una variable dependiente 0 end6gena en funci6n de una unica var i able independiente 0 ex6gena; por ej empl o el numero total de a rt fculos ve ndidos en funci6n del precio. Sin emb argo. en mu chas situac i ones varias variables independ ientes influyen conjuntamente en una var i able depend iente. La regresi6n multiple nos permite averiguar e l efecto si multane o de varias var i abl es ind ependientes e n una variable de- pendiente utilizando el principio de los minimos cuadrados.

Transcript of Newbold Capitulo13

  • Regresi6n multiple

    Esquema del capitulo 13.1. EJ modele de regresion multiple

    Especificaci6n del modele Desarrollo del modele Graficos tridimensionales

    13.2. Estimaci6n de coeficienles Metoda de minimos cuadrados

    13.3. Poder explicativo de una ecuaci6n de regresi6n multiple 13.4. Intervalos de confianza y conlrastes de hip6tesis de coeficientes de regresion

    individuales Intervalos de confianza Contrastes de hip6tesis

    1 3.5. Contrastes de los coeficientes de regresi6n Contrastes de lodos los coeficientes Contraste de un conjunto de coeficientes de regresi6n Comparaci6n de los contrastes F y t

    13.6. Predicci6n 13.7. Transformaciones de modelos de regresion no lineales

    Transformaciones de modelos cuadralicos Transformaciones logaritmicas

    13.8. Utilizaci6n de variables fict icias en modelos de regresi6n Diferencias entre las pendientes

    13.9. Metodo de aplicaci6n del analisis de regresi6n multiple Especificaci6n del modelo Regresi6n multiple Efecto de la eliminaci6n de una variable estadfsticamente significativa Analisis de los residuos

    Introducci6n En el Capitulo 12 presentamos el metodo de regresi6n simple para obtener una ecua-ci6n lineal que predice una variable dependiente 0 end6gena en funci6n de una unica variable independiente 0 ex6gena; por ejemplo, el numero total de art fculos vendidos en funci6n del precio. Sin embargo. en muchas situaciones, varias variables independientes influyen conjuntamente en una variable dependiente. La regresi6n multiple nos permite averiguar el efecto simultaneo de varias variables independientes en una variable de-pendiente utilizando el principio de los minimos cuadrados.

  • 488 Estadfstica para administraci6n y economfa

    Existen muchas aplicaciones importantes de la regresion multiple en al mundo de la emprasa y an la eeonomia. Entre estas aplicaciones se encuentran las siguientes:

    1. La cantidad vendida de bianes es una funcion del precio, la renta, la publicidad, el precio de los bienes sustitutivos y otras variables.

    2. Existe inversion de capital cuando un empresario cree que puede obtaner un be-neficia. Par 10 tanto, la inversion de capital es una tuncion de variables relaciona-das can las posibilidades de obtener beneficios, entre las que se encuenlran el tipo de interes, el producto interior bruto, las expectativas de los consumidores, la renta disponible y el nivel tecnol6gica.

    3. EI salano es una funcion de la experiencia, la educacion, la edad y el puesto de trabaja.

    4. Las grandes empresas del comercio al par menor y Ja hostelerfa deciden Ja loca-lizacion de los nuevas establecimientos basandose en los ingresos previstos por ventas y/o en la rentabilidad. Utilizanda datos de localizaciones anteriores que han tenido exito y que no 10 han tenido, los analistas pueden construir modelos que predicen las vantas a los beneficios de una nueva 10calizaci6n posible.

    EI analisis eeonomico y empresarial liene algunas caracterfsticas unicas en com-paraci6n can el analisis de olras disciplinas. Los cientificos naturales trabajan en un la-boratorio en el que es posible controlar muchas variables, pero no todas. En cambia, eJ laboratorio del economista y del directiva as el mundo y las cond iciones no pueden con-trolarse. Por 10 tanto, necesitan instrumentos como la regresion multiple para eslimar el afeelo simultaneo de varias variables. La regresion mUltiple como instrumenta de la-barataria as muy importante para el trabajo de los directivos y de los economistas. En esta capitulo veremos muchas aplicaciones especificas en los ejemplos y los ejercicios.

    Los metodos para ajustar modelos de regresion multiple se basan en el mismo princi-pia de los minimos cuadrados que aprendimos en el Capitu lo 12 y, par 10 tanto, las ideas presentadas en ese cap itulo se axtenderan directamente a la regresi6n multiple. Sin embargo, se intraducen algunas complejidades debido a las relaeiones entre las distintas variables ex6genas. Estas requieren nuevas ideas que se desarrollan en este capitulo.

    13.1. EI modelo de regresion multi Ie Nuestro objetivo es aprender a utilizar la regresi6n multiple para crear y analizar model os. Por 10 lanto, aprendemos como funciona la regresi6n multiple y algunas directrices para inlerpretaria. Comprendiendo perfectamente la regresi6n multip le, es posible reso lver una umplia variedad de problemas aplicac1os. Este estudio de los metodos de regresi6n m(lItiple es paralelo al de la rcgresi6n simple. El primer paso para desarrol1ar un modele es la cspe-eifieaci6n de ese modelo, que consistc en la selecei6n de las variables del modelo y de 13 forma del modelo. A conlinuaci6n, se estudia el metoda de millimos euadrados y se allali ~ za la variabilidad para identificar los efeetos de cada una de las variables de predicci6n . Despues se eswdia 13 estimacion, los inLervalos de confianza y cl contraste de hi potesis. Se uti l izan frecuentemenle aplicae iones informalicas para indicar como se apl ica la leOrla a problemas real istas. EI estud io de este capItulo sera mas facil si se ponen ell relaci6n sus ideas COil las que presenlamos en el CapItulo 12.

    Especificacion del modelo Comenzamos con una ap licac i6n que ill/stm la importante tarea de la espec ificaci6n del modele de regresi6n. La especi fi caci6n del modelo cons iste en la selecc i6n de las variables ex6gcnas y la forma funcional del mode 10.

  • Capitulo 13. Regresi6n multiple 489

    EJEMPLO 13.1. Proceso de produccion (especificacion del modelo de regresion)

    EI director de produccion de CircuilOs Flexibles. S.A., Ie ha pedido aYllda para estlldiar un proceso de produccion. Los circlli tos flexibles se producen con un rollo continuo de resina flexible que lleva adherida a su superficie una Fina peifcll la de materia l conductor hecho de cobrc. El cobre se adhiere a la resina pasando la res ina por una solucion de cobre. EI grosor del cobre es fu ndamenta l para que los circuilos sean de buena calidad. Depende en parte de In temperatura de la soluci6n de cobre, de la velocidad de la [fnea de produccion, de la densi.dad de la soluc i6n Y del grosor de la resina flexib le. Para con-trolar el grosor del cebre adheride a la superficie, el director de producci6n necesi ta sa-ber que efecto produce cada una de estas variables. Le ha pedido ayuda para desarrollar un modele de regresion mu ltiple.

    Solucion La regres ion multiple puede uti lizarsc para hacer cstimaciones de l efecto que produce cada variable en combinacion con las demas. El desanollo del modelo comienza con un ana l isis detenido del contexto del problema. El primer paso en este ejemplo serfa una extensa conversacion con los ingenieros responsab les del disefio del producto Y de la produccion, con el fin de comprender detalladamente el proceso de l que se pretende de-sarrollar un modelo. En algunos casos, se estudiarfa la literatura existente sabre el pro-ceso. Este debe ser comprendido y aceptado per todos los interesados antes de poder desarrellar Ull modelo util ut ilizando el anal is is de regresion mUltiple. En eSle ejemplo, la variable dependiente, Y, es el greso!" del cobrc. Las valiables independientes son la temperatura de 1a solucion de cobre. XI: la velocidad de la lfnea de produccion, X2; la dcnsidad de la solucion, XJ y el grosor de la res ina flexible, X4 . Los ingenieros y los cientfficos que comprendfan la tecnologfa de l proceso de recubrimiento identificaron es-tas variables como posibles predictores del grosor del cobre, Y. Basandose en el estudio del proceso, la especificacion del modele resu ltante es

    y ~ flo + {!,X, + {!2X, + P3X, + fi,X,

    En el modelo lineal anterior, las Ii; son coeficienles lineales conSlanles de las Xj que indican el efecto condicionado de cada variable independienle en la determinacion de la variable dependieme, Y, en la poblacion. Por 10 tanIo, las P; son parametros en el modelo de regres i6n Itneal. A continuacion, se producirfa una serie de lotes para haccr mediciones de distintas combi naciones de las variables independientes y la variable dependicnte (vcasc el anaJisis del diseno experimental en el apartado 14.2).

    EJEMPLO 13.2. Localizac ion de las l iendas (especificacion del modelo) El director de plani ficaci6n de una gran cadena dt{ comercio al por menor estaba insatis-fecho con su experiencia en la apel1ura de nuevas tiendas. En los cuatro ult imos afios, el 25 por ciento de las nuevas tiendas no habfa conseguido las ventas previstas en e1 perio-do de pmeba de dos afios y se habfa ccrrado con cuantiosas perdidas econ6mkas. El director querfa desarro llar mejores crilerios para elegir el empiazamiento de las tiendas y llego a la conclusion de que debfa estudiarse la experiencia hi st6rica de las tiendas que habfan tenido exi to y las que habfan fracasado.

  • 490 Esladfslica para adminislraci6n y economia

    Solucion Hablando con un consultor, lIeg6 a la conclusi6n de que podian uti li zarse los datos de las tiendas que habfan conseguido las venlas que estaball previstas y los datos de las que no las habfan conseguido para desarrollar un modelo de regresion multiple. El con~ suItor sugirio que debra lltil izarse como variable dependiente, y, las ventas del segundo ailo. Se emplearfa un modele de regresion para predecir las venlas del segundo ailo en funcion de varias variables illdependienles que dcfinen la zona que rodea a la tiencla . Solo se abrirfan tiendas en los lugares en los que las ventas predichas superaran un ni~ vel minima. EI modelo tambien indicarfa como afec tan varias variables independientes a las ventas.

    Tras hablar largo y tendido con personas de la empresa, el consultor recomend6 las siguienles variables independ icntcs:

    1. Xl = lamano de la tienda 2. X2 = vol umen de trMico de la calle en la que se encuentra la tienda 3. X] = aperlura de la tienda sola a en un centro comercial 4. X4 = exislencia de una tienda rival a menos de 500 metros 5. X 5 = renLa per capita de la poblaci6n residente a menos de 8 kilometros 6. X6 = mitnero total de personas que residen a menos de 8 kjlometros 7. X7 = renta per capita de la poblacion que res ide a menos de 15 kilometros 8. Xl'. = ntimero total de personas que res iden a menos de 15 ki lometros Se uti lizQ la regresi6n multiple para esli mar los coeficienles del modelo de predi c~

    cion de las ventas a partir de datos recog idos en lodas las liendas abiertas en los ocho 6ltimos anos. En el conjunto de datos habra tiendas que segufan abiertas y tiendas que se habfan cerrado. Se desarro1l6 un modele que podfa utilizarse para predecir las ventas del segundo ano. Este modele contenfa estimadores, b), de los para metros del modelo, p). Para ap licar el modelo

    g

    Yi = bo + L bj xji j = l

    se hicieron mediciones de las variables independienles de cada nueva localizaci6n pro~ pLlesta y se calcu laron las ventas predichas de cada local izacion. Se uti liz6 cJ nivel pre~ dicho de ven tas , junto con eJ cri terio de los anal istas de marketing y de un comite de directores de tiendas de ex iLo, para elegir el lugar en el que se abrirfan [iendas.

    En la estralegia para especificar un modelo influyen los objetivos de l modelo. Uno de los objetivos cs la prediccion de una variable dependiente 0 de resultado . Entre las apli ~ caciones se encuentran la prediccion de las ventas, de la producci6n, del consumo total, de la invers ion total y otros muchos criterios de los resultados empresariales y economicos. EI segundo objetivo es estimar el efecto marginal de cada variable independiente. Los econo~ mi stas y los di recti vos necesilan saber como cambian las medidas de los resultados cuando varian las variables independicntes, Xj' donde j = I, .. . , K. Por ejemplo:

    L l,Como varfan las ventas como consecllencia de una subida del precio y de los gas-tos pllblicitarios?

    2. i..Como varia la producci6n cuando se alteran las cantidades de trabajo y de capi tal? 3. i.. Disminuye la mortalidad infantil cuando se illcremenlan los gastos en asistencia

    sanitaria y en servicios de saneamiento?

  • Capitulo 13. Regresi6n multiple 491

    Objetivos de la regresi6n La regresi6n multiple permite obtener dos importantes resultados:

    1. Una ecuaci6n lineal estimada que predice la variable dependiente, Y, en funci6n de K variables independientes observadas, xi' donde j = 1, ... K.

    donde i = 1, "" n observaciones. 2. La variaci6n marginal de la variable dependiente, Y, provocada por las variacionas de

    las variables independienles, que se eslima por medio de los coeficientes, bj. En la re-gresi6n multiple, estos coeficientes dependen de que otras variables se incluyan en al modelo. EI coeficiente bj indica la variaci6n de Y, dada una variaci6n unitaria de X;, des-contando al mismo tiempo el efecto simultaneo de las demas variables independlentes.

    En algunos problemas, ambos resultados son igual de importantes. Sin embargo, normal-mente predomina uno de ellos (por ejemplo, la predicci6n de las ventas de las tiendas, y, en el ejemplo de la localizaci6n de las liendas).

    La variaci6n margina l es mas diffei l de estimar porque las variables independientes cs-Hi.n relac ionadas no s610 con las variables dependienles sino lam bien entre Sl. Si dos variu-bles independientes 0 mas varian en una re lac i6n lineal directa entre sf, es dificil averiguar cI efecto que produce cada variable independienle en la variable dependiente.

    Examinaremos delalladamente el modelo del ejemplo 13.2. EI coeficiente de XI ---es decir, b J- indica la variaci6n que experimentan las ventas del segundo ana por cada va-riaci6n unitaria del tamano de la tienda. EI coeficiente de Xj indica la variaci6n que experi -mentan las ventas por cada variaci6n unitaria de la rcnta per capita de la poblaci6n que reside a menos de 8 ki l6metros, miell(ras que la de X7 indica la variaci6n de las ventas por cada variaci6n de la renla per capita de la poblaci6n que res ide a menos de 15 ki l6metros. Es probable, pOI' supuesto, que las variables Xs Y X7 esten correlacionadas. Par 10 tanto, en la medida en que estas variables varfen am bas al mismo tiempo, es diffcil averiguar la con-tribucion de cada una de elias a la variacion de los ingresos generados por las ventas de las tiendas. Esta correlaci6n entre variables independientes complica el modelo. Es importanle comprendcr que el modelo predice los ingresos generados por las ventas de las tiendas uli-lizando la combinaci6n de variables que contielle el modelo. El efecto de una variable de prediccion es e l efecto que produce esa variab le cuando se combina con las demas. POI' 10 tanto, en general, el coeficiente de una vari ab le no indica el efecto que produce esa varia-ble en todas las condiciones. Estas complcj idades se anal izanln mas delen idamenle cuando se dcsarrolle el modelo de rcgresi6n mUltiple.

    Desarrollo del modelo Cuando aplicamos la regresi6n mUltiple, construimos un modelo para explicar la variabili-dad de la variable dependiente. Para eso queremos incluir las influencias simultaneas e in* dividuales de varias variables independientes. Supongamos, por ejemplo, que queremos de-sarrollar un modelo que prediga el margen anua l de beneficios de las sociedades de ahorra y cn!dilO inmobiliari o ulili zando los dalos recog idos durante un periodo de anos. Una espe-cificaci6n inicial del modelo indicaba que el margen anual de beneficios eslaba relac iona-do can los ingresos netos pOl' dolar depositado y el nLimero de oncinas. Se espera que el ingreso neta aumente el margen anua! de benefic ios y se preve que el nllmero de ofic in

  • 492 Estadfstica para adminislraci6n y economia

    Savings and Loan

    red llc ini el margen an ual de benericios dcbido al aumenlO de la competencia. Eso nos lie. varia a especificar lin modele de regrcs i6n poblacional

    Y = flo + li,X, + (J,X, + c donde

    Y = margen anual de beneficios XI = ingresos anuales netos por d61ar depos itado X2 = numcro de ofi cinas existentes ese anD

    LIl Tabla 13. 1 y cl Fichera de dalos Savings and Loan cont iencJ1 25 observaciones por ano de eS{as variables. Utili zaremos estos datos para desarralJar un modele li neal que prediga el margen anunl de beneficios en funci6n de los ingresos por d61ar deposilado y del numero de ofi cinas (vease la referencia bibliografica 4).

    Tabla 13.1. Datos de las asociaciones de ahorro y credito inmobitiario.

    Ingresos Nlimero Mllrgen de lngresos Numero Margen de Ano por d611l r de oficinas beneficios Ano por d61a r de olieinas henelicios

    I 3,92 7.298 0,75 14 3,78 6.672 0,84 2 3,6 1 6.855 0,7 1 15 3,82 6.890 0,79 3 3,,2 6.636 0,66 16 3,97 7. 115 0,7 4 3,07 6.506 0,6 1 17 4.07 7.327 0,68 5 3,06 6.450 0,7 18 4,25 7.546 0,72 6 3, 11 6.402 0,72 19 4.4 1 7.93 1 0,55 7 3,2 1 6.368 0,77 20 4.49 8.097 0,63 8 3,26 6.340 0,74 21 4,70 8.468 0,56 9 3,42 6.349 0,9 22 4,58 8.7 17 0,41

    !O 3,42 6.352 0,82 23 4.69 8,99 1 0.5 1 II 3,45 6.361 0 ,75 24 4.71 9. 179 0,47 12 3.58 6.369 0.77 25 4.78 9.318 0,32 13 3,66 6.546 0,78

    Pero antes de poder estimar el modelo, es necesario desarrollar y comprender el me todo de regres i6n multiple. Para comenzar, examinemos el rnodelo general de regres i6n multiple y observemos sus diferencias CO il el modele de regresi6n simple. EI modelo de regres i6n mUltiple es

    donde f'.; es e l tt~ rmi no de error aleatorio que tiene la media 0 y la varianza (J2, Y las /lj son los coefic ientes 0 efectos marginales de las variables independientes 0 cx6genas, Xj . donde j = I, .. . , K, dados los efeclOs de las demas variables independientcs. Las i indio can las observacioncs, siendo i = I, ... , 1/.. Uti lizamos las minusculas Xji para indicar los va lores especfficos de la variable Xj en la obscrvac i6n i. Suponemos que las 8i son inde pendientes de Jas Xj y entre sf para que las estimaciones de los coefi c ientes y sus va rianzas sean correctas. En el Capitulo 14 explicamos que ocurre cuando se abandon an estos su puestos.

  • Capitulo 13. Regresi6n multiple 493

    EI modelo mucstra l estimado es

    don de e; es cl residuo 0 diferencia entre el valor observado de Y y el valor estimado de Y obtenido utili zando los coeficientes cstimados, bi' donde j = I, ... , K. EI metodo de regresi6n obl iene estimaciones simultaneas, bi' de los coeficientes del modelo poblac io-nal , /Jj' utili zando el metodo de minimos cuadrados.

    En nuestro ejempJo de las asoc iaciones de ahorro y credi to inmobiliario , el modelo poblacional para los puntos de datos indi viduales es

    Este modelo reducido con dos variab les de prediccion solamente brinda la oportunidad de comprender mejor el metodo de regresi6n. La funcion de regres i6n puede represen-tarse gnificBmente en Ires dimensiones, como muesLra la Figura 13. 1. La funci6n de re-gresi6n se representa mediante un plano en el que los valores de Y son una funci6n de los va lores de la variables independientcs Xl Y X2. Para cada par pos ible, Xl;, X2i, el va-lor esperado de la variable dependienle, Yi. se encuentra en el plano. La Figura 13.2 ilustra especff"icamentc cl ejemplo de las asociaciones de ahorro y credilo jnmobiliario. Un aumento de Xl provoca un aumento del valor esperado de Y, condicionado al cfeclo de X2 Asimismo, un aumento de X2 provoca una disminucion del valor esperado de Y, condicionada al efeclo de X I.

    Para complelar nuestro modelo, anadimos un (ermino de error I:. Este termino de enor reconoce que no se cumpli ra exaClamenle ninguna relaci6n postu lada y que es probable que haya Olras variables que tambien aFeclen al valor observado de Y. Por 10 tanto, cuando aplicamos ei modelo, observamos el valor esperado de la variable depen-diente, Y - representado por el plano en 101 Figura 13.2-, mas un {e rmi no de error alea-lorio, 1-:, que representa 1a parte de Y no inc\uida en eI valor esperado. Como conseCUCll-cia, cI mode lo de datos liene la forma

    y

    Figura 13.1. EI plano es el valor esperado de Y en funci6n de XI Y X2.

    y

    .-

    x,

    Figura 13.2. Comparaci6n del valor obselVado y el esperado de Yen funci6n de dos variables independienles.

  • 494 Estadistica para administraci6n yeconomia

    EI modele de reg res ion poblacional multiple EI modelo de regresi6n poblacional multiple define la relaci6n entre una variable depen-dien!e 0 end6gena, Y, y un conjunto de variables independien!es 0 ex6genas, xi' donde j == 1, ... , K. Se supone que las xji son numeros fijos; Yes una variable aleatoria definida para cada obselVaci6n, i, donde i == 1, .. . , n, y n es el numero de obselVaciones. EI modele se define de la forma siguiente:

    (13.1)

    donde las Pj son coeficientes constantes y las I: son variables alealorias de 0 y varianza a2.

    En el ejemplo de las asociaciones de ahorro y credito inrnobiliario, con dos variables independientes, el modelo de regres i6n poblacional es

    Dados valores especfricos de los ingresos netos, Xli' y el numero de oric inas, XZi' el margen de benericios observado, Yi' es la suma de dos partes: el va lor esperado, flo + {JIXli + fJ-zX2i' y el tennino de error aleatorio, f.i . EI termi no de error aleatorio puede concebi rse como In combinaci6n de los efeclos de oLros muchos factores sin iden tificar que afecLan a los mar-genes de beneric ios. La Figura 13.2 ilustra e l modele; el plano indica el valor esperado de vadas combinaciones de las vari ables independientes y la E; es la desviaci6n entre el plano --el va lor esperado--- y cI valor observado de Y - marcado con un punto grande- de un punto de dato especffico. En general, los val ores observados de Y no se Cneuentran en el plano sino po r encima 0 por debajo de el, debiclo a los lerminos de error positivos 0 negati-VOS, l:i'

    La regres i6n simple, presentada en el capftulo anterior, no es mas que un caso especial de la regres i6n multiple con una (mica variable de prediec i6n y, por 10 tanto, el plano se reduce a una Hnea. Asf pues, la teorla y eI anali sis que hemos desarrollaclo para ta regre-si6n simple tambien se aplican a la regres i6n multi ple. Si ll embargo, existen algunas inter-prctaciones mas que desarrollaremos en nuestro eSludio de la regresi6n multiple. Una de eli as se ilustra en el siguiente anali sis de los grafieos trid imensionales.

    Gnificos tridimensionales Tal vez sea mas fUeil eomprender el metodo de regres i6n multiple mediante una imagen grMica simplificada. Observe el rinc6n de la habitacion en la que esta sentado. Las Hneas formadas pOI' las dos paredes y el suelo representan los ejes de dos vari ables independien-tes, X I Y X2 . La esquina que forman las dos paredes es el eje de la variable dependiente, Y. Para estimar una recta de regresi6n, relln imos conjllntos de punlOs (x l i. X2i e yJ

    Representemos ahora estos puntos en su habitac i6n utili zando las esquinas de las pare-des y el slle lo como los tres ejcs. Con estos puntos suspendidos en su habi tae i6n, buscamos un plano en el espacio que se aproxi me a todos ell os. Este plano es la fo rma geometrica de la ecuaci6n de mfnimos cuadrados. Con estes PUlltos en el espacio, ahora subimos y baja-IllOS un plano y 10 hacemos girar en dos direcciones: todos estos movimientos los hacemos simultaneamente hasta que tenemos Lin plano que esta cerea de lodos los puntos. Recuer-dese que en el Capitulo 12 hieimos esto con una Ifnea recta en dos dimens iones para obte-ner una ecuaci6n

  • Capitulo 13. Regresion multiple 495

    A continuacion, extendemos esa idea a tres dimensioncs para oblener una ecu

  • 496 Estadistica para administracion y economia

    X 3" = numcro porccnlual de piews en camLin con atros modelos

    Los coeficientes de regresi6n estimados cran

    h j = 0,661 6, ~ 0.065 6, ~ - 0,018 Interprete estas estimacioncs.

    13.7. En un estud io de la influencia de [as instiwcio-nes fInancieras en los tipos de interes de los bo-nos alemanes, se anal izaron datos trimestrales de un periodo de 12 aiios. EI modelo postlilado era

    Yi = flo + fllx li + fJ?'x 2, + e,. dondc Yi = variaci6n de los tipos de inten::-" de los bo-

    nos en el trimcstre Xli = variaci6n de las compras de bonos pOl' par-

    le de las instituciones financieras en el tri-mestre

    X2,. = variacion de las ventas de oonos POI' paJ1C de las instituciones financieras en cI trimestre

    Los eoeficientes de rcgrcs ion parcial estimados eran

    b, ~ 0,057 b, ~ -0,065 Interprete estas estimaciones .

    13.8. Se aj llst6 el siguiente modelo a una muestra de 30 fam Uias para explicnr el consumo de leche por familia :

    Y i = Po + PIX I ; + P2X2i + 8, dande Yi = consumo de leche, en li tros a In seman a

    13.2. Estimacion de coeficientes

    Xl = rentn semana[ en ciemos de d61ures X2 = lamano de la familia

    Las cstimaeiones de los panimetros de la regrc-si6n par mlnimos cuadrados eran

    bo = ~ 0,025 b l = 0,052

    a) Interprete las estimaciones b J Y b2. b) j,Es posible hacer una interpretaei6n de la es-

    timacion bo que tenga senti do?

    13.9. Se ajust6 eI slguienle modelo a una muestra de 2S estudiantes utilizando datos obtenidos a! final de su primer ano de universidad. El objcl ivo era explicar el aumento de peso de los esrudiantes.

    Yi = Po + PIXI,. + fliX2; + P:y'

  • Capitulo 13. Regresion multiple 497

    Supuestos habituales de la regresi6n multiple El modelo de regresion poblacional multiple es

    y; = fio + fi,Xt; + fJ2-''( 2i + ... + fJKXKi + t;

    y suponemos que se dispone de n conjuntos de observaciones. Se postulan los siguienles su-puestos habituales para el modelo.

    1. Las X/I son 0 bien numeros fijos, 0 bien realizaciones de variables aleatorias, XI' que son independientes de los terminos de error, cr En el segundo caso, la inferencia se realiza condicionada a los valores observados de las xj ,

    2. EI valor esperado de la variable aleatoria Yes una juncian lineal de las variables inde-pendientes ~.

    3. Los terminos de error son variables alealorias cuya media es 0 y que tienen la misma varianza, t? Este ultimo supuesto se denomina homocedasticidad a varianza uniforme.

    y Ell;lJ = ([2 para (i = t , .. . , /1)

    4. Los terminos de error aleatorios, c" no eslim correlacionados entre sf, por 10 que

    para todo i = j

    5. No es posible hallar un conjunlo de numeros que no sean iguales a cera, co' c1' , cK' tal que

    Esta es la propiedad de la ausencia de relacion lineal entre las Xl

    Los cuatro primeros supuestos son esencialmente iguales que los que postulamos en el caso de la regresi6n simple. Sin embargo, el supuesto 5 excluye algunos casos en los que existen relaciones lineales entre las variables de prediccion. Supongamos, pOl' ejemplo, que lenemos interes en expl icar la variab il idad de las tarifas que se cobran par cI envlo de mafz. Una variable expl icativa evidenle serfa la distancia a la que se envfa el maiz. La dis-tancia podrfa medirse en diferentes unidades como millas 0 kil6metros. Pero no tendrfa sentido uti lizar como variables de predicci6n tanto la distancia en millas como la dislancia en kilometros. Estas dos medidas son funciones lineales una de la olra y no satisfarfan el supuesto 5. Ademas, serfa una tonterfa tratar de evaillar sus efectos independientes. Como veremos, las ecuaciones para calcular las eslimaciones de los coeficientes y los program as informaticos no funcionan si no se satisface el supuesto 5. En la mayorla de los casos, la especificaci6n adecuada del modelo evi tara que se viole ese supuesto.

    Metodo de mfnimos cuadrados EI metoda de mfnimos cuadrados para la regresi6n multiple calcula los coeficientes esti-mados para min i mizar la suma de los clladrados de los residuos. Recuerdese que el resi-duo es

  • 498 Estadfstica para administraci6n y economia

    donde Yi es el valor observado de Ye Yi es el valor de Y predicho a partir de la regres iun. En terminos formales , minimizamos SCE:

    " seE ~ L e; ;=1

    " ~ L (y; - y;)' ;=1

    " = L (y; - (bo + b,x, ; + ... + bKxd)'

    i"" I

    Esta minimizaci6n eonsiste en hallar el plano que mejor represente un eonjunto de pun-tas en el espacio, como hemos visto en nuestro analisis de los graficos tridimensionales, Para rea lizar el proeeso formal mente, utili zamos deri vadas pare ia les para desarrollar un eonjunto de eeuacioncs normales simuitaneas que se resuelve para obtener los estimado-res de los coeficien tes. Para los que tcngan buenos conocimientos de matematicas, en el apendice de l capitulo presentamos algunos de los detalles del proceso, S in embargo, se pueden extracr importantes concJusioncs dandose cucnta de que queremos enconlrar 1

  • , Savings and Loan

    Capitulo 13. Regresi6n multiple 499

    Los estimadores de los eoeficientes pueden resolverse utilizando las fonnas s iguientes:

    donde

    I~\ I)' = correlaci6n muestral entre XI Y Y r.l:2.l' = correlaci6n muestral en tre Xz e Y

    I': = desviaci6n Llpica muestrru de X2 s; = desviaci6n tfpica muestrru de Y

    (13.4)

    (13.5)

    (13.6)

    En las ecuaciones de los estimadores de los coeficientes , vemos que la est imaci6n del cocficiente de la pendiente, bl, no s610 depcnde de la correlac i6n entre Y Y XI sino que tam bien la afec(a la correlaci6n en tre X I Y Xl Y la correlaci6n entre Xl e Y. Si la cOlTela-ci6n entre XI Y X2 es igual a 0, los estimadores de los coefieientes, hi Y b2 senln iguales que los eSLimadores de los eoeficienles que se obtendrfan en las regres iones simples corres-pondiemes: debemos sei'iaJar que eslO raras veces ocurre en el anal isis empresari al Y eeo-n6mico. Y a 1a inversa, si la correlac i6n entre las variables independientes es igual a I, los estimadores de los coeficientes seran indefinidos, pero eso se debenl unicamente a que la cspeciFicaci6 n del modelo es incorrccta Y violan'i el supuesto 5 de la regresi6n multiple. Si las variab les independientcs estrin correlacionadas perfecLamcnte, ambas experimentan va-riaciones relativas silTIllhiineas. Vemos que en ese caso no es posib le saber que variable predice la variaci6n de Y. En el ejemplo 13.3 vemos el efeclo de las correlaciones en tre las variables independienles examinando el problema de las asociaciones de ahorro y eredito inmobiliario, cuyos datos se muesLran en la Tabla 13.1.

    EJEMPLO 13.3. Margenes de beneficios de las asociaciones de ahorro y credito in mobilia rio (estimacion de los coeficientes de regresion)

    EI presidente de la confederacion de asoc iaciones de ahorro y credito inmobi liario Ie ha pedido que ident ifiqllc las variables que afeclan al margen porcentual de beneficios.

    Soluci6n En primer Jugar, desarrollamos una especificaci6n del modelo de regresi6n multiple que predice los beneficios como una fllnci6n lineal del porcentaje de ingresos netos por d6-lar depositado y el numero de ofi cinas. Util izando los datos de la Tabla 13. 1 que se en-cuentran en el fichero de datos Savings and Loan, hemos eSlimado un modele de re-gres i6n multiple, que se observa en las Salidas Minitab y Excel de la Figura 13.3.

    Los coeficientes esti mados se identifican en la salida de los programas informaticos. Vemos que cada aumento unitario de los ingresos, Xl' provoca un all menlo de los bene-Fi cios porcentuaJes de 0,237 -si la olm variable no varfa- y un aumento unitario del

  • 500 Eslad istica para administraci6n y economia

    , ,

    Regression Analysis: Y profit versus X1 revenue, X2 offices

    The regression e quati on is Y profit = 1 . 56 ~ 0 . 23 7 Xl revenue - 0 . 000 24 9 X2 offices

    Coeficientes __ -;:~..-_ _ -;:;;--;:=;-_ _ --:- ---:- de regresion

    Predictor / boo b,. b,

    Coe SE Coef T p Con stan t 1 . 564 50 0.079 4 0 19 . 70 Xl r e v e nue 0.23720 0 . 05556 4 . 27 x 2 of f ices 0 . 00024908 0 . 00003205 - 7 . 77

    S = 0 . 0533022 R- Sq = 86 . 5% R-Sq (ad j) = 85 . 3% Ana lys i s of Va ria n ce

    Source OF Re g r e ssion 2 Residua l Err o r 22 Total 24

    .,

    ; , , R

    ~ ;

    G",,",

    , .

    ;;;;-" ... ,,, .. "

    SS MS F 0 . 40151 0 . 2007 6 70 . 66 0 . 0 6250 0 . 00 2 8 4 0 .4 64 02

    s~

    ~ . . .. CoeflClentes de regreslOn

    boo b,. b,

    0 . 000 0 . 000 0 . 000

    P 0 . 000

    F v.,,;;-::"'" ~ . .

    ,,, ,

    Figura 13.3. Ecuaci6n de regresi6n de los beneficios de las asociaciones de ahorro y credito inmobiliario: (a) salida Minitab; (b) salida Excel.

    numero de ofic inas reduce los beneficios en 0,000249. Consideremos ahora los dos mo-de los de regresi6n simple de las Figuras 13.4 y 13.5, en los que hacemos una regresi6n de Y con respeclo a cada variable independienle por separado. Consideremos primero la regresi6n de Y con respecto a los ingresos. Xl ' de la Figura 13.4. En eSla regresi6n sim-ple, el coeficienle de Xl es -0,169, que es ciaramenle diferente de + 0.237 de la regre-sian mu l! iple. M,ls abajo, vemos que la correlaci6n entre X I Y X2 es 0,941. Esta gran correlac i6n produce un gran efecto en el coefi ciente de Xl en la ecuaci6n de regres i6n multiple.

    Consideremos a conlinuaci6n In regresi6n de Y con respecto a X2 solamenle de la Figura 13.5. En esla regres ian simple, el coeficiente de la pendiente del numero de ofi ~

  • Regression Analysis: V profit versus Xl revenue

    The regression equation is Y profit = 1.33 - 0.169 xl revenue

    Predictor Coef Const-ant 1.3262 Xl revenue ~ ... 5 . 0 . 100891 R-Sq = 49 . 5%

    Analysis of variance Source Regression Residual Error Total

    DF 1

    23 24

    S5 0.22990 0.23412 0 . 46402

    SE Coef 0.1386

    0.03559

    R-Sq (adj)

    M5 0.22990 0 . 01018

    Capitulo 13. Regresi6n multiple 501

    T p 9.51 0 . 000

    - 4.15 0.000 Coeficiente

    " 41.4% de regresion b 1

    F P 22 . 59 0 . 000

    Figura 13.4. Regresi6n de los beneficios de las asociaCiones de ahorro y cr~dito inmobiliario con respecto a los ingresos.

    Regression Analysis: Y profit versus X2 revenue

    The regression equation is Y profit = 1.55 - 0 . 000120 x2 offices

    Predictor Coef SE Coef T P Constant 1 .54 60 0.1048 14 . 15 0.000 x2 offices ~. 000120Il> ~0 . 00001434 -8 . 39 0 . 000

    Coeficiente 5 0 . 0104911 R-Sq '" 75 . 4% R-Sq(adj) . 14.3% de regresion ~ Analysis of variance Source DF 55 M5 F P Reg r ession 1 0.34913 0 .34913 10 . 38 0. 000 Residual Error 23 0 . 11429 0.00491 Total 24 0 .4 6402

    Figura 13.5. Regresi6n de los oeneficios de las asociaciones de ahorro y cr~dito inmobiliario con respecto a! numero de oficinas.

    cinas, X2, es - 0 ,1XXl120, mientras que en 1a regres i6n multiple es - 0,000249. Este cambio de los coefic icntes, aunque no es Ian grande como en el caso del coeficiente de X I_ tambie n se debe a la eslrecha correlaci6n entre las variables independientes.

    Las correlaciones entre las Ires variables son

    Xl lngresos X2 Oficinas

    Y Beneficios

    - 0,704 - 0,868

    Xl lngresos

    0 ,94 1

    Vcmos que la corrclaci6n entre XI Y X2 cs 0,941. Por 10 tanio , las dos variables tiendcn a variaI' a la vcz y no es sorprendente que los coeficienles de la regresi6n multiple sean difercnles de los coeficientes de la regresi6n simple. Debemos senalar que los coeficientes de la regresi6 n multiple son coejiciel1tes cOlldiciol/ados; es dec ir, el coeficienLc est imado

  • 502 Esladislica para adminislracion y economia

    I~I),)I )

    8000

    7000

    0.'

    0 .

    0.4

    ,

    hi depende de las demas variables incJuidas en e l modelo. Eso sicmpre es aSI en la regre. si6n multiple, a menos que dos variables indcpcndientes tengan una correlaci6n 1lluestral de ccm, algo que es l11uy improbable.

    Estas rc laciones tam bien puedcn eSludiarse uli li zando un IlgrMico malricial de Mini . tab, como e l que muestra la Figura 13.6. No existen grafi cos de este tipo en Excel. Obser. vese que la relaci6n simple entre Y y X2 es claramente lineal. mientras que la relacion sim-ple entre Y Y XI es algo curvilfnea. Esta relac ion no lineal entre XI e Yexplica en parte por que e l coeficienle de Xl de la regresi6n simple es ran distinto del de la regrcsion multiple. Vemos en este ejemplo que las correlaciones entre variables independientes pueden inOuir considerablcmenle en los coeficientes estimados. Por 10 taniO, si es posible clegir, deben cvitarse las variables independicntes muy correlac ionadas. Pero en mochos casos no es po-sib le clcgi r. Las estimaciones de los coefi cientes de regres ion sicmpre dependen de las de-mas vari ables de predicci6n del modelo. En este ejemplo, los beneficios aumentan en fun-ci6n de los ingresos porcentuales por dolar depositado. Sin embargo, e l uumento simultaneo del numero de oficinas -que redujo los beneficios- ocultarfa el aumento de los beneficios si se utilizara un analisis de regres i6n simple. Por 10 lanlo, es muy importan-le especificm correctamente el modelo, es decir, la elecci6n de las variables de predicci6n. Para especificar cl modelo es necesario comprender el contexto del problema Y la teoria.

    Matrix Plot of X1 revenue, X2 offices, V profit Xl' .... v .... nue

    Instrucciones de Minitab .' 1. Pulsar Graph

    2. Seleccionar Matrix plot 3. Seleccionar Simple

    4. Seleccionar Matrix options

    X2 offices 5. Seleccionar lower Left

    .. ~

    '. .' I'

    ". ,

    '.

    Y profit

    , 4 , 7000 8000 9COO

    Figura 13.6. Graficos matricia!es de las variables de las asociaciones de ahorro y crMito inmobiliario.

    EJERCICIOS

    Ejercicios basicos a) rx ,y = 0,60; rxlY = 0,70; rX T , = 0,50; sx, = 200; SXI = 100: Sy = 400

    13.10. Calcule los coeficicntes b l Y b2 del modelo de rcgrcsi6n

    dados los siguientes eSladfsticos sinteticos:

    b) Tx ,}, = - 0,60: TX1:1 = 0,70; ,-x .... , = - 0,50; S = 200 s = 100' S = 400 x, ' .~, ' y

    c) Tx,y = 0,40; ':'1:1 = 0,450; ':.,x, = 0,80; S = 200' s = 100's =400 x, ' x, ' y

    d) ':'oY = 0,60; rx,y = - 0,50; ,-x .... , = - 0,60; .~ = 20C},.' = 100' S = 400 x, ' .

  • :jercicios aplicados 13.11. Considere las ccullciones de regrcsi6n lineal es-

    limadas Y = no + alX I

    y = bo+ blXI + "zX2

    a) Mucstre dctaJladamente los estimadores de los coeficientes de a l Y hi cuando la cOiTela-ci6n entre X I Y X 2 es igual a O.

    b) Muestre detalladnmcnte los estimadores de los coefic ientes de (Jj Y bl cuundo la correia-ci6n entre X I Y Xz es igual n I.

    Se recomienda que los siguientes ejercicios se resue lvan con lu ay uda de un computador.

    13.12. f 1 Amalgamated Power Inc. Ie ha pedido que eSlime una ecuaci6n de rcgresi6n para averiguar c6mo afeclan algunas variables de predicci6n ,I 101 demanda de ventas de electricidad. Realiza una serie de estimaciones de regrcsi6n Y anali za sus resultados uti lizando los dalos trimestrales de las ventas de electricidad de los 17 dltimos afios que se encuen tran en el fichero de datos I)ower Demand. a) Estime una ccuHci6n de regresi6n utilizando

    las ventas de elcctricidad como variable de-pendicnte y el ndmero de clientes y cl precio como variables de predieei6n. Interprete los eocfieientes.

    b) Estimc una eeuaei6n de regresi6n (venlas de electricidad) utili zando solumente cl numero de clientes como variable de predicci6n. Interprete el cacficiente y compare e1 resul-tado con cl del apartado (a).

    e) Estime una ecuaci6n de regrcsi6n (ventas de electricidad) uti lizando el precio Y los gm-dos-dfas como variables de predicci6n. Interprcte los coeficiel1(es. Compare cl coc-ficien le del precio con el que ha obten ido en cJ apartado (a).

    d) Est"ime una ecuaci6n de regresi6n (ventas de electricidad) utili zando Ia renta y [os grados-dfas como variables de predicci6n. Intcrprele los coeficienles.

    13.13. , f Transportation Research Inc. Ie ha pcdido que fonnule algunas ecuaeiones de regresi6n multiple para estimar cl efeclo de algunas varia-bles en el ahorro de combustible. Los dalos pa-ra este estudio se Cllcuenlran en el fichcro de datos Motors y In variable dependiente son las millas por gal6n -milpgal- can forme a la certi ficaci6n del Departamento de Transparte.

    Capflulo 13. Regresi6n multiple 503

    a) Formulc una ecuaci6n de regresi6n que utili-ce la patencia de los vehiculos - horsepo-wer- y el peso de los veh fculos - weight-como variables indepcndientes. Intcrprctc los cocficientes.

    b) Formule una segunda ecuaci6n de regresi6n que anada cl numero de cilindros --cylin-der- como variable indcpendiente " la ccuaci6n del npartado (a). Interprete los cae-ficientcs.

    c) Formule una ecunci6n de regresi6n que ulili-ce el nllmero de cilindros y el peso del ve-hfculo como variables independienles. Inter-prete los coeficientes y compare los resulta-dos con los de los apanados (a) y (b).

    d) Formule una ecuacion de regresi6n que ulili-ee la palencia de los vehCculos, el peso de los vehlcu los y el precio como variables de predicci6n. Interprete los coeficientes.

    e) Escriba un breve infonne que resuma sus re-sultados.

    13.14. ' . Transportat ion Rcsearch Inc. Ie ha pedido que fo rmule a!gunas ecuaciones de regresi6n multiple para estimar el efecto de algullas varia-bles en la palencia de los vchCcu los. Los datos para este estudio se enCllcnlran en el fichero de datos Motors y la variab le depcndiente es la potencia -horsepower- conforme a la certifi -caci6n del Depanamento de Transporte.

    a) Formu!e una eCllaci6n de regresi6n que uti li-ce el peso de los vehCcu los - weight- y las pu lgadas ciibicas de desplazamiento de los cilindros --displacement- como variables de prcdicci6n. Inlcrprete los coeficientcs.

    b) Formule una ecuacion de regresi6n que lltili-ce el peso de los vehfcu los, el desplazamicn-to de los cilindros y el niimero de cilindros --

  • Capitulo 13. Regresi6n multiple 505

    Restando In media muestral de la variable dependiente de ambos micmbros, tenemos que

    que puede expresarse de Ja siguiemc manera:

    De~v iaci 6 n observada con respecto a Ja media muestral

    desviaci6n predicha con respecto a la media muestraJ + res iduo

    A continuaci6n, elevando

  • 506 Estadistica para administraci6n y economfa

    Suma de los cuadrados de los errores:

    " " SCE = I (y, - y,)' = I ei (13.10) Suma de los cuadrados de la regresi6n :

    " SCR = I tY, - Yl' (13.11) i-I

    Esla descomposicion puede interpretarse de la forma siguiente:

    Variabilidad muestral total = variabilidad explicada + variabilidad no explicada

    EI caeficiante de determinaciOn, R2, de la regresi6n ajustada es la proporcion de la variabilidad muestral total explicada par la regresf6n

    , SCR SCE R-= - = --

    STC STC (13.12)

    y se deduce que

    La suma de los cuadrados de los errores tambien se utili za para calcular la eSlimaci6n de la varianza de los enores del model a poblacional, como muestra la ecuaci6n 13.1 3. AI igual que ocurre en 11.1 regres ion simple, la varianza de los errores poblacionales se utiliza para la inferencia estadfstica de la regresi6n multip le.

    Estimacion de la varianza de los errores Dado el modelo de regresi6n poblacional multiple

    y, = /io + /i ,x" + /i,,,-, + ... + PKXK1 + e, Y los supuestos habituales de la regresi6n, sea q2 18 varianza comun del fermi no de error, I!r Entonces, una estimaci6n insesgada de esa varianza es

    " L e; s' = -,',,--,-' __ = _,-SC,-E-,--_ " II - K- I/ - K - (13.13)

    donde K es el numera de variables independientes en el modelo de regresi6n . La raiz cuadra-da de la varianza, s", tambien se llama error tiplco de la estimacion.

    Uegados a este punta, tambien podemos calcular el cuadrado medio de la regresi6n de la forma siguientc:

    SCR CMR=-

    K

    Ulilizamos el CMR como medida de la variabi lidad explicada ajustada para tener en cuenta e l numcro de variables independicnles.

  • Capitulo 13. Regresi6n multiple 507

    La media muestral de la variable dependicnte de los beneficios de las asociaciones de ahorro y eredito inmobiliario es y = 0,674, y hemos uti lizado cstc valor para calcular las dos ultimas eolumnas de la Tabla 13.2. Utilizando los datos de esta labIa y los componen~ tes, podemos demostrar que

    SCE ~ 0,0625 STC ~ 0,4640 R' ~ 0,87

    En estos resultados, vemos que en esta muestra cl 87 por eicnto de la variabilidad de los beneficios de las asociaciones de ahorro y credito inmobilia rio es expl icado por las relacio-nes lineales con los ingresos netos y el numero de oficinas. Observese que tambien podrfa-mos calcular la suma de los cuadrados de la regres ion a parlir de la identidad

    SCR ~ STC - SCE ~ 0,4640 - 0,0625 ~ 0,40 15

    Tambicn podemos calcular una estimac i6n de la varianza de los errores a2 utilizando la ecuaci6n 13. 13:

    " I ei ? ; ... \

    s- = f! II-K-

    SCE 0,0625 25 - 2 - 1 ~ 0,0284 II-K-

    La Figura 13.7 presenta la salidu Mini tub y Excel del aml li sis de regresi6n correspondiente al prob lema de las asoc iaciones de ahorro y credito inmobi liario e indica las distintas su-mas de los cuadrados calculadas. Los paquetes estadisticos calcu lan habitualmcntc cstas cantidades; incluimos los deLalles de la Tabla 13.2 Cmicamente para indicar c6mo sc ca1cu-Ian las sumas de los cuadrados. A partir de ahora, suponemos que las sumas de los cuadra-dos se ealculan mediante un paquete estadistico.

    Los componcntes de la variabilidad tienen sus correspondientes grados de li bertad. La cantidad STC tiene 1/ - 1 grados de libel1ad porque se neeesita la media de Y para eaJcu-larla. EI eomponente SCR tiene K grados de li bcnad pOlque los coefieientes K se neces itan para ealcularla. Por ultimo, el componente SCE tiene 1/. - K - 1 grados de li bertad porque se neeesitan los K coeficientes y la media para eaJcularJ a. Observese que en 1a Figura 13.7 se incluyen los grados de libertad (DF) eOlTespondienLes a cada componente.

    Utilizamos cI coefic ien te de determinaei6n, R2, habitual mente como es tadistico des-criptivo para describi r la fuerza de la relaci6n lineal entre las variab les independientes X y la variable dependienle, Y. Es importante haecr hincapic en que R2 s610 puede utilizarse para comparar modelos de regres i6n que tienen el mismo conj un to de observacioncs mucs-trales de Yi, siendo i = 1, ... , Il. Este res ullado se observa en la forma de la ecuaci6n

    SCE 1 - -STC

    Vemos, pues, que el va lor de R2 pllede scr alto bien porq lle SCE es pequefia - 10 que indi -ca que los pun tos observados estan eerea de los pun tos prediehos- , bicn porque STC es grande. Hemos visto que SCE y s; indican la eereanfa de los puntos observados a los pun-tos prcd iehos. Cuando dos 0 lTlaS eCllaciones de regresi6n tienen la misma STC, R2 es una medidu comparable de la bondad del aj uste de las ecuaciones.

    La ulili zaci6n de R2 como medida global de la calidad de una ecuaci6n ajustada puede plantear un problema. Cuando se afiaden vari ab les independientcs a un modelo de regre-

  • 508 Estadistica para adminiSlracion y economia

    Regression Analvsis: V profit versus Xl revenue, X2 offices

    The ~e9~ession equation is Y profit 1 . 56 + 0 . 237 Xl revenue - 0 . 000249 x2 offices

    e-------- - - --- - Coeficientes bo, b" '" -Predictor Coe SE Coef T P

    Constant 1 . 56 450 0 . 07940 19 . 70 0 . 000 Xl revenue 0 . 23720 0 . 05556 4 . 27 0.000 x2 offices 0 . 00024908 0 . 00003205 - 7 . 77 0 . 000 Error tlpico 7~~~;~~~::==========~~~=~ de la estimacion 5e ....... Coeficiente E 0 . 0 53~6 = 86y ""' R- SQ( adjj = 85 . 3% dedelerminaci6nRz Ana ly s i s o f Variance

    Sou rce Regres s ion Resid ual Erro r Tota l 24

    Source Xl revenus X2 offices

    i i

    Coeficientes boo b" '"

    DF 1 1

    Figura 13.1.

    Seq SS 0 . 22990 0 . 17161

    ______ CMR ;: SCRjK

    MS~ P ~ 70 66 0 000 Varianza de ~_ 5~

    Error tipico

    SCR . O,401S1 SCE = 0,06250 STC "" 0,46402

    Numero de variables independientes (Xl = K

    la estimaci6n 5"

    SCR= 0, 40 151 SCE .. 0,06250 S TC = 0,46402

    Coeficiente

    Numero de I

    ind ependientes (X) '" K

    CMR : SCR K

    Salida Minilab (a) y salida Exce l (b) del analisis de regresl6n correspondiente al problema de las asociaciones de ahorro y credilo inmobiliario.

  • Capitulo 13. Regresi6n multiple 509

    si6n multiple -en casi lodas las siluacioncs ap licadas- , la suma explicada de los cuad ru-dos, seR, aumenta aunque la variable indepenclicnle adicional no sea una variable de pre-dicci6n importante. Por 10 tanto, podrfamos enconlrarnos con que R'! ha aumentado espu-riamentc dcspues de que se ha anad ido una 0 mas variables de predicc i6n poco importantes al modelo de regresi6n multiple. En esc caso, el aumentQ del vnlor de J?'! se rfa enganoso. Para ev itar cste problema, el coeficienle de dete rminac i6n aj ustado puede calcularse como mueSlra la ecuac i6n 13.14.

    Coeficiente de determinacion ajustado EI coeficiente de determinacion ajustado, R2, se define de la forma siguiente:

    SCE/(n - K - I ) STC/(n - I ) (13.14)

    Utilizamos esta medida para tener en cuenta el hecho de que las variables independientes irre-levantes provocan una pequefla reducci6n de la suma de los cuadrados de los errores. Por 10 tanto, el R2 ajustado permite comparar mejor los modelos de regresi6n multiple que tienen dife-rentes numeros de variables independientes.

    Volviendo a nuestro ejemplo de las asociac iones de ahorro y cn!dito inmobiliario, ve-mos que

    1/ = 25 SCE ~ 0,0625 STC ~ 0,4640

    y, por 10 tanto, el coe fic iente ajustado de determinacion es

    iP-= 0.0625 /22 1 - 0,4640/24 ~ 0,853

    En cste ejemplo, la diferencia entre R2 y iF no es muy grande. Sin embargo, si e l modelo de regresi6n hubiera cOlltenido algunas vari ables independientes que no fueran importantes predictores condicionados, la diferencia serra grande. Olra medida de la relac ion en la rc-gresi6n multi ple es e l coeficiente de correlac i6 n multiple.

    Coeficiente de correlacion multiple EI coeficiente de correlaci6n multiple es la correlaci6n entre el valor predicho y el valor ob-servado de la variable dependiente

    - In'i R ~ f(Y,y) ~ y R- (13.15)

    y es igual a la ra fz cuadrada del coeliciente multiple de determinaci6n. Utilizamos R como olra medida de la fuerza de la relaei6n entre la variable dependiente y las variables independientes. Par 10 tanto, as comparable a la correlaci6n entre Y y X en la regresi6n simple.

  • 510 Estadfstica para administraci6n y economia

    EJERCICIOS

    Ejercicios basicos 13.15. Un am'il isis de regresi6n ha producido la si-

    guiente labia del amllisis de la varianza:

    13.16.

    Analysis of Variance

    Sou r ce Of' 5S MS Regres~ion 3 4500 Res i dual Error 26 500

    a) Calcule SI: Y s;. b) Calcule STC. c) Calcllie R2 Y eI coeficiente ajustado de de-

    terminacion.

    Un analisis de regresi6n ha prodllcido guiente tabla del an5lisis de la varianza: Analysis of vari anc e

    Sour ce Re g ression Resid ua l Error

    u) Calcule s~ y s;. b) Calcule STC.

    OF 2

    29

    5S MS 7000 2500

    la s\-

    c) Ca1cu le R2 y cI cocficiente ajustado de de-terminacion.

    13.17. Un an5lisis de regresi6n ha prodllCido la si -guicntc tabla del amilisis de la varianza: Analys i s o[ Vari ance Source Re gress i on Res i dual Err or

    a) Calcu1c s" y s;. b) Ca1cule src.

    OF ,

    45

    SS 40000 10000

    MS

    c) CaJcule R2 y cI coericiente ajuslado de de-tcrminaci6n.

    13.18. Un an5lisis de rcgresi6n ha producido la si-guiente tabla del alllliisis de la varianza: Analys i s of varianc e

    Source Regres sion Re sidua l Er ror

    a) Ca1cule se y s;. b) Ca1cu le STC.

    OF 5

    200

    SS MS 80000 15000

    c) Calcule R2 y cI coeficiente ajustado de de-tenninaci6n.

    Ejercicios aplicados 13.19. En el estudio del ejercicio 13.6, en el que las

    est imaciones por mfn imos cuadrados se basaban en 27 conjuntos de observaciones mueslrales, la

    suma total de los cuadrados y la suma de lo~ cuadrados de la regresi6n Crall

    STC ~ 3.881 y SCR ~ 3,549

    a) Halle e imcrprc(c el coeficiente de determi_ nacion.

    b) Halle la slima de los clladrados de los erro-res.

    c) Halle el coeficiente ajustado de dClermina_ ci6n .

    d) Halle e intcrprctc cl coefieiente de corrcla_ ci6n mu.lti ple.

    13.20. En el estudio del eJerclcio 13.8, en el que las estimaciones pOl' mfnimos cuadrados se basaball en 30 eonjllntos de observaciones mucslrales. !a suma lotal de los clladrados y la sllma de los cuadrados de la regresi6n eran

    13.21.

    STC ~ 162.1 y SCR ~ 88.2 a) Hall e e interprete el coeficiente de delermi -

    naci6n. b) Halle el cocficiente de determinaci6n ajustado. c) Halle e inlerprete el coeficiente de correla-

    ci6n mu ltiple.

    En eI estudio del ejercicio 13.9, se utilizaron 25 observaciones para calcular las estimaciones pOl' mfnimos cuadrados. La suma de los cuadra-dos de la regresion y la suma de los cuadrados de los errores eran

    SCR ~ 79.2 y SCE ~ 45,9 a) Halle e interprele el coeficiente de determi-

    nacion. b) Halle el cocficientc de detel1llinaci6n ajustado. c) Halle e interprete el coeficiente de correla-

    cion mu.ltiple.

    13.22. Vuelva a los datos de las asociaciones de ahorro y credito inmobiliario de la Tabla 13. 1. a) Estime por mfnimos cuadrados la regrcsion

    del margen de beneficios con respecto al nu-mera de ofici nas.

    b) Estime por mfnimos cuadrados la regresi6n de los ingresos nelOS con respecto al numel'O de oficinas.

    c) Estime por mlnimos cuadrados la regresi6n del margen de beneficios con respecto a los ingresos nelos.

    d) Estime por mfn imos cuadrados la regresion del numero de ofic inas con respeclo a los in-gresos nelos.

  • Capitulo 13. Regresi6n multiple 511

    13.4. Intervalos de confianza y contrastes de hipotesis de coeficientes de regresion individuales

    En el apartado 13.2 hcmos dcsarrollado y anali zado los est imadorcs puntuales de los para.~ metros del modelo de regresi6n multiple

    A continuaeion, desarrollamos intervalos de confianza y contrastes de hipotes is de los eoe-ficie ntes de regresi6n est imados. Estos interva los de confian za y contrastes de hipotesis de-pendell de la . varianza de los coefieientes y de la di stribucion de probabilidad de los coefi-cielltes . En el apartado 12.5 mostramos que el coeficiente de regres ion simple es una funcion lineaL de la variable dependiente, Y. Los coeficicntes de regresi6n multiple, bj , tam bien son funciones lineales de la variable depcndiente, Y, pero el algebra es algo mas compleja y no se presentara aqul. En la ecuac i6n de reg res ion mCiltipie anterior, vemos que la variable dependiente, Y, es una funci6n lineal de las variables X mas el error aleatorio /;:. Para un conjunlo dado de variables X, la funcion

    es en realidad una constante. Tambiell vimos en los Capftulos 5 y 6 que sumando una eon stante a una variable aleatoria

  • 512 Estadislica para adminislraci6n y economia

    demos c6mo se calculan las varianzas, no podl"cmos comprendcr perfectamenle los con-Irastes de hip6tes is y los intervalos de con rianza.

    La varianza de una est imaci6n de un coeri cienle dcpende del lamano de la mues!ra. de la dispcrsi6n de las variables X, de las correlaciones en tre las vari ables independientcs y del termino de error del modelo. Por 10 tanto, estas correlaciones afectan tanto a los intcr-val os de confianza como a los contrastes de hi p6tesis. Antes hemos visto que las cOITcla_ ciones entre las vari ables indepcndien tes influyen en los estimadores de los coeficiemes. Eslas correJaciones entre variables independienles tambien aumentan la vari anza de los es-timadores de los coeficienles. Una imporlame conclusi6n es que la varianza de los estima-dores de los coeficientes, ademas de los estimadores de los coeficientes. depende de todo el conjunlo de variables independientes del modelo de regresi6n.

    El aml li sis anterior de los gn'ifi cos tridimens ionales hacia hincapie en los complejos efeclos que producen varias variab les en la varianza de los coeficienles. A medida que Son estrechas las relaciones entre las vari ables indcpendicntes, las cstimaciones de los coefi-cientes son mas inestnbles, es decir, tienen una vuri anza mayor. A continuac ion, presenta-mos un amilisis mas formal de estas complcjidades. Para oblcner buenas estimaciones de los coeficientes --eslimaciones que tengan una baja varianza- debemos buscar un umplio rango para las variables indepcndienles, elegir vari"bJes independ ientes que no esten eSlrc-cham~nte rclacionadas entre sf y buscar un modele que este cerca de lodos los puntos de datos. En la pn'ictica, cuando se rea li zan estud ios estadfslicos aplicados en cI mundo de la empresa y la economfa. a menudo hay que utilizar datos que di stan de ser idcales. como los de l ejemplo de Jas asociaciones de ahorro y eredilo inmobiliario. Pero conociendo los efectos aqu f analizudos. podcmos con tal" con elementos para detcnninar en que medida son aplicables nuestros modelos.

    Para comprender algo el efeclo de las correlaciones de variables independientes, e)(

  • Capitulo 13. Aegresion multiple 51 3

    numero de. variables indcpendienles en un modelo, las influeneias en la varianza de los eoefieientcs eontinuan siendo importantes, pero la estruet ura algebraiea se vuelve muy eomplcja y no se presenta aqul. EI efeeto de las corre laciones haee que los esti madorcs de las varianzas de los coeficientes dependan de las demas variables inclepenciienles del mo-de lo. Recuerdese que los estimadores efectivos de los coeficientes lambien dependen de las demas variables inclependientes del modelo, una vez mas debido al efecto de las correla-ciones entre las variables independientes.

    A continuaei6n, resumimos la base para la inrerencia de los coeficientes de la regresion poblaciona1. Normal mentc, nos interesan mas los coeficientes de regresi6n f3j que la cons-tante u ordenada en cI origen f3o. Por 10 tanto, centraremos la atencion en los primcros, sc-iialando que la inferencia sobre la segunda se reali za de una mancra parccida.

    Base para la inferencia de los parametros de la regresion poblacional Sea el modelo de regresi6n poblacional

    Sean bo' b1, .. , bK las estimaciones par minimos cuadrados de los parametros poblacionales y s/:()' so,' .. . , Sb las desviaciones tfpicas estimadas de los estimadores por minimos cuadrados. Entonces, si te cumplen los supuestos habituales de la regresi6n y si los terminos de error, 1:1, siguen una distribucion normal,

    (13.18)

    se distribuye como una distribuci6n t de Student con (n - K ~ 1) grados de libertad.

    Intervalos de confianza Pueden obtenerse intervalos de confianza de los Pj utilizando la ecuaci6n 13. 19.

    Intervalos de confianza de los coeficientes de regresion Si los errores de la regresi6n poblacional, ;1' siguen una distribucion normal y se cumplen los supuestos habituales de la reg resion , los intervalos de confianza bilaterales al 100(1 - (1:)% de los coeficientes de regresi6n, Pi' son

    donde t,, _K_ 1.12 es el numero para el que

    " P(t,, -K- I > t,, - K -1.a/2) = 2"

    (13.19)

    y la variable aleatoria t,, _K_l sigue una distribuci6n t de Student con (n - K - 1) grados de li-bertad.

  • 514 Estadistica para administraci6n y economia

    EJEMPLO 13.4. Desarrollo del modelo de las asociaciones de ahorro y credito inmobiliario (estimaclon de intervalos de confianza)

    Se nos ha pedido que culculemos intcrva los de confianza de los cocficientes del mOdelo de regres i6n de las asociaciones de ahorro y credilO inmobi liario presenlado en e1 ejem. plo 13.3.

    Soluci6n

    La Figura 13.8 nluestra la sal ida Minitab del am'ilisis de regres i6n correspondiente al modelo de regresi6n de las asociaciones de ahOJTO y credito inmobi liario. Los est imado.

    Regression Analvsis: V profit versus X1 revenue, X2 offices

    The regression equation is Y profit = 1.56 + 0 . 237 Xl revenu e - 0 . 000249 X2

    Predictor Constant Xl revenue X2 offices

    1. Coef

    S " 0.0533022 R-Sq 86.5' R- .) " Analysis of vari ance Sou r ce DF SS MS Regression 2 0 .4 0151 0 . 20076 Residual Error 22 0 . 06250 0 . 00284 Total 24 0 . 46402

    Source OF Seq SS Xl r evenue 1 0 . 22990 X2 o f fices 1 0 . 17161

    (,)

    ."

    (b)

    F 70 . 66

    offices b, 'b, tb,

    . 000

    .000

    tb,

    0 . 000

    Figura 13.8. Regresi6n de problema de las asociaciones de ahorro y credito inmobiliario (salidas Minitab y Excel).

  • Capitulo 13. Regresi6n multiple 515

    res de los coefic ientes y sus desviaciones tfpicas cOITespondientes a las variables de pre-diccion de los ingresos, hi' y el numero de oficinas, b2 son

    b, ~ 0,2372 s'" ~ 0,05556; b, ~ - 0,000249 Sb, ~ 0,00003205 Vemos, pues, que la desviac i6n tfpica de la di slribuci6n en el muestreo del estimador por minimos cuadrados de [11 se estima en 0,05556 y la de [J2 se eslima en 0,00003205.

    Para obtener intervalos de confianza a1 99 por ciento de [1 I Y [12' utilizamos el valor t de Student de la Tabla 8 del apendice.

    'II - K - J. r.r:!2 = (22.0.005 = 2,8 19

    Basandonos en estos resultados, observamos que e1 intervalo de confianza al 99 por ciento de [J I es

    0,237 - (2,8 19)(0,05556) < p, < 0,237 + (2,819)(0,05556) o sea,

    0,080 < p, < 0,394 Por 10 tanto, el intervalo de cOllfianza al 99 par ciento del aumento esperado del margen de beneficios de las asociaciones de ahorro y cn':dito inmobiliario provocado pOl' un aumento de los ingresos nelos de I unidad, dado un numero rljo de otic inas , va de 0,080 a 0,394. El intervalo de confiunza al 99 por cienlO de [12 es

    - 0,000249 - (2 ,8 19)(0,0000320) < {3, - 0,000249 + (2,819)(0,0000320) o sea

    - 0,000339 < fl, < - 0,000 159 Vemos, pues, que el intervalo de confianza al 99 por ciellto de la disminuci6n espcrada del margen de beneficios provocada par un aumenlo de 1.000 oricinas, dado un ni vel fijo de ingresos netas, va de 0,159 a 0,339.

    Contrastes de hip6tesis Pueden desarrollarsc contrastes de hipolesis de los coeficientes de regrcsi6n utili zando las estimaciones de las varianzas de los coefic ientes. Especialmcntc intcrcsante es e l contraste de hipotcsis

    que se utili za frecuentemente para averiguar si una variable independiente especffica es importante en un modelo de regresi6n mUltiple.

    Contrastes de hip6tesis de los coeficientes de regresi6n Si 105 errores de la regresi6n, [;i' siguen una distribuci6n normal y se cumplen los supuestos habituales del analisis de regresi6n, los siguientes contrastes de hip6tesis tienen el nivel de significaci6n IX:

    1. Para contrastar cualquiera de las dos hip6tesis nulas

  • 516 Estadfstica para administraci6n y economia

    "'" INTlRPRHACION

    frente a la hip6tesis alternativa

    la regia de decisi6n es

    Rechazar Ho si (13.20)

    2. Para contrastar cualquiera de las dos hip6tesis nutas

    Ho: Pj = P* 0 frente a la hip6tesis alternativa

    H ,: Pj < P* la regia de decision es

    Rechazar Ho si (13.21 )

    3. Para contrastar la hipotesis nula

    flo: lij = /i* frente a la hip6tesis alternativa bilateral

    H, :Pj # fI* la regia de decision es

    Rechazar Ho si o (13.22)

    Muchos analistas sostiencn que si no podemos rechazar la hip6tesis condicionada de que cI coeficiente es 0, debemos concluir que la variable no debe incluirse en el modelo de regresi6n. EI estadfstico f de Student de esle contraste normal mente se ca lcula en la mayo-rfa de los programas de regresi6n y se indica al lado de la eSlimaci6n de la varianza de los coeficientes: ademas, normahnenle se induye el p-valor del contrasle de hip6tcs is. Estos se muestran en la salida Minirab de la Figura 13.8(a). Utili zando el estadfstico t de Student indicado 0 e l p-valor, podemos saber inmediatamcnte si una variable de predicci6n es sig-nificativa, dadas las dcmas variables del modelo de regresi6n.

    Exislen ciaramenle olros mclodos para decidir si una variable independiente debe in-c1uirse en un modele de regresi6n. Vemos que el metodo de selecci6n anlerior no liene en cuenta e l error de Tipo II: el coeficiente poblacionai no es igual a 0, pero no rechazamos la hip6tesis nu la de que es igual a 0. ESle es un problema importanle cuando un modelo basa-do en la leoria eeon6mica 0 en otra teoria y cspccificado con cuidado incluye eierlas va ria-bles independienles. En esc caso, debido a un gran error, c, y/o a las correlaciones en tre variables independientes, no podemos rechazar la hi p6lcsis de que el coeficiente es O. En este caso, muchos analistas incluiran la variable independicnte en el modelo porque creen que debe primar la especificaci6n original del modelo basada en la leoria 0 la experiencia

  • Capitulo 13. Regresi6n multiple 517

    econ6m icas. Se trata de una cuesti6n diffcil que exige haecr una buena valoracion basan-dose tanto en los resultados cstadisticos como en la tcoria economica sobre la relacion sub-yacente analizada.

    EJEMPLO 13,5, Desarrollo del modele de las asociaciones de ahorro y cn3dito inmobiliario (contrastes de hipotesis de coeficientesj

    Se nos ha pedido que averiguemos si los coeficielltes del modele de regres i6n de las asociaciones de ahorro y eredito inmobi liario son predictores significat ivos de los bene-ficios .

    Solucion

    En el contraste de hipotesis para esta cuesti6n uti lizaremos los resul tados de la regrc-si6n real izada con el programa Minitab moslrados en la Figura 13.8(a). En plimer lugar, queremos averigllar si los ingresos (Olales aumentan significativamente los beneficios dado el efecto del numero de oficinas, es decir, descontando la infillencia de este. La hipotesis nula es

    frente a la hip6tesis alternativa

    H,:[J, >0

    EI contraste puede reaJizarse ca lculando el estadfstico 1 de Student del coeficiente, dado Ho:

    0,237 - 0 --'cc,..,-,-"..,- = 4 27 0,05556 '

    En la Tabla 8 de la t de Student del apendice podemos ver que el valor crftieo del esta-dfstico t de Student es

    t 220.OO5 = 2,819

    La Figura 13.8(a) tam bien indica que el p-valor del contraste de hip6tesis es inferior a 0,005. Basandonos en esta evidencia, rechazamos Ho Y aceptamos HI y conclui mos que los ingresos totales son un predictor estadfsticamente significativo del aumento de los beneficios de las asoc iac iones de ahorro y credito inmobiliario, dado que hemos ten ido en cuenta el efecto del numero de oficinas.

    Tambien podemos averiguar si cl numero total de oficinas reduce significativamente los margenes de beneficios. La hip6tes is nula es

    Ho: Ii, = 0 frente a la hip6tesis alternativa

    H, : Ii, < 0

  • 518 Estadistica para adminislraci6n y economia

    EI contruste puede reali zarse calculando e l estadfst ico t de Student del coefici cnte, dudo Ho:

    - 0,000249 - = - 7,77

    0,0000320

    En la Tabla 8 del apendice podemos ver que el valor crftico del estadfstico 1 de Student es

    122.0.005 = 2,8 19

    La Figura 13.8(a) lambien indica que el p-valor del contraste de hip6resis es in fe rior a 0,005. Basandol1os en esto evidencia, rechazamos Ho Y uccptumos HI y concluimos que el numero de ofic inas es un predictor estadfst ieamente significativo de la reducci6n de los beneficios de las asociaciones de ahorro y ered ilo inmobil iario, dado que hemos te-nido en CLienta el efeelo de los ingresos tolales.

    Es importanle hacer hineapie en que los dos contrates de hip6tes is se basan en el conjunlo de vari ables incluidas en el mode lo de regresi6n. Por ejemplo, si se incluyeran mas variab les de predicci6n, estos conlrastes ya no serfan v~lidos. Con mas variables en el modelo, las esti maciones de los coeficientes y sus desviaciones tfpicas estimadas se-rfan diferenles y, pOI' 10 lanto, tambien 10 serfa el estadfsl ico t de Student.

    Observcse que en la sa lida Minilab del amllisis de regresi6n mostrada en la Figura 13.8(a). el eSLadfstico t de Student de la hip6tesis nula -Ho: fJj = 0- es eI cotiente en-tre el coeficiente eSlimado y e1 error tfpico de l coeficiel1le estimado. que se encuentra en las dos col umnas siLuadas a la izquierda de l estHdistico r de Student. Tambien se muestra la probabi lidad 0 p-valor de l contrasle de hip6tesis de dos colas: H/ Pj -::j::. 0. Por 10 tunto. cualquier analista puede realizar estos contrastes de hip6tesis directamente exa-minando la salida del aml li sis de regresion multiple. El estadistico t de Student y el p-valor se ca lculan en todos los paquetes eSLadfsticos modernos. La mayorfa de los anal is-tas buscan estos resultados habitualmente cliando examinan la salida del anal isis de re-gresi6n de un progrHma estadfstico.

    EJEMPLO 13,6. faclores que afeclan al Ii po del impueslo sobre bienes inmuebles (amilisis de los coeficienles de regresi6n)

    Un ayunta miento encarg6 un estudio para averiguar los ractores que influyen en los im-puestos urbanos sobre los bicnes inmuebles de las ciudades de 100.000-200.000 habi -tHntes.

    Solucion Uti lizando una muestra de 20 ciudades de Estados Unidos, se est im6 el siguiente mode-10 de regresi6n:

    y = 1,79 + Q,000567x, + 0,0 1 83x2 - 0,OOO 191x, (0.000 139) (0.0082) (0.000446)

    R2= 0,7 1 11 = 20 donde

    y = lipo efecti vo del impuesto de bienes inmuebles (impuestos efectivos di vid idos pOl' el valor de mercado de la base imposiriva)

    XI = numero de viviendas por kil6metro cuadrado

  • Capitulo 13. Aegresi6n multiple 519

    X 2 = porccntajc de los ingresos lTIunicipales lotales represcnlado por las ayudas pro-cedentcs de las administraciones de los estados y de In adrninistraci6n federal

    x) = renta personal per capita mediana en d61ares Los numeros entre purentesis que se encuentran debajo de los coeficienles son los erro-res lfpicos de los coeficientes eslimados.

    La presenlacion anterior constituye un buen fonnato para mostrar los resultados de un modelo de regresi6n. Los resultados indican que las estimaciones condicionadas de los efeclOs de las tres vmi ables de predicci6n son las siguientes:

    1. Un 3l1mento de una vivienda pOl' kilometro cuadrado eleva el tipo erectivo del impueslo sobre bienes inmuebles en 0,000567. Observese que los tipos del im-puesto sobre bienes inmuebles l10rmalmente se expl'esan en d61ares pOl' cada 1.000 $ de valor catastral de la propiedad. Asf, un aumento de 0,000567 indica que los tipos del impuesto sobre bienes inmuebles son 0,567 $ mas altos por 1.000 $ de valor catastral de la propiedad.

    2. Un aumento de los ingresos municipales totales de un 1 par dento procedenle de las ayudas de las administraciolles de los estados y de la administraci6n fe-deral eleva el tipo impositivo erectivo en 0,0 183.

    3. Un aumenlO de la renta personal per capita mediana de 1 $ provoca una dismi-!luci6n esperada del tipo impositivo efectivo de 0,000191.

    Hacemos de nuevo hincapie en que estas estimaciones de los coeficientes 5610 son vali-das en un modelo que incluya las tres variables de predicci6n an leriores.

    Para comprender mejor la eXDclilud de eSlOs efectos, constnliremos intervalos de confianza al 95 por dento condicionados. En el modelo de regres i6n estimado, el error tiene (20 - 3 - I) = 16 grados de libertad. Por 10 tanto, el estadistico I de Student para calcular los intervalos de con l'i anza es, como se observa en el apendice, t I6. 0 .02.'i = 2,12. EI fonnato del interva lo de confianza es

    bj - tn - K - !'~b) < fij < bj + f/l -K-I.rs.r-sbJ Por 10 tanto, el coeficiente del numero de viviendas por kil6metro cuadrado tiene un intervalo de confianza al 95 por ciento de

    0,000567 - (2,12)(0,000139) < p, < 0,000567 + (2, 12)(0,000139) 0,000272 < II, < 0,000862

    EI coefi cienle del porcelltaje de ingresos representados pOI' las ayudas tiene un intervalo de confianza al 95 por cienlo de

    0,0 183 - (2,12)(0,0082) < II, < 0,0183 + (2, 12)(0,0082) 0,0009 < #, < 0,0357

    Par ultimo, el coefi ciente de la renla personal per capita mediana {iene un interval a de confianza al 95 par dento de

    - 0,000 19 1 - (2, 12)(0,000446) < Ii, < - 0,00019 1 + (2, 12)(0,000446) - 0,0011 37 < p, < 0,000755

    Una vez m6s hacernos hincapie en que estos intervalos dependen de que se incluyan las tres variables de predicci6n en el modelo.

  • 520 Esladislica para administraci6n y economfa

    Citydat

    Vemos que el illlervalo de confi anza 31 95 por cienlo de fi3 incluye 0 y, por 10 tanto, podriamos no rechazar la hip61esis de dos colas de que este coeficiente es O. Bas{mdo_ nos en eSle intervalo de confianza. conc1 uimos que X) no es una variable de predicci6n estadisticamente signiricaliva en el modelo de regresi6n mult iple. Sin embargo. los intervalos de confianza de las otras dos variables no incluyen 0 y, por 10 tanto, conclui -mos que eslas son estadfslicarnen te significat ivas.

    EJEMPLO 13.7. Efeclos de los faclores fiscales en los precios de la vivienda (estimaclon de los coefic ienles del modelo de regresi6n)

    Northern Ci ty (Minnesota) tenfa interes en saber c6mo afeclaba la promoci6n inmobilia-ria local al precio de mercado de las viviendas de la ci lldad. Northern City es una de las numerosas ciudadcs no metropolitanas pequenas del Medio Oeste de Estados Unidos cuya poblaci6n osc ila entre 6.000 y 40.000 habitantes. Uno de los objeti vos era averi-guar c6mo influiria un aumento de la canlidad de locales comerciales en e l valor de las viviendas locales. Los dalos se encuenl ran en e l fichero de dalos Citydat.

    Solucion

    Para responder a esta pregunta. se recogieron datos de algunas ciudades y se utilizaron para construi r un modelo de regresi6n que est ima el efecio de vari:lb les clave en e l pre cio de 13 vivienda. Para este estudio se obtuvieron las siguienles variables de cada ciudnd:

    Y (hseval) = precio medio de mercado de las viviendas de 13 ciudad XI (s izchse) = numero medio de habitaciones de las vivielldas X2 (incom72) = rcnta media de los hogares Xl (tax rate) = tipo imposilivo por mil d61ares de valor catastra l de las viviendas X4 (comper) = porcenlaje de propiedades inmobiliarias imponi bles que son comer-

    ciales

    La Figura 13.9 mllcslra los resultados de la regrcsi6n multi ple, obtcnidos por medio de l programa Mini tab. EI coeficiente del numero medio de habitaciones de las viviendas es 7,878 y 1a desviaci6n Ifp ica del coeficiente es 1,809. En esle estudio, los valores de las viviendas se expresan en unidades de 1.000 $ Y la media de todas las ciudadcs es de 2 1.000 $. As!, por ejempio, si e l numero medio de habitaciones de las viv iendas de una c iuclad es mayor en 1,0, el precio medio es mayor en 7.878 $. EI estadfs lico I de Student resu ltante es 4,35 y el p-valor es 0,000. Par 10 Ian to, se rechaza la hip61es is condiciona-da de que este cocficiente es igllal a 0. Se obliene eI misl110 resultado en e l caSD de las variables de la renla y del tipo impos il ivo. Ln variable incom72 esta expresada en unidades de d61ares y, POI' 10 tanIO, si In renla media de una ciudad es mayor en 1.000 $, el coeficiente de 0,003666 indica que el prec io medio de la vivienda es 3.666 $ mayor. Si e l tipo imposilivo aumcnta un I por ciento, el precio medio de la vivienda se reduce en 1.720 $. Vemos que el an ~li sis de regres i6n Beva a la conclusion de que cada lI na de estas tres variables es un importante predictor del precio medio de la vivienda de las ciudades inclu idas en eSle estudio. Sin embargo, vemos que el coeficienle del porcenLa-je de locales comerciales , comper, es - 10,6 14 y la desviaci6n (ipica del coefi ciente es 6,491, 10 que da un estadfstico t de Student igual a - 1,64. Observese que esle resul -lado permitc establecer una importante concl ll si6n. EI cocficiente tendria un p-valor de

  • Capitulo 13. Regresi6n multiple 521

    Regression Analysis: hseval versus sizehse, income72, taxrate, Comper

    The regression equation is hseval = -28 1 + 7.88 sizehse + 0.000367 incom72 - 172 taxrate -10.6 Comper

    Predictor Coef SE Coef T p Constant -28.075 9.766 -2.87 0.005 Sizehse 7.878 1.809 4.35 0 . 000 incom72 0.003666 0.001344 2 . 73 0 . 008 taxrate -171.80 43.09 -3 . 99 0.000 Comper -10.614 6 .4 91 -1 . 64 0.106

    S . 3 . 67686 R-Sq " 47.4% R-SQ(adj) ~ 45.0% Analysis of variance

    Source Regression Residual Error Total

    OF 5S 4 1037.49

    85 1149 . 14 89 2186 . 63

    M5 F P 259.37 19.19 0.000

    13 . 52

    Figura 13.9. Modelo de regresi6n del precio de la vivienda (salida Minitab).

    una cola de 0,053 0 un p-valor de dos colas de 0,106. Por 10 tanto, parece que reduce algo el precio medio de las viviendas. Dado que se han incluido los efectos del tamano de las viv iendas, la renta y el tipo impositivQ en el precio de mercado de las viviendas, vemos que el porcentaje de locales comerciales no eleva los predos de la vivienda. POI' 10 tanto. este analis is no apoya el argumento de que el valor de mercado de las vivien-das aumentanl si se construyen mas locales comerciales. Esa conclusi6n s610 es ciel1a en un modelo que incluya estas cuatro variables de predicci6n. Observese tambien que los valores de R 2 = 47,4 por ciento y Sr (error tfpico de In regresi6n) = 3,677 estan in-c1uidos en la salida del anulis is de regresi6n.

    Los defensores de Ull aumento de In promoci6n de locales comerciales tambien 505-tenlan que cI aumento de la canlidad de locales comerciales reducirfa los impuestos pa-gados por lus viviendas ocupadas POI' sus propietarios. Esta tesis se contrast6 utilizando los resultados de la regresi6n de la Figura 13.10 obtenidos con el program a Excel. Se indican los estimadores de los coeficientes y sus errores tfpicos. Los estadfst icos 1 de Student de los coelicientes del tamano de la vivienda y el tipo impositivo son 2,65 y 6,36, 10 cual indica que estas variables son importantes predictores. EI estadfsti co r de Student de la rcnta es 1,83 con un pvalor de 0,07 para un contraste de dos colas. POl' 10 tanto, la renla tiene alguna influencia como predictor, perc su efecto no es tan fuerte como el de las dos vari ables anteriores. Vemos de nuevo que hay margen para extraer conclusiones s6l idas. La hip6tesis condicionada de que un aumento de los locales co merciales reduce los impuestos sobre las viv iendas ocupadas por sus propietarios puede contrastarse utili zando el estadfsti co t de Student de la vari ~lble com per en los resulta-dos de la regresi6n. E1 estadfstico I de Student es - 1,03 con un p-valor de 0,308. POl' 10 tanto, la hip6tesis de que un aumento de los locales comerciales no reduce los impues-tos sobre la vivienda no puede rechazarse. No existen pmebas en eSle ana li sis de que los impuestos sobre las viviendas disminuirian si se conslruyeran mas locales comerciales.

    Basandose en los ana l isis de regres i6n real izados en este estudio, los consultores lIe-garotl a la conclusi6n de que no existfan pruebas de que un allmento de los locales co-merciales elevaria el valor de mercado de las viviendas 0 reducirfa los impuestos sabre bienes inl1lllebles de las viviendas.

  • 522 Estadistica para administraci6n y economia

    --- - -----

    ~ Mkr-osoft Excel CITYDAT l[) EOe ~dit I[JIe'N loser! F~mat 10015 Q.~ t~ :tiindo'N t!elo

    D~!iI d :. ~ ~ ora. " . ~I @J (1) ~ "'" ~1 ... SUMMARY OUTPUT . 10 .OI U I

    Coeficiente multiple de determinaci6n R2

    Coeficientes bo, b1, ~, ~, b.

    SCR SCE STC

    Estadisticos t Errores tipicos de Student de los coefic ientes

    Figura 13.10. Modelo de regresi6n de los impuestos sabre las viviendas (salida Excel).

    EJERCICIOS

    Ejercicios basicos 13.23. Los resu ltados del and Usis de un modelo de rc-

    gresi6n son los siguientes:

    y = 1,50 + 4,8x1 + 6,9x2 - 7,2x) (2, 1) (3.1) (2,8)

    R2 = 0,71 II = 24 Los numeros entre parentesis situados debajo de las cstimaciones de los coeficientes son los errores tfpicos muestrales de las estimaciones de los coeficientes. u) CaJcu lc intervalos de confianza al 95 par

    ciento bilaterales de los tres coeficientes de In pendiente de regrcsi6n.

    b) Contrastc pam cada uno de los coeficientes de la pcndientc las hip61esis

    Ho : Pj = 0 frente a 13.24. Los resultados del am'il isis de un modelo de rc-

    gresi6n son los s iguicntes:

    ;; = 2.50 + 6,8x 1 + 6,9x2 - 7,2x) (3.1) (3.7) (3.2)

    R2 = 0.85 II = 34

    Los numeros entre parentesis s iluados debajo de las estimaciones de los coeficientes son los crrores tfpicos muestrales de las estim:lciones de los eoeficientcs.

  • a) Calcule imcrvalos de confianza al 95 por denlo bilaterales de los Ires coefieientes de la pendienle de regresi6n.

    b) Conlrasle para cada uno de los coeficienles de la pendiente las hip6tesis

    frente a H I : Ili > 13.25. Los resultados del anal isis de lin modelo de re-

    gresi6n son los siguientes:

    y = - 101 ,50 + 34,8x, + 56,9x2 - 57,b:3 (12.1) (23.7) (32.S)

    R2 = 0,71 II = 65

    Los numeros entre parentesis situados debajo de las estimaciones de los coeficientes son los en-ores I{picos mueslrales de las estimaciones de los coeficientes. a) Calculc intcrvalos dc confianza al 95 por

    ciento bilaterales de los Ires cocficientes de la pendiente de regresi6n.

    b) Contraste para eada uno de los coefieientes de la pendiente las hip6tesi s

    frentc a H j : fJj > 0 13.26. Los resultados del amilisis de un modelo de re-

    gresi6n son los siguientes:

    y = - 9,50 + 17,8x j + 26,9x2 - 9,21:3 (7.1 ) (13 .7) n.8)

    /I = 39

    Los numeros entre parentesis situados debajo de las estimaciones de los coeficientes son los errores tfpicos muestrales de las estimaciones de los coefidcntes. a) Calcule intervalos de eonfianza al 95 por

    cicnto bilatcralcs de los tres coeficientes de la pendiente de rcgresi6n.

    b) Contraste para cada uno de los coeficientes de la pendiente las hip6tesis

    flo:{Jj = 0 frente a HJ :/1) > 0

    Ejercicios aplicados 13.27. En cI estudio del ejercicio 13.6, los errorcs tfpi-

    cos estimados eran

    S;" = 0,099 S;" = 0,032

    a) Hall e intervalos de eonfianza al 90 y el 95 por demo de fJ I'

    b) Halle intervalos de confianza al 95 y el 99 par eiemo de #2'

    Capitulo 13. Regresi6n multiple 523

    c) Contraste la hip6tesis nub de que, man le-niendose todo 10 demas constanle, el peso del avi6n no liene una intluencia lineal en su esfuerw de diseiio frente a la h ip6tesis alter nativa bilateral.

    d) La suma de los cuadrados de los en-ores de cSla rcgresi6n era 0.332. Utilizando los mis-mos datos, se aj usl6 una regresi6n lincal simple del esfuerzo de diseno can respecto al nlimero poreemual de piezas cornunes, 10 que dio una suma de los cuadrados de los errores de 3.311. Contraste al nivel del I par ciento la hip6tesis mila de que la velocidad maxima y el peso, considerados conjunta mente, no contribuyen nada en un senti do li -neal a la explicaci6n del esfuerz.o de diseno, dado quc cl numero porcentual de pi czas co-mimes tambicn se util iza como variable ex-plieativa.

    l3.28. En cI estudio del ejercicio 13.8, en cl que la re-gresi6n mueslral se basaba en 30 observaciones, los errores tfpicos eSli mados eran

    S", = 0,023 a) Comraste la hip6lesis nul a de que, dado el

    tamano de la familia, el consumo de leche no depende lineal mente de la rema frenle a la hip6tesis a.lternativa unilateral adecuada.

    b) Halle intervalos de eonfianza del 90, el 95 y el 99 por ciento de f32'

    13.29. En el estudio de los ejercicios 13.9 y 13.21, en los que la regresi6n muestral se basaba en 25 observaciones, los errores t[picos estimados eran

    Sb, = 0,189 Sb, = 0,565

    a) Contraste la hip6tesis nula de que, mante-niendose 1010 10 dem.is conslanle, las horas de ejercicio no illtluyen lineal mente en el flumento de peso frente a la hip6tesis aller-nativa unilateral adecuada.

    b) Conlrasle la hip6tesis nula de que, rnante-niendose todo 10 demas eonstante, el eonsu rna de cerveza no in nuye lineal mente en el aumento de peso frente a la hip61esis alter nativa unilateral adecuada.

    c) Halle intervalos dc confianza del 90, el 95 y el 99 por ciento de fJI'

    13.30. Vuelva a los datos del ejemplo 13.6. a) Contraste la hip6tesis nula de que, mante-

    niendose todo 10 dernas constante, la ren ta

  • 524 Estadislica para adminislraci6n y economia

    personal per capita mediana no InOuye en el ripo efcclivo del impuesto sobre bienes in-muebJes frente a una hipotesis alternativa bi-lateral.

    h) Conlraste la hip61esis nula de que las tres variables independicntes, consideradas con-juntamente, no influyen linealmenle en d ti-po erectivo del Impuesto sobre bienes 111-muebles.

    13.31. , ~ Vue!va a los datos del ejemplo 13.7 que se eneuentran en el fichero de datos Citydat.

    a) Halle inrervalos de confianza al 95 y al 99 por cienlo de la variaci6n esperada del prc-cia de mercado de las viviendas provocada par un aumcnlo del numero medio de habi-taeiones de I unidad cuando no varIan los valores de todas las demas variables inde-pendientes.

    b) Contraste [a hip6tesis nula de que, mante-niendose todo 10 demas constanle, 141 renla media de [as hogares no influye en el precio de mereado frente a la hip6tesis ahernativa de que cuanto mayor es la renta media de [os hogares, milS alto es el precio de mercado.

    13.32. En Ull estudio de los ingresos gencrados pOl' las loterfas naciona[es, se ajust6 la siguiente ecua-ci6n de regrcsi6n de 29 parses que tienen lorc-rfas:

    y= - 31 ,323 + O,04045xI + 0,8772r2 - 365,Olx3 - 9,929Kr4 (0.00755) (0.3t07) (263.88) (3.4520)

    R2 = 0,51

    donde y = d61ares de ingresos anua[es netos per capi-

    ta generados por la [olerfa XI = renta personal media per C

  • 13.35. En un estud io de las tenenc ias extranjeras en bancos bril{micos., se o btu vo la siguientc rcgrc~ si6n muestra l, basada en 14 obscrvaciones an ualcs

    y =

    Capitulo 13. Regresi6n multiple 525

    Iral , basada en datos de 39 eiudades de Mnry-land:

    - 0.00232 - 0,00024xl - Q,00002x2 + 0,00034x, (0,00010) (0,0000 18) (0,00012)-y = - 3,248 + 0, 10 l xI - O,244x2 + 0,057x3 R2 = 0,93 + 0,48 122x4 + 0,04950x5 - 0,000 1Q."(6 + 0,00645x7 (0.77954) (0,0 11 72) (0.00005) (0.00306) (0,0023) (0,080) (0.00925)

    donde y = proporci6n de acti vQS a final del ano en fi-

    liales de bancos bri tani cos en manos de eXlranjcros en po rcentaj c de los activos 10-tales

    X I = variaci6n anual , en miles de milloncs de libras, de la invers i6n cxtranjcra directa en Gran Bretafia (excluidos finanzas, seguros y bienes inmuebles)

    Xl = relaci6n precio-benefi cios de los bancos x 3 = fndice del valor de cambia de In libra Los ml mcros entre parentesis s ituados debajo de los coeficientes son los erfores tfpicas de los coeficientes cstimados . a) Halle el intervalo de conllanza al 90 por

    ciento de /31 e interprele su resultado. b) Contraste la hipotesis nula de que fh cs 0

    frente a la hip6tesis alternati va de que es ne-gati vo e interprete su resultado.

    c) Contraste la hip6tesis nula de que /33 es frente a la hip6tcsis alternativa de que es po-sil ivo e interprete s u resultado.

    13.36. En un estudio de las diferencias enlre los ni ve-les de demanda de bomberos par parte de las ciudades, se obtuvo la siguienle rcgrcsi6n mues-

    ii' ~ 0.3572 donde y = nLI1TIero de bomberos a tie mpo eompleto

    per c{ipila X I = salario base maximo de los bamberos en

    miles de dol ares X 2 = porcentaje de pablaci6n xJ = renta per capita estimada cn miles de d61ares X4 = densidad de poblaci6n X5 = can lidad de ayudas intergubernamencales

    per capita en miles de d61ares X6 = numero de kil6melros de di slancia hasta la

    capital de la region x7 = parcentaje de la poblaci6n que son varones

    y lienen entre 12 y 2 1 aila:> Los n(imcros entre parenlesis siluados debajo de los caeficientes son los errores tfpicos de los coeficienles estimados. a) Hallc c intcrprcte el inlervalo de confianza

    al 99 por ciento de /3:; . b) Contrasle la hip61esis nul a de que IJ4 es

    frente a la hip6rcsis ahcrnativa bilateral e interprete su resultado.

    c) ContraSle In hip6tesis nuln de que #7 es frente a la hipotesis allernali va bilateral e illierprele su resul