Clase 12 Dist. Bidimensionales

download Clase 12 Dist. Bidimensionales

of 48

description

las distribuciones dimensionales bases para la aplicación de la investigación científica.

Transcript of Clase 12 Dist. Bidimensionales

  • Clase 12:Distribuciones BidimensionalesUniversidad Nacional de HuancavelicaFacultad de Ciencias de IngenieraDepartamento Acadmico de Ciencias BsicasEscuela Acadmico Profesional de Ingeniera Ambiental SanitariaEstadsticaIng. Jorge Luis Huere PeaMaster in Informatics and Computer Science

    e-mail : [email protected]

  • Se denominan distribuciones bidimensionales cuando se estudian 02 caractersticas (variables) de un mismo elemento (unidad experimental), considerando simultneamente las dos series. De manera general si se estudian sobre una poblacin y se miden por las mismas unidades estadsticas una variable X y una variable Y, se obtienen series estadsticas de las variables X e Y.Introduccin

  • Se consideran 02 tipos de tabulaciones:Tabulacin de variables estadsticas bidimensionalesTabla de Correlacin. Para variables cuantitativas 2.Tabla de Contingencia Para variables cualitativas

  • Hay textos que usan los clculos de regresin y correlacin para los mismos casos por lo similares que son. A veces el investigador se confunde y piensa que puede emplear ambos modelos en un mismo problema. y* = a + bx

  • Se usa cuando sabe que existe una relacin entre las variables porque hay una teora o investigaciones previas que la han descubierto. Por ejemplo, la relacin entre espacio y tiempo ya se sabe que es la velocidad, o como la relacin entre voltaje e intensidad de corriente elctrica. . En estos casos, se busca verificar experimentalmente tal relacin y el objeto de la regresin es encontrar la curva que mejor ajuste a sus datos experimentales. Anlisis de Regresin

  • Se emplea cuando el investigador sospecha que ambas magnitudes estn relacionadas, pero no tiene idea de una ecuacin que las combine.

    Por ejemplo el caso de peso y talla, donde todo lo que se sospecha es que a mayor talla, mayor peso, pero nadie ha descubierto una frmula que las relacione.Anlisis de Correlacin

  • La forma ms comn de concebir las relaciones entre pares de magnitudes es del tipo causa-efecto. Lo que trata el anlisis estadstico es establecer la forma y la significacin de las relaciones funcionales entre las dos variables. La demostracin de la relacin causa-efecto es tema del procedimiento del mtodo cientfico, y queda a cargo del investigador. I. ANALISIS DE REGRESIN:PROCEDIMIENTOS DE UN ANALISIS DE REGRESION

  • Se suele escribir como y = F(x), donde x es la variable independiente

    Aqu se trata de predecir o explicar el comportamiento o resultado de una variable (VD)

    en funcin de otras variables (VI), as como investigar si ellas estn asociadas o correlacionadas entre s yF (x)

  • Dado n observaciones bidimensionales, cada par de valores (x,y) en el plano cartesiano est representado por un punto, y habr tantos puntos como parejas de observaciones se tenga.

    Est representacin da origen a una NUBE DE PUNTOS que se denomina DIAGRAMA DE ESPARCIMIENTO o DISPERSIN; este diagrama puede tomar diferentes formas, como se observa por ejemplo en el Grfico N 11.- Diagrama de dispersin:

  • GRFICO N 1Ejemplo de Diagramas de Dispersin para datos bidimensionales.

  • 2.- Regresin Simple:El propsito de la regresin simple es estimar la relacin que existe entre dos variables x e y, que se expresan como:

    y = F(x) que se lee y depende de x y = Variable dependiente, predictando o explicadax = Variable independiente, predictor o explicativa

  • Antes de definir cul sera la funcin matemtica o modelo de regresin que exprese adecuadamente la relacin entre las variables, es indispensable comprobar por un anlisis lgico la existencia de una relacin de dependencia o causalidad directa o indirecta entre las variables. Por ejemplo, es lgico aceptar que las utilidades o ganancias depender del volumen de ventas; la capacidad de ahorro es funcin del ingreso, etc. En este anlisis es muy til la nube de puntos, cuya forma insina la forma de la funcin de regresin.

  • Para determinar o construir MODELOS o FUNCIONES DE REGRESIN es indispensable disponer informacin acerca de los valores cada una de las variables en distintos momentos o lugar. En general, la funcin de regresin como modelo estadstico se construye a partir de una muestra representativa de valores (xi,yi).y = F(x)

  • 3.- Ajuste de una Funcin de Regresin:Ajustar una funcin de regresin significa buscar o definir la funcin que exprese con mayor precisin la relacin entre variables. Grficamente ser aquella funcin que mejor se adecue a la nube de puntos.

  • Analticamente, la relacin Y* = f(X) permite obtener valores estimados Y* a partir de los valores reales de X, entonces el problema del ajuste de una funcin es que la diferencia o sesgo (ei) entre los valores reales de y y los estimados Y* sea mnimo, para cada valor se tendra: y - y* = e.El mtodo consiste en minimizar la suma de sus cuadrados: derivando respecto de las dos incgnitas a y b, igualando a cero y despejando. Queda un sistema de dos ecuaciones con dos incgnitas, que al resolverlo permiten hallar las denominadas ecuaciones paramtricas de regresin

  • Consideremos la ecuacin de la recta :que tiene dos parmetros a y b. Estos parmetros son determinados al aplicar el Mtodo de los Mnimos Cuadrados, que significa minimizar la expresin 4.- La lnea recta de Regresin:y* = a + bx ei2 = (Yi Yi*)2 = Mnima

  • Para minimizar se usan las relaciones: Resolviendo estas relaciones se obtienen Ecuaciones Normales o Parmetros de Regresin5.- Mtodo de los Mnimos Cuadrados:

  • De las ecuaciones normales se obtiene los parmetros a y b:

  • EJEMPLO 1 Supongamos que se quiere estimar la relacin entre ingreso y consumo. Para el efecto se eligi una muestra de 6 familias.

    Dados los datos, se define la variable dependiente (y = Consumo) y la variable independiente (x = Ingreso), luego se construye el Cuadro N 1, donde estn los valores que participan en las ecuaciones normales.

  • Cuadro N 01INGRESO Y CONSUMO DE UNA MUESTRA DE 6 FAMILIAS

    INGRESOxCONSUMOy354038554260303530503550270230

  • Grfico1

    30

    35

    30

    50

    35

    50

    Ingreso

    Consumo

    Ingreso

    Diagrama de dispersin

    Hoja1

    consumoIngreso

    3530

    4035

    3830

    5550

    4235

    6050

    Hoja1

    Ingreso

    Consumo

    Ingreso

    Diagrama de dispersin

    Hoja2

    Hoja3

  • Cuadro N 01INGRESO Y CONSUMO DE UNA MUESTRA DE 6 FAMILIAS

    INGRESOXCONSUMOyxyx2y2354038554260303530503550105014001140275014703000122516001444302517643600900122590025001225250027023010810126589250 X Y xy x2 y2

  • 12658(230) 270(10810)6(12658) - (270)2a == - 2.4147= 0.9055

  • luego la recta de regresin es y* = -2,4147 + 0,9055 x

    Grfico1

    30

    35

    30

    50

    35

    50

    Ingreso

    Ingreso

    Consumo

    Diagrama de dispersin

    Hoja1

    consumoIngreso

    3530

    4035

    3830

    5550

    4235

    6050

    Hoja1

    0

    0

    0

    0

    0

    0

    Ingreso

    Consumo

    Ingreso

    Diagrama de dispersin

    Hoja2

    Hoja3

  • 6.- ERROR ESTNDAR DE ESTIMACIN:Es una medida de esparcimiento alrededor de una lnea de regresin. Es la desviacin estndar de los valores observados Y con respecto a los valores Y* estimados por la lnea de regresin.El error estndar de estimacin o de regresin mide la dispersin de los valores alrededor de la lnea de regresin.

  • Para el ejemplo anterior el error estndar de estimacin es:Syx = 16.926 4Syx = 2.05706

  • Ahora, suponiendo que y se distribuye normalmente, al construir rectas paralelas a ambos lados de la lnea de regresin a una distancia proporcional a Syx se definen franjas o intervalos como se aprecia en el grfico siguiente:Segn la distribucin normal en los intervalos:

    y* = Syx, se encuentra el 68.3% de los valores reales y

    y * = 2Syx, se encuentra el 95.5% de los valores reales y

    y * = 3Syx, se encuentra el 99.7% de los valores reales

  • Grfico de la distribucin normal en los intervalos

  • Antes de definir el coeficiente de determinacin, es necesario justificar su uso mediante el examen de la lgica en la que se basa su calculo.

    Primero se comienza por considerar el punto correspondiente a cualquier valor observado, yi, y se mide la distancia vertical entre dicho punto y la recta y. A esto se le da el nombre de desviacin total y se designa por (yi y).

    Si se mide la distancia vertical entre la recta de regresin y la recta y, se obtiene (y* - y), que se conoce como desviacin explicada, ya que muestra en cuanto disminuye la desviacin total cuando la recta de regresin se ajusta a los puntos.

  • Finalmente , se mide las distancia vertical entre el punto observado y la recta de regresin para obtener (yi y*), que se conoce como desviacin inexplicada ya que representa la porcin de la desviacin total que no esta explicada o tomada en cuenta por la introduccin de la recta de regresin. Esto s emuestra en la siguiente figura:YDesviacin inexplicada (yi y*)Diagrama de dispersin que muestra la desviacin total, la desviacin explicada y la no explicada para un valor seleccionado de Y.

  • Se aprecia entonces que la deviacin total parta una yi particular es igual a la suma de las desviaciones explicadas e inexplicadas. Simbolicamente:Si se miden estas desviaciones para cada valor de yi y y*, se eleva al cuadrado cada desviacin y se suman todas ellas para obtener:

  • STC = SCR + SEC Suma total = Suma de cuadrados + Suma de error de cuadrados debido a la de cuadradosregresin lneal

  • SEC = STC - SCR

  • 7.- CLCULO DEL COEFICIENTE DE DETERMINACIN

    El coeficiente de determinacin se calcula como:

    R2 = SCR STC

    que si se expresa en tanto por ciento, representa el porcentaje de informacin que explica el modelo; es decir, mide la proximidad del ajuste de la ecuacin de regresin de la muestra a los valores observados de Y. tambin se interpreta como el porcentaje de la variacin total en los yi es explicada por la regresin.

  • Ejemplo calcular el coeficiente de determinacin para el ejemplo anterior.R2 = SCR = 416.5246 = 0.9612 STC 433.3333 SEC = 433.3333 - 416.5246 = 16.8087

  • En los ejemplos anteriores usamos la lnea de mnimos cuadrados para pronosticar el consumo de familias de acuerdo al ingreso familiar; pero an, si interpretamos correctamente la lnea como una lnea de regresin, todava quedan cuestiones por resolver como:

    Cun buenos son los valores obtenidos para a y b en la ecuacin de los mnimos cuadrados o la ecuacin lneal?

    Qu tan buena es una estimacin Y* ?Asimismo, cuando estamos pensando en hacer pronsticos podramos preguntarnos:

  • Podemos dar un intervalo para el cual podemos afirmar con cierto grado de confianza que contendr la estimacin de y* cuando la variable independiente tome un valor x?

    En relacin a la primera pregunta a y b (coeficiente de regresin estimados) son solo estimaciones basadas en datos muestrales y esto implica la existencia de valores reales correspondientes, generalmente representados por y conocidos como los coeficientes de regresin. En forma correspondiente tambin hay una lnea de regresin real y/x = + X, donde y/x es la media real de Y para un valor dado de X.

  • En el anlisis de regresin lneal suponemos que las Xs son constantes, no valores de variables aleatorias y que para cada valor de X la variable que se debe de pronosticar, Y, tiene cierta distribucin cuya media es + . En el anlisis de regresin normal suponemos adems que todas estas distribuciones son distribuciones normales con la misma desviacin estndar .

  • 8.- CORRELACIN LINEAL:La correlacin expresa el grado de asociacin o afinidad entre las variables consideradas; la correlacin tambin explica el grado de la bondad del ajuste de las lneas de regresin Denota la interdependencia entre datos cuantitativos o cualitativos

  • 8.1 COEFICIENTE DE CORRELACIN RECTILINEAEl Coeficiente de correlacin, es el estadgrafo que expresa o mide el grado de asociacin o afinidad entre las variables relacionadas, se denota por R y se define como:

  • Ejemplo, calcular el coeficiente de correlacin para el ejercicio anterior: 0.9804R =

  • PROPIEDADES DE RComo R2 es siempre positivo resulta que la propiedad fundamental del coeficiente de correlacin es:

    De donde se deduce que:a) Si R > 0, entonces existe correlacin directa positivab) Si R < 0, se trata de una correlacin inversa negativac) Si R2 = 1 los datos forman una lnea recta, en el caso de correlacin rectilnea d) Si R = +1, hay una correlacin perfecta positivae) Si R = - 1, hay una correlacin perfecta negativaf) Si R = 0, los datos son incorrelacionados.-1 R +1

  • Tabla de Interpretacin de la Correlacin

  • R =R =R = 0.980426

  • El coeficiente de correlacin de la poblacin es la raz cuadrada de 2 el coeficiente de determinacin de la poblacin previamente estudiada, y dado que ste toma valores entre 0 y 1 inclusive, puede tomar cualquier valor entre -1 y +1.El signo de siempre ser igual al signo de (poblacin o b para la muestra), la dependiente de la recta de regresin de la poblacin para X e Y.

    *