Regresion y Correlacion Lineal y No Lineal

download Regresion y Correlacion Lineal y No Lineal

of 15

description

estadistica

Transcript of Regresion y Correlacion Lineal y No Lineal

UNIVERSIDAD NACIONALMAYOR DE SAN MARCOS

E.A.P.: INGENIERIA MECANICA DE FLUIDOS

CURSO: ESTADISTICA

TEMA: REGRESION LINEAL SIMPLE Y NO LINEAL

SEMESTRE ACADEMICO: 2015 - I

INTEGRANTES:

Bazan Carhuaricra, Joseline Maura Marca Pacheco, Cristhian Erick Mendoza Velit, Milagros del Carmen Rossello Churquipa, Veronica Ruth Vergara Calderon, Eva Cecilia.

2015

ANLISIS DE CORRELACIN El anlisis de correlacin es un grupo de tcnicas estadsticas usadas para medir la fuerza de la asociacin entre dos variables. Un diagrama de dispersin es una grfica que representa la relacin entre dos variables. La variable dependiente (Y) es la variable que se predice o calcula. La variable independiente (X) proporciona las bases para el clculo. Es la variable de prediccin.El coeficiente de correlacin (r)El coeficiente de correlacin (r) es una medida de la intensidad de la relacin lineal entre dos variables. Requiere datos de nivel de razn. Puede tomar cualquier valor de -1.00 a 1.00. Los valores de -1.00 o 1.00 indican la correlacin perfecta y fuerte. Los valores cerca de 0.0 indican la correlacin dbil. Los valores negativos indican una relacin inversa y los valores positivos indican una relacin directa.

Frmula para r Calculamos el coeficiente de correlacin de las frmulas siguientes.

Coeficiente de determinacin (r2)El coeficiente de determinacin (r2) es la proporcin de la variacin total en la variable dependiente (y) que se explica por la variacin en la variable independiente (x). Es el cuadrado del coeficiente de correlacin. Su rango es de 0 a 1. No da ninguna informacin sobre la direccin de la relacin entre las variables.

ANLISIS DE REGRESINEn anlisis de regresin utilizamos la variable independiente (X) para estimar la variable dependiente (Y).Si las dos variables X e Y se relacionan segn un modelo de lnea recta, se habla de regresin lineal simple: Y =a+b XCuando las variables X e Y se relacionan segn una lnea curva, se habla de regresin no lineal o curvilnea. Aqu se puede distinguir entre regresin parablica, exponencial, potencial, etc.

REGRESION LINEAL La relacin entre las variables es lineal. Ambas variables deben ser por lo menos escala del intervalo. El criterio de mnimos cuadrados se utiliza para determinar la ecuacin.

La ecuacin de regresin es: Y' = a + bX, donde: Y' es el valor pronosticado de la variable Y para un valor seleccionado de X. a es la ordenada de la interseccin con el eje Y cuando X = 0. Es el valor estimado de Y cuando X=0 b es la pendiente de la recta, o el cambio promedio en Y' para cada cambio de una unidad en X. El principio de mnimos cuadrados se utiliza para obtener a y b. Las ecuaciones para determinar a y b son:

REGRESION NO LINEALFUNCIN EXPONENCIAL, POTENCIALEl problema de ajustar un modelo potencial, de la forma Y = AX b y uno exponencial Y = A B X se reduce al de la funcin lineal, con solo tomar logaritmos.

Modelo potencial Ser aquella en la que la funcin de ajuste sea una funcin potencial del tipo: y = a. xbEn este caso se resuelve linealizando la funcin tomando logaritmos ya que: log y = log a + b log xConsiderando las nuevas variables Y = log y X= log x resolveramos la regresin lineal entre ellas de forma que si el resultado fuera: Y= A +BXLa solucin final quedara como a= anti log A y b= BModelo exponencial Ser aquella en la que la funcin de ajuste ser una funcin exponencial del tipo y = a.bxLa regresin exponencial aunque no es lineal es linealizable tomando logaritmos ya que haciendo el cambio de variablev = log y tendremos que la funcin anterior nos generara: Y= log y = log (a.bx) = log a + x log bLa solucin de nuestro problema vendra de resolver la regresin lineal entreX e Y. ObteniendoY = A + B x; obviamente la solucin final ser:a = anti log A y b = anti log B.

FUNCION PARABLICADesarrollaremos la regresin Y/X y debe quedar claro que la regresin X/Y resultara anloga.Supongamos para simplificar que los datos no estn agrupados por frecuencias.En tal caso, obtener la funcin parablica y = a+ bx +cx2se llevar a cabo determinado los valores de los tres parmetros a, b, cque minimicen: y (a, b, c) = (y - (a+bx+cx2))2 Igualando a cero las tres derivadas parciales se obtendr las ecuaciones normales, que convenientemente manipuladas acaban siendo:

/ n es el nmero de datos.

Sistema de ecuaciones del que se pueden despejar los valores de los coeficientes de regresin sea a, b y c. As formamos la ecuacin

Ejemplos de los tipos de regresiones:1.- REGRESION LINEAL SIMPLE Ejercicio:Se desea estudiar si la resistencia de una mezcla de cemento es explicada por el tiempo de frage de dicha mezcla. Para ello se tom una muestra de 12 mezclas obtenindose la siguiente informacin:TIEMPO (MIN)10152081213151214201918

RESISTENCIA6481.776.268.566.677.982.274.2707683.285.3

Haga un anlisis de correlacin y regresin e interprete sus resultados.Desarrollo: Primero determinemos las variables dependientes (Y) e independientes (X):X= Nmero de das de frageY=Resistencia de una mezcla de cemento

Segn nuestras variables graficamos los puntos de dispersin:

A partir de aqu realizamos el anlisis de correlacin:Para eso armamos la siguiente tabla:

10641004096640

1581.72256674.891225.5

2076.24005806.441524

868.5644692.25548

1266.61444435.56799.2

1377.91696068.411012.7

1582.22256756.841233

1274.21445505.64890.4

14701964900980

207640057761520

1983.23616922.241580.8

1885.33247276.091535.4

= 176= 905.8= 2752= 68910.36=13489

Para el anlisis necesitamos hallar el coeficiente de Pearson (r):

Hallamos la covarianza:

= = 16.79

Como la podemos decir que la correlacin entre las variables X e Y es de manera directa, quiere decir que si la variable X aumenta o disminuye la variable Y tambin lo har.

Hallamos las desviaciones de las variables:

= = 3.77

= = 6.69

Ahora podemos hallar el coeficiente de Pearson:

= 0.66

Sabemos que:-1 r 1Vemos que nos sali r=0.66, como nuestro coeficiente es positivo nos reafirma que la correlacin es directa. Pero vemos que el valor est muy alejado del 1 lo que nos dice que el grado de la correlacin es dbil quiere decir que la intensidad de la relacin lineal de los puntos no es muy fuerte.Deducimos entonces que existe una dbil correlacin directa entre el tiempo de frage del cemento con su resistencia.

Hallamos el coeficiente de determinacin:

Entonces:

Esto quiere decir que el tiempo de frage del cemento hace variar un 43.56% a su resistencia. Existen otras variables que estn influenciando en un 56.44% a la variacin de la resistencia.

Ahora realizamos el anlisis de regresin, para eso hallaremos la recta que pase ms cerca de todos los puntos.

=

La pendiente de la recta me sali 1.194 esto me indica que por cada tiempo de frage la resistencia aumenta en 1.194.

2.- REGRESION NO LINEAL Ejercicio:

Una empresa requiere conocer cul es el porcentaje de desgaste de las piezas mecnicas de una turbina de gas respecto al tiempo de uso (horas), de lo cual se obtuvo una muestra de 39 datos:

TIEMPODESGASTE(%)TIEMPODESGASTE(%)TIEMPODESGASTE(%)

5008.01700020.951350026.61

100010.32750021.481400026.96

150011.96800021.991450027.31

200013.28850022.491500027.65

250014.405900022.961550027.98

300015.39950023.411600028.31

350016.281000023.861650028.63

400017.091050024.281700028.94

450017.841100024.7031750029.25

500018.541150025.1061800029.55

550019.191200025.491850029.84

600019.811250025.871900030.14

650020.391300026.252000030.708

Ajustar a un modelo determinado e interpretar.Desarrollo: Primero determinemos las variables dependientes (Y) e independientes (X):X= Tiempo de uso (horas)Y=Desgaste de porcentual (%)

Segn nuestras variables graficamos los puntos de dispersin:

Segn la grfica, que sali de manera curveada, decimos que nuestra regresin ser del tipo no lineal. Realizaremos el anlisis de correlacin entre las variables:

5008.01400564.1601250000

100010.3210320106.50241000000

150011.9617940143.04162250000

200013.2826560176.35844000000

250014.4036000207.366250000

300015.3946170236.85219000000

350016.2856980265.038412250000

400017.0968360292.068116000000

450017.8480280318.265620250000

500018.5492700343.731625000000

550019.19105545368.256130250000

600019.81118860392.436136000000

650020.39132535415.752142250000

700020.95146650438.902549000000

750021.48161100461.390456250000

800021.99175920483.560164000000

850022.49191165505.800172250000

900022.96206640527.161681000000

950023.41222395548.028190250000

1000023.86238600569.2996100000000

1050024.28254940589.5184110250000

1100024.703271733610.238209121000000

1150025.106288719630.311236132250000

1200025.49305880649.7401144000000

1250025.87323375669.2569156250000

1300026.25341250689.0625169000000

1350026.61359235708.0921182250000

1400026.96377440726.8416196000000

1450027.31395995745.8361210250000

1500027.65414750764.5225225000000

1550027.98433690782.8804240250000

1600028.31452960801.4561256000000

1650028.63472395819.6769272250000

1700028.94491980837.5236289000000

1750029.25511875855.5625306250000

1800029.55531900873.2025324000000

1850029.84552040890.4256342250000

1900030.14572660908.4196361000000

2000030.708614160942.981264400000000

=390500=883.38=10105702=21359.51311=5154750000

n=39 --------> (nmero de datos)

Para el anlisis necesitamos hallar el coeficiente de Pearson (r):

Hallamos la covarianza:

= = 32322.47

Como la decimos que la correlacin entre las variables X e Y es de manera directa.

Hallamos las desviaciones de las variables:

= = 5649.47

= = 5.88

Ahora podemos hallar el coeficiente de Pearson:

= 0.973

Sabemos que:-1 r 1Nuestro coeficiente es positivo nos reafirma que la correlacin es directa. Y al ser muy cercano al 1 decimos que es de fuerte intensidad.Entonces existe una fuerte correlacin directa entre el tiempo de uso de una turbina y el desgaste de sus piezas mecnicas.

Hallamos el coeficiente de determinacin:

Entonces:

Esto quiere decir que el tiempo de uso de la turbina hace variar un 95% al desgaste. Existen otras variables que estn influenciando en un 5% a la variacin del desgaste

A partir de aqu realizamos el anlisis de regresin:

5008.012.690.902.447.28

100010.3231.013.049

150011.963.171.073.4210.08

200013.283.301.123.7010.89

250014.403.391.153.9311.54

300015.393.471.184.1212.09

350016.283.541.214.2912.56

400017.093.601.234.4412.97

450017.843.651.254.5713.34

500018.543.691.264.6913.68

550019.193.741.284.7913.99

600019.813.771.294.9014.27

650020.393.811.304.9914.53

700020.953.841.325.0814.78

750021.483.871.335.1615.01

800021.993.901.345.2315.23

850022.493.921.355.3115.44

900022.963.951.365.3815.63

950023.413.971.365.4415.82

1000023.8641.375.5116

1050024.284.021.385.5716.16

1100024.7034.041.395.6216.33

1150025.1064.061.395.6816.48

1200025.494.071.405.7316.63

1250025.874.091.415.7816.78

1300026.254.111.415.8316.92

1350026.614.131.425.8817.05

1400026.964.141.435.9317.19

1450027.314.161.435.9717.31

1500027.654.171.446.0217.43

1550027.984.191.446.0617.55

1600028.314.201.456.1017.67

1650028.634.211.456.1417.78

1700028.944.231.466.1817.89

1750029.254.241.466.2218

1800029.554.251.476.2518.1

1850029.844.261.476.2918.27

1900030.144.271.476.3218.307

2000030.7084.3011.486.3918.49

=390500=883.38= 151.58=52.12= 204.56= 594.59

Para eso armamos la siguiente tabla:

El modelo a usar ser el potencial:Del cual se deduce:Y queda:Entonces podemos usar las siguientes formulas:= = 0.364= (0.364))= -0.08= 0.83

Interpretamos:La tasa de crecimiento R es:

Quiere decir que el porcentaje del desgaste de las piezas por hora es de .