סטטיסטיקה בסיסית והסקה סטטיסטית ב- R

76
תתתתתתתתת תתתתתת- תתתתת תתתתתתתת תR

description

סטטיסטיקה בסיסית והסקה סטטיסטית ב- R. Everything differs !!!. "צפויים להימצא הבדלים בין x ל- y " היא אמירה טריוויאלית. הסטטיסטיקאי שבכם שואל "האם ההבדלים שנמצאו גדולים מהצפוי באקראי " הביולוג שבכם שואל "למה ההבדלים הם לכיוון ובדרגה שמצאתי ". מדדים לנטייה מרכזית *. ממוצע. - PowerPoint PPT Presentation

Transcript of סטטיסטיקה בסיסית והסקה סטטיסטית ב- R

Page 1: סטטיסטיקה בסיסית והסקה סטטיסטית ב- R

סטטיסטיקה בסיסית Rוהסקה סטטיסטית ב-

Page 2: סטטיסטיקה בסיסית והסקה סטטיסטית ב- R

Everything differs!!!

" y ל-x"צפויים להימצא הבדלים בין היא אמירה טריוויאלית

הסטטיסטיקאי שבכם שואל "האם ההבדלים שנמצאו גדולים מהצפוי באקראי"

הביולוג שבכם שואל "למה ההבדלים הם לכיוון ובדרגה שמצאתי"

Page 3: סטטיסטיקה בסיסית והסקה סטטיסטית ב- R

מדדים לנטייה מרכזית*

ממוצע1.

חשבוני, גיאומטרי, הרמוני

* = Moments of central tendency

Arithmetic mean: Σxi/n

Geometric mean: (x1*x2*…*xn)1/n

Harmonic mean :

Page 4: סטטיסטיקה בסיסית והסקה סטטיסטית ב- R

מדדים לנטייה מרכזית Rב-

. ממוצע חשבוני1

. ממוצע גיאומטרי2

Arithmetic mean: Σxi/n

Geometric mean: (x1*x2*…*xn)1/n

”mean“הפונקציה

דוגמא: data<-c(2,3,4,5,6,7,8) mean(data)[1] 5

data<-c(2,3,4,5,6,7,8) exp(mean(log(data)))

[1] 4.549163

דוגמא:

Page 5: סטטיסטיקה בסיסית והסקה סטטיסטית ב- R

מדדים לנטייה מרכזית*

(meanא. ממוצע )1.

(medianב. חציון )

(modeג. שכיח )

* = Moments of central tendency

דוגמא: data<-c(2,3,4,5,6,7,8) median(data)[1] 5

Page 6: סטטיסטיקה בסיסית והסקה סטטיסטית ב- R

מדדים לנטייה מרכזית

ממוצע1.

שונות*2.

הממוצע הוא מדד טוב יותר למה שקורה באוכלוסיה\מדגם כשהשונות

קטנה או גדולה?

*Variance = Σ(xi-μ)2 / ndata<-c(2,3,4,5,6,7,8) var(data)[1] 4.666667

דוגמא:

http://www.statmethods.net/management/functions.html

Page 7: סטטיסטיקה בסיסית והסקה סטטיסטית ב- R

מדדים לנטייה מרכזית

ממוצע1.

שונות2.

דוגמאות למומנט השני הן, למשל, השונות, סטיית התקן, שגיאת , 95, 90, ורווח הסמך )של coefficient of variationהתקן, ה-

או מה שלא יהיה(99%

המומנט השני של נטייה מרכזית הוא מדד לפיזור הנתונים מסביב למומנט

הראשון

Page 8: סטטיסטיקה בסיסית והסקה סטטיסטית ב- R

מדדים לנטייה מרכזית

גודל מדגם:

:שונות

סטיית תקן:

שגיאת תקן:

coefficient of variation:

#for:data<-c(2,3,4,5,6,7,8)

var(data)

sd(data)

length(data)

se<-(sd(data)/length(data)^0.5)se [1] 0.8164966

CV<-sd(data)/mean(data)CV [1] 0.4320494

Page 9: סטטיסטיקה בסיסית והסקה סטטיסטית ב- R

מדדים לנטייה מרכזית

ממוצע1.

שונות2.

(Skewהטייה )3.

האם בהתפלגות שכיחויות מוטה הממוצע החשבוני הוא מדד טוב לנטייה מרכזית?

התפלגות שכיחויות מוטה אינה סימטרית!

מהו השכר הממוצע של כל הסטודנטים פה ושל ביל גייטס?

Page 10: סטטיסטיקה בסיסית והסקה סטטיסטית ב- R

מדדים לנטייה מרכזית

(Skewהטייה )

skew<-function(data){ m3<-sum((data-mean(data))^3)/length(data) s3<-sqrt(var(data))^3 m3/s3}skew(data)

sdskew<-function(x) sqrt(6/length(x))שגיאת תקן של הטיה:

Page 11: סטטיסטיקה בסיסית והסקה סטטיסטית ב- R

מדדים לנטייה מרכזית

ממוצע1.

שונות2.

(Skewהטייה )3.

(Kurtosisקורטוזיס )4.

Page 12: סטטיסטיקה בסיסית והסקה סטטיסטית ב- R

מדדים לנטייה מרכזית

(Kurtosisקורטוזיס )1.kurtosis<-function(x){ m4<-sum((x-mean(x))^4)/length(x) s4<-var(x)^2 m4/s4-3 }kurtosis(x)

שגיאת תקן של קורטוזיס:

sdkurtosis<-function(x) sqrt(24/length(x))

Page 13: סטטיסטיקה בסיסית והסקה סטטיסטית ב- R

התפלגות נורמאלית יכולה לקבל כל ערך של ממוצע והקורטוזיס שלה צריכים skewnessושונות, אבל ה

להיות שווים לאפס

וקורטוסיס יש skewלערכי שונות משלהם – ואפס צריך להיות מחוץ לרווח הסמך שלהם כדי שהם יהיו שונים

מאפסבמובהק

Page 14: סטטיסטיקה בסיסית והסקה סטטיסטית ב- R

של מודליםכשאנחנו עושים סטטיסטיקה אנחנו יוצרים המציאות

אחד המודלים הפשוטים ביותר הוא הממוצע:

ס"מ173הגובה הממוצע של אזרחי ישראל הוא )נגיד(

(2013 ₪ )למ"ס, נתוני מרץ 9302השכר הממוצע הוא

חודשים24והשירות הצבאי הממוצע הוא )אולי(

₪ בחודש 46,699)הערכת חסר, ללא הטבות(

Residuals

דוב ליאורשירת בצה"ל חודש

אחד

:// . . . /1.2057452http www haaretz co il

מטר2.05

Page 15: סטטיסטיקה בסיסית והסקה סטטיסטית ב- R

של מודליםכשאנחנו עושים סטטיסטיקה אנחנו יוצרים המציאות 24 ₪, 9302 ס"מ, 173כך שכאן, המודלים שלנו:

חודשים, אינם מוצלחים במיוחד

Residuals

הוא הכמות בה ערך מסויים רחוק מהניבוי של Residualה- ס"מ מהמודל "ישראלי 32המודל. כך שליאור אליהו רחוק

ס"מ מהמודל המורכב יותר "גבר 29", ורחוק 173= ".168, אישה ישראלית = 177ישראלי =

Residual = 32 cm

Residual = ₪ 37397

Residual = -23 month IDF service

Page 16: סטטיסטיקה בסיסית והסקה סטטיסטית ב- R

של מודליםכשאנחנו עושים סטטיסטיקה אנחנו יוצרים המציאות

Residuals

Residual = -23 month service

Residual = ₪ 37397Residual = 32 cm

model<-lm(size~Species+sex+Latitude+Longitude)out<-model$residualswrite.table(out, file = "residuals.txt",sep="\t",col.names=F,row.names=F)

#note that residual values are in the order entered (i.e., not alphabetic, not by residual size – first in, first out)

Page 17: סטטיסטיקה בסיסית והסקה סטטיסטית ב- R

סטטיסטיקה תיאורית והסקה סטטיסטית

כשיש לנו נתונים בשלב הראשון כדאי שנתאר אותם: נצייר גרפים, נחשב ממוצע וכדומה

בהסקה סטטיסטית אנו בוחנים את התנהגותם של הנתונים שלנו אל מול השערה )היפותזה( מסויימת

מודל סטטיסטיאת ההשערה שלנו אנו יכולים להציג כ

למשל:

התפלגות גבהים היא נורמאלית•

מספר המינים הולך ועולה עם העליה בשטח•

מספר המינים הולך ועולה עם העליה בשטח על פי •power function -0.25שלו מעריך חזקה השווה ל

Page 18: סטטיסטיקה בסיסית והסקה סטטיסטית ב- R

איזה מבחן נבחר?

response variable זה משתנה בהתאם לטבע ה (, ובעיקר לפי טבע y)=המשתנה התלוי, זה שעל ציר ה-

predictor variablesה-

הוא "הצלחה או כשלון", response variableאם ה-•והשערת האפס היא של שיוויון ביניהם, נשתמש במבחן

(binomialבינומי )

שלנו הוא ספירות נשתמש לרוב response variableאם ה •.G (=log-likelihood)במחני חי-בריבוע או

14שלנו יהיה רציף ) response variable אבל לרוב ה • 7.3 פעימות לדקה, 54מ"מ, 87.5 פרטים, 78מינים, מעלות(23ביצים,

Page 19: סטטיסטיקה בסיסית והסקה סטטיסטית ב- R

איזה מבחן ?response variable מהו ה-נבחר?

רציף

78 מינים, 14)מ"מ, 87.5פרטים,

7.3 חודשים, 54 מעלות(23ביצים,

"הצלחה" או "כישלון"

)מצא את הגבינה\אידיוט(

מבחן בינומי (binomial)

G-בריבוע או חי(=log-

likelihood)

ספירות

6)שכיחויות: 9זכרים, נקבות(

ראה בהמשך

Page 20: סטטיסטיקה בסיסית והסקה סטטיסטית ב- R

Binomial test in R

binom.test(19,34) Exact binomial test data: 19 and 34 number of successes = 19, number of trials = 34p-value = 0.6076 alternative hypothesis: true probability of success is not equal to 0.5 95 percent confidence interval: 0.3788576 0.7281498 sample estimates: probability of success 0.5588235

binom.test(19,20) Exact binomial test data: 19 and 20 number of successes = 19, number of trials = 20, p-value = 4.005e-05 alternative hypothesis: true probability of success is not equal to 0.5 95 percent confidence interval: 0.7512672 0.9987349 sample estimates: probability of success 0.95

יש להגדיר את מספר ההצלחות מתוך גודל המדגם הכולל.

מתוך 19: 2 )לא מובהק(. דוגמה 34 מתוך 19: 1דוגמה )מובהק(20

Page 21: סטטיסטיקה בסיסית והסקה סטטיסטית ב- R

Chi-square test in R

chisq.test

habitat diet species#island carnivore 488island herbivore 43island omnivore 177mainland carnivore 1901mainland herbivore 101mainland omnivore 269

M<-as.table(rbind(c(1901,101,269),c(488,43,177)))chisq.test(M)

Data: insularity vs. diet:

data: M

X-squared = 80.0441, df = 2, p-value < 2.2e-16

Page 22: סטטיסטיקה בסיסית והסקה סטטיסטית ב- R

איזה מבחן נבחר?

רציףשלנו הוא response variableאם ה predictor variablesנבחר מבחן לפי טבע ה-

בדיד )אתר א', אתר ב', predictor variable אם ה-•אתר ג'; זכר\נקבה; מין א', מין ב, מין ג'; שטח

עירוני\שטח טבעי; טיפול א', טיפול ב', ביקורת(

ANOVA (analysis of variance)המבחן יהיה

רציף )מעלות צלסיוס, predictor variable אם ה •כמות מזון, קו רוחב, כמות משקעים, מספר

המבחן יהיהמתחרים, אחוז כיסוי( רגרסיה

Page 23: סטטיסטיקה בסיסית והסקה סטטיסטית ב- R

Species size SexXenagama_zonura 79.7 femaleXenagama_zonura 85 maleXenosaurus_grandis 120 maleXenosaurus_grandis 133.0 femaleXenosaurus_newmanorum 118 maleXenosaurus_newmanorum 126.0 femaleXenosaurus_penai 105.8 femaleXenosaurus_penai 112 maleXenosaurus_platyceps 106 maleXenosaurus_platyceps 121.0 femaleXenosaurus_rectocollaris 95 maleXenosaurus_rectocollaris 111.0 femaleZonosaurus_anelanelany 86 maleZonosaurus_anelanelany 93.0 femaleZootoca_vivipara 65 maleZootoca_vivipara 75.0 femaleZygaspis_nigra 230 maleZygaspis_nigra 240.0 femaleZygaspis_quadrifrons 195 maleZygaspis_quadrifrons 227.0 female

t-test in R

t.test(x,y)

amy<-read.csv("ssd.csv",header=T)

names(amy)

kadison<-read.csv("ssd2.csv",header=T)

names(kadison)

attach(kadison)

males<-size[Sex=="male"]

females<-size[Sex=="female"]

t.test(females,males)

Welch Two Sample t-test data: females and males t = -2.1541, df = 6866.57, p-value = 0.03127 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: -7.5095545 -0.3536548 sample estimates: mean of x mean of y 88.17030 92.10191

Page 24: סטטיסטיקה בסיסית והסקה סטטיסטית ב- R

Species size SexXenagama_zonura 79.7 femaleXenagama_zonura 85 maleXenosaurus_grandis 120 maleXenosaurus_grandis 133.0 femaleXenosaurus_newmanorum 118 maleXenosaurus_newmanorum 126.0 femaleXenosaurus_penai 105.8 femaleXenosaurus_penai 112 maleXenosaurus_platyceps 106 maleXenosaurus_platyceps 121.0 femaleXenosaurus_rectocollaris 95 maleXenosaurus_rectocollaris 111.0 femaleZonosaurus_anelanelany 86 maleZonosaurus_anelanelany 93.0 femaleZootoca_vivipara 65 maleZootoca_vivipara 75.0 femaleZygaspis_nigra 230 maleZygaspis_nigra 240.0 femaleZygaspis_quadrifrons 195 maleZygaspis_quadrifrons 227.0 female

t-test in R (2)

lm(x~y)

amy<-read.csv("ssd.csv",header=T)

names(amy)

kadison<-read.csv("ssd2.csv",header=T)

names(kadison)

model<-lm(size~Sex,data=kadison)

summary(model)

Estimate standard error t p value(Intercept) 88.17 1.291 68.32 <2e-16 ***Sexmale 3.932 1.825 2.154 0.031 *

Page 25: סטטיסטיקה בסיסית והסקה סטטיסטית ב- R

Species size SexXenagama_zonura 79.7 femaleXenagama_zonura 85 maleXenosaurus_grandis 120 maleXenosaurus_grandis 133.0 femaleXenosaurus_newmanorum 118 maleXenosaurus_newmanorum 126.0 femaleXenosaurus_penai 105.8 femaleXenosaurus_penai 112 maleXenosaurus_platyceps 106 maleXenosaurus_platyceps 121.0 femaleXenosaurus_rectocollaris 95 maleXenosaurus_rectocollaris 111.0 femaleZonosaurus_anelanelany 86 maleZonosaurus_anelanelany 93.0 femaleZootoca_vivipara 65 maleZootoca_vivipara 75.0 femaleZygaspis_nigra 230 maleZygaspis_nigra 240.0 femaleZygaspis_quadrifrons 195 maleZygaspis_quadrifrons 227.0 female

Paired t-test in Rt.test(x,y,paired=TRUE)

amy<-read.csv("ssd.csv",header=T)

names(amy)

kadison<-read.csv("ssd2.csv",header=T)

names(kadison)

attach(kadison)

males<-size[Sex=="male"]

females<-size[Sex=="female"]

t.test(females,males,paired=TRUE)

Paired t-test data: females and males t = -10.1917, df = 3503, p-value < 2.2e-16 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: -4.687950 -3.175259 sample estimates: mean of the differences -3.931605

tapply(size,Sex,mean) female male88.17 92.10

Page 26: סטטיסטיקה בסיסית והסקה סטטיסטית ב- R

ANOVA in R

model<-aov(x~y)

aovspecies diet sizeOligosoma_otagense Omnivorous 1.732917Oligosoma_polychroma Omnivorous 1.002438Oligosoma_smithi Omnivorous 1.020078Oligosoma_striatum Herbivorous 0.948147Oligosoma_suteri Carnivorous 1.657096Oligosoma_waimatense Omnivorous 1.645922Oligosoma_whitakeri Herbivorous 1.346954Oligosoma_zelandicum Carnivorous 0.89167Omanosaura_jayakari Omnivorous 1.969343Ophidiocephalus_taeniatus Carnivorous 0.743285

ochel<-read.table("di.txt",header=T)names(ochel) [1] "species" "diet" "size" model<-aov(size~diet,data=ochel)summary(model)

Df Sum sq. Mean Sq. F value Pr(>F)diet 2 205.6 102.81 212.9 <2e-16 ***Residuals 2959 1428.9 0.48

Page 27: סטטיסטיקה בסיסית והסקה סטטיסטית ב- R

diff lwr upr p adjHerbivorous-Carnivorous 1.150905 1.011075 1.290736 0Omnivorous-Carnivorous 0.329414 0.244294 0.414535 0Omnivorous-Herbivorous -0.82149 -0.97824 -0.66474 0

R ב-ANOVA ל-post-hocמבחן

TukeyHSD(model)

Fit: aov(formula = size ~ diet, data = ochel)

$diet

כל ההשוואות מובהקות

Page 28: סטטיסטיקה בסיסית והסקה סטטיסטית ב- R

R ב-ANOVA ל-post-hocמבחן

model<-aov(SVL~Realm)

summary(model)

Df Sum Sq Mean Sq F value Pr(>F)

Realm 11 5.270 0.479 9.3242 < 2.2e-16 ***

Residuals 4851 249.270 0.051

diff lwr upr p adjAsia-Africa 0.0006 -0.0351 0.0363 1.0000Australia-Africa 0.0191 -0.0205 0.0586 0.9172Caribbean-Africa -0.0706 -0.1184 -0.0228 0.0001centralAmerica-Africa 0.0069 -0.0401 0.0539 1.0000Europe-Africa 0.0686 -0.0306 0.1679 0.5051

אפס מחוץ לרווח הסמך

TukeyHSD(model)

 Fit: aov(formula = SVL ~ Realm)

 $Realm

Page 29: סטטיסטיקה בסיסית והסקה סטטיסטית ב- R

correlation in R

latitude range_size35.91883 -0.5085643.85467 -0.405458.622623 -0.213635.930 -0.097487.17859 0.14395919.85003 0.1679921.066133 0.27578835.46224 0.30283447.001 0.3340811.375278 0.34732628.86541 0.348311

cor.test(x,y)

rapoport<-read.table("rang.txt",header=T)names(rapoport)[1] "latitude" "range_size“

” הוא מקדם cor“המשתנה rהקורלציה

attach(rapoport)cor.test(range_size,latitude)Pearson's product-moment correlationdata: range_size and latitude t = 9.9823, df = 4910, p-value < 2.2e-16cor 0.1410353

Page 30: סטטיסטיקה בסיסית והסקה סטטיסטית ב- R

regression in R

lm (=“linear model”):

lm (y~x)

אותם נתונים כמו בדוגמה

הקודמת

model<-lm(range_size~latitude,data=rapoport)summary(model)Call: lm(formula = range_size ~ latitude, data = rapoport) Residuals: Min 1Q Median 3Q Max -4.708 -1.774 0.470 1.465 3.725

Coefficients:Estimate Std. Error t value Pr(>|t|)

(Intercept) 3.26 0.0517 63.134 <2e-16 ***latitude 0.02 0.0024 9.982 <2e-16 ***

Residual standard error: 1.844 on 4910 degrees of freedom Multiple R-squared: 0.01989, Adjusted R-squared: 0.01969 F-statistic: 99.65 on 1 and 4910 DF, p-value: < 2.2e-16

Page 31: סטטיסטיקה בסיסית והסקה סטטיסטית ב- R

aov לעומת lm

גם ANOVAאולי במפתיע אפשר לבחון נתונים המתאימים ל-.lmבמבחן

lm של summaryבמקרה כזה נקבל את כל המידע שנותן ה-, שגיאות parameter estimatesבמבחן רגרסיה, כולל )חשוב!(

קטגוריות 2 לכל קונטרסט )בין pתקן, הבדלים בין פקטורים וערכי-של המשתנה המסביר הקטגוריאלי(

Page 32: סטטיסטיקה בסיסית והסקה סטטיסטית ב- R

aov לעומת lm

Estimate Std. Error t value Pr(>|t|)(Intercept) 1.03832 0.01423 72.97 <2e-16 ***dietHerbivorous 1.15091 0.05963 19.3 <2e-16 ***dietOmnivorous 0.32941 0.0363 9.075 <2e-16 ***

model2<-lm(size~diet,data=ochel)summary(model2)

.lm גם במבחן ANOVAאולי במפתיע אפשר לבחון נתונים המתאימים ל-

במבחן רגרסיה, lm של summaryבמקרה כזה נקבל את כל המידע שנותן ה-, שגיאות תקן, הבדלים בין פקטורים parameter estimatesכולל )חשוב!(

קטגוריות של המשתנה המסביר הקטגוריאלי(2 לכל קונטרסט )בין pוערכי-

Residual standard error: 0.6949 on 2959 degrees of freedomMultiple R-squared: 0.1258, F-statistic: 212.9 on 2 & 2959 DF, p-value: < 2.2e-16

עוד בהמשך

Page 33: סטטיסטיקה בסיסית והסקה סטטיסטית ב- R

Multiple predictors

מה לעשות, החיים מסובכים. לפעמים מה שמעניין אותנו מושפע

מיותר מגורם אחד!

Smith, R. J. 1999. Statistics of sexual size dimorphism. Journal of Human Evolution 36: 423-459.

קצב ליבם של זוחלים, למשל, מושפע גם מגודל גופם וגם מטמפרטורת הסביבה, וגם מהזמן

והמהירות בהם נעו לאחרונה

Page 34: סטטיסטיקה בסיסית והסקה סטטיסטית ב- R

מה לעשות, החיים מסובכים. לפעמים מה שמעניין אותנו מושפע מיותר מגורם אחד!

Smith, R. J. 1999. Statistics of sexual size dimorphism. Journal of Human Evolution 36: 423-459.

קצב ליבם של זוחלים, למשל, מושפע גם מגודל גופם וגם מטמפרטורת הסביבה, וגם מהזמן והמהירות בהם

נעו לאחרונהניתן להסביר אם כן את המשתנה המעניין )קצב לב( אם יש לנו

מידע על כל המשתנים המסבירים.

ההנחה היא שכאשר אנו מכניסים את שלושתם למשוואה אנו רואים את השפעתו של כל אחד כאשר שני האחרים "מוחזקים

(held constantקבועים" )

Multiple predictors

Page 35: סטטיסטיקה בסיסית והסקה סטטיסטית ב- R

Smith, R. J. 1999. Statistics of sexual size dimorphism. Journal of Human Evolution 36: 423-459.

מתאם )גבוה( בין איןהנחה זו נכונה כאשר המשתנים המסבירים לבין עצמם

Multiple predictors

ניתן להסביר אם כן את המשתנה המעניין )קצב לב( אם יש לנו מידע על כל המשתנים המסבירים.

ההנחה היא שכאשר אנו מכניסים את שלושתם למשוואה אנו רואים את השפעתו של כל אחד כאשר שני האחרים "מוחזקים

(held constantקבועים" )

Page 36: סטטיסטיקה בסיסית והסקה סטטיסטית ב- R

איזה מבחן נבחר?

)נאמר ארבעה( וכולם predictor variablesאם יש כמה

way-4)נאמר ANOVAקטגוריאלים המבחן יהיה ANOVA)

)נאמר שבעה( וכולם predictor variablesאם יש כמה

Multiple Regressionרציפים המבחן יהיה

Page 37: סטטיסטיקה בסיסית והסקה סטטיסטית ב- R

איך כותבים מבחן עם כמה משתנים מסבירים?

משתמשים בפלוס )+( בין המשתנים המסבירים.

model<-lm(Grade~days_studied+age_of_professor+number_of prayers+sent_sms_texts,data=grades)

summary(model)

lm(y~a+b+c)

למשל במודל שמנסה לחזות ציוני קורסים לפי כמה למדנו, גיל המרצה, כמה התפללנו והאם

מעתיקים:

Page 38: סטטיסטיקה בסיסית והסקה סטטיסטית ב- R

איזה מבחן נבחר?

( – חלקם 2)לפחות predictor variablesאם יש כמה ( רציפים 1( בדידים וחלקם )לפחות 1)לפחות

ANCOVAהמבחן יהיה )analysis of co-variance(

Page 39: סטטיסטיקה בסיסית והסקה סטטיסטית ב- R

איך זה נראה גרפית?

ANOVA

Regression

ANCOVA

דוגמא: מדדתי אורך שלוש שיניים בשועלים מצויים, זכרים ונקבות, מכל תחום תפוצתם

p F MS DF SS

0.00 417468.9 304435.2 1 304435.2 Intercept

0.00 142.3 103.8 1 103.8 sex

0.00 20704.9 15098.9 2 30197.7 tooth

0.7 2276 1659.8 Error

שני הגורמים מובהקים: יש

הבדל בין השיניים ובין הזוויגים

שן שסע עליונה

שן שסע תחתונ

ה

ניב עליון

ניב

שן שסע תחתונ

ה

שן שסע עליונה

Vulpes vulpes

Page 40: סטטיסטיקה בסיסית והסקה סטטיסטית ב- R

איך זה נראה גרפית?

ANOVA

Regression

ANCOVA

דוגמא: אורך שלוש שיניים בשועלים מצויים, כפונקציה של קו הרוחב

P tStd. Error

Estimate  

> 0.000125.25 0.378 9.554 Intercept

> 0.0001 5.73 0.008 0.044 Latitude

יש כלל ברגמן

אבל קל לראות שהמודל* זוועתי: ניבים קטנים יותר משיני שסע

R-squared: 0.015, F = 32.83, 1 & 2161 DF; p < 0.0001

ל predictor ליחס בין ה מודל*קו הרגרסיה הוא response

Page 41: סטטיסטיקה בסיסית והסקה סטטיסטית ב- R

ANCOVAגרפית

קל להבין את זה גרפית: בדוגמה משתנה בדיד רמות )מקווקו ומלא(, ומשתנה רציף 2אחד עם

(Xאחד )לאורך ציר ה

Null hypothesis

a.

resp

onse

Continuous predictorre

spon

se

b.

Continuous predictor

בדיד מובהק רציף לא

d.

resp

onse

Continuous predictor

שניהם מובהקים

Continuous predictor

c.

resp

onse

רציף מובהק, בדיד לא

ותודה לדניאל על הגרפים

Page 42: סטטיסטיקה בסיסית והסקה סטטיסטית ב- R

איך זה נראה גרפית?

ANOVA

Regression

ANCOVA

דוגמא: אורך שיניים בשועלים מצויים, כפונקציה של ( ובאיזו שן מדובר עבצ( הזוויג )Xקו הרוחב )ציר ה-

p)צורה( F MS SS Df factor

< 0.0001 191.7 99 99 1 sex

< 0.000127758.7

914332.

728665.

3 2 tooth

< 0.0001 844.69 436.1 436.1 1 Latitude

    0.5 1114.2 2158 Residuals

כל הגורמים מובהקים המודל הזה מסביר 96.3% מהשונות

העברנו פה שישה קווי רגרסיה מקבילים

Page 43: סטטיסטיקה בסיסית והסקה סטטיסטית ב- R

R ב-ANCOVAקריאת תוצאות מודל

Response = intercept + a for level 1 of the 1st categorical predictor variable or + b for level 2 of the 1st + c for level 1 of the 2nd categorical predictor or d for level 2… +k*(value of the continuous predictor variable) + error

למשל, אם נחזור לשועלים

p tStd.

Error Estimate factor

<0.0001 55.92 0.078 4.342

Intercept (tooth c)

<0.0001

224.21 0.038 8.485 tooth_m

<0.0001

174.84 0.038 6.617 tooth_p

<0.0001 12.56 0.031 0.391 sex_male

<0.0001 29.06 0.001 0.043 Latitude

( על פי 32 בזכרים בתל אביב )קו רוחב Pכך שהאורך של שן המודל הוא:

12.726 = 4.342+6.617+0.391+32*0.043

דוגמא ללא אינטראקציו

ת

Too

th /

se

x

Latitude

Page 44: סטטיסטיקה בסיסית והסקה סטטיסטית ב- R

R ב-lmאיך קוראים תוצאות של

Estimate Std. Error t value Pr(>|t|)(Intercept) 1.03832 0.01423 72.97 <2e-16 ***dietHerbivorous 1.15091 0.05963 19.3 <2e-16 ***dietOmnivorous 0.32941 0.0363 9.075 <2e-16 ***

משווה את כל R, קטגוריאליכשהמשתנה המסביר של הפקטור הראשון בסדר interceptהפקטורים ל-

אלפביתי

כאן המשתנה המסביר הוא דיאטה ואלפביתית הקטגוריה הראשונה היא Carnivore

וזה של אומניבור: 1.038כך שגודלו הממוצע של קרניבור הוא , 1.038+0.329 = 1.367

( t = 9.075( ואומניבורים )t = 19.3ההבדל בין קרניבורים להרביבורים )מובהק

Page 45: סטטיסטיקה בסיסית והסקה סטטיסטית ב- R

R ב-lmאיך קוראים תוצאות של מדווח עבורו את R, רציףכשהמשתנה המסביר

שלוt וה-pהשיפוע עם שגיאת התקן שלו וערכי ה-

כאן המשתנים המסבירים )את גודל טווח התפוצה( הם מסה וקו רוחב

)היחידות הן לוג קמ"ר( בכל עליה 0.02כך שגודלו תחום התפוצה עולה ב- יחידות כל עליה של יחידת מסה )לוג גרם, כלומר 0.326של מעלה, וב-

יחידה אחת היא הכפלה בעשר(

(t = 9.57, p<<0.05, ו-t = 8.82ההשפעה של שניהם מובהקת )

rapoport<-read.table("rang.txt",header=T)model<-lm(range~mass+latitude,data=rapoport)summary(model)

Estimate Std. Error t value Pr(>|t|)(Intercept) 2.967075 0.061833 47.985 <2e-16 ***mass 0.325585 0.036929 8.817 <2e-16 ***latitude 0.02263 0.002365 9.57 <2e-16 ***

Page 46: סטטיסטיקה בסיסית והסקה סטטיסטית ב- R

R ב-lmאיך קוראים תוצאות של מדווח עבורו את R, רציףכשהמשתנה המסביר

שלוt וה-pהשיפוע עם שגיאת התקן שלו וערכי ה-

( log(100) = 2 גרם )100כך שגודל תחום התפוצה של לטאה במסה של ( יהיה:10בקוסטה ריקה )קו רוחב

Estimate Std. Error t value Pr(>|t|)(Intercept) 2.967075 0.061833 47.985 <2e-16 ***mass 0.325585 0.036929 8.817 <2e-16 ***latitude 0.02263 0.002365 9.57 <2e-16 ***

Intercept+slope*mass+slope*latitude

2.967+0.3255(slope)*2(mass)+0.023(slope)*10latitude = 3.84

Page 47: סטטיסטיקה בסיסית והסקה סטטיסטית ב- R

R ב-lmאיך קוראים תוצאות של רציפים וגם כשיש גם המשתנים מסבירים ANCOVAב

לאחרונים ושיפוע intercept מדווח R, קטגוריאלים t וה-pלראשונים, עם שגיאות התקן שלו וערכי ה-

המתאימיםmodel<-lm(range~islands+mass+latitude,data=rapoport)summary(model)

Estimate Std. Error t value Pr(>|t|)(Intercept) 3.777624 0.059828 63.142 < 2e-16 ***islandsMIE -1.232342 0.082848 -14.875 < 2e-16 ***islandsSIE -2.030331 0.059402 -34.179 < 2e-16 ***mass 0.266193 0.033047 8.055 9.91E-16 ***latitude -0.010585 0.002139 -4.95 7.68E-07 ***

( מינים שאנדמיים לאי continental מיני יבשת ) קטגוריות:3כאן יש multiple island( או מכמה איים )single island endemicsיחיד )

endemics)

Page 48: סטטיסטיקה בסיסית והסקה סטטיסטית ב- R

R ב-lmאיך קוראים תוצאות של ANCOVA רציפים וגם : גם משתנים מסבירים

קטגוריאליםmodel<-lm(range~islands+mass+latitude,data=rapoport)summary(model)

Estimate Std. Error t value Pr(>|t|)(Intercept) 3.777624 0.059828 63.142 < 2e-16 ***islandsMIE -1.232342 0.082848 -14.875 < 2e-16 ***islandsSIE -2.030331 0.059402 -34.179 < 2e-16 ***mass 0.266193 0.033047 8.055 9.91E-16 ***latitude -0.010585 0.002139 -4.95 7.68E-07 ***

( או כמה איים SIE(, אי יחיד )continental יבשת ) קטגוריות:3(MIE)

Residual standard error: 1.633 on 4887 degrees of freedomMultiple R-squared: 0.232, Adjusted R-squared: 0.2314 F-statistic: 369 on 4 and 4887 DF, p-value: < 2.2e-16

וכו' של המודל בכללותוF בריבוע, Rאלה ערכי

Page 49: סטטיסטיקה בסיסית והסקה סטטיסטית ב- R

R ב-lmאיך קוראים תוצאות של model<-lm(range~islands+mass+latitude,data=rapoport)summary(model)

Estimate Std. Error t value Pr(>|t|)(Intercept) 3.777624 0.059828 63.142 < 2e-16 ***islandsMIE -1.232342 0.082848 -14.875 < 2e-16 ***islandsSIE -2.030331 0.059402 -34.179 < 2e-16 ***mass 0.266193 0.033047 8.055 9.91E-16 ***latitude -0.010585 0.002139 -4.95 7.68E-07 ***

( שלנו intercept החיתוך )continental<MIE<SIEכיוון שאלפביתית הוא עבור הקטגוריה הראשונה: מיני יבשת. כך שטווח התפוצה של

– וכמו SIE )שימו לב: הבדל שלילי!( ושל MIEמיני יבשת גדול משל כן טווח התפוצה עולה עם המסה, אך יורד עם העליה בקו הרוחב

)שיפוע שלילי(.

ושוב – כל הגורמים מובהקים

Page 50: סטטיסטיקה בסיסית והסקה סטטיסטית ב- R

model<-lm(range~islands+mass+latitude,data=rapoport)summary(model)

Estimate Std. Error t value Pr(>|t|)(Intercept) 3.777624 0.059828 63.142 < 2e-16 ***islandsMIE -1.232342 0.082848 -14.875 < 2e-16 ***islandsSIE -2.030331 0.059402 -34.179 < 2e-16 ***mass 0.266193 0.033047 8.055 9.91E-16 ***latitude -0.010585 0.002139 -4.95 7.68E-07 ***

מחשב רק את ההבדל Rאבל בגורמים הקטגוריאלים יש לנו בעיה: בין כל גורם לגורם הראשון באלפבית. כאן בין יבשת לשתי קטגוריות

האיים. אבל הוא לא מחשב ולא מדווח על ההבדלים בין שתי קטגוריות האיים

וחוץ מזה, הוא לא נותן לנו עבורם שגיאות תקן והבדלים מאפס, אלא רק הבדלים מהיבשת ושגיאת תקן של המבחן הזה )לא את

שגיאת התקן של המשתנה עצמו במודל(

relevel

Page 51: סטטיסטיקה בסיסית והסקה סטטיסטית ב- R

model<-lm(range~islands+mass+latitude,data=rapoport)summary(model)

מי יהיה הגורם הראשון, אליו הוא Rאפשר להתחכם: להגדיר ל-:relevelישווה את האחרים, על ידי הפקודה

Relevel (2)

model2<-lm(range~relevel(islands,”SIE”)+mass+latitude,data=rapoport)summary(model2)

model3<-lm(range~relevel(islands,”MIE”)+mass+latitude,data=rapoport)summary(model3)

או

Page 52: סטטיסטיקה בסיסית והסקה סטטיסטית ב- R

מי יהיה הגורם הראשון, אליו הוא Rאפשר להתחכם: להגדיר ל-:relevelישווה את האחרים, על ידי הפקודה

Relevel (3)

model3<-lm(range~relevel(islands,”MIE”)+mass+latitude,data=rapoport)summary(model3)

Estimate Std. Error t value Pr(>|t|)

(Intercept)2.545 0.092 27.74 <2e-16 ***

relevel(islands, MIE)continental 1.232 0.083 14.88 <2e-16 ***relevel(islands, MIE)SIE -0.8 0.093 -8.54 <2e-16 ***mass 0.266 0.033 8.055 9.91E-16 ***latitude -0.01 0.002 -4.95 7.68E-07 ***

שימו לב שהפרמטרים של המודל הכללי Residual standard error: 1.633 on 4887 degrees of freedomנשארו זהים:

Multiple R-squared: 0.232, Adjusted R-squared: 0.2314 F-statistic: 369 on 4 and 4887 DF, p-value: < 2.2e-16

Page 53: סטטיסטיקה בסיסית והסקה סטטיסטית ב- R

Predictor Response test In R

Categorical Success/failure binomial binom.test

Categorical Counts Chi-square/G chisq.test

Categorical continuous ANOVA* aov

continuous continuous Regression/correlation lm

continuous Categorical/counts Chi-square/ANOVA lm

Categorical, multiple predictors

continuous Multi-way ANOVA aov

continuous, multiple predictors

continuous Multiple regression lm

multiple predictors, Both categorical & continuous

continuous ANCOVA lm

( residualsאם הנחותיהם של מבחנים פרמטריים )שונות דומה, התפלגות נורמלית של ה-מתקיימים:

*t-test if there are only 2 categories

בחירת מבחן מתאים

Page 54: סטטיסטיקה בסיסית והסקה סטטיסטית ב- R

אינטראקציות 2קל להבין את זה גרפית: בדוגמה משתנה בדיד אחד עם

רמות )מקווקו ומלא(, ומשתנה רציף אחד )לאורך ציר ה X)

Null hypothesis

a.

resp

on

se

Continuous predictor Continuous predictor

resp

on

se

c.

בדיד מובהק רציף לא

e.

resp

on

se

Continuous predictor

רציף מובהק בדיד לא, יש

אינטראקציה

b.

resp

on

se

Continuous predictor

שניהם מובהקים, אין אינטראקציה

d.

resp

on

se

Continuous predictor

שניהם מובהקים, יש אינטראקציה

f.

resp

on

seContinuous predictor

רציף מובהק בדיד לא, אין

אינטראקציה

Page 55: סטטיסטיקה בסיסית והסקה סטטיסטית ב- R

Rאינטראקציות ב-

משתמשים בפלוס )+( בין המשתנים המסבירים. עבור אינטראקציה משתמשים בנקודותיים. אם רוצים לבחון גם

main effect וגם אינטראקציה משתמשים בכוכבית למשל במודל שמנסה לחזות ציוני קורסים לפי כמה למדנו, גיל

המרצה, כמה התפללנו והאם מעתיקים:

model<-lm(Grade~days_studied+age_of_professor+number_of_prayers*sent_sms_texts+age_of_professor:number_of_prayers)

כאן ביקשנו גם שתי אינטראקציות: בין תפילות להעתקות וגיל לתפילה

lm(y~a*b)

lm(y~a+b+c+a:b)

Page 56: סטטיסטיקה בסיסית והסקה סטטיסטית ב- R

חשוב: predictorsהנחת היסוד של מבחנים מרובי

שוניםpredictorsהיא שאין מתאם בין

-multi-coקרוי גם predictor variablesמתאם גבוה בין זוג linearity ולעיתים מבוטא על ידי ,tolerance (1-R2) או על ידי

= Variance Inflation Factors (VIFהרציפרוקלי שלו 1/tolerance)

חזק קיים אזי המודל לא יהיה יציב, multicollinearityאם והערכת הפרמטרים עשויה להיות לא נכונה

אל תכניסו משתנים מנבאים המצויים במתאם גבוה בינם לבין עצמם!

Page 57: סטטיסטיקה בסיסית והסקה סטטיסטית ב- R

predictorתמיד, תמיד, תמיד, ככל שנוסיף יותר variables נסביר יותר מהשונות

היחס יהיה מונוטוני – וטריוויאלי: במקרה הרע של משתנים נוספים Parameter estimate- ביותר ה

יהיו אפס

*קו הרוחב + 87+22.5)למשל מספר מינים = *מספר המנדטים של המפלגות הדתיות באותו 0

אזור(לא יהיה אף פעם בדיוק אפס – parameter estimateאבל ה

5120הוא פשוט יהיה נמוך מאוד – נאמר נוסף מין על כל מנדטים 974מנדטים שנוספים לש"ס, או נגרע מין על כל

הנוספים ליהדות התורה

– זה שווה לנו?0.45007 ל 0.45 שלנו יעלה מ R2ה

Model selection

Page 58: סטטיסטיקה בסיסית והסקה סטטיסטית ב- R

למעשה בכל שאלה סטטיסטית אפשר מהשונות באמצעות מספר 100%להסביר

משתנים השווה למספר התצפיות

רוצים דוגמא?

מה הגובה שלכם?

Model selection

אבל, מהי יכולת הניבוי של המודל http://en.wikipedia.org/wiki/Overfittingהזה לנתון הבא???

Page 59: סטטיסטיקה בסיסית והסקה סטטיסטית ב- R

נסביר predictor variablesככל שנוסיף יותר יותר מהשונות

המטרה שלנו כמדענים היא להסביר את מקסימום התופעות בעזרת מינימום משתנים

תער אוקאםעל שמעתם?

כך שאם יש לנו משתנים מסבירים רבים מאוד נרצה לדעת אילו מהם מוסיפים כל כך מעט שונות מוסברת, שלא שווה לסבך בגללם את

החיים

Model selection

Page 60: סטטיסטיקה בסיסית והסקה סטטיסטית ב- R

ניתן פשוט לבחון אילו משתנים במודל מובהקים

Model selection

נתחיל במודל המורכב ביותר, ולמחוק כל פעם את הגבוה pהמשתנה )או האינטראקציה( שלו מיוחס ה-

)או ערך 0.05 קטנים מ pביותר – עד שכל ערכי ה = MAM סף אחר(. המודל איתו נשארנו ייקרא

minimum adequate model :response variableדוגמא: מנסים להסביר גודל תטולה בודדת בלטאות )

clutch( באמצעות נתונים על גודל גופן )SVL טמפרטורת סביבה ,)(, הגובה החציוני מעל פני הים בו הן חיות tempהמועדפת עליהן )

(elevation( ומספר התטולות שהן מטילות בשנה ,)broods )

Backwards (stepwise) elimination

p. על פי ערכי 1

Page 61: סטטיסטיקה בסיסית והסקה סטטיסטית ב- R

ניתן פשוט לבחון אילו משתנים במודל מובהקים

Model selection

נתחיל במודל המורכב ביותר:

(, טמפרטורת SVLדוגמא: מנסים להסביר גודל תטולה בודדת בלטאות באמצעות נתונים על גודל גופן )(, ומספר התטולות שהן elevation(, הגובה החציוני מעל פני הים בו הן חיות )tempסביבה המועדפת עליהן )

( broodsמטילות בשנה )

Estimate se t p

Intercept -24.32 3.878 -6.272 <0.0001

SVL 14.02 1.34 10.465 <0.0001

temp 0.0197 0.0809 0.244 0.808

elevation 0.0021 0.0005 4.103 <0.0001

Broods -0.0976 0.1069 -0.913 0.362

model1<-lm(clutch~SVL+temp+elevation+Broods)

Page 62: סטטיסטיקה בסיסית והסקה סטטיסטית ב- R

ניתן פשוט לבחון אילו משתנים במודל מובהקים

Model selection

נמחק את הטמפרטורה ונחשב מחדש:

(, טמפרטורת SVLדוגמא: מנסים להסביר גודל תטולה בודדת בלטאות באמצעות נתונים על גודל גופן )(, ומספר התטולות שהן elevation(, הגובה החציוני מעל פני הים בו הן חיות )tempסביבה המועדפת עליהן )

( broodsמטילות בשנה )

model2<-lm(clutch~SVL+elevation+Broods)

Estimate se t p

Intercept -23.71 2.95 -8.038 <0.0001

SVL 14.04 1.335 10.521 <0.0001

elevation 0.0021 0.0005 4.103 <0.0001

Broods -0.1009 0.1059 -0.953 0.341

Page 63: סטטיסטיקה בסיסית והסקה סטטיסטית ב- R

ניתן פשוט לבחון אילו משתנים במודל מובהקים

Model selection

נמחק את מספר התטולות ונחשב מחדש:

גודל תטולה הוא פונקציה של גודל גוף ושל הגובה מעל פני הים, וזהו

model3<-lm(clutch~SVL+elevation)

Estimate se t p

Intercept -23.420 1.884 -12.433 <0.0001

SVL 13.660 0.9019 15.151 <0.0001

elevation 0.0018 0.0003 5.491 <0.0001

כל המשתני

ם מובהקים, עצור!

Model3 = MAM

Page 64: סטטיסטיקה בסיסית והסקה סטטיסטית ב- R

forward addition

ניתן פשוט לבחון אילו משתנים במודל מובהקים

Model selection

אפשר להתחיל במודל הפשוט ביותר, ולהוסיף כל פעם 0.05 עבורו קטן מ-pמשתנה נוסף, ולהשאיר אותו אם ה-

)או ערך סף אחר(. model1a<-lm(clutch~SVL)

Model2a<- lm(clutch~SVL+elevation)

Model3a<- lm(clutch~SVL+elevation+Broods)

model3aברגע שנגיע למודל שמכיל גורמים לא מובהקים ) model2aבדוגמה שלנו( נעצור ונבחר את המודל הקודם )

MAMבדוגמה שלנו( כ-

Page 65: סטטיסטיקה בסיסית והסקה סטטיסטית ב- R

forward addition

ניתן פשוט לבחון אילו משתנים במודל מובהקים

Model selection

מתחילים במודל הפשוט ביותר, ומוסיפים כל פעם משתנה )או ערך 0.05 עבורו קטן מ-pנוסף, ולהשאיר אותו אם ה-

סף אחר(.

שימו לב: לא כל הצירופים האפשריים בין פרמטרים )והאינטראקציות backwards ולא ב-forward additionביניהם( משמשים לא ב-

elimination.כאן, ויכול להיות שהצירוף "הכי נכון" לא נבדק

מצד שני מספר המודלים האפשרי עולה בחזקה של מספר הפרמטרים בהם משתמשים, כך שבחינת כל המודלים האפשריים לא מעשית אם יש לנו הרבה מאוד פרמטרים – אלא אם כן אנו יודעים לתכנת היטב ויש לנו

מחשב חזק והרבה זמן...

Page 66: סטטיסטיקה בסיסית והסקה סטטיסטית ב- R

Akaike Information Criterion

פרמטרים: כמה המודל "טוב" 2השוואה בין מודלים על פי )רמת הדיוק בה מתוארת המציאות( לעומת כמה הוא מורכב

)כמה פרמטרים הערכנו(AIC = 2k-2ln(L)

maximum הוא ה L הוא מספר הפרמטרים ו-Kכאשר likelihood של המודל (שבלי להכנס לפירוט מיותר מבטא במקרה – ככל שהוא קטן יותר המודל residual sum of squaresהזה את ה

טוב יותר, וניתן לכתוב

[ AIC = 2k+n[ln(RSS)(

Model selection

דרך חלופית לבחירת מודלים

http://en.wikipedia.org/wiki/Residual_sum_of_squares

Hirotsugu Akaike

http://en.wikipedia.org/wiki/Akaike_information_criterion

נמוך יותר המודל טוב יותרAICככל שערך ה

Page 67: סטטיסטיקה בסיסית והסקה סטטיסטית ב- R

Akaike Information Criterion

AIC = 2k-2ln(L)

Model selection

Hirotsugu Akaike

AIC rewards descriptive accuracy via the maximum likelihood (High L), and penalizes lack of parsimony according to the number of free parameters (high K)

שימו לב שהתמיכה במודל חזקה נמוך יותר:AICיותר ככל שערך ה

AIC(model1,model2,model3)

Page 68: סטטיסטיקה בסיסית והסקה סטטיסטית ב- R

נחזור ללטאות

Model selection

(, טמפרטורת סביבה SVLדוגמא: מנסים להסביר גודל תטולה בודדת בלטאות באמצעות נתונים על גודל גופן )(, ומספר התטולות שהן מטילות elevation(, הגובה החציוני מעל פני הים בו הן חיות )tempהמועדפת עליהן )

( broodsבשנה )

model1<-lm(clutch~SVL+temp+elevation+Broods)

model2<-lm(clutch~SVL+elevation+Broods)

model3<-lm(clutch~SVL+elevation)

AIC(model1,model2,model3)

df AIC

model1 6 1773.50

model2 5 1771.56

model3 4 1770.48

הוא הטוב 3שוב מודל AICביותר )יש לו ה

score )הנמוך ביותר

Page 69: סטטיסטיקה בסיסית והסקה סטטיסטית ב- R

לא מאפשר לבחון כמה טוב הוא מבחן בודד, אלא רק להשוות בין מספר מבחנים הנשענים על אותם נתונים

חסרת משמעות בפני AIC) של scoreהתוצאה ( בין מבחנים של שאלות AIC: לא ניתן להשוות עצמה

שונות או שמתבססים על נתונים שונים כמו שניתן 0.05=0.05=0.05להגיד ש

Akaike Information Criterion

בנוסף, כלל האצבע אומר שלא ניתן לומר אינם 2 של פחות מ- AICשהבדלים בערכי

מאפשרים לומר איזה מודל טוב יותר

AIC(model1,model2,model3)

Page 70: סטטיסטיקה בסיסית והסקה סטטיסטית ב- R

Akaike Information Criterion

כלל האצבע אומר שלא ניתן לומר שהבדלים בערכי AIC -אינם מאפשרים לומר איזה מודל 2של פחות מ

טוב יותר

df AIC ∆AIC

model3 4 1770.48 0

model2 5 1771.56 1.12

model1 6 1773.50 3.02

מהנמוך )הכי טוב( לגבוה, AICנסדר את המודלים על פי ערכי מהמודל עם ה AIC scoreונחשב עבור כל אחד את הפרש ה

score הנמוך ביותר – לקבלת ערך ה AIC∆ .של כל מודל כיוון 2 עדיף על מודל 3בדוגמה הזו לא ניתן לומר שמודל

2 ביניהם קטן מ AICשההפרש ב

AIC(model1,model2,model3)

Page 71: סטטיסטיקה בסיסית והסקה סטטיסטית ב- R

.1AICc

BIC: -2*ln L + k*ln(n)

עבור מדגמים קטניםAICתיקון ל //:R http)חבילת

cran.r-project.org/web/packages/AICcmodavg/AICcmodavg.pdf )

2 .AIC weights“Akaike weights are used in model averaging. They represent the

relative likelihood of a model. To calculate them, for each model first calculate the relative likelihood of the model, which is just exp)-0.5 * ∆AIC score for that model(. The Akaike weight for a model is this value divided by the sum of these values across all models.”†

AICוריאציות -

† http://www.brianomeara.info/tutorials/aic

†† Wagenmakers & Farrell 2004

3. Baysian Information Criterion, BIC

AIC מ 1סובלני פחותלמספרים גדולים של

††פרמטרים

AICc = AIC+(2k*[k+1[/[n-k-1[)

גודל המדגם לא משחקAIC מוכפל בגודל המדגם!, ב-k. שימו לב: 1

Page 72: סטטיסטיקה בסיסית והסקה סטטיסטית ב- R

Generalized linear models (GLM)

אינו רציף )ספירות, response variable כשה GLMמשמשים ב-פרופורציות, בינארי וכו'( - או כשהנחות המבחנים

הפרמטרים )התפלגות נורמלית, שיוויון שונויות( אינן מתקיימות

GLM:מורכב שלושה חלקים

1 .linear predictor; 2. link function; 3. error distribution

הראשון הוא ערך הפרמטר, השני מדבר על טרנספורמציה )למשל ” עבור טרנספורמציה log” כשאין טרנספורמציה ו “identity“הוא

– למשל גאמא, residualsלוגריתמית( והשלישי אומר מה התפלגות ה GLM ה error=normal ו link=identityפואסון או נורמלית. במקרה הפרטי בו

זהה למודל לינארי "רגיל"

Page 73: סטטיסטיקה בסיסית והסקה סטטיסטית ב- R

Generalized linear models (GLM)

מורכב שלושה חלקים:

1 .linear predictor; 2. link function; 3. error distribution

הראשון הוא ערך הפרמטר, השני מדבר על טרנספורמציה )למשל ” עבור טרנספורמציה log” כשאין טרנספורמציה ו “identity“הוא

– למשל גאמא, residualsלוגריתמית( והשלישי אומר מה התפלגות ה GLM ה-error=normal ו-link=identityפואסון או נורמלית. במקרה הפרטי בו

זהה למודל לינארי "רגיל"

model4<-glm(clutch~log10(SVL)+asin(elevation),family=Gamma)

Log link arcsin link Gamma errors

Page 74: סטטיסטיקה בסיסית והסקה סטטיסטית ב- R

Non-linear models

לעיתים ברור שהיחס בין ה predictor ל response.אינו לינארי

ניתן לבחון מודלים שיודעים להתמודד עם מבנה כזה – למשל ( במודל: quadraticלעיתים קרובות משלבים משוואה ריבועית )

Response = a(predictor)2+b(predictor)+c

וכרגיל אפשר לבדוק אם המודל הקוואדרטי טוב anova או על ידי AICמהמודל הלינארי על ידי

model2<-lm(y~x+I(x^2))

Page 75: סטטיסטיקה בסיסית והסקה סטטיסטית ב- R

Non-linear models

אינו לינארי.response ל predictorלעיתים ברור שהיחס בין ה

breakpointניתן לבחון מודלים )regression בהם יש משוואות )

לינאריות שונות לערכים שונים של predictorה

Y = A1.x + K1     for x < breakpoint

Y = A2.x + K2     for x > breakpoint

Losos & Schluter 2000. Analysis of an evolutionary species-area relationship. Nature 408: 847-850.

Page 76: סטטיסטיקה בסיסית והסקה סטטיסטית ב- R

זיכרו, בכל עבודה:

"No statistical procedure can substitute for serious thinking about alternative

evolutionary scenarios and their credibility"

Westoby, Leishman & Lord 1995. On misinterpreting 'phylogenetic correction. J. of Ecology 83: 531-534.