Nattfågeldata Workshop, 21-22 maj 2014

26
Nattfågeldata Workshop, 21-22 maj 2014 Claudia von Brömssen, SLU

description

Nattfågeldata Workshop, 21-22 maj 2014. Claudia von Brömssen , SLU. Antalsdata Om någonting händer slumpmässigt i tid och rum, t.ex.: antal åskväder under en sommar, antal fåglar som ses under en timme, antal olyckor i en korsning under ett år antal växter av en viss sort i ett område - PowerPoint PPT Presentation

Transcript of Nattfågeldata Workshop, 21-22 maj 2014

Page 1: Nattfågeldata Workshop, 21-22  maj  2014

NattfågeldataWorkshop, 21-22 maj 2014

Claudia von Brömssen, SLU

Page 2: Nattfågeldata Workshop, 21-22  maj  2014

Antalsdata

Om någonting händer slumpmässigt i tid och rum, t.ex.:

• antal åskväder under en sommar, • antal fåglar som ses under en timme,• antal olyckor i en korsning under ett år• antal växter av en viss sort i ett område• …

Poisson fördelningen används för att beskriva dessa typer av data. Det krävs att uppkomsten av åskväder, fåglar,…är oberoende händelser i tiden eller i rummet.

Page 3: Nattfågeldata Workshop, 21-22  maj  2014

År Antal svarthättor År Antal starar

1999 6 1999 42000 3 2000 502001 6 2001 02002 - 2002 -2003 - 2003 -2004 5 2004 12005 4 2005 02006 5 2006 522007 4 2007 22008 14 2008 1002009 5 2009 3

Exempel: Fågelräkning på en sträcker i Svensk Fågeltaxering:svarthätta och stare

Medel: 5.78 23.6

Oberoende händelser Ej oberoende

Page 4: Nattfågeldata Workshop, 21-22  maj  2014

En Poissonfördelning som skulle kunna passa för att beskriva antal svarthättor under den tid det tar att observera sträckan.

En diskret sannolikhets-fördelning. Enbart heltalsvärden är tillåtna.

Page 5: Nattfågeldata Workshop, 21-22  maj  2014

Inlägg: Binära data – 0/1 data

Om man bara observerar om någonting inträffar eller ej kallar man variabeln binär. T.ex. fågeln observeras /observeras inte

Binära data modelleras ofta med Binomialfördelningen. För att kunna göra så måste enheterna vi observera vara oberoende.

Page 6: Nattfågeldata Workshop, 21-22  maj  2014

Nattfågeldata:

Observationer mellan 2003 och 2013. 2 perioder per år.

T.ex. Rördrom:

Röd: period 1Blå: period 2

2004 2006 2008 2010 2012

05

10

15

20

25

30

nattfP1$År

na

ttfP

1$

rdro

m

Page 7: Nattfågeldata Workshop, 21-22  maj  2014

Trend analys: - Mann-Kendall test fungerar även på antalsdata, eftersom

Mann-Kendall test enbart beräknas på ranger. - Eftersom data är insamlade under 2 perioder ska det tas

hänsyn till också – en test beräknas för varje period och en övergripande test för båda perioder tillsammans.

Separat för de 2 perioderna:

Kombinerad:

Response variable Period MK statistic p-value (twosided) Significance code Slope (change/unit) MedianRördrom 1 -39 0.0024-- -1.833333333 22Rördrom 2 -16 0.2078 -1 9

Response variable Period MK statistic

p-value (twosided)

Significance code

Slope (change/unit) Median

Rördrom All categories -55 0.0120- -1.354166667 14.5

Page 8: Nattfågeldata Workshop, 21-22  maj  2014

Trend analys: - Mann-Kendall test fungerar även på antalsdata, eftersom

Mann-Kendall test enbart beräknas på ranger. - Eftersom data är insamlade under 2 perioder ska det tas

hänsyn till också – en test beräknas för varje period och en övergripande test för båda perioder tillsammans.

Separat för de 2 perioderna:

Kombinerad:

Response variable Period MK statistic p-value (twosided) Significance code Slope (change/unit) MedianRördrom 1 -39 0.0024-- -1.833333333 22Rördrom 2 -16 0.2078 -1 9

Response variable Period MK statistic

p-value (twosided)

Significance code

Slope (change/unit) Median

Rördrom All categories -55 0.0120- -1.354166667 14.5

Page 9: Nattfågeldata Workshop, 21-22  maj  2014

Modellering av fågeldata:

Vill man modellera antalsdata så använder man vanligtvis Poisson-fördelningen. Om antalen är höga kan också normalfördelningen fungera.

För Rördromen skulle vi kunna ansätta modellen med en linjär trend och en skillnad mellan perioderna.

Antal Rördrommar = År + Period

Eller

Antal Rördrommar= År + Period+ År*Period

Page 10: Nattfågeldata Workshop, 21-22  maj  2014

Modellering av fågeldata:

Antal Rördrommar = År + Period

Antalet rördrommar påverkas av år (=trend) och period under året. De två effekterna är additiva, dvs påverkar inte varandra

Eller

Antal Rördrommar= År + Period+ År*Period

Det finns dessutom en interaktion mellan år och period, dvs trenderna ser olika ut för olika perioder (realistisk?)

Page 11: Nattfågeldata Workshop, 21-22  maj  2014

Modellering av fågeldata: Beroende i data

Eftersom samma plats observeras under 11 år och dessutom 2 gånger varje år så är data inte oberoende.

Beroendet finns i första hand mellan observationerna gjorda samma år.

Finns många under period 1, så finns ocksåmånga under period 2.

2004 2006 2008 2010 2012

05

10

15

20

25

30

nattfP1$År

na

ttfP

1$

rdro

m

Page 12: Nattfågeldata Workshop, 21-22  maj  2014

Modellering av fågeldata: Beroende i data

Beroende kan också finnas över åren. Samma fåglar bor kvar eller återvänder.

2004 2006 2008 2010 2012

05

10

15

20

25

30

nattfP1$År

na

ttfP

1$

rdro

m

Page 13: Nattfågeldata Workshop, 21-22  maj  2014

Modellering av fågeldata: Beroende i data

Mann-Kendall testet skattar beroende mellan de två perioderna, men olika år antas vara oberoende. Detta är ofta en rimligt förenkling av modellstrukturen, men bör kunna motiveras.

Om man modellera fågeldata med en linjär modell måste även då beroenden anges. För att kunna göra det måste man gå från vanliga linjära modeller (regression, ANOVA) över till mixed models . Är data dessutom antalsdata (eller 0/1 data) så använder man generaliserade linjära mixed modeller (GLIMM).

Page 14: Nattfågeldata Workshop, 21-22  maj  2014

Modellering av fågeldata: RördromBasmodell (linjär modell, normalfördelade data, inga beroenden tas hänsyn till):

model1<-lm(Rördrom~År+Period, data=nattf)

lm … linear model

Rördrom~År+Period … modellformel

data=nattf … datamaterialet nattf används (tidigare inläst från ett .txt fil

Page 15: Nattfågeldata Workshop, 21-22  maj  2014

Modellering av fågeldata: Rördrommodel1<-lm(Rördrom~År+Period, data=nattf)

Call:lm(formula = Rördrom ~ År + Period, data = nattf)

Residuals: Min 1Q Median 3Q Max -11.5636 -2.7773 -0.3864 4.1750 7.6455

Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 2449.9455 716.0068 3.422 0.00286 ** År -1.2091 0.3566 -3.391 0.00307 ** Period2 -13.3636 2.2552 -5.926 1.05e-05 ***---Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 5.289 on 19 degrees of freedomMultiple R-squared: 0.7104, Adjusted R-squared: 0.6799 F-statistic: 23.31 on 2 and 19 DF, p-value: 7.706e-06

Page 16: Nattfågeldata Workshop, 21-22  maj  2014

Modellering av fågeldata: Rördrom

Normalfördelning användes här och residualplottarna ska kontrolleras för att se om detta antagandet var uppfyllt.

5 10 15 20 25

-10

-50

510

Fitted values

Res

idua

ls

Residuals vs Fitted

4

12

6

-2 -1 0 1 2

-2-1

01

2

Theoretical Quantiles

Sta

ndar

dize

d re

sidu

als

Normal Q-Q

4

6

12

5 10 15 20 25

0.0

0.5

1.0

1.5

Fitted values

Sta

ndar

dize

d re

sidu

als

Scale-Location4

612

0.00 0.05 0.10 0.15 0.20

-2-1

01

2

Leverage

Sta

ndar

dize

d re

sidu

als

Cook's distance 0.5

Residuals vs Leverage

4

6

19

Page 17: Nattfågeldata Workshop, 21-22  maj  2014

Modellering av fågeldata: Rördrom

Residualerna är någorlunda normalfördelade och möjligtvis skulle normalfördelningen kunna användas för att modellera antalet rördrommar. Vi har dock ett till problem med normalfördelningen:

När vi gör ett konfidensintervall:

predict(model1,interval='confidence')

fit lwr upr…17 18.463636 14.4445664 22.48270618 5.100000 1.0809300 9.11907019 17.254545 12.7766101 21.73248120 3.890909 -0.5870263 8.36884421 16.045455 11.0389706 21.05193822 2.681818 -2.3246658 7.688302

Page 18: Nattfågeldata Workshop, 21-22  maj  2014

Modellering av fågeldata: Poissonregression

Generellt är det bättre att använda Poisson-fördelningen för dessa data: model2<-glm(Rördrom~År+Period, family=poisson, data=nattf)

glm … generalised linear model (generaliserad linjär modell)

family=poisson … anger vilken fördelning data har

I samband med poissonregression används log-transformation av responsen.

Page 19: Nattfågeldata Workshop, 21-22  maj  2014

Modellering av fågeldata: Poissonregression

> predict(model2, interval='confidence') 1 2 3 4 5 6 7 8 3.461132 2.532419 3.381664 2.452950 3.302195 2.373482 3.222727 2.294014 9 10 11 12 13 14 15 16 3.143259 2.214545 3.063790 2.135077 2.984322 2.055609 2.904854 1.976141 17 18 19 20 21 22 2.825386 1.896672 2.745917 1.817204 2.666449 1.737736

Page 20: Nattfågeldata Workshop, 21-22  maj  2014

Modellering av fågeldata: Poissonregression

Call:glm(formula = Rördrom ~ År + Period, family = poisson, data = nattf)

Deviance Residuals: Min 1Q Median 3Q Max -3.4937 -1.1050 0.0838 1.0331 2.5218

Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 162.63615 35.13731 4.629 3.68e-06 ***År -0.07947 0.01751 -4.540 5.64e-06 ***Period2 -0.92871 0.12055 -7.704 1.32e-14 ***---Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for poisson family taken to be 1)

Null deviance: 140.685 on 21 degrees of freedomResidual deviance: 53.772 on 19 degrees of freedomAIC: 153.85

Number of Fisher Scoring iterations: 5

Page 21: Nattfågeldata Workshop, 21-22  maj  2014

Modellering av fågeldata: Poissonregression

I poisson-fördelningen finns bara en parameter (l), som står för både väntevärde och varians i fördelningen. (Jämför normalfördelningen där 2 parametrar finns: väntevärde m och varians s2). I Poisson regression kan man får problem med överspridning, dvs variationen är större än modellen tillåter.

Null deviance: 140.685 on 21 degrees of freedomResidual deviance: 53.772 on 19 degrees of freedomAIC: 153.85

Eftersom kvoten mellan residual deviance och degress of freedom är 53.772/19 = 2.83 som är betydligt större än 1 så finns det problem med överspridning (standard error blir felaktiga)

Page 22: Nattfågeldata Workshop, 21-22  maj  2014

Modellering av fågeldata: Poissonregression med beroenden

I vårt fall kan det vara en effekt av att vi har ignorerat beroenden i datamaterialet. För att modellera beroendet använder vi:

library(MASS)

model4<-glmmPQL(Rördrom~År+Period, random=~1|År/Period, family='poisson', data=nattf)

glmmPQL … model som kan hantera poisson fördelning och beroende mellan data

random=~1|År/Period … skattar beroendet mellan perioderna inom samma år

Page 23: Nattfågeldata Workshop, 21-22  maj  2014

Modellering av fågeldata: Poissonregression med beroendenLinear mixed-effects model fit by maximum likelihood Data: nattf AIC BIC logLik NA NA NA

Random effects: Formula: ~1 | År (Intercept)StdDev: 3.073866e-15

Formula: ~1 | Period %in% År (Intercept) ResidualStdDev: 7.274755e-06 1.457754

Variance function: Structure: fixed weights Formula: ~invwt

Fixed effects: Rördrom ~ År + Period Value Std.Error DF t-value p-value(Intercept) 162.63615 55.11721 10 2.950732 0.0145År -0.07947 0.02746 9 -2.894019 0.0178Period2 -0.92871 0.18909 10 -4.911361 0.0006 Correlation: (Intr) År År -1.000 Period2 -0.001 0.000

Standardized Within-Group Residuals: Min Q1 Med Q3 Max -1.9362271 -0.7191128 0.0577341 0.7533531 1.9399027

Page 24: Nattfågeldata Workshop, 21-22  maj  2014

Modellering av fågeldata: Poissonregression med beroenden

Bästa modellFixed effects: Rördrom ~ År + Period Value Std.Error DF t-value p-value(Intercept) 162.63615 55.11721 10 2.950732 0.0145År -0.07947 0.02746 9 -2.894019 0.0178Period2 -0.92871 0.18909 10 -4.911361 0.0006

Signifikanta skillnader mellan perioderna. Signifikant trend. För log-transformerade data är minskningen per år 0.07947.

Page 25: Nattfågeldata Workshop, 21-22  maj  2014

Modellering av fågeldata: Poissonregression med beroenden

2004 2006 2008 2010 2012

05

10

15

20

25

30

År

rdro

mm

ar

Page 26: Nattfågeldata Workshop, 21-22  maj  2014

Modellering av fågeldata: Poissonregression med beroenden

Samma modell för Vaktel:

Utan interaktion med interaktion

2004 2006 2008 2010 2012

05

10

15

År

Va

kte

l

2004 2006 2008 2010 2012

05

10

15

År

Va

kte

l