Data og beskrivende statistikk – Introduksjon til …...New England Journal of Medicine,...

42
Data og beskrivende statistikk – Introduksjon til SPSS 7. april 2005 Tron Anders Moger

Transcript of Data og beskrivende statistikk – Introduksjon til …...New England Journal of Medicine,...

Page 1: Data og beskrivende statistikk – Introduksjon til …...New England Journal of Medicine, Editorial, Jan. 6, 2000, p. 42-49 • The eleven most important developments in medicine

Data og beskrivende statistikk – Introduksjon til SPSS

7. april 2005

Tron Anders Moger

Page 2: Data og beskrivende statistikk – Introduksjon til …...New England Journal of Medicine, Editorial, Jan. 6, 2000, p. 42-49 • The eleven most important developments in medicine

New England Journal of Medicine, Editorial, Jan. 6,

2000, p. 42-49• The eleven most important

developments in medicine in the past millennium– Elucidation of human anatomy and physiology– Discovery of cells and their substructures– Elucidation of the chemistry of life– Application of statistics to medicine– Development of anesthesia– Discovery of the relation of microbes to disease– Elucidation of inheritance and genetics– Knowledge of the immune system– Development of body imaging– Discovery of antimicrobial agents– Development of molecular pharmacotherapy

Page 3: Data og beskrivende statistikk – Introduksjon til …...New England Journal of Medicine, Editorial, Jan. 6, 2000, p. 42-49 • The eleven most important developments in medicine

Introduksjon• Kunnskap om verden kommer ofte

via tall og data. Hvordan forholdeseg rasjonelt til kvantitativinformasjon?

• Problemene i en kvantitativtilnærming undervurderes ofte.

• Må fremme “numerical literacy” -evnen til å forstå tall og kvantitativeforhold.

Page 4: Data og beskrivende statistikk – Introduksjon til …...New England Journal of Medicine, Editorial, Jan. 6, 2000, p. 42-49 • The eleven most important developments in medicine

Antall fødsler i tidligereØst-Tyskland

År

19981996199419921990198819861984

Ant

all f

ødsl

er p

er å

r

240000

200000

160000

120000

80000

40000

0

Page 5: Data og beskrivende statistikk – Introduksjon til …...New England Journal of Medicine, Editorial, Jan. 6, 2000, p. 42-49 • The eleven most important developments in medicine

Dødelighet i Tanzania og i Norge

Aldersgruppe (år)

55-5950-54

45-4940-44

35-3930-34

25-2920-24

15-19

Død

elig

het p

er 1

000

kvin

ner p

er å

r

25

20

15

10

5

0

Tanzania

Norge

Page 6: Data og beskrivende statistikk – Introduksjon til …...New England Journal of Medicine, Editorial, Jan. 6, 2000, p. 42-49 • The eleven most important developments in medicine

Medisinsk forskning ogtall

• Medisinsk forskning, slik den utføres idag, frembringer nestenalltid tall.

• Tallene er ofte usikre• Tallene må organiseres for at en

skal forstå hva de sier• En ønsker ofte å generalisere

fra tallene

Page 7: Data og beskrivende statistikk – Introduksjon til …...New England Journal of Medicine, Editorial, Jan. 6, 2000, p. 42-49 • The eleven most important developments in medicine

Statistiske data

Statistiske data kommer fra:• Måling (kontinuerlige data) med

et instrument på en skala(naturvitenskapelig eller‘mykere’). Eksempler:– Feber: 39.6 (Uproblematisk)

– IQ: 116 (Problematisk)

• Kategorisering (kategoriskedata). Eksempler:– mann / kvinne (Uproblematisk)

– deprimert / ikke deprimert(Problematisk)

Page 8: Data og beskrivende statistikk – Introduksjon til …...New England Journal of Medicine, Editorial, Jan. 6, 2000, p. 42-49 • The eleven most important developments in medicine

• Reliabilitet: Hvor presise erdataene? Hvor mye kan de endres hvis observasjonengjentas?

• Validitet: Måler vi faktisk detvi ønsker å få informasjon om? Er målingen relevant?

Usikkerhet i data

Page 9: Data og beskrivende statistikk – Introduksjon til …...New England Journal of Medicine, Editorial, Jan. 6, 2000, p. 42-49 • The eleven most important developments in medicine

Reliabilitet av PEF-målinger6 målinger fra hver av 12 stud.

Student nummer

8572665652514846312632

PE

F (l

per m

in)

800

700

600

500

400

300

200

100

0

Page 10: Data og beskrivende statistikk – Introduksjon til …...New England Journal of Medicine, Editorial, Jan. 6, 2000, p. 42-49 • The eleven most important developments in medicine

Reliabilitet avspørreskjema/intervju

• Undersøkelse om alkoholbruk (menn31-50 år):– Gjennomsnittlig antall ganger de som

sier at de har brukt alkohol siste år, oppgir at de har følt seg beruset:

• 1993 (spørreskjema): 14.1 berus. pr. år• 1994 (MMI-intervju): 7.3 berus. pr. år

I 1994 ble det spurt om “tydelig beruset”, ellers samme ordlyd.

Page 11: Data og beskrivende statistikk – Introduksjon til …...New England Journal of Medicine, Editorial, Jan. 6, 2000, p. 42-49 • The eleven most important developments in medicine

Reliabilitet av kliniskundersøkelse

• Tatt fra Sackett et al: Clinical Epidemiology (Little, Brown and Company, 1985). Bilder av øyebunnenhos 100 pasienter vurderes av to klinikere mhpforekomst av retinopati

Annen klinikerIntet/lite Moderat/mye

Første Intet/lite: 46 10kliniker Moderat/mye: 12 32

Observert overensstemmelse:(46+32)/100 =78%

Page 12: Data og beskrivende statistikk – Introduksjon til …...New England Journal of Medicine, Editorial, Jan. 6, 2000, p. 42-49 • The eleven most important developments in medicine

Kilder til variasjon i data

• Laboratorievariasjon• Observatørvariasjon• Instrumentvariasjon• Måleusikkerhet• Biologisk variasjon mellom

individer• Dag til dag-variasjon hos ett

individ

Page 13: Data og beskrivende statistikk – Introduksjon til …...New England Journal of Medicine, Editorial, Jan. 6, 2000, p. 42-49 • The eleven most important developments in medicine

Generalisering• Utvalg: De enheter, individer,

eksperimenter som inngår i studien. Eksempler:– 15 pasienter med migrene– nevrofysiologisk studie på rotter

• Populasjon: Den samling av enheteretc. en ønsker å generalisere til– alle pasienter med migrene– alle gjentagelser av samme

nevrofysiologiske forsøk

Page 14: Data og beskrivende statistikk – Introduksjon til …...New England Journal of Medicine, Editorial, Jan. 6, 2000, p. 42-49 • The eleven most important developments in medicine

Begreps-par• Utvalg

– histogram

– gjennomsnitt– andel syke– målt kolesterol– vær

• Populasjon– sannsynlig-

hetsfordeling– forventning– risiko– kolesterolnivå− klima

Page 15: Data og beskrivende statistikk – Introduksjon til …...New England Journal of Medicine, Editorial, Jan. 6, 2000, p. 42-49 • The eleven most important developments in medicine

Typer av data:

• Kontinuerlige data. Data som er målt på en kontinuerlig skala, f.eks. høyde, vekt, alder.

• Kategoriske data. Data som bare kan anta et endelig antall verdier, f.eks. kjønn, utdanningsnivå, alder inndelt i grupper. Eller, hvis data er samlet inn på flere sykehus, ønsker man en variabel som sier hvilket sykehus dataene er fra.

Page 16: Data og beskrivende statistikk – Introduksjon til …...New England Journal of Medicine, Editorial, Jan. 6, 2000, p. 42-49 • The eleven most important developments in medicine

Innlegging av data i SPSS (og andre statistikkpakker):

• VIKTIG: En linje i datafilen svarer alltid til ett individ!

• Ny variabel opprettes enten ved og velge Data->Insert variablei Data View-vinduet, eller ved å skrive inn navnet på variabelen under Name i Variable View-vinduet

• Vanlig å ha en variabel med id-nummeret til hvert individ først

• Hvis dere mangler en måling på et individ, ikke skriv inn noe i cellen

Page 17: Data og beskrivende statistikk – Introduksjon til …...New England Journal of Medicine, Editorial, Jan. 6, 2000, p. 42-49 • The eleven most important developments in medicine

Koding av data:

• For kontinuerlige data-variabeler skriver man inn verdiene i cellene

• For kategoriske variabeler, må man bestemme seg for en kategorisering: Eks. 0=mann og 1=kvinne, eller 0=grunnskole, 1=videregående og 2=universitetsutdannelse

• I Variable View kan verdiene med tilhørende definisjoner legges inn under Values

• Under Label kan dere gi mer informasjon om variabelen enn bare navnet

Page 18: Data og beskrivende statistikk – Introduksjon til …...New England Journal of Medicine, Editorial, Jan. 6, 2000, p. 42-49 • The eleven most important developments in medicine

Beskrivende statistikk

• Tabeller• Grafiske fremstillinger• Sentralmål• Variasjonsmål• Epidemiologiske mål (insidens

og prevalens, som jeg nevnerkort til slutt)

Page 19: Data og beskrivende statistikk – Introduksjon til …...New England Journal of Medicine, Editorial, Jan. 6, 2000, p. 42-49 • The eleven most important developments in medicine

Typer av grafiskfremstilling

• Histogram• Box-plott• Spredningsdiagram• Insidenskurve• Overlevelseskurve

Page 20: Data og beskrivende statistikk – Introduksjon til …...New England Journal of Medicine, Editorial, Jan. 6, 2000, p. 42-49 • The eleven most important developments in medicine

Alder til 100 medisinerstudenter

24 21 22 26 2622 21 19 23 2120 24 27 19 3024 22 21 22 2019 23 20 20 2321 22 22 21 2024 22 22 22 2321 23 19 20 2320 25 26 22 2122 20 22 21 2020 19 19 23 2322 20 21 22 1921 22 20 23 2222 21 20 19 2426 22 19 21 2422 23 22 19 2121 24 21 19 3931 21 18 24 2122 23 19 26 3222 21 23 19 28

Page 21: Data og beskrivende statistikk – Introduksjon til …...New England Journal of Medicine, Editorial, Jan. 6, 2000, p. 42-49 • The eleven most important developments in medicine

Hvordan få oversikt over dataene i SPSS?

Explore!• Beskrivende analyse kan utføres

på følgende måte:– Klikk Analyze - Descriptive

Statistics - Explore. Merk av de relevante variablene og overførdem til Dependent List. Klikk påPlots, fjern krysset ved “Stem and leaf” og sett i stedet et kryssved “Histogram”. Klikk påContinue for å forlate menyen. Klikk så på OK for å få jobbenutført

Page 22: Data og beskrivende statistikk – Introduksjon til …...New England Journal of Medicine, Editorial, Jan. 6, 2000, p. 42-49 • The eleven most important developments in medicine

Histogram: Fordeling av alder blant nye medisinerstudenter

(n=100)

20,00 25,00 30,00 35,00 40,00

Alder til medisinerstudentene

0

10

20

30

40

Ant

all s

tude

nter

Studenter fra Med.Fak, kull H98.

Page 23: Data og beskrivende statistikk – Introduksjon til …...New England Journal of Medicine, Editorial, Jan. 6, 2000, p. 42-49 • The eleven most important developments in medicine

Box-plott: fordeling av alder blant nye

medisinerstudenter

Alder til medisinerstudentene

15,00

20,00

25,00

30,00

35,00

40,00

100

831899

97

Page 24: Data og beskrivende statistikk – Introduksjon til …...New England Journal of Medicine, Editorial, Jan. 6, 2000, p. 42-49 • The eleven most important developments in medicine

Sentralmål

• Gjennomsnitt

Studentene: 22.2 år

• Median

Den midterste observasjonen når utvalget er ordnet i stigende rekkefølge

Studentene: 22.0 år

• Gjennomsnittet påvirkes av ekstreme observasjoner. Medianen er robust.

x x x xn

n= + + +1 2 ....

Page 25: Data og beskrivende statistikk – Introduksjon til …...New England Journal of Medicine, Editorial, Jan. 6, 2000, p. 42-49 • The eleven most important developments in medicine

Variasjonsmål

• Standardavvik

Studentene: 3.06 år

• Fraktiler

25% fraktilen er den verdien der 25% av observasjonene er lavere og 75% av observasjonene høyere

(I SPSS: Kryss av på Percentiles under Statistics i Explore)

Studentene:25% fraktilen: 20.0 år75% fraktilen: 23.0 år

sx x

n

ii

n

=−∑

−=

( )2

11

Page 26: Data og beskrivende statistikk – Introduksjon til …...New England Journal of Medicine, Editorial, Jan. 6, 2000, p. 42-49 • The eleven most important developments in medicine

Hva hvis man vil omkode alder til en kategorisk

variabel? Recode!• Noen ganger har man data som

måles på en kontinuerlig skala, men som i praksis benyttes som kategoriske data (Eks. en måling fra 0-20, hvor de som scorer 0-10 har lav risiko, 10-15 middels risiko, 15-20 høy risiko)

• Velg Transform->Recode->Intodifferent variables

• Flytt alder over til høyre i vinduet. Skriv inn navnet på den nye variabelen under Output variable. Klikk på Old and New Values. Et nytt vindu kommer opp.

Page 27: Data og beskrivende statistikk – Introduksjon til …...New England Journal of Medicine, Editorial, Jan. 6, 2000, p. 42-49 • The eleven most important developments in medicine

Recode forts.

• I det nye vinduet kan man skrive inn gamle og nye verdier for variabelen.

• Under Old value-Range definerer man de gamle verdiene, og under New value-Value definerer man de nye.

• Kan skrive inn at 0-20 år skal ha ny verdi 1, 20.1-25 år ny verdi 2 og 25.1-40 år ny verdi 3. Klikk Addmellom hver.

• Etter å ha trykket Continue og OK, ser man at en ny variabel har kommet inn i data-vinduet

• Etter å ha opprettet variabelen, kan man definere kategoriene under Values i Variable View

Page 28: Data og beskrivende statistikk – Introduksjon til …...New England Journal of Medicine, Editorial, Jan. 6, 2000, p. 42-49 • The eleven most important developments in medicine

Hvordan få ut separate tabeller for en faktor, f.eks. kjønn i SPSS

• Klikk Analyze - DescriptiveStatistics - Explore. Merk avde relevante variablene ogoverfør dem til Dependent List.

• Flytt kjønn over i Factor List• Ellers som før!

Page 29: Data og beskrivende statistikk – Introduksjon til …...New England Journal of Medicine, Editorial, Jan. 6, 2000, p. 42-49 • The eleven most important developments in medicine

Analyser separat for kjønn

17,50 20,00 22,50 25,00 27,50

Alder til medisinerstudentene

0

2

4

6

8

10

12

14

Ant

all s

tude

nter

for Kjønn= Kvinne

Histogram

Page 30: Data og beskrivende statistikk – Introduksjon til …...New England Journal of Medicine, Editorial, Jan. 6, 2000, p. 42-49 • The eleven most important developments in medicine

Analyser separat for kjønn

20,00 25,00 30,00 35,00 40,00

Alder til medisinerstudentene

0

5

10

15

20

25

Ant

all s

tude

nter

for Kjønn= Mann

Histogram

Page 31: Data og beskrivende statistikk – Introduksjon til …...New England Journal of Medicine, Editorial, Jan. 6, 2000, p. 42-49 • The eleven most important developments in medicine

Boxplott separat for kjønn

Kvinne Mann

Kjønn

15,00

20,00

25,00

30,00

35,00

40,00

Ald

er ti

l med

isin

erst

uden

tene

100

831899

97

Page 32: Data og beskrivende statistikk – Introduksjon til …...New England Journal of Medicine, Editorial, Jan. 6, 2000, p. 42-49 • The eleven most important developments in medicine

Hva hvis man bare vil se på f.eks. kvinner? Select

Cases!• Velg Data->Select cases. Kryss

av på If condition is satisfied, og trykk på If-knappen

• Et nytt vindu kommer opp. Flytt kjønn over til høyre og tilføy =1 (hvis kvinner er kodet som 1)

• Trykk Continue

Page 33: Data og beskrivende statistikk – Introduksjon til …...New England Journal of Medicine, Editorial, Jan. 6, 2000, p. 42-49 • The eleven most important developments in medicine

• Box-plott for sammenlikning avhøyde blant menn og kvinner. Data fra kull V98 (n=95)

4649N =

Kjønn

mannkvinne

Høy

de

200

190

180

170

160

150

Page 34: Data og beskrivende statistikk – Introduksjon til …...New England Journal of Medicine, Editorial, Jan. 6, 2000, p. 42-49 • The eleven most important developments in medicine

Vekt (kg)

95.090.085.080.075.070.065.060.055.050.045.040.0

Vektfordeling blant 95 studenter

Ant

all s

tude

nter

25

20

15

10

5

0

• Data om vekt samlet inn blantstudenter på kull V98

Page 35: Data og beskrivende statistikk – Introduksjon til …...New England Journal of Medicine, Editorial, Jan. 6, 2000, p. 42-49 • The eleven most important developments in medicine

Hvordan se sammenhengenmellom to kontinuerlige

variabeler i SPSS: Spredningsdiagram!

• For å lage spredningsdiagram, klikk påGraphs - Scatter - Define. Plukk ut de to variablene som skal være på Y-aksen ogX-aksen henholdsvis

• Hvis du ønsker å skille mellom gruppene, kan du overføre grupperingsvariabelen tilSet Markers by

• Et spredningsdiagram kan redigeres ved å dobbeltklikke på diagrammet. Ved ådobbeltklikke på datapunktene i redigeringsmodus og trykke høyremusknapp, kan du legge inn en rett linjefor totalen “Fit line at total”, eller for hverundergruppe “Fit line at subgroups” hvisdet er flere grupper

Page 36: Data og beskrivende statistikk – Introduksjon til …...New England Journal of Medicine, Editorial, Jan. 6, 2000, p. 42-49 • The eleven most important developments in medicine

• Spredningsdiagram for vekt mot høyde. (n=95)

Høyde (cm)

200190180170160150

Vek

t (k

g)

100

90

80

70

60

50

40

Page 37: Data og beskrivende statistikk – Introduksjon til …...New England Journal of Medicine, Editorial, Jan. 6, 2000, p. 42-49 • The eleven most important developments in medicine

• Spredningsdiagram av vekt mot høyde. Innlagte regresjonslinjer for menn og kvinner

Høyde (cm)

200190180170160150

Vek

t (k

g)

100

90

80

70

60

50

40

Kjønn

mann

kvinne

Page 38: Data og beskrivende statistikk – Introduksjon til …...New England Journal of Medicine, Editorial, Jan. 6, 2000, p. 42-49 • The eleven most important developments in medicine

Hva hvis man vil lage en ny variabel med f.eks.

BMI?• Har høyde og vekt for studentene.

Vil ha en variabel med BMI.• Velg Transform->Compute. Skriv

inn navnet på den nye variabelen under Target variable.

• Under Numeric expression, skriv inn (Vekt)/(Høyde/100)2

• Forutsetter at kodingen er som i eksempelet

• Trykk OK. Ser at en ny variabel oppstår i datafilen.

Page 39: Data og beskrivende statistikk – Introduksjon til …...New England Journal of Medicine, Editorial, Jan. 6, 2000, p. 42-49 • The eleven most important developments in medicine

Deskriptiv statistikk for kategoriske variabler

• Lite meningsfylt å oppgi gjennomsnitt for variabelen kjønn

• Vil heller se hvor mange % kvinner og menn som er i materialet

• Analyze->Descriptive Statistics->Frequencies

• Flytt variabelen du vil studere over til høyre i vinduet

Page 40: Data og beskrivende statistikk – Introduksjon til …...New England Journal of Medicine, Editorial, Jan. 6, 2000, p. 42-49 • The eleven most important developments in medicine

Kort om to epidemiologiske mål: Prevalens

• Andel av befolkningen som lider av en bestemt sykdom

Eksempel: Forekomst av tarmkreft

Antall personer i live med tarmkreft 31.12.1995: 16 861

Prevalens

168614390000

38 4= . pr. 10 000 innbyggere

Page 41: Data og beskrivende statistikk – Introduksjon til …...New England Journal of Medicine, Editorial, Jan. 6, 2000, p. 42-49 • The eleven most important developments in medicine

Epidemiologiske mål: Insidensrate

• Andel nye tilfeller pr. år

Eksempel: tarmkreft

Antall nye tilfeller i 1995: 3034

Insidensrate:

30344390000

6 9= . pr. 10 000 innbyggere pr. år

Page 42: Data og beskrivende statistikk – Introduksjon til …...New England Journal of Medicine, Editorial, Jan. 6, 2000, p. 42-49 • The eleven most important developments in medicine

Insidens av malignt melanomblant kvinner i Norge

Tidsperiode i 5-års intervaller

91-9586-9081-8576-8071-7566-7061-6556-60

Ald

ersj

uste

rt in

side

ns p

er 1

00,0

00 p

erso

når

18

16

14

12

10

8

6

4

2

0