speciale-thilde

82

Transcript of speciale-thilde

Page 1: speciale-thilde

I n s t i t u t f o r M a t em a t i s k e F a gKØBENHAVN S UN I V E R S I T E T

A�everet 1. juli 2013

Risikoprædiktion med genomiske SNP-dataThilde Marie Haspang

Speciale for cand.scient graden i statistik. Institut for matematiske fag, Kø-benhavns Universitet.Thesis for the Master degree in Statistics. Department of mathemathicalsciences, University of Copenhagen.

Vejleder: Niels Richard Hansen

Ekstern vejleder: Bjarke Feenstra (Statens Serum Institut)

Page 2: speciale-thilde

2

Page 3: speciale-thilde

Resumé

I dette speciale undersøges risikoprædiktion med genomiske SNP-data. Førstgives en introduktion til biologien bag SNP-data og GWA-studier. Hereftergennemgås alternative metoder til at modellere association mellem SNP-dataog en binær fænotype. Disse inkluderer logistisk regression med penaliseringsamt en metode kaldet SparSNP, der bygger på support vector machines.

Derudover udvikles en ny metode, PrincipLasso, som udnytter korrelatio-nen mellem SNPs langs genomet. På baggrund af denne korrelation opdelesdata i blokke, hvor der for hver blok benyttes et antal principalkomponentersom blokrepræsentanter. Forskellige metoder til at opdele data i blokke erblevet undersøgt. Den ene metode bygger på estimerede rekombinationshot-spots, en anden på minimal parvis korrelation. Herudover foreslås og afprøvesen ordnet version af K-means-algoritmen.

Metoderne sammenlignes på baggrund af størrelsen AUC på to konkreteSNP-datasæt. Konklusionen bliver, at i situationer hvor det genetiske signalser ud til at være mere spredt, vil de mere avancerede, penaliserede meto-der prædiktere betragteligt bedre. Samtidig er de mere avancerede metoderkonkurrendedygtige i forhold til kørselshastighed på computeren.

English abstract

In this thesis I have investigated risk prediction with genome-wide SNP-data. First I give an introduction to the biology behind SNP-data and GWAstudies. Hereafter I present di�erent methods that are used to model theassociation between SNPs and a binary phenotype. These models include alogistic regression model with penalization and a method called SparSNPthat uses Support Vector Machines.

I also develop a new method, PrincipLasso, which exploits the correlationstructure between SNPs. Using this correlation, data is divided into blocks,and a number of the �rst principal components from every block are usedas block representatives. Di�erent methods for block division have been in-vestigated. One method is based on estimated recombination hotspots whileanother method uses minimal pairwise correlation. A third method is anordered version of the K-means algorithm.

The di�erent prediction models are compared in terms of AUC in twodi�erent SNP data sets. The conclusion is, that the advanced penalized met-hods seem to build better prediction models in situations, where the geneticsignal seems to be more spread out along the genome. Furthermore, the an-vanced methods seem to perform competitively to the standard in terms ofcomputational calculation speed.

Page 4: speciale-thilde

Tak

Jeg vil gerne sige tak til min vejleder lektor Niels Richard Hansen for atintroducere mig til området vedrørende genetisk statistik, som jeg har fun-det utrolig interessant, samt god vejledning og kreative idéer undervejs ispecialeforløbet.

Jeg vil desuden gerne takke min eksterne vejleder seniorforsker BjarkeFeenstra fra afdeling for epidemiologisk forskning på Statens Serum Insti-tut for sparring, inspiration og kommentarer. Derudover vil jeg gerne takkesektordirektør Mads Melbye for at give mig mulighed for at skrive dette spe-ciale i samarbejde med Statens Serum Institut. Det har været spændendeat arbejde med rigtige data samt at være en del af et epidemiologisk forsk-ningsmiljø.

Jeg vil også gerne sige tak til cand.scient i statistik René Aakær Jensensamt min far for grundig korrekturlæsning. Derudover vil jeg gerne takkemin mand for alt mulig støtte.

Page 5: speciale-thilde

Indhold

1 Indledning 7

2 Biologien bag SNP-data og GWA-studier 9

2.1 Genomets opbygning . . . . . . . . . . . . . . . . . . . . . . . 92.1.1 Genetisk rekombination og genetisk afstand . . . . . . 12

2.2 Populationsgenetik . . . . . . . . . . . . . . . . . . . . . . . . 142.2.1 Hardy-Weinbergs ligevægt . . . . . . . . . . . . . . . . 142.2.2 Koblingsuligevægt . . . . . . . . . . . . . . . . . . . . 15

2.3 SNPs som genetiske markører . . . . . . . . . . . . . . . . . . 17

3 Genetisk associationsanalyse 21

3.1 HapMap og 1000 Genomes . . . . . . . . . . . . . . . . . . . . 223.2 Enkelt-locus associationsmodeller . . . . . . . . . . . . . . . . 22

3.2.1 Test i 2×2- eller 2×3-tabeller . . . . . . . . . . . . . . 233.2.2 Mål for genetisk risiko . . . . . . . . . . . . . . . . . . 233.2.3 Logistisk regression . . . . . . . . . . . . . . . . . . . . 243.2.4 Cochran-Armitage trend test . . . . . . . . . . . . . . 26

3.3 GWA-studier . . . . . . . . . . . . . . . . . . . . . . . . . . . 273.3.1 Styrke og fejl af type I . . . . . . . . . . . . . . . . . . 283.3.2 Valg af markør-SNPs og genotype-platforme . . . . . . 293.3.3 Imputation . . . . . . . . . . . . . . . . . . . . . . . . 303.3.4 Genomic control . . . . . . . . . . . . . . . . . . . . . 313.3.5 Replikationsstudier . . . . . . . . . . . . . . . . . . . . 323.3.6 �Multipel testning�-problemet . . . . . . . . . . . . . . 33

4 Metoder 35

4.1 Risikoprædiktion i epidemiologiske studier . . . . . . . . . . . 354.1.1 Prædiktion i GWA-studier . . . . . . . . . . . . . . . . 38

4.2 Logistisk regression med penalisering . . . . . . . . . . . . . . 384.3 SparSNP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

4.3.1 Support Vector Machines . . . . . . . . . . . . . . . . 404.4 PrincipLasso . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

4.4.1 Opdeling i blokke med høj grad af LD . . . . . . . . . 43

3

Page 6: speciale-thilde

4.4.2 Regression på principalkomponenter . . . . . . . . . . 454.5 Modelselektion . . . . . . . . . . . . . . . . . . . . . . . . . . 47

4.5.1 Krydsvalidering . . . . . . . . . . . . . . . . . . . . . . 47

5 R implementering 51

5.1 Håndtering af data . . . . . . . . . . . . . . . . . . . . . . . . 515.2 glmnet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 515.3 PrincipLasso . . . . . . . . . . . . . . . . . . . . . . . . . . . 535.4 Generelt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

6 Dataanalyse 55

6.1 Data1: Pylorusstenose . . . . . . . . . . . . . . . . . . . . . . 566.1.1 Kvalitetskontrol . . . . . . . . . . . . . . . . . . . . . . 576.1.2 Analyse . . . . . . . . . . . . . . . . . . . . . . . . . . 576.1.3 Opsummering . . . . . . . . . . . . . . . . . . . . . . . 63

6.2 Data2: Sygdom2 . . . . . . . . . . . . . . . . . . . . . . . . . 646.2.1 Analyse . . . . . . . . . . . . . . . . . . . . . . . . . . 646.2.2 Opsummering . . . . . . . . . . . . . . . . . . . . . . . 65

6.3 Beregningskompleksitet . . . . . . . . . . . . . . . . . . . . . 67

7 Diskussion 69

8 Konklusion 73

Litteratur 75

I Synopsis 79

Page 7: speciale-thilde

Notation og forkortelser

A,B (store bogstaver) Mest almindelige allelera, b (små bogstaver) Mindst almindelige allelerα Tuningsparameter til glmnet()AUC Arealet under ROC-kurven, se ROCβ Regressionskoe�cientD, D′ Mål for graden af korrelation mellem lociδ RekombinationsfraktionELN Elastic netGWAS Genome-Wide Association StudyHWE Hardy-Weinberg-ligevægtHWL Hardy-Weinbergs lovκ In�ationsfaktor for Genomic controlλ Tuningsparameter for Lasso, ELN og RRLD Linkage Disequilibrium (koblinsuligevægt)m Genetisk afstandMAF Minor Allele Frequency.

Frekvensen for den mindst almindelige alleln Antal individer, stikprøvestørrelseOR Odds ratiop Antal variable (typisk antal SNPs)pA Allelfrekvens for Ar2 Mål for graden af korrelation mellem lociri Antal cases med genvariant isi Antal kontroller med genvariant iROC Receiver-operating characteristic (curve)RR Ridge regressionSNP Enkeltnukleotid-polymor�. Udtales "snip"T Klassi�kationsgrænseX Designmatrixy Fænotype/responsvariabelZ Designmatrix med principal komponenter

5

Page 8: speciale-thilde

6

Page 9: speciale-thilde

Kapitel 1

Indledning

Mængden af data, der genereres indenfor de biologiske fagområder, voksereksponentielt i øjeblikket med en fordoblinstid på omkring et år. Dette skyl-des tildels den høje hastighed og de lave priser på gensekventering. Samtidigvokser behovet for at �nde ud af, hvad vi kan bruge disse store datamængdertil, og hvordan det i praksis kan lade sig gøre.

De to primære udfordringer vedrørende store genetiske datasæt er denfysiske størrelse og det faktum, at antallet af variable, p, ofte er langt størreend antallet af observationer, n. Størrelsen på data stiller krav til mængden afhukommelse, der kan allokeres på computeren, og den hastighed computerenkan foretage beregninger med, men også til e�ektiviteten af de programmer,der benyttes.

Data hvor p > n eller p � n omtales som høj-dimensionelle data. Derhar været foreslået og anvendt forskellige metoder til at analysere denneslags data. Blandt de mest kendte må nævnes Lasso, men også andre merekreative metoder har været på banen, og det er et område, der er genstandfor stor opmærksomhed i øjeblikket.

Den mest almindeligt forekommende variation i det menneskelige genomer variation i det, der kaldes enkeltnukleotid-polimor�er, også forkortet SNPs(udtales snips). Tilgængeligheden til disse SNPs er årsag til en stor del af denstigning, der har været i mængden og størrelsen af genetisk data de sidste parår, og SNP-analyser har i det seneste årti været af stor interesse for forskereindenfor genetik og epidemiologi.

Analysen af genomiske SNP-data har for alvor taget fart de seneste 5 år,og man omtaler analysen af association mellem fænotype og et bredt udsnit afSNPs langs genomet under navnet Genome-Wide Association Studies, ogsåforkortet GWAS eller GWA-studier. Et hav af signi�kante SNPs associeretmed forskellige sygdomme er rapporteret indtil videre, men hyppigt viser detsig i praksis, at prædiktion baseret på disse fundne signi�kante SNPs ikke ersærlig e�ektiv.

I dette speciale undersøges mulighederne for at benytte genomiske SNP-

7

Page 10: speciale-thilde

data til genetisk risikoprædiktion. Både tidsmæssigt og økonomisk er detde seneste par år blevet attraktivt at genotype et stort antal SNPs langsgenomet, typisk i omegnen af 500.000-1.000.000. Det ville være en stor kliniskgevinst, hvis man ud fra et individs SNP-pro�l kunne prædiktere individetsrisiko for forskellige sygdomme, men i teorien kunne det også være prædiktionaf andre former for ydre træk for eksempel krøller eller blå øjne.

På denne baggrund undersøges i dette speciale, prædiktionsmetoder derbenytter større dele af genomet, som alternativ til prædiktion med bekræf-tede signi�kante SNPs. Selv om en form for udvælgelse af SNPs (variabel-selektion) naturligt vil forekomme, er det ikke det primære fokus i dettespeciale.

8

Page 11: speciale-thilde

Kapitel 2

Biologien bag SNP-data og

GWA-studier

For at kunne analysere de såkaldte SNP-data er man nødt til først og frem-mest at forstå, hvad en SNP egentlig er, og hvad det er for en slags infor-mation, vi gerne vil have ud af dem. Det er også vigtigt at forstå afhængig-hedsstrukturen i denne slags gendata samt forstå en potentiel ind�ydelse frapopulationsforskelle for at kunne undgå at begå store statistiske fejl i ana-lysen. Samtidig er der mange cellebiologiske egenskaber, der ligger til grundfor hele teorien bag GWA-studier.

I dette kapitel vil jeg først give en kort introduktion til genomets op-bygning, rekombination i genomet og genetisk afstand. Herefter introduceresbegreber fra populationsgenetik, som er essentielle for GWA-studier. Til sidsti kapitlet præsenteres SNPs, og det forklares, hvorfor SNPs er gode indika-torer for den information og variation, der be�nder sig i vores DNA.

2.1 Genomets opbygning

Proteiner er nødvendige for alt, der foregår i celler. De er på en måde helevores krops byggesten. De informationer, der er nødvendige for at bygge disseproteiner, er kodet i en lang, dobbeltstrenget kæde bestående af deoxy-ribo-nukleidsyrer, også forkortet DNA [Hartwell et al., 2011]. Man kan sige, atvores DNA er byggemanualen til os selv.

Disse DNA-kæder be�nder sig inde i kernen af alle vores celler. De tostrenge er retningsbestemte og vender hver sin vej. Den ene ende af en strengkaldes 3'-enden og den anden ende 5'-enden. Dette relaterer til den måde deto strenge binder til hinanden på. I 5'-enden vil det 5. carbonatom �stikkeud�, og dette gælder også for det 3. carbonatom i 3'-enden.

På hvert deoxyribosemolekyle i strengen er der til carbonatom nummer 1fæstnet en nitrogen-base. Der �ndes 4 forskellige af disse baser: adenin (A),cytosin (C), guanin (G) og thymin (T). Det er disse 4 baser (eller bogstaver),

9

Page 12: speciale-thilde

der langs DNA-strengen danner DNA-sekvensen. De 2 DNA-strenge bliverholdt sammen af svage hydrogen-bindinger, der dannes mellem 2 modståendebaser, også kaldet basepar. A binder sig til T med 2 hydrogenbindinger, ogC binder til G med 3 hydrogenbindinger. På denne måde er de to strengekomplementære, og det er derfor nok at kende sekvensen på den ene for atkende sekvensen på dem begge. De to strenge vender hver sin vej, så 3'-endenpå den ene sidder sammen med 5'-enden på den anden. Informationen i voresDNA ligger altså i rækkefølgen af baser langs DNA-strengen [Hartwell et al.,2011]. En illustration ses i �gur 2.1.

Figur 2.1: Et udsnit af de to DNA-strenge, hvor der til venstre er zoomet indpå hydrogenbindingerne mellem basepar [Gasbjerg and Østergaard, 2013].

Et gen er en speci�k DNA-sekvens (altså en kæde af baser), der koder foret bestemt protein. Det er ikke alle dele af DNA'et, der er med til at kodefor et gen, og på denne måde er der tilsyneladende 'ufunktionelle' hullerog områder med andre funktioner som for eksempel at markere, hvor engensekvens starter og stopper [Neale et al., 2008]. Det menneskelige genombestår af ca. 3 × 109 baser, der koder for ca. 20.000-30.000 gener [Hartwellet al., 2011]. Man bruger de enkelte baser som længdeenhed i DNA'et, ogdermed kan den fysiske længde i genomet måles i basepar (bp) eller 1000basepar (kb) [Ziegler and König, 2010].

10

Page 13: speciale-thilde

Den totale mængde DNA, og dermed også den samlede mængde af gener,er det, vi betegner som genomet. I eukariote celler, hvor DNA'et ligger indei en kerne i cellen, er genomet ikke én lang DNA-streng, men opdelt i �ereusammenhængende sektioner kaldet kromosomer. Kromosomerne ligner topølser, der sidder sammen på midten, og hver af de to `pølser` i et kromo-som kaldes et kromatid. Kernen i de �este menneskelige celler indeholder22 par ikke-kønskromosomer og ét par kønskromosomer. Kromosomerne iet kromosompar kaldes homologe kromosomer. Celler med 23 kromosomparkaldes diploide, hvorimod celler med kun 1 af hvert kromosom kaldes haploi-de. De 22 kromosomer er numereret sådan, at kromosom 1 er det længste(240 millioner bp), og kromosom 22 er det korteste (50 millioner bp) [Zieglerand König, 2010]. Kønskromosomet �ndes i to udgaver og betegnes X ogY . Kvinder bærer to X-kromosomer, mens mænd bærer både et X og et Y[Hartwell et al., 2011].

En speci�k region på et kromosom (og dermed også på DNAet) kaldes etlocus. Hver diploid celle har to kopier af hvert kromosom (ét fra far og ét framor), og dermed er der to uafhængige DNA-sekvenser (også kaldet alleler)per locus for hvert individ. Det er disse to alleler, der danner genotypen foret individ på det givne locus. Se �gur 2.2.

Figur 2.2: På �guren ses sammenhængen mellem begreberne haplotype, geno-type, locus og allel.

For langt det meste af det menneskelige genom er DNA-sekvensen densamme hos alle individer, men ind imellem er der gennem tiden forekommetmutationer, hvilket resulterer i forskellige alleler på nogle givne locus [Nealeet al., 2008].

Et markørlocus er en nukleotid eller sekvens af nukleotider, som manved har forskellige alleler i befolkningen, men som ikke nødvendigvis ledertil forskellige fænotyper (ydre træk). Enkelt-nukleotid-polymor�er (SNPs) eret sådant markørlocus. SNPs kan i teorien have to til �re forskellige alleleri befolkningen, men i praksis observeres meget sjældent mere end 2 [Nealeet al., 2008].

Det, der adskiller urelaterede individer fra hinanden, er ikke enkelte SNPshist og her, men unikke kombinationer af SNPs langs en del af genomet.Disse blokke af DNA kaldes haplotyper. De er hyppigt delt mellem mangeindivider i en population og kan spores tilbage til at være rekombinationer

11

Page 14: speciale-thilde

fra fælles forfædre. En haplotype er på denne måde dannet over lang tidsrekombination ved, at en gruppe af SNPs typisk er blevet nedarvet sammen.I mange regioner af genomet kan 95% af variationen forklares af mellem 5og 10 forskellige haplotyper [Hartwell et al., 2011].

2.1.1 Genetisk rekombination og genetisk afstand

Kernen i normale celler hos mennesker indeholder 23 par af kromosomer,altså 46 kromosomer i alt. Disse par er forskellige i både form og størrelse.Celler, der indeholder ét par af hvert kromosom, kaldes diploide.

Kønsceller kaldes gameter og indeholder kun en kopi af hvert kromosom.Sådanne celler med kun ét af hvert kromosom kaldes haploide. Den specielleform for celledeling, der danner kønscellerne, kaldes meiosen, og under denneproces bliver antallet af kromosomer halveret fra 46 til 23.

Kønscellerne dannes inde i kønsorganerne, hvor de undergår meiosen,nemlig den proces, der producerer vores æg og sædceller, som kun indeholderdet halve antal kromosomer i forhold til resten af kroppen.

Meiosen består af to på hinanden følgende celledelinger, også kaldet meio-se 1 og meiose 2. Meiosen starter med en fordobling af kromosomerne. Her-efter kobler homologe kromosomer sig til hinanden, og kromosomerne kanbytte dele og derved danne nye kromosomer med en ny kombination af gener[Hartwell et al., 2011]. Det gennemsnitlige antal af krydsninger per celle er55 for mænd og er 50% højere for kvinder [Ziegler and König, 2010].

Under meiosen bliver de eventuelt ombyttede kromosomer fordelt tilfæl-digt og uafhængigt af hinanden. I mennesker, hvor vi har 23 kromosomer,kan meiosen blot ved tilfældig fordeling af kromosomerne for hvert individresultere i 223 genetisk forskellige gameter [Ziegler and König, 2010]. En il-lustration af forløbet under meiosen ses i �gur 2.3.

Under meiosen kan der ske én eller �ere rekombinationer af de fædreneog mødrene kromosomer. Sandsynligheden for, at en rekombination vil �n-de sted mellem to loci på et givent kromosom, er relateret til den fysiskeafstand imellem dem. Denne sandsynlighed kaldes rekombinationsfraktionenog betegnes med δ. Rekombinationer langs et kromosom forekommer, hvisder er et ulige antal overkrydsninger, der �nder sted. Hvis to loci er placeretpå forskellige kromosomer eller langt fra hinanden på samme kromosom for-ventes det, at δ = 0.5. Til gengæld, hvis to loci er placeret tæt på hinandenpå samme kromosom, vil man forvente, at δ er lille [Neale et al., 2008].

Rekombinationsfraktionen kan bruges til at udregne genetiske kortafstan-de. Genetisk afstand, m, repræsenterer det forventede antal overkrydsningerpå kromosomet. m kan ikke måles direkte, men prædikteres på baggrund afet observeret δ. En sådan funktion, som ud fra et observeret δ angiver dengenetiske afstand, kunne være Haldanes funktion, hvor

mH = −1

2[log(1− 2δ)]. (2.1)

12

Page 15: speciale-thilde

Figur 2.3: På billedet ses en illustration af de to former for celledeling; mitoseog meiose [Norheim, 2013].

Enheden for genetisk afstand er Morgans (M) eller centiMorgan (cM) op-kaldt efter Thomas Hunt Morgan, som var den første til at få ideén om,at forskelle i rekombinationsfrekvens afspejler fysisk afstand mellem gener[Hartwell et al., 2011].

Man kunne forvente, at to overkrydsninger på det samme genom varuafhængige, og at sandsynligheden for en overkrydsning i både region a ogregion b ville være produktet af de respektive sandsynligheder. Ved at laveoverkrydsningsforsøg har man imidlertid fundet ud af, at sandsynlighedenfor to overkrydsninger på samme kromosom er mindre end forventet, hvisde enkelte overkrydsninger opstod uafhængigt af hinanden. Dette førte tilen hypotese om, at en overkrydsning ét sted på kromosomet mindsker sand-synligheden for, at en overkrydsning �nder sted et andet sted på sammekromosom [Hartwell et al., 2011].

13

Page 16: speciale-thilde

2.2 Populationsgenetik

Populationsgenetik er de�neret som studiet af genetisk variation indenfor ogimellem populationer over generationer og over tid og er således teorien om,hvordan vores DNA ændrer sig afhængig af populationsstørrelser og andreydre faktorer.

Indenfor genetikken omtales et individs DNA-sekvens (eller dele heraf)som individets genotype, og ydre træk som hårfarve eller sygdomsstatus be-tegnes som individets fænotype. Nogle gange er sammenhængen mellem enændring i et enkelt gen og et ydre træk simpel, men som oftest er sammen-hængen mellem et individs genotype og fænotype meget kompleks og kanindeholde �ere gener og også ydre faktorer [Hartwell et al., 2011].

Varianter på det samme locus kaldes som nævnt alleler. Man vil for langtde �este loci se højst to forskellige alleler repræsenteret i befolkningen, hvorden ene vil være mere almindelig end den anden. I litteraturen betegnesden mest almindelige allel-variant ofte med store bogstaver, for eksempelA, og den mindre (almindelige) allel med små bogstaver, for eksempel a.Tit kaldes den mest almindelige allel for vildtypen, da man mener, at deter den oprindelige, hvorimod den anden og muligvis decideret sjældne allelsandsynligvis stammer fra en mutation [Hartwell et al., 2011]. Man arver tokopier af alle gener, ét fra sin far og ét fra sin mor, og for et bestemt locuskan vi derfor have genotypen AA, Aa eller aa. Typerne AA og aa kaldeshomozygote genotyper, og typen Aa kaldes heterozygot (der skelnes normaltikke mellem Aa og aA).

Når både AA og Aa leder til den samme fænotype, kaldes allelen Adominant for den pågældende fænotype. Er det derimod kun varianten AA,der resulterer i den givne fænotype, kaldes A recessiv for fænotypen. Se �gur2.4 for et eksempel. Det er dog ikke altid, at mønstret er så tydeligt som iovenstående eksempel, hvor der er tale om komplet dominans. I nogle tilfældehar man observeret, at sandsynligheden for eller graden af en given fænotypestiger med antallet af en bestemt allel (0, 1 eller 2).

De forskellige alleler stammer fra mutationer, der er opstået spontant.Hvis de opstår i en kønscelle, er der en vis sandsynlighed for, at mutatio-nen bliver videregivet ved reproduktion. Ved at tælle mutationer, der harfænotypiske konsekvenser, har man estimeret at forekomsten af mutationeri kønsceller varierer fra 1 ud af 10.000 til 1 ud af 1.000.000 [Hartwell et al.,2011].

2.2.1 Hardy-Weinbergs ligevægt

Et af de vigtigste principper i populationsgenetikken er Hardy-Weinbergsligevægt, som blev opdaget af Godfrey Harold Hardy og Wilhelm Weinberguafhængigt af hinanden [Neale et al., 2008]. I en tilpas stor population udenselektion, mutation og migration og med tilfældig parring, vil frekvenserne

14

Page 17: speciale-thilde

Figur 2.4: På billedet ses et eksempel på hvordan henholdsvis dominante ogrecessive gener kan påvirke en fænotype (her blomsterfarve). Det ses, at Aer dominant for rød blomsterfarve, og a er recessiv for hvid blomsterfarve.

for de forskellige alleler i teorien være konstante over tid. På grund af endeligepopulationsstørrelser forekommer i praksis det, man kalder tilfældig genetiskdrift, hvilket vil sige at allel-frekvenserne kan ændre sig en smule over tid.

Ifølge Hardy-Weinbergs lov (HWL) vil det for alleler A og a med fre-kvenser henholdsvis pA og pa gælde, at genotyperne AA, Aa og aa optrædermed frekvenserne henholdsvis p2A, 2pApa og p2a [Neale et al., 2008] (følgeraf grundlæggende sandsynlighedsregning, hvis man antager uafhængighed).Hvis HWL er opfyldt for en population, siger man, at populationen er iHardy-Weinberg Ligevægt (HWE).

At undersøge om stikprøvepopulationen opfylder HWL er en central delaf modelkontrollen i GWA-studier, da afvigelser fra HWE blandt andet kanskyldes det, man kalder populations-strati�kation, altså at data er indsam-let fra populationer, der afviger fra hinanden i genotype [Ziegler and König,2010]. Dette kan resultere i, at man 'opdager' én eller �ere signi�kante SNPs,som ikke er associeret med den fænotype, man er interesseret i, men deri-mod blot er associeret med populationsstrukturen. Hvordan man i praksisundersøger om der forekommer populationsstrati�kation i data gennemgås iafsnit 3.3.4.

2.2.2 Koblingsuligevægt

Et andet begreb, der er vigtigt for at forstå strukturen i SNP-data, er linkagedisequilibrium eller på dansk koblingsuligevægt, oftest betegnet LD. Kob-lingsuligevægt er et mål for associationen mellem alleler på forskellige loci.Koblingsuligevægt har ikke nødvendigvis noget med kobling eller uligevægtat gøre, men betyder, at der er en korrelation mellem forekomsten af allelernepå to eller �ere loci [Slatkin, 2008]. Et naturligt mål for LD mellem to loci

15

Page 18: speciale-thilde

med alleler henholdsvis A, a og B, b må være en forskel mellem de observere-de frekvenser og de forventede frekvenser under antagelse af uafhængighed.Det simpleste mål for graden af LD er en af størrelserne:

DAB = pAB − pApB (2.2)

eller

D = pABpab − pAbpaB. (2.3)

Et problem med de to ovenstående mål er, at størrelsen varierer med allel-frekvensen. En løsning er at standardisere D:

D′ =D

Dmax

, (2.4)

hvor Dmax er den største værdi, D kan antage som funktion af allelfrekvens,altså

Dmax =

{min(pApb, papB) hvis D > 0max(−pApB,−papb) hvis D ≤ 0

. (2.5)

Man benytter primært den absolutte værdi af D′, da fortegnet for det mesteikke er nødvendigt.

Et andet mål for størrelsen af LD, som ofte bliver benyttet i genom-associationsstudier, er r2 som er de�neret ved

r2 =D2

pApapBpb=

(pABpab − pAbpaB)2

pApapBpb. (2.6)

r2 er lig 1, når genotypen på et locus præcist forudsiger genotypen på etandet. Én af fordelene ved at benytte r2 frem for D′ er, at r2 er mindresårbar overfor problemer ved små stikprøvestørrelser end D'.

For GWA-studier afhænger det optimale valg af markørtæthed af mæng-den af LD i befolkningen. Hvis der er en høj grad af LD, skal man muligvisvælge markører længere væk fra hinanden for at undgå, at de er for tæt for-bundet. Der er mellem 10 og 15 millioner SNPs i det menneskelige genom,men man genotyper typisk `kun` 500.000-1.000.000 i et GWA-studie. Deter graden af LD, der retfærdiggør rimeligheden i dette, da SNPs i sammeområde er kædet sammen, så de antages at repræsentere hele området.

Efter man er begyndt at undersøge LD-strukturen i genomet empirisk,har man opdaget, at genomet har en tendens til at være opdelt i blokke,kaldet LD-blokke. Disse LD-blokke er adskilt af rekombinations-punkter, så-kaldte hotspots, hvor sandsynligheden for rekombination er større end andresteder. Je�reys et al. var én af de første til at dokumentere dette [Je�reyset al., 2001].

16

Page 19: speciale-thilde

HapMap projektet ville undersøge og kortlægge disse blokke, men gjordedet klart, at jo højere tæthed af SNPs, man målte, jo �ere små blokke fandtman.

I 2004 blev det foreslået af C. S. Carlson [Carlson et al., 2004] at �ndemarkørSNPs ikke baseret på blokke, men på den minimale parvise SNP r2

grænse. Dette blev gjort med en form for greedy-algoritme.Det er blevet vist, at LD varierer mellem befolkninger, så nogle befolk-

ningsgrupper har en større haplotype-diversitet, og det kan derfor være nød-vendigt at benytte �ere SNPs for at dække genomet. Så længe populationerkommer fra samme kontinent, er der ikke særlig stor forskel [Carlson et al.,2004].

Som nævnt tidligere har mere eller mindre alle SNPs kun to alleler, oghvis man kender D for et par af alleler, kender man også D for de andremulige par af alleler, da

DAB = −DaB = −DAb = Dab. (2.7)

Fortegnet på D er vilkårligt og afhænger af hvilket par af alleler, man startermed.

Haplotype-blokke i mennesker varierer i størrelse fra få kb (1000 base-par) til mere end 100 kb. Det var denne blokopdeling, der gav ideén om,at det muligvis var nok at måle én SNP i hver blok for at kunne afdækkehele genomet. Det blev dog mere kompliceret end som så, for nogle dele afgenomet havde åbenbart ikke rigtig blokke, og nogle gange afhang blokkeneaf, hvordan man de�nerede/målte dem [Slatkin, 2008].

2.3 SNPs som genetiske markører

Selv om det med whole genome sequencing er blevet muligt at afkode helegenomet, er det både dyrt og tidskrævende og ikke helt klart, hvordan vi skalanalysere den totale mængde af DNA. Derfor må vi for at undersøge genometudvælge objekter at måle på placeret på en fornuftig måde langs genomet.Som nævnt tidligere kaldes disse måle-objekter for genetiske markører.

Per de�nition er en genetisk markør et locus bestående af mindst etbasepar, der varierer mellem mindst to personer [Ziegler and König, 2010].Disse markører kan udvælges, så de har bestemte egenskaber. Ønskværdigeegenskaber kunne være:

1. Simpel nedarvning.

2. Lav mutationsfrekvens.

3. Være co-dominant.

4. Være i Hardy-Weinberg ligevægt i populationen.

17

Page 20: speciale-thilde

5. Nemt (og billigt) at måle præcist.

6. Være polymor�sk i befolkningen.

Co-dominant betyder at allelerne er lige dominante. Den mest almindeligeform for variation i det menneskelige genom er enkelt-nukleotid-polymor�er(single nucleotid polymorphism) også kaldet SNPs (udtales snips), og detvil sige, at variationen �nder sted på et enkelt basepar, se �gur 2.5. SNPsstår for omkring 90% af variationen i den menneskelige befolkning [Zieglerand König, 2010]. Almindeligvis kræves det, at frekvensen af den mindrealmindelige allel (MAF for minor allele frequency) er større end 1%, før engiven SNP kan betegnes som en polymor�. At dette også er gældende for detaktuelle data, er en del af modelkontrollen i GWA-studier.

CTCATAGCATTATTATTATTATTCAGGACTACAGTATCGTAATAATAATAATAAGTCCTGAT

1 bp 15 bp 30 bp

CTCATAGCATTATTATTATTATTCAGGCCTACAGTATCGTAATAATAATAATAAGTCCGGAT

Figur 2.5: På billedet ses en SNP-variation mellem 2 individer.

Andre former for variation i genomet udover SNPs indbefatter insertio-ner og deletioner. Insertioner og deletioner vil sige, at ét eller �ere (muligvismange) basepar enten er blevet slettet eller indsat. Store regioner af gentagel-ser kaldes `Copy Number Variants` og betegnes CNV [Hartwell et al., 2011].Ingen af disse former for genetisk variation vil blive behandlet yderligere idette speciale.

Der �ndes forskellige nomenklaturer for SNPs, men den mest almindeligeer baseret på reference SNP-ID numre, rs-ID. Disse rs-numre er tildelt af detamerikanske National Center for Biotechnology Information [NCBI] og �n-des i forskellige SNP-databaser, blandt andet deres egen dbSNP. rs-numreneer unikke, men rummer ingen information om en eventuel funktion af denpågældende SNP. Dette er tilfældet for en anden nomenklatur benyttet afHuman Genome Variation Society.

Selv om SNPs er almindelige, er de ikke ligefordelt over genomet [Zieglerand König, 2010]. I gennemsnit er der dog én SNP for hvert 1000 bp [Hartwellet al., 2011]. SNPs har en lav mutationsfrekvens, og de �este stammer derforfra før dannelsen af de forskellige menneskelige populationer. Dette medfører,

18

Page 21: speciale-thilde

at omkring 85% af vores SNPs er almindelige i hele jordens befolkning, menmed forskellige allelfrekvenser [Ziegler and König, 2010].

Da det menneskelige genom er genstand for stor opmærksomhed i øje-blikket, bliver der løbende revurderet i kortlægningen af elementerne langsgenomet. Dette skyldes for eksempel, at forskere har fundet ud af, at en re-gion er kortere eller længere, end de havde troet. Dette rykker kb-positionenlangs hele genomet og medfører opdateringer af SNP-databasen. Disse opda-teringer, som kaldes builds, lanceres med jævne mellemrum, og medfører enrække ændringer. Hvis to SNPs i den nye build ligger samme sted, vil de bli-ve slået sammen, og �ere SNPs får muligvis en ny kb-position. Det er derforvigtigt i en analyse, at holde styr på hvilket build ens data er genereret ud fra.

I dette kapitel har vi set nærmere på strukturen i vores DNA, og hvordanman kan udvælge repræsentative elementer at måle på. I det næste kapitelvil jeg forklare, hvordan vi kan benytte statistiske modeller til at analyse-re disse målinger enkeltvis, og i kapitel 4 forklare hvordan målingerne kananalyseres simultant.

19

Page 22: speciale-thilde

20

Page 23: speciale-thilde

Kapitel 3

Genetisk associationsanalyse

At �nde associationer mellem det menneskelige DNA og ydre træk hos men-nesker har været genstand for forskeres interesse siden Gregor Mendels forsøgmed arvelighed i ærteplanter omkring år 1860. Siden dengang er der sket me-get indenfor området, og vores indsigt i det menneskelige DNA bliver stadigmere og mere kompleks.

Der �ndes to primære statistiske metoder til at analysere en genotypesind�ydelse på en givet fænotype, f.eks. sygdomsrisiko. Disse to kaldes kob-lingsanalyse (linkage analysis) og associationsanalyse. Associationsanalysehar generelt større styrke og er blevet et mere og mere populært valg i taktmed faldende priser på at fremstille de store mængder data, der kræves.

Korrelation mellem en bestemt markørallel og et sygdomstræk kaldesallel-association. En sand association mellem en allel og en fænotype kanenten skyldes direkte biologisk ind�ydelse fra den pågældende markør, ellerat markøren er korreleret med en anden allel, som så har direkte ind�ydelsepå den givne fænotype. Dette kan f.eks. skyldes, at de to alleler sidder tætsammen på kromosomet og sjældent eller aldrig i historien har været udsatfor rekombination.

Når to loci sidder tæt på samme kromosom, er sandsynligheden for atde videregives sammen større, som vi beskrev i forrige kapitel. Vi behøverderfor ikke nødvendigvis at måle det kausale sygdomslokus for at opdage ene�ekt, vi skal bare have målt en markør i nærheden af det. Spørgsmålet erså bare, hvor tæt vi skal være på? Dette spørgsmål har HapMap-projektet,som omtales mere detaljeret i afsnit 3.1, haft en stor andel i at være med tilat besvare.

For at dække hele genomet skal der altså udvælges en vis mængde SNPs,der sidder passende tæt. De SNPs, der så bliver udvalgt som repræsentati-ve, kaldes mærkeSNPs eller markør-SNPs (tag SNPs). Der er �ere forskelligemetoder til at udvælge disse mærkeSNPs, men målet for dem alle er at e�ekti-visere genotyping og reducere udgifterne samtidig med, at informationstabetminimeres.

21

Page 24: speciale-thilde

Efterhånden som det bliver muligt at teste �ere og �ere SNPs, opstår nyeproblemstillinger, som f.eks. hvordan man håndterer disse store mængder afdata, og om forskellige fund i den samme region skyldes uafhængige signaler,eller om de alle peger på den samme underliggende årsag? Et andet problem,der opstår i forbindelse med de store mængder af data er, hvordan mankorrigerer for det, der kaldes �multipel testning�-problemet, som handler om,at jo �ere test man udfører, jo større er chancen for at begå fejl.

I dette kapitel vil jeg give en introduktion til HapMap-projektet. Herefterintroduceres modeller til associationsanalyse for et enkelt locus. Dernæst viljeg give en introduktion til GWA-studier, som i bund og grund består afat udføre en associationsanalyse for hver enkelt SNP og en given fænotype.Der gives endvidere en introduktion til, hvordan man generelt og specielt iGWA-studier korrigerer sine p-værdier i forhold til de mange test, her bådemed styrke og fejl af type 1 for øje. Ydermere introduceres genomic control,som er en metode til at korrigere for såkalt populationsstrati�kation, ognødvendigheden af replikationsstudier forklares.

3.1 HapMap og 1000 Genomes

Det Internationale Haplotype Map Project [HapMap Consortium], også om-talt som HapMap, blev startet i oktober 2002 af forskere fra Japan, England,Canada, Kina, Nigeria og USA. Målet var at udvikle et haplotypekort overdet menneskelige genom for at beskrive de almindelige mønstre i variationenaf den menneskelige DNA-sekvens. Man ville kortlægge ensartetheder og for-skelligheder både indenfor populationer og imellem forskellige populationer.Den resulterende information er frit tilgængelig.

HapMap projektet har været med til at muliggøre GWA-studier, da deter gennem dette projekt, at størstedelen af de SNPs, vi kender, er blevetkortlagt [HapMap Consortium].

Det oprindelige formål med HapMap projektet var at identi�cere og op-tegne haplotype-blokkene, hvorefter man så med fordel kunne udvælge enmarkør i hver af disse blokke [HapMap Consortium].

Et andet stort kortlægningsprojekt, der også har haft stor betydning,er The 1000 Genomes Project [1000 Genomes Project Consortium, 2010].Formålet med projektet var at frembringe præcis haplotype-information foralle former for menneskelige DNA-polymor�er i �ere forskellige populationer.

Data fra både HapMap og 1000 Genomes benyttes ofte som referencepa-nel ved imputation af SNPs, som introduceres i afsnit 3.3.3.

3.2 Enkelt-locus associationsmodeller

Standard praksis i GWA-studier består af marginale test af hver enkelt SNP.Man kan enten være interesseret i binære responsvariable som f.eks. syg/rask,

22

Page 25: speciale-thilde

variable med mere end to kategorier eller kvantitative variable som f.eks.højde. I dette kapitel har jeg udelukkende fokuseret på modeller, hvor re-sponsvariablen er binær. Herudover fokuseres på case-kontrol forsøgsdesignmed uafhængige individer. Typisk sammenlignes allel-frekvenserne for deobserverede SNPs i to grupper, en case-gruppe (f.eks. bærere af en givensygdom) og en kontrolgruppe (f.eks. raske). Dette kan enten gøres simpelt ien 2×2- eller 2×3-tabel eller på mere avancerede måder, hvor der kan tageshøjde for allelernes dominans eller for andre kovariater som f.eks. køn elleralder.

3.2.1 Test i 2×2- eller 2×3-tabeller

Den mest simple form for associationstest er en sammenligning af allel- el-ler genotype-frekvenserne i de to grupper. Derfor betragtes nu to grupperaf uafhængige individer: en gruppe bærere af en given sygdom og en kon-trolgruppe. Betragt en given SNP med alleler givet ved A og a. Data kanda opsummeres i enten en 2 × 2-tabel, der angiver antallet af de to alleleri de to grupper, eller en 2 × 3-tabel, der angiver antallet af individer medgenotyperne AA, Aa og aa i de to grupper. For at undersøge associationenmellem sygdommen og den pågældende SNP bruges for det meste Pearsonsχ2-teststørrelse givet ved

X 2 =∑

i=0,1,2

∑j=1,2

(nij − E[nij ])2

E[nij ], (3.1)

hvor

E[nij ] =ni.n.jn..

(3.2)

altså det forventede antal givet uafhængighed mellem rækker og søjler. Test-størrelsen X 2 opsummerer altså forskellen mellem frekvensen af observeredealleler i forhold til, hvad vi ville forvente at �nde under antagelse af, at derikke var forskel i de to grupper. Denne kan så bruges til at vurdere, hvorekstrem vores aktuelle observation er. Under hypotesen om uafhængighedfølger X 2 en χ2-fordeling med (n− 1) · (m− 1) frihedsgrader, hvor n beteg-ner antal rækker og m antal søjler.

Er det forventede antal i en celle i en 2 × 2-tabel mindre end 5, vil detvære mest korrekt at anvende Fishers eksakte test i stedet.X 2 re�ekterer ikke graden af association, så til dette formål benyttes

enten odds ratio diskuteret i næste afsnit eller kovariansen i den aktuelletabel.

3.2.2 Mål for genetisk risiko

Genetisk e�ekt, eller genetisk risiko, de�neres tit i termer af odds ratio,forkortet OR. For den genetiske variant i estimeres odds givet den genetiske

23

Page 26: speciale-thilde

variant som

oddsi =risi, (3.3)

hvor ri er antal cases med variant i, og si er antal kontroller med variant i.Her kunne i for eksempel angive antal kopier af den mest almindelige allel,og dermed ville i ∈ {0, 1, 2}. OR for to forskellige genetiske varianter i og jkan nu estimeres som

OR =oddsi

oddsj=risjsirj

. (3.4)

Oftest de�neres OR i forhold til den mest almindelige genetiske variant ikontrolgruppen [Balding et al., 2007].

Et asymptotisk rimeligt (1− α)-kon�densinterval for OR er givet ved

CI(OR) = OR exp

(±z1−α

2

√1

ri+

1

rj+

1

si+

1

sj

), (3.5)

hvor z1−α2angiver

(1− α

2

)-fraktilen i standard normalfordelingen [Ziegler

and König, 2010].

3.2.3 Logistisk regression

Det må forventes, at sygdomsrisiko ikke kun styres af vores gener alene,men også bliver påvirket af ydre faktorer såsom livsstil eller levevilkår. Dettekan ikke så let indkapsles i Pearsons teststørrelse, og man har derfor brugfor andre modeller, nemlig klassen af logistiske regressionsmodeller. Én afde helt store fordele ved den logistiske regressionsmodel er, at den netopkan benyttes i case/kontrol-studier. En dominans-e�ekt af en allel kan ogsåmodelleres i denne klasse af modeller [Balding et al., 2007].

Lad nu vores genotype eller allelfrekvens være givet ved xi. Da betragtes

θ(xi) = P (y = 1|xi), (3.6)

hvor y er binær og angiver case/kontrol-status. Vi kan nu betragte transfor-mationen

f(xi) = log

(θ(xi)

1− θ(xi)

)= µ+ γi, (3.7)

hvor γi angiver e�ekten af genotype xi. I stedet for θ(xi) skrives tit πi.Denne transformation kaldes logit-transformationen og betegnes også somlink -funktionen. Modellen kan også formuleres som

f(xi) = β0 + β1zi + β2ti, (3.8)

24

Page 27: speciale-thilde

hvor z og t er såkaldte dummy-variable. Det mest almindelige er at sætte denoftest forekomne genotype som reference, altså AA, og dermed vil zi kode forgenotypen Aa og ti kode for genotypen aa. Her repræsenterer parametreneβ1 og β2 dominanse�ekten af allel a over allel A.

Under antagelse af en additiv e�ekt af en allel har vi, at (3.8) reducerertil

f(xi) = β0 + β1zi, (3.9)

hvor β1 er den additive e�ekt af allel a, og zi er en indikatorvariabel, derantager værdier i {0, 1, 2} og angiver antal kopier af den sjældne allel.

Vi kan undersøge association mellem fænotype og SNPs med LR-teststør-relsen for modeller, hvor β1 og/eller β2 er nul. Populationen kan inddeles idel-populationer efter hvilken genotype g ∈ {0, 1, 2}, de bærer. Lad nu ngbetegne antal individer med genotypen g og yg betegne antal cases medgenotypen g. Vi får da at likelihood-funktionen er givet ved

f(y|β0, β) =

2∏g=0

ng!

yg!(ng − yg)!θ(g)yg(1− θ(g))ng−yg (3.10)

= L(β0, β).

Med maksimum likelihood estimation fås da, at

(β0, β) = arg maxβ0,β

L(β0, β) (3.11)

= arg maxβ0,β

2∏g=0

(θ(g)

1− θ(g)

)yg(1− θ(g))ng

= arg maxβ0,β

2∏g=0

(eyg(β0+xgβ)

)(1 + eβ0+xgβ

)−ng,

som simpli�cerer en del ved at tage logaritmen. Da logaritmen er en monotonfunktion, vil maximum være samme sted, og det fås derfor, at

(β0, β) = arg maxβ0,β

2∑g=0

yg(β0 + xgβ)− ng log(

1 + eβ0+xgβ)

= arg maxβ0,β

n∑i=1

{yi(β0 + βxi)− log

(1 + eβ0+βxi

)}(3.12)

= arg maxβ0,β

l(β0, β).

I dette setup er det forholdsvis let at tilføje kovariater, som repræsentererydre e�ekter f.eks. køn i de tilfælde, hvor det er kendt. Prædiktion baseretpå både genetik og ydre faktorer har dog ikke været i fokus i dette specialeog vil ikke blive behandlet yderligere.

25

Page 28: speciale-thilde

3.2.4 Cochran-Armitage trend test

Under antagelse af en model for dominanse�ekten af a (oftest additiv) kandata analyseres med Cochran-Armitage trend test. For data på formen

aa Aa AA TotalCases r0 r1 r2 rControls s0 s1 s2 s

Total n0 n1 n2 n

udregnes teststørrelsen X 2trend ved

X 2trend =

n

rs· (2r2s− 2rs2 + r1s− s1r)2

2n2n+ (2n2 + n1)(n0 − n2)(3.13)

og er asymptotisk χ2-fordelt med 1 frihedsgrad. I tilfælde, hvor den under-liggende model ikke kendes, anses det for mere korrekt at anvende Cochran-Armitage trend test frem for Pearsons χ2-test [Ziegler and König, 2010].Denne test er ækvivalent med score-teststørrelsen for hypotesen β = 0 i enlogistisk regressionsmodel [Devlin and Roeder, 1999]. For at se dette ladervi log-likelihooden være på formen

l(β0, β) = β0

n∑i=1

yi + βn∑i=1

yixi −n∑i=1

log(1 + eβ0+βxi), (3.14)

og lader pi = eβ0+βxi

1+eβ0+βxibetegne sandsynligheden for at det i'te individ er

en case givet genotypen. For hypotesen om at β = 0 (ingen associationmellem fænotype og genotype) vil pi = P (yi = 1|xi) = r

n , da man dervil forvente, at alle individer har den samme sygdomsrisiko uafhængig afindividets genotype. Dermed har vi, at scorefunktionen

U(β0, β) =

(∂l(β0,β)∂β0

∂l(β0,β)∂β

)(3.15)

=

(−∑n

i=1 pi +∑n

i=1 yi−∑n

i=1 pixi +∑n

i=1 xiyi

)⇔

U(β0, 0) =

(0

−p(n1 + 2n2) + (r1 + 2r2)

)(3.16)

og at

D2l(β0, β) =

∂2l(β0,β)∂β2

0

∂2l(β0,β)∂β0∂β

∂2l(β0,β)∂β0∂β

∂2l(β0,β)∂β2

(3.17)

= −n∑i=1

(pi(1− pi) xipi(1− pi)xipi(1− pi) x2i pi(1− pi)

).

26

Page 29: speciale-thilde

Da den 2. a�edede ikke afhænger af y vil I(β0, β) = −D2l(β0, β). Den inverseFisher informationen under hypotesen er da givet som

I(β0, 0)−1 =1

D

(p(1− p)(n1 + 4n2) −p(1− p)(n1 + 2n2)−p(1− p)(n1 + 2n2) np(1− p)

)(3.18)

hvor D er determinanten af Fisher informationen og givet ved

D = p2(1− p)2(n(n1 + 4n2)− (n1 + 2n2)

2). (3.19)

Det ses nu, at score-teststørrelsen for hypotesen β = 0 er givet ved

S(β0, 0) = U(β0, 0)T I(β0, 0)−1U(β0, 0) (3.20)

=np(1− p) (−p(n1 + 2n2) + (r2 + 2r2))

2

p2(1− p)2(n(n1 + 4n2)− (n1 + 2n2)2)

=n (n(r2 + 2r2)− r(n1 + 2n2))

2

r(n− r)(n(n1 + 4n2)− (n1 + 2n2)2)

hvilket er ækvivalent med (3.13). Dette ses ved at sætte n = r+s, n1 = r1+s1og n2 = r2 + s2 i tælleren og omskrive nævneren.

3.3 GWA-studier

GWA-studier (Genome-wide association studies) er kort fortalt en massetests for association mellem en fænotype og SNPs fordelt nogenlunde tætlangs hele genomet.

Den type associationsstudier, der involverer et panel af SNPs kaldes indi-rekte associationsstudier, da de fokuserer på korrelationen mellem de enkelteSNPs og en given sygdom, men det, man egentlig er interesseret i, er den ind-�ydelse regionen omkring de pågældende SNPs har på sygdommen, og deter her en vigtig forudsætning, at de forskellige SNPs i et område er stærktkorrelerede [Neale et al., 2008].

I 2007 var det mest almindelige antal SNPs i et GWA-studie ca. 300.000,og det er nu steget til mellem 500.000 og 1.000.000. Test udføres for det me-ste på samme måde som for enkelt-locus associationsmodeller. Det primæresoftware til analyse i GWA-studier er PLINK [Purcell], der kan udføre dettestore antal test rimelig hurtigt, og som håndterer data i et pladsbesparendeformat.

Én af de helt store fordele ved GWA-studier er, at man ikke i forvejenbehøver én eller �ere kandidat-gener, men kan gennemgå hele genomet forsigni�kante e�ekter. Dermed kan man potentielt opdage e�ekter af genereller regioner, man ikke tidligere har været opmærksom på.

GWA-studier er designet til at opdage genetiske varianter under den så-kaldte Common Disease - Common Variant (CDCV) hypotese. CDCV hypo-tesen går i bund og grund ud på, at det er en almindelig (mere eller mindre

27

Page 30: speciale-thilde

udbredt) gen-variant, der forklarer størstedelen af risikoen for en udbredtsygdom. Antagelsen om CDCV er yderst vigtig for, at et GWA-studie kanvære en succes. Om denne antagelse er rimelig, er der stadig tvivl om, ogder er argumenter både for og imod [Gibson, 2012]. Én af årsagerne til atGWA-studier fungerer mindre godt til at opdage e�ekter forårsaget af sjæld-ne gen-varianter er, at det simpelthen teknologisk er svært at genotype disse[Ziegler and König, 2010].

På grund af størrelsen af data i GWA-studier, er det vigtigt at forholdesig til at optimere sit forsøgsdesign med hensyn til styrke og omkostningerog at tage højde for det store antal af test, der bliver udført. Dette vil jegkomme nærmere ind på i de næste afsnit.

3.3.1 Styrke og fejl af type I

Kort fortalt er styrke sandsynligheden for at afvise en falsk nul-hypotese ogdermed opdage en sand e�ekt, hvorimod det at afvise en sand nul-hypoteseog dermed opdage en falsk e�ekt omtales som fejl af type I, ofte betegnet α.Det er klart, at man gerne vil have så stor styrke som muligt samtidig med,at man ønsker at minimere fejl af type I. Disse er dog forbundne på en sådanmåde, at det ofte bliver et trade-o� mellem det ene og det andet [Forthoferet al., 2007]. Det er blevet foreslået, at styrken for at opdage en kausal variantskal være hovedkriteriet for valg af forsøgsdesign i et GWA-studie [Spenceret al., 2009].

Én måde, hvorpå man kan øge styrken uden at ændre på α, er at øgestikprøvestørrelsen n [Forthofer et al., 2007]. I praksis kan dette dog væresvært af �ere grunde, for eksempel at der er en begrænset mængde cases tilrådighed eller begrænsede økonomiske resourcer. Simulationsstudier tyderdog på, at man får en større stigning i styrke ved at øge stikprøvestørrelsenend ved at øge tætheden af sine SNPs [Spencer et al., 2009].

Styrken for case-kontrol studier afhænger af forholdet mellem antal del-tagere i de to grupper. For et fast antal deltagere vil lige store grupper giveden største styrke. Nogle gange er det dog svært at �nde personer til case-gruppen, og styrken kan da øges ved at øge antallet i kontrol-gruppen tilmellem 3 og 5 gange antallet i case-gruppen. For at illustrere dette har jeg100 gange simuleret 10.000 observationer fra modellen givet ved

f(xi) = 0.4 + 0.05 · xi (3.21)

hvor xi ∈ {0, 1, 2}. For hvert af de 100 datasæt har jeg �ttet en logistiskregressionmodel for et varierende antal cases og et stigende antal kontroller.Herefter har jeg estimeret styrken for de forskellige kombinationer ved attage gennemsnittet over de 100 model�t. Et plot af styrken som funktion afantallet af cases og kontroller ses i �gur 3.1. Det ses af grafen, at styrken foret fast antal cases til en vis grad kan øges ved at tilføje �ere kontroller tilforsøget.

28

Page 31: speciale-thilde

500 1000 1500 2000 2500 3000

0.0

0.2

0.4

0.6

0.8

1.0

Antal kontroller

Sty

rke

800 cases400 cases200 cases100 cases

Figur 3.1: På �guren ses sammenhængen mellem styrke og antal kontrollerfor faste værdier af antallet af cases.

Speci�kt for GWA-studier er der yderligere forhold, der påvirker styrken iet forsøg. Styrken vil blive påvirket af mængden af LD mellem markør-SNPenog sygdoms-allelen, men også af frekvensen af markør alleler. Det kan derforøge styrken at vælge sine markør-alleler smart, således at genomet er dækketaf SNPs i forholdsvis stor korrelation, uden at der medtages unødvendigtmange. Forskellige genotype-platforme måler forskellige markør-alleler, ogvalg af platform er derfor relevant. Man kunne umiddelbart tro, at det varbedre at analysere hele haplotypen frem for enkelte markører, men det harvist sig ikke at have den store betydning [Spencer et al., 2009].

På trods af mange fund af gener associeret med forskellige sygdommeeller andre fænotyper har det i mange tilfælde været svært at genskabe re-sultaterne i nye forsøg. Dette skyldes muligvis et falsk positivt resultat iførste omgang, eller at årsagen til f.eks. en sygdom er meget kompleks ogskyldes forskellige gener samt livsstil og ydre påvirkninger.

3.3.2 Valg af markør-SNPs og genotype-platforme

Det giver næsten sig selv, at valget af markørSNPs har stor betydning forstyrken i GWA-studier. Et mål, for hvor godt en mængde af SNPs repræsen-terer varianter i hele genomet, er �dækning�, som bestemmes ud fra graden af

29

Page 32: speciale-thilde

LD mellem SNPs. I regioner med lille dækning vil styrken for GWA-studiervære lille [Jorgenson and White, 2006].

Markører kan enten vælges tilfældigt, ligefordelt eller ved hjælp af refe-rencepaneler som HapMap-projektet eller gennem mere omfattende metoder.

Én af de simpleste (og mest konservative) måder at udvælge markørSNPsmed et referencepanel er ved hjælp af mål for LD. De kan udvælges på denmåde, at alle almindelige alleler enten er målt direkte eller, at LD mellemdem og en markør er større end en fastsat grænse. Denne grænse kan entenvælges til r2 = 1 sådan, at alle almindelige alleler enten er målt eller er iperfekt LD med en markør, hvilket selvfølgelig er det optimale, men ogsådet mest bekostelige. Det er vist, at grænseværdier ned til omkring r2 = 0.8opretholder en rimelig styrke i forhold til r2 = 1 [de Bakker et al., 2005].

En anden metode er at rangordne SNPs efter hvor mange andre SNPs,de er i tilpas høj LD med, og så måle de første N af disse. Denne metode ermeget e�ektiv til at opretholde styrken samt reducere omkostningerne, givetat man har et komplet referencepanel til rådighed [de Bakker et al., 2005].

3.3.3 Imputation

Et andet forhold, der har vist sig at øge styrken i GWA-studier, er imputationaf data [Spencer et al., 2009]. I bund og grund handler det om at udnyttegraden af LD mellem SNPs og information om almindelige haplotyper, til atimputere manglende SNPs f.eks. fra HapMap [HapMap Consortium], 1000Genomes Project [1000 Genomes Project] eller et andet tæt referencepanelaf SNPs, se �gur 3.2.

De SNPs, man ønsker at imputere, kan mangle af forskellige årsager. Detkan f.eks. være SNPs, man er specielt interesseret i, men som ikke �ndes påden brugte chip eller tilfældigt manglende observationer.

Da der til imputerede SNPs hører en sandsynlighed, kræver det ekstraopmærksomhed at teste for association ved disse SNPs [Marchini and Howie,2010].

Udfordringen ved imputation af SNPs, ligger i at �nde en hurtig og præ-cis metode til estimation af haplotyper. Én af de mere avancerede metodertil at imputere SNPs bygger på Hidden Markov Models (HMM) [Scheet andStephens, 2006]. Modellen bygger på, at over korte regioner i genomet harhaplotyperne en tendens til at klumpe sig sammen i grupper af lignendehaplotyper. Denne gruppering er på grund af rekombination lokal, og derforvil de grupper, der ligner hinanden, ændre sig, når man bevæger sig langsgenomet. Dette tager modellen højde for, idet den tillader at gruppetilhørs-forhold ændrer sig kontinuert langs genomet med hensyn til en HMM.

En hurtigere, men muligvis også mindre præcis, imputationsmetode, erimplementeret i PLINK [Purcell], som er et program designet til GWA-studier. Her foregår imputation ved, at for hver SNP, der skal imputeres,benyttes referencepanelet til at søge efter en gruppe omgrænsende SNPs,

30

Page 33: speciale-thilde

Figur 3.2: Billedet illustrerer, hvordan imputation af SNPs foregår ved hjælpaf et referencepanel af haplotyper [Howie, 2013].

som danner en haplotypebaggrund med en høj grad af LD med den SNP,der skal imputeres. Grunden til at denne metode er hurtig, men mere usikker,er at den kun benytter en lille del af data [Marchini and Howie, 2010].

3.3.4 Genomic control

Case-kontrol studier har været kritiseret, fordi de bygger på en antagelse omen homogen population, som ikke altid er realistisk. Derfor foreslås metodengenomic control [Devlin and Roeder, 1999]. Metoden bygger på en antagelseom, at populationsstrati�kation vil resultere i et øget antal falske positivefund, og dette korrigeres der så for i teststørrelsen [Ziegler and König, 2010].

Problemet med populationsstrati�kation er, at istedet for, for hver SNP,at have modellen for en population Z

logit P (Y = 1|X,Z) = β0 + β1X + β2Z, (3.22)

vil man få en model, hvor man er nødt til at dele op efter population:

P (Y = 1|x) = P (Y = 1|X,Z = 1)P (Z = 1|X) (3.23)

+P (Y = 1|X,Z = 0)P (Z = 0|X).

I denne situation er der ikke en oplagt transformation, der giver mening. Manfår altså en situation hvor man har en uobserveret variabel, der påvirker bådegenotypen og responsvariablen.

31

Page 34: speciale-thilde

For at prøve at rette op på problemet kan man benytte genomic control.Følgende beskriver metoden for association mellem fænotype og et enkeltlocus. Metoden går ud på, at man udover sit kandidat-locus genotyper enrække nul-loci, og for disse udregnes yderligere teststørrelser. Under hypote-sen om ingen populationsstrati�kation vil den forventede værdi af disse være1. Ud fra teststørrelserne udregnes en in�ationsfaktor κ. Forskellige måderat udregne in�ationsfaktoren på er blevet foreslået. For en additiv model eret simpelt og robust estimat for κ givet ved [Ziegler and König, 2010]

κ =median(X 2

1 ,X 22 , . . . ,X 2

n)

0.456, (3.24)

hvor X 2i er teststørrelsen for det i'te nul-locus, og 0.456 er 50%-fraktilen i

χ21-fordelingen. Teststørrelsen for et kandidat-locus j korrigeres nu ved hjælp

af κ sådan, at

X 2GC =

X 2j

κ(3.25)

[Devlin and Roeder, 1999]. Alternativt kan κmax = max(κ, 1) benyttes. Da κvariarer med stikprøvestørrelsen, er det blevet foreslået at benytte κ1000, somer den forventede værdi i et studie med 1000 i både case- og kontrolgruppe[Ziegler and König, 2010]. Denne kan udregnes ud fra κ som

κ1000 = 1 + (κ− 1)

(n−1case + n−1kontrol

1/2000

). (3.26)

Metoden er kun anvendelig for binære markører, og kan derfor kun brugessammen med allel-test og ikke sammen med genotype-test.

Alternativt kan man undersøge, om der er populationsstrati�kation vedat plotte de observerede teststørrelser mod de forventede teststørrelser undernul-hypotesen om ingen association. Denne slags plots af observerede modforventede værdier kaldes også QQ-plot. Metoden bygger på en antagelse om,at uden populationsstrati�kation vil kun få sandt associerede SNPs afvigefra linien, hvorimod man ved populationsstrati�kation vil se en systematiskafvigelse blandt de �este SNPs. På grund af dette kunne man også beregneκ ved at regressere de observerede værdier mod de forventede og så benyttehældningen som in�ationsfaktor, da populationsstrati�kation ville resulterei en hældning forskellig fra 1. Da de sande associationer altid vil afvige,anbefales det at ekskludere de største 10% fra denne udregning [Ziegler andKönig, 2010].

3.3.5 Replikationsstudier

En måde at validere et positivt fund uafhængig af styrken i studiet er gen-nem ét eller �ere uafhængige replikationsstudier. Sådanne replikationsstudier

32

Page 35: speciale-thilde

bliver efterhånden anset for essentielle for at etablere en valid genotype-fænotype association [Chanock and Manolio, 2007], og ifølge [Kraft et al.,2009] vil mange anerkendte tidsskrifter ikke publicere genotype-fænotypeassociationer, uden at de er valideret i mindst et replikationsstudie.

I nogle replikationsstudier genotyper man ud over de tidligere fundnemarkører en række af tætsiddende markører i samme region som det tidligeresigni�kante fund eller markører i områder med `næsten-signi�kante` fund.Det kan enten være omkring gen-regioner eller i områder uden markører idet oprindelige studie. Grunden til dette er, at det kan være et andet locusi samme region som den oprindelige markør, der egentlig var associeret medden aktuelle fænotype. I tilfælde af at man �nder association for en andenmarkør, men i samme region eller gen som tidligere, betragtes den som enbekræftelse, og man taler om lokal replikation [Clarke et al., 2007]. Dennemetode står i kontrast til et eksakt replikationsstudie, hvor kun tidligeresigni�kante markører testes.

For at sammenligne disse to typer af replikationsstudier må det antages,at de to stikprøver er uafhængige, men stammer fra samme population. Iområder med meget høj LD mellem markører vil tilføjelsen af �ere markørermindske sandsynligheden for success ved replikation, og det vil i dette tilfældevære bedst med et eksakt replikationsstudie. I områder med lav LD mellemde forskellige markører kan lokal replikation fungere lige så godt eller bedreend eksakt replikation afhængig af graden af LD mellem de nye markører ogdet kausale locus [Clarke et al., 2007].

3.3.6 �Multipel testning�-problemet

Ét af de helt store spørgsmål vedrørende GWA-studier er, hvordan mankorrigerer sine p-værdier for, at man udfører i omegnen af 500.000-1.000.000test.

For tests med signi�kansniveau α må man forvente, at man i 100 · α%af tilfældene vil få et falsk positivt resultat, altså at en SNP uden ind�ydel-se viser statistisk signi�kant association med den pågældende sygdom. Nårman i GWA-studier vælger signi�kansniveau, er det derfor vigtigt at tageforbehold for 'multipel testning'-problemet. Dette kan gøres på forskelligemåder.

Den nemmeste måde at korrigere α på er ved at bruge Bonferroni korrek-tionen. Hvis man ønsker et overordnet signi�kansniveau på αtotal og tester pSNPs, benyttes tilnærmelsen

α =αtotalp

(3.27)

for det enkelte test. Problemet med dette er, at ens test muligvis ikke eruafhængige, da forskellige SNPs kan være korrelerede for eksempel på grund

33

Page 36: speciale-thilde

af LD. Dette fører til, at man får et signi�kansniveau mindre end det nød-vendige. Således er denne korrektion et korrekt, men muligvis konservativtvalg [Johnson et al., 2010].

En anden metode til at sikre et fornuftigt overordnet signi�kansniveau erpermutationstest. Først udregnes den observerede teststørrelse på baggrundaf værdierne i de aktuelle grupper. Herefter blandes alle observationerne, ogalle mulige værdier af teststørrelsen udregnes ved gentagne gange at opdeleobservationerne i to grupper på en ny måde. På denne måde �nder manfordelingen af teststørrelsen under antagelse af, at der ikke er forskel pågrupperne. I denne fordeling �ndes så α-fraktilen, og denne benyttes somsigni�kansgrænse, således at p-værdien er givet som andelen af teststørrelserder er mere ekstreme end den observerede teststørrelse. Permutationstestgiver gode resultater, men er beregningsmæssigt meget omfattende [Johnsonet al., 2010].

I praksis benyttes ofte en signi�kansgrænse for det enkelte test på om-kring 5 × 10−8 svarende til en bonferroni-korrektion for 1.000.000 test, ogdet afgørende for om en genotype-fænotype association anses for plausibeler primært, om den er valideret i et replikationsstudie.

34

Page 37: speciale-thilde

Kapitel 4

Metoder

Formålet med mange epidemiologiske studier er at identi�cere risiko-faktorerfor en eller �ere sygdomme og ofte med henblik på at benytte disse til at præ-diktere sygdomsrisiko for nye individer eller en del af populationen. I dettekapitel vil jeg give en introduktion til prædiktion i epidemiologiske studier,herunder speci�kt i GWA-studier. Jeg vil de�nere ROC-kurven og AUC somer størrelser, der ofte benyttes til at vurdere kvaliteten af prædiktionsme-toder og til sammenligning af forskellige prædiktionsmetoder. Desuden viljeg give en grundig gennemgang af de metoder, der benyttes til analyse ogrisikoprædiktion i to konkrete datasæt i kapitel 6.

4.1 Risikoprædiktion i epidemiologiske studier

Ved risikoprædiktion forstås almindeligvis et estimat for sandsynligheden forat et tilfældigt individ tilhører en bestemt gruppe, f.eks. syge. Dette estimatbygger på en model, som indeholder én eller �ere risikoparametre. Disse kanvære alder, køn eller blodtryk, men også genetiske faktorer som for eksempelgenotypen for en række SNPs for et individ.

Risikoprædiktion kan enten resultere i en klassi�kation i grupper, f.eks.høj eller lav risiko, eller i en kvantitativ risikoscore, s. En sådan kvantitativrisikoscore kan konverteres til en klassi�kation ved valg af en grænse T ,således at et individ har høj risiko hvis s ≥ T .

For at kunne vælge den bedste prædiktionsmodel, er det nødvendigt athave et eller �ere mål for kvaliteten af prædiktionen. De simpleste mål forpræcision af en klassi�cering er sensitivitet og speci�citet [Jostins and Bar-rett, 2011]. Disse de�neres som

sensitivitet = P (positiv|syg) =antal sande positive

antal syge(4.1)

speci�citet = P (negativ|rask) =antal sande negative

antal raske, (4.2)

35

Page 38: speciale-thilde

altså andelen af individer, der udvikler sygdommen, som bliver klassi�ceret igruppen med høj risiko, og andelen af raske, der klassi�ceres i gruppen medlav risiko.

Givet en risikoscore og en række af grænseværdier T fås en række af vær-dier for speci�citet og sensitivitet for hver værdi af T . Plottes sensitivitetenmod 1-speci�citeten for alle mulige værdier af T , fås ROC-kurven, som eren forkortelse for Receiver-Operating Characteristic curve [Forthofer et al.,2007]. Arealet under ROC-kurven, AUC, er lig sandsynligheden for, at entilfældigt udvalgt individ med sygdommen har en højere score end et tilfæl-digt udvalgt raskt individ (se sætning 1), og denne værdi benyttes ofte til atsammenligne prædiktionsmetoder.

Sætning 1. Antag der haves et tilfældigt udvalgt par af individer såles aty1 = 0 og y2 = 1. Lad si betegne en risikoscore for det i'te individ. Da gælderdet at

AUC = P (s1 < s2|y1 = 0, y2 = 1).

Bevis. Det ses, at

1− specificitet = P (si > T |yi = 0) (4.3)

= H(si)

=

∫ T

−∞h(si)dsi

sensitivitet = P (si > T |yi = 1) (4.4)

= G(si)

=

∫ T

−∞g(si)dsi.

Lad nu A være sandsynligheden for at en tilfældigt valgt case har en højererisikoscore end en tilfældigt valgt kontrol, altså

A = P (s1 < s2|y1 = 0, y2 = 1). (4.5)

Det fås nu, at

A =

∫ ∫s1<s2

h(s1)ds1g(s2)ds2 (4.6)

=

∫H(s2)dG(s2)

=

∫(1− specificitet)d(sensitivitet)

Hvilket svarer til arealet under ROC-kurven.

36

Page 39: speciale-thilde

Der ønskes en høj værdi af AUC, hvor værdien 0.5 svarer til, hvad manville forvente at opnå ved at gætte tilfældigt. Værdien 1 er den højeste vær-di, der kan opnås, og svarer til, at modellen kan skelne de to grupper frahinanden fuldstændigt.

En faktor, det kan være nødvendig at tage højde for, når man evaluererforskellige prædiktionsmetoder, er prævalensen for den pågældende sygdom.Prævalens for en sygdom er sandsynligheden for, at et tilfældigt valgt individhar sygdommen, og de�neres som antal syge individer delt med det totaleantal individer i den pågældende population.

Et andet ofte anvendt mål for e�ekten af en prædiktionstest, som netoptager højde for prævalensen, er den Positive Prædiktionsværdi (PPV) og denNegative Prædiktionsværdi (NPV). Disse er de�neret som andelen af perso-ner, der tester positivt, og som udvikler sygdom, og andelen af personer, dertester negativt og forbliver raske [Forthofer et al., 2007]. Givet estimater forsensitiviteten og speci�citeten samt prævalensen for sygdommen i befolknin-gen kan disse estimeres som [Ziegler and König, 2010]

PPV =ˆsens · prev

ˆsens · prev + (1− ˆspec) · (1− prev), (4.7)

NPV =ˆspec · (1− prev)

ˆspec · (1− prev) + (1− ˆsens) · prev. (4.8)

For sjældne sygdomme er det især relevant at evaluere en eventuel prædik-tionsmetode i forhold til PPV og NPV. For en klinisk test for en sygdommed en prævalens på 0.001 og med en sensitivitet på 0.95 og en speci�citetpå 0.87 fås PPV = 0.0073. For et tilfældigt valgt individ, der testes positivtfor sygdommen, er sandsynligheden for, at personen udvikler sygdommenaltså 0.0073. På denne måde vil mange raske blive klassi�ceret som væren-de i gruppen med høj risiko, og dette kan der være forskellige ulemper ved,afhængig af hvilke tiltag der bliver gjort for personer i denne gruppe.

Risikoprædiktion har tidligere primært været baseret på ydre risikofak-torer såsom alder, køn eller rygning, og det varierer fra sygdom til sygdomhvor meget ekstra information, man vinder ved at inddrage genetiske fakto-rer i sin prædiktionsmodel. Hvis der for eksempel i en test indgår et individsbloktryk, vil man forvente, at SNPs associeret med blodtryk også er associ-eret med sygdommen, men det er ikke sikkert, at man opnår en øget e�ektved at inkludere disse SNPs, da deres information allerede er indeholdt ien blodtryksmåling. Én af de helt store potentielle fordele ved genetisk ri-sikoprædiktion frem for prædiktion baseret på ydre faktorer og prøver er,at prædiktionen på lang sigt er mere stabil. Dette er for eksempel yderstrelevant, hvis forebyggende medicin er mere e�ektivt, hvis det påbegyndestidligt, eventuelt før man ser nogen ydre symptomer [Jostins and Barrett,2011].

37

Page 40: speciale-thilde

4.1.1 Prædiktion i GWA-studier

Risikoprædiktion i GWA-studier er et noget specielt tilfælde, da man har500.000-1.000.000 potentielle prædiktorer at vælge imellem. I de tilfælde,hvor mange SNPs har svag til moderat e�ekt, virker det logisk, at en præ-diktionsmodel, der kun er baseret på de mest signi�kante SNPs, muligvisikke er det optimale. I [Kang et al., 2011] har man fundet evidens for, at detoptimale kan være at inkludere �ere hundrede SNPs.

Udover at antallet af SNPs kan øge prædiktionsværdien, kan det ogsåtænkes, at prædiktion baseret på haplotyper eller andre kombinationer af�ere SNPs fungerer bedre end at benytte enkelte SNPs, da det kan være enserie af mutationer, der tilsammen har en e�ekt. Tidligere forsøg har vist, atder muligvis er e�ekter, der kun kan identi�ceres med en haplotype-tilgang,mens der er e�ekter, der kun vedrører enkelte eller få SNPs, og som kanvære svære at identi�cere med store haplotype-blokke [Kang et al., 2011].En anden ulempe ved store haplotype-blokke er, at estimationen af demud fra genotypen er mere usikker, og [Kang et al., 2011] vælger derfor atundersøge prædiktion med små haplotype-blokke frem for enkelte SNPs.

I de næste afsnit vil jeg præsentere forskellige metoder til at udvælge præ-diktive SNPs og gennemgå forskellige måder at opstille prædiktionsmodellerpå.

4.2 Logistisk regression med penalisering

For høj-dimensionelle data, som for eksempel SNP-data, hvor p > n er al-mindelig simultan lineær eller logistisk regression ikke mulig. En alternativmetode er de såkaldte penaliseringsmetoder, hvor koe�cienterne mindskesmod nul. Blandt disse metoder �ndes ridge regression (RR) og Least Absolu-te Shrinkage and Selection Operator (Lasso) [Tibshirani, 1996] samt ElasticNet (ELN) [Zou and Hastie, 2005], som er en kombination af disse to.

Lasso, RR og ELN er estimationsmetoder til anvendelse indenfor klas-sen af generelle lineære modeller (herunder logistisk regression). Metoderneminimerer den kvadrerede residualsum mht., at den absolutte værdi af koef-�cienterne skal være mindre end en given konstant. Ofte vil Lasso og ELNproducere �ere koe�cienter, der er præcis 0, hvilket muliggør tolkning afmodellen, hvorimod dette ikke er tilfældet med RR [Hastie et al., 2009].

Vi betragter situationen, hvor vi har data (xi, yi), for i = 1, 2, . . . , n, hvorxi = (xi1, . . . , xip) angiver genotypen for det i'te individ, og yi er en binærresponsvariabel. Det antages enten, at observationerne er uafhængige, ellerat yi'erne er uafhængige givet xij 'erne. Det antages yderligere, at søjlerne idesignmatricen X er standardiserede, således at søjlerne har middelværdi 0og varians 1. Lad nu β = (β1, . . . , βp). Estimaterne (β0, β) er da de�neret

38

Page 41: speciale-thilde

som [Hastie et al., 2009]

(β0, β) = arg minβ0,β

−l(β0, β) + λ1

p∑j=1

|βj |+ λ2

p∑j=1

β2j

, (4.9)

hvor

l(β0, β) =n∑i=1

(yi(β0 + xTi β)− log(1 + eβ0+x

Ti β))

(4.10)

er log-likelihood-funktionen for logistisk loss og en generalisering af (3.12)til p variable. λ1, λ2 ≥ 0 er tuningsparametre og kaldes også penaliserings-konstanter. λ1 = 0 vil give RR, og λ2 = 0 vil give Lasso. For alle λ1, λ2 vilβ0 = y. Disse optimeringer har aldrig eksakte løsninger, og må derfor ofteløses numerisk. Til dette eksisterer �ere algoritmer, og en af disse gennemgåsi afsnit 5.2.

Hvis pakken glmnet [Friedman et al., 2010b] i R benyttes til at �tteELN-penaliserede modeller, benyttes den lidt anderledes, men ækvivalenteformulering

(β0, β) = arg minβ0,β

{−l(β0, β) + λPα(β)} , (4.11)

hvor

Pα(β) =

p∑j=1

(1

2(1− α)β2j + α|βj |

). (4.12)

Med denne parametrisering af tuningparametrene svarer α = 1 til Lasso ogα = 0 til RR, og penaliseringsparameteren λ angiver, hvor meget koe�cien-terne skal stra�es. Jeg vil i resten af specialet benytte denne parametrisering.

Da Lasso-estimatet hverken er en lineær eller di�erentiabel funktion afresponsvariablen, er det svært at udregne et præcist estimat for standard-afvigelsen. En måde at komme uden om dette er ved at benytte bootstrap-metoder, enten for et fast λ eller ved at maksimere over λ for hver bootstrap-runde.

λ kan fastlægges på �ere måder f.eks. ved krydsvalidering, generaliseretkrydsvalidering eller ved et analytisk risiko-estimat [Tibshirani, 1996].

Lasso har specielt sine fordele, når antallet af variable er meget større endantallet af observationer. For mindre værdier af λ kommer �ere prædiktorerind i modellen. De indtræder typisk i rækkefølge efter vigtighed, medmindrede er korrelerede [Wu et al., 2009]. Løsningen til (4.11) for en sekens af λ'erkaldes Lasso-stien.

For SNP-data af den typiske størrelse er krydsvalidering for omfatten-de og tidskrævende, og det foreslås derfor, at λ i stedet bestemmes af detønskede antal prædiktorer (tit i omegnen af 20-50).

39

Page 42: speciale-thilde

4.3 SparSNP

SparSNP [Abraham et al., 2012] er en selektions- og klassi�kationsmetode tilanalyse af SNP-data, der kombinerer penaliseringsmetoder som Lasso og Ela-stic Net med Support Vector Machines (SVM), se mere nedenfor. Metodener implementeret i C, og evalueringsdelen af metoden benytter R. Udoverat udføre variabelselektion og klassi�kation af individer kan metoden ogsåbenyttes til at konstruere risikoprædiktionsmodeller. Ifølge [Abraham et al.,2012] skulle metoden fungere mindst lige så godt med hensyn til risikopræ-diktion som Lasso- og ELN-modeller �ttet med glmnet() [Friedman et al.,2010b] i R samtidig med, at SparSNP kan håndtere langt større datasætindenfor rimelig tid.

Det antages, at en risikoscore si ∈ R for individ i er en lineær funktionaf antallet af den mindre allel sådan, at

si = β0 +

p∑j=1

xijβj . (4.13)

Lad designmatricen, X, være standardiseret som i forrige afsnit. Koe�cien-terne (β0, β) estimeres ved at minimere den penaliserede kvadrerede �hingeloss�-funktion (se �gur 4.1),

L(β0, β) =1

2

n∑i=1

max{0, 1− yi(β0 + xTi β)}2 + λPα(β), (4.14)

hvor y ∈ {−1,+1} og λPα(β) er som i (4.12). Herefter kan de indgåendeSNPs ordnes efter størrelsen af koe�cienterne |βj |, hvor det antages, at enstor værdi af βj er ensbetydende med en høj grad af association mellemSNP og fænotype. Ovenstående risikoscore kan så udregnes, eller de n højestrankede SNPs kan benyttes til at �tte en logistisk regressionsmodel. En affordelene ved at benytte den kvadrerede �hinge loss�-funktion er, at den erdi�erentiabel, og dermed kan optimering foretages ved hjælp af en coordinatedescent-algoritme, se kapitel 5. Det ses desuden, at den minder en del omloss-funktionen i den logistiske regressionsmodel.

Med i implementeringen af metoden er muligheden for at benytte kryds-validering til tuning af λ og stability selection [Meinshausen and Bühlmann,2010] med det formål at opnå en mere robust ranking af SNPs samt et mererobust estimat for modellens prædiktionsevne (i form af AUC).

4.3.1 Support Vector Machines

Metoden SparSNP bygger som nævnt på SVMs, som kommer fra områdetmachine learning, og som ikke umiddelbart har noget med sandsynligheds-modeller at gøre. Grundlæggende �ndes der to former for SVMs: SupportVector Classi�cation (SVC) og Support Vector Regression. I det følgende vil

40

Page 43: speciale-thilde

−10 −5 0 5

020

4060

8010

012

0

Kvadreret hinge−loss

y*f(x)

loss

(x,y

)

Figur 4.1: På billedet ses den kvadrerede hinge-loss funktion. Det ses, at denførst er 0 for y · f(x) = 1.

jeg kun fokusere på principperne bag SVC, da det er denne form SparSNPbenytter ved en binær fænotype.

Konceptet i SVMs er som følger: Det antages, at der eksisterer en ukendtafhængighed y = f(X) mellem (ofte høj-dimensionelle) observationer X ogrespons y. Den eneste tilgængelige information er træningdatasættet D ={(xi, yi) ∈ X × y}, i = 1, . . . , n. På baggrund af træningseksemplerne kon-struerer SVMs en klassi�kationsgrænse indenfor en valgt klasse af funktioner.SparSNP benytter en lineær SVM, hvilket vil sige, at denne klassi�kations-grænse er lineær. For SNP-data vil det betyde, at klassi�kationsgrænsen eren p-dimensional hyperplan.

Når data er lineært seperabelt (hvilket vil sige at de to klasser kan skillesaf en lineær funktion) er målet at �nde den klassi�kationsgrænse, der gi-ver den største afstand til de nærmeste observationer, og som også vil værede observationer, det er sværest at klassi�cere. Denne afstand kaldes margi-nen. De observationer, der ligger nærmest beslutningsgrænsen, kaldes supportvectors, og det er udelukkende disse, der bestemmer hvor beslutningsgrænsenskal ligge [Wang, 2005].

Det forekommer selvfølgelig ofte, at data ikke er lineært seperabelt. Dettekan for SVMs løses på to forskellige måder. Enten kan data separeres i enklasse af ikke lineære separationsfunktioner, eller også kan misklassi�ceredeobservationer tillades. Den sidste metode er den, der benyttes af SparSNP.

Når data ikke er lineært seperabelt, og observationer overlapper, vil der

41

Page 44: speciale-thilde

ved at benytte en lineær klassi�kationsgrænse altid forekomme misklassi�-cerede observationer. De misklassi�cerede objekter vil have en meget storind�ydelse på beslutningsgrænsen, hvilket vil gøre næsten alle observatio-ner til supportvektorer [Wang, 2005]. Dette løses ved at have en blød (soft)margin, og alle observationer indenfor denne er ignoreret. Bredden på dennemargin kontrolleres med en parameter. Se �gur 4.2 for et eksempel på enSVM med blød margin i tilfældet hvor p = 2·

Figur 4.2: På billedet [Blondel, 2013] ses klassi�kation med SVMs af to grup-per i et 2-dimensionelt rum. De markerede punkter er supportvektorerne.

For SparSNP er det netop penaliseringen, der giver den bløde margin,og parameteren λ, der styrer bredden. L1-penalisering har en tendens til atgive færre supportvektorer [Wang, 2005].

4.4 PrincipLasso

Når Lasso benyttes til variabelselektion i situationer, hvor de pågældendevariable er delvist korrelerede, udvælges vilkårligt én eller �ere af de korre-lerede variable. Dette er ikke nødvendigvis den mest hensigtsmæssige måde,da man måske smider vigtig information væk i de tilfælde, hvor �ere af dekorrelerede variable har stærke e�ekter.

Jeg vil derfor foreslå og afprøve en metode, hvor designmatricen opdelesi blokke på baggrund af graden af LD mellem de enkelte SNPs, således atder er en forholdsvis høj grad af LD mellem SNPs indenfor disse blokke.For hver af disse blokke beregnes principalkomponenterne (se afsnit 4.4.2),og et passende antal af disse fungerer som repræsentanter for blokken i enLasso-prædiktionsmodel. Lignende fremgangsmåder, hvor der tages højde for

42

Page 45: speciale-thilde

blok-strukturen i SNP-data, er for nylig blevet studeret af andre. Se f.eks.Bühlmanns Cluster Representative Lasso [Bühlmann et al., 2012] eller Liu ogHuangs Smoothed Group Lasso [Liu et al., 2012]. En anden motivationsfaktorfor denne tilgang er, at man ved at benytte et antal principalkomponenterfrem for det fulde datasæt får nedbragt dimensionen betragteligt.

4.4.1 Opdeling i blokke med høj grad af LD

Det første element i implementeringen af PrincipLasso er at foretage en pas-sende opdeling af de målte SNPs i blokke, således at SNPs indenfor sammeblok har en vis grad af korrelation mellem sig, og således at der er en stør-re grad af korrelation indenfor blokke end mellem blokke. En metode til atestimere disse blokke simpelt kunne være at beregne den parvise korrelationmellem alle nabo-SNPs langs et kromosom og så opdele i blokke de steder,hvor den parvise korrelation var lavest, og på en sådan måde at antallet ogstørrelsen af disse blokke var passende.

En anden tilgang til problemet kunne være at benytte UCSC GenomeBrowser [Kent et al.], som blandt andet indeholder information om estime-rede rekombinationshotspots. De �este af disse hotspots er fælles indenfor ennogenlunde homogen befolkning, men omkring 15% varierer mellem mændog kvinder. Dog ser det ud til, at der ved mandlige rekombinationshotspots eren lille stigning i rekombinationsraten hos kvinder og omvendt [Kong et al.,2010]. En visualisering af dette ses i �gur 4.3. Det er vigtigt, at rekombina-tionshotspots er estimeret ud fra det samme build som ens data, da de erbaseret på kb-positioner langs genomet og ellers kan være misvisende.

Med disse hotspots er der to mulige blokopdelinger: Én der benytter allehotspots, både for mænd og kvinder, og en, der kun benytter de hotspotsder er fælles mellem køn. Det er oplagt, at den første metode giver �ere, ogdermed mindre, blokke end den anden.

Ved at benytte de estimerede hotspots som grænser fås en opdeling iblokke, hvor det virker rimeligt at antage, at andelen af rekombinationer erstørre mellem blokkene end indenfor blokkene. Disse rekombinationshotspotsstrækker sig typisk over en region, så for at undgå SNPs, der ikke kan tildelesen blok, kan midterpunktet i en given hotspotregion vælges som grænse.Alternativt kan man for de SNPs, der falder inden for en hotspotregion,vælge sit hotspot, der hvor den parvise korrelation er mindst.

Med denne metode vil man få blokke af meget forskellig størrelse, da gra-den af LD mellem SNPs varierer langs genomet. Derudover er der en tendenstil at specielt de kønsspeci�kke hotspots forekommer i klumper [Kong et al.,2010], hvilket vil resultere i små blokke i disse områder. Dette kan delvisundgås ved kun at benytte de hotspots, der er fælles for de to køn.

Der er ikke estimeret rekombinationshotspots for X- og Y-kromosomet,så for SNPs langs disse kromosomer må opdelingen foregå på en anden måde,evt. ved at benytte parvis korrelation som forklaret ovenfor.

43

Page 46: speciale-thilde

Der kunne være en pointe i at benytte en mere data-dreven blokopde-ling, og jeg har derfor undersøgt forskellige former for software og algoritmerberegnet til clustering eller, på dansk, gruppering. De �este metoder var dogfor avancerede til at anvende på SNP-data, da det tog alt for lang tid for detfulde datasæt.

Som forslag til en løsning på problemet har jeg implementeret en hur-tigere og mere enkel version af K-means clustering [MacQueen, 1967], somrespekterer den ordning SNPs har langs genomet (se algoritme 1). Jeg vilomtale denne version som ordnet K-means eller OK-means. I almindelig K-means gruppering kan grupperne dannes vilkårligt blandt samtlige variable,hvilket både er mere tidskrævende, men heller ikke giver nogen mening iforhold til at estimere den naturlige LD-struktur langs genomet.

Algoritme 1: Ordnet K-means gruppering

1: Inddel de p variable i K grupper H0 : {h00 = 1, h01, . . . , h0K = p}

2: i := 13: repeat

4: Hi := Hi−15: Udregn centrum i grupperne, ck:

1mk

∑mki=1 xk

6: for k in 1 : (K − 1) do

7: hki := arg minj∑hik+1

j=hik−1

(‖xj − ck‖2 − ‖xj − ck+1‖2

)8: end for

9: i := i+110: until Hi−1 = Hi

11: return Hi

I algoritme 1 består det første skridt i at opdele de p variable i K < pgrupper. Dette kan gøres på mere eller mindre tilfældige måder, for eksem-pel ved at opdele i K tilnærmelsesvis lige store grupper eller ved tilfældigtat vælge K opdelingsgrænser. En anden mulighed kunne være at benytteforhåndenværende viden som for eksempel de estimerede rekombinations-hotspots. Alternativt kunne man benytte en inddeling baseret på minimalparvis korrelation mellem SNPs.

I næste skridt udregnes centrum i blokkene. På baggrund af disse ryk-kes blokinddelingerne iterativt ved at minimere den samlede afstand mellemSNPs og blokkens centrum og samtidig bevare ordningen. For hvert hotspotk erstattes det gamle hotspot eventuelt af et nyt, som er givet som arg minjaf funktionen

A(j) =

hk+1∑j=hk−1

(‖xj − ck‖2 − ‖xj − ck+1‖2

). (4.15)

Det ses, at funktionen er negativ for søjler tættest på centrum i blok k og

44

Page 47: speciale-thilde

positiv for søjler tættest på centrum i blok k + 1. Når der er fundet Knye hotspots gentages proceduren. Når ingen hotspots ændres er algoritmenkonvergeret. At algoritmen rent faktisk konvergerer er vist i sætning 2.

Sætning 2. �Ordnet K-means gruppering�-algoritmen konvergerer.

Bevis. Antag en opdeling i K grupper H0 = {h00 = 1, h01, . . . , h0K = p}. Lad

Di =K∑k=1

hik∑l=hik−1

‖xl − ck‖2 =K∑k=1

di(k) (4.16)

være summen af de kvadrerede afvigelser indenfor grupperne for iteration i,i = 0, 1, 2, . . .. Det ses at for k = 1, . . . ,K vil

di(k − 1) + di(k) ≥ di+1(k − 1) + di+1(k). (4.17)

Dette skyldes, at SNPs der �yttes er tættere på centrum i naboblokken endi sin egen, hvilket mindsker den samlede kvadrerede afstand. Denne afstandmindskes yderligere, når det nye centrum beregnes, da dette netop minimererden samlede afstand til centrum i blokken.

Dermed fås det, at D0 ≥ D1 ≥ · · · ≥ 0, og derfor må det for i < ∞forekomme at 0 ≤ D? ≤ D(i) = D(i− 1), hvor D? er det globale minimum,svarende til en optimal inddeling.

Det ses med sætning 2, at algoritme 1 vil konvergere i endelig tid, men atdet ikke er sikkert at algoritmen �nder den optimale blokinddeling. Desudenvil den endelige opdeling afhænge af, hvordan den første opdeling vælges.For den almindelige K-means algoritme er det en fordel at vælge sine start-grupper fornuftigt, så det kan meget vel også være tilfældet for OK-means. Iteorien kan det tage en del skridt, før algoritmen konvergerer, men i praksisser det ud til at forekomme rimelig hurtigt (for i ≤ 10).

4.4.2 Regression på principalkomponenter

For de konstruerede LD-blokke ønskes det nu at �nde en form for summary-measure, der fanger variationen indenfor blokken, og som nedbringer dimen-sionen af data. Et sådant mål kunne være et passende antal principalkom-ponenter for hver blok. Udover at disse kunne antages at fange variationenindenfor blokken godt grundet LD-strukturen i data, har principalkompo-nenter også den egenskab, at de enkelte principalkomponenter er lineærtuafhængige, hvilket er en fordel ved variabel-selektion med Lasso [Hastieet al., 2009].

En metode til at beregne principalkomponenter er først at skalere og cen-trere søjlerne i designmatricen X og derefter udføre en singular value decom-position, også forkortet SVD. For en n× p-matrix, X, har dekompositionen

45

Page 48: speciale-thilde

formen

X = UDV T . (4.18)

For n > p vil U henholdsvis V være n × p og p × p ortogonale matricer,og D vil være en p × p diagonal matrix, hvor de diagonale indgange d1 ≥d2 ≥ · · · ≥ dp ≥ 0 kaldes de singulære værdier for X. For n < p vil Uog D være af dimension n × n og V n × p. Søjlerne i Z = UD kaldesprincipalkomponenterne for X. For disse gælder det, at søjlerne er ordnetsåledes, at z1 har dens største varians og zp den mindste [Hastie et al., 2009].

Det antages nu, at data er opdelt i M blokke. Med SVD fås for alle Mblokke en n × qj-matrix, Zj , j = 1, . . . ,M bestående af qj principalkompo-nenter for hver blok. Lad pj angive antal SNPs i blok j. For qj < pj opnåsen reduktion i dimensionen af data. Den nye resulterende designmatrix, der

benyttes, bliver da den sammensatte n×(∑M

j=1 qj

)-matrix

Z = [Z1, Z2, . . . , ZM ]. (4.19)

Antallet af principalkomponenter, der medtages for hver blok, skal udvælgessåledes, at vi med det mindst mulige antal får information �nok�. En mådehvorpå vi kan vurdere, hvor meget �nok� er, vil være at se på, hvor stor enfejl vi laver ved kun at medtage qj principalkomponenter i stedet for alle pj .Et mål for den qj-dimensionale rekonstruktionsfejl for blok j med pj SNPsvil være

(n− 1)pj −qj∑i=1

d2i . (4.20)

Det virker derfor fornuftigt at bruge størrelsen

g = p−1j

qj∑i=1

d2i (4.21)

til at vælge et passende antal principalkomponenter ud, således at g er størreend en valgt grænseværdi mellem 1 og n−1, hvor g = 1 vil resultere i en megetstor rekonstruktionsfejl, og g = n−1 vil resultere i ingen rekonstruktionsfejl.

Z benyttes nu som designmatrix i en logistisk regressionsmodel medLasso-penalisering. Før den resulterende model kan benyttes til prædiktioni et nyt datasæt X ′, skal søjlerne i X ′ skaleres med de samme værdiersom blev benyttet til at standardisere X, og for hver blok beregnes �test-komponenterne�

Z ′j = X ′Vj , (4.22)

hvor Vj stammer fra SVD af Xj .

46

Page 49: speciale-thilde

4.5 Modelselektion

Kvaliteten af en statistisk model vurderes ofte på baggrund af dens prædik-tionsevne i et uafhængigt datasæt. Som et mål for en models prædiktionsevnebenyttes et estimat for prædiktionsfejlen

d(Y, f(X)) (4.23)

for en passende afstansfunktion d(·, ·).I dette afsnit vil jeg undersøge hvordan man kan vælge den bedste model

mellem forskellige statistiske modeller og herefter vurdere kvaliteten af denendelige model.

Vurderingen af statistiske modeller i et uafhængigt datasæt er utroligvigtig. I dette speciale bruges termerne træningsdata og testdata om 2 for-skellige datasæt indeholdende de samme variable, men ofte med forskelligtantal observationer. Træningsdatasættet benyttes til at �tte modellen, ogtestdatasættet benyttes i vurderingen af kvaliteten af modellen. Det helt op-timale ville være både at have et træningsdatasæt, et vurderingsdatasæt oget testdatasæt.

Jo �ere variable vi føjer til modellen, jo bedre et �t vil vi typisk få til vorestræningsdata med den ulempe, at modellen bliver over�ttet og får problemermed at generalisere til den population, data stammer fra. På denne mådegiver �ere variable typisk et fald i bias, men en øgning i varians [Hastie et al.,2009].

Modelkompleksitet styres ofte af en parameter, så modelselektion kanbåde omhandle optimering af denne parameter i en klasse af modeller og at�nde den optimale klasse af modeller.

4.5.1 Krydsvalidering

En af de simpleste måder at estimere prædiktionsfejl på er gennem K-foldkrydsvalidering. Metoden bygger på, at data på en tilfældig måde splittes iK lige store dele. Nu køres K runder, hvor modellen �ttes til K − 1 af deK datasæt, og prædiktionsfejlen udregnes på det sidste. Den overordnedeprædiktionsfejl kan nu �ndes som et gennemsnit af prædiktionsfejlen i de Krunder, og på denne måde kan den optimale model vælges. For at mindskebias grundet det aktuelle split af data, kan dette gøres N gange, hvor vihver gang splitter data på en ny tilfældig måde. Dette omtales som N ×K-krydsvalidering.

Hvis krydsvalidering inddrages i modelselektion, er det vigtigt, at alletrin, der vedrører responsvariablen, er medtaget i krydsvalideringen for atundgå at underestimere prædiktionsfejlen [Hastie et al., 2009].

I stedet for at estimere prædiktionsfejlen, vil det i dette tilfælde væremere relevant at udregne modellens AUC for et stigende antal variable ogdermed få et mere robust estimat for modellernes AUC-værdier. At estimatet

47

Page 50: speciale-thilde

for AUC bliver mere robust skyldes at vi minimerer bias grundet en konkretopdeling af data i et træningsdatasæt og testdatasæt.

48

Page 51: speciale-thilde

Figur 4.3: Screenshot fra UCSC Genom browser [Kent et al.]. Der er zoometind på et område på kromosom 1. Den øverste kurve viser den gennemsnitligerekombinationsrate, og nederst ses de estimerede hotspots for mænd (blå)og kvinder (lyserøde).

49

Page 52: speciale-thilde

50

Page 53: speciale-thilde

Kapitel 5

R implementering

Størstedelen af min databehandling er udført ved hjælp af statistikprogram-met R [R Core Team, 2012]. I dette kapitel vil jeg sætte ord på de dele afimplementeringen, som ikke er helt trivielle.

5.1 Håndtering af data

Den første udfordring er at indlæse store datamængder i R. I øjeblikket erPLINK [Purcell] det mest anvendte software til GWA-studier, og de �esteSNP-data ligger i et binært PLINK-format. I dette format ligger genotype-matricen i et pladsbesparende format, som det ikke er muligt at åbne og læsei. For at indlæse disse �ler i R har jeg benyttet pakken snpStats [Clayton,2012] der med kommandoen read.plink() kan indlæse binære PLINK-�lerhurtigt, og på en måde så selve genotype-data er i raw-format, så det ikke fyl-der særlig meget. Output er en liste af længde 3, som indeholder genotypen,information om de enkelte SNPs og information om de enkelte individer.

Den fulde genotype-matrix fylder for meget af computerens hukommelsei R, hvis den ligger som typen numeric. Når dele af den skal bruges, er detnødvendigt at omdanne den del til en numerisk matrix.

Den mængde hukommelse R kan allokere afhænger af styresystemet ogcomputerens størrelse. Der er en begrænsning for, hvor meget et enkelt ele-ment kan fylde på 231 − 1 eller ca. 2 · 109 elementer. Det ses tydeligt, atman med en matrix bestående af p ≈ 500.000 variable og et par tusindobservationer hurtigt rammer grænsen.

5.2 glmnet

Til implementeringen af de Lasso-penaliserede logistiske regressionsmodel-ler har jeg benyttet R-pakken glmnet [Friedman et al., 2010b]. I glmnet

er implementeret en algoritme, der benytter coordinate descent with warm

51

Page 54: speciale-thilde

starts, og resultatet er, at metoden kan håndtere forholdsvis store datasætoverraskende hurtigt.

Coordinate descent er en algoritme, der kan løse (4.11) ved at opdaterekoe�cienterne et skridt af gangen. I stedet for at benytte den a�edede søgeralgoritmen langs en koordinatretning og cykler så over alle retninger. Løseshele Lasso-stien for en sekvens af λ'er benyttes warm starts, hvilket vil sige,at de tidligere parameter-estimater benyttes som begyndelspunkt.

For en logistisk regressionsmodel med binær responsvariabel kan (4.11)løses ved at maksimalisere den penaliserede log-likelihood

1

N

N∑i=1

[I(yi = 1) log θ(xi) + I(yi = 0) log(1− θ(xi))] (5.1)

−λPα(β)

= l(β0, β)− λPα(β)

med hensyn til (β0, β). For ui = I(yi = 1) (= yi når yi ∈ {0, 1}) kan vi skrive

l(β0, β) =1

N

N∑i=1

{ui(β0 + xTi β)− log

(1 + e(β0+x

Ti β))}

, (5.2)

som svarer til (3.12), og som er en konkav funktion af parametrene. Foraktuelle estimater (β0, β) kan vi med taylorudvikling beregne en kvadratiskapproksimation til log-likelihooden ved

lQ(β0, β) = − 1

2N

N∑i=1

wi(zi − β0 − xTi β)2 + c(β0, β)2, (5.3)

hvor

zi = β0 + xTi β +ui − θ(xi)

θ(xi)(1− θ(xi)), (5.4)

wi = θ(xi)(1− θ(xi)), (5.5)

c(β0, β)2 er en konstant og θ(xi) er udregnet ud fra de aktuelle parametre.For hver værdi af λ udregnes lQ ud fra de aktuelle parametre og coordinatedescent benyttes til at løse

(β0, β) = arg minβ0,β

(−lQ(β0, β) + λPα(β)) (5.6)

[Friedman et al., 2010a].

52

Page 55: speciale-thilde

5.3 PrincipLasso

Det antages, at vi har to designmatricer fra henholdsvis trænings- og test-datasæt, og de betegnes X og X ′. På grund af størrelsen af data kan R ikkehåndtere beregninger af hele designmatricen på én gang, og derfor foregårdet følgende kromosomvis.

Ved hjælp af de estimerede rekombinationshotspots inddeles både X ogX ′ i de samme blokke. Søjlerne i X centreres og skaleres med scale(), ogde anvendte værdier benyttes til at justere og skalere X ′ på samme måde.

Det beregnes som forklaret i foregående kapitel hvor mange principal-komponenter, der skal medtages for hver blok. Dette fungerer i praksis vedat sætte en grænse for rekontruktionsfejlen kaldet g og en grænse for detmaksimale antal SNPs, Q, der kan medtages fra hver blok.

Singular value dekompositionen beregnes nu for den skalerede og centre-rede designmatrix, X, ved hjælp af kommandoen svd(), og principalkompo-nenterne, Zqj = (UD)qj , gemmes.

Det antages nu, at designmatricen X ′ er justeret med de samme vær-dier, der blev benyttet til at centrere og skalere X. For at beregne `test-komponenterne`, Z ′, bemærkes det, at matricen V fra den foregående SVDer unitær. Det fås derfor, at

X ′ = U ′D′V T = Z ′V T ⇔ (5.7)

X ′V = Z ′. (5.8)

Funktionen svd() benytter LAPACK, som er en forkortelse for Linear Alge-bra PACKage. LAPACK er et fortran bibliotek, som kan benyttes til lineærematrixoperationer. For nogle få blokke giver LAPACK problemer. Dette fan-ges med en tryCatch() kommando og LINPACK, som er en ældre versionaf LAPACK anvendes for disse blokke uden problemer. Grunden til at LIN-PACK ikke benyttes hver gang er, at det med LAPACK er muligt kun atberegne det ønskede antal principalkomponenter i stedet for dem alle, ogdette sparer betydelig meget tid.

5.4 Generelt

Til at �tte logistiske regressionsmodeller uden penalisering har jeg også be-nyttet glmnet(). Endvidere har jeg til beregning af AUC-værdier benyttetR-pakken ROCR [Sing et al., 2012].

53

Page 56: speciale-thilde

54

Page 57: speciale-thilde

Kapitel 6

Dataanalyse

I dette kapitel beskrives, hvordan jeg ved hjælp af to konkrete SNP-datasæthar sammenlignet og evalueret de forskellige prædiktionsmetoder præsente-ret i kapitel 4. Data er rigtige SNP-data indsamlet for og venligst udlåntaf Afdeling for Epidemiologisk Forskning på Statens Serum Institut. Dataer genereret i forbindelse med GWA-studier af forskellige sygdomme, hvisformål var at identi�cere genetiske områder associeret med den pågældendesygdom.

I dette speciale undersøges data fra studierne af to forskellige sygdomme.Den ene hedder på dansk pylorusstenose og er en sjælden medfødt sygdom,der forårsager en forsnævring i den nederste del af mavesækken hos spæd-børn. Den anden sygdom undersøges stadig af seruminstituttet og er derfori dette speciale blot omtalt som sygdom2. Begge data stammer fra build 37,men fra forskellige genotypechips. Det er altså ikke præcis de samme SNPs,der indgår som variable i de to forskellige datasæt.

Data angiver for hvert individ og for hver SNP antal kopier af den mestalmindelige allel. Hvert element i data kan dermed antage værdierne 0, 1eller 2. Et udsnit af data kunne således se sådan ud:

ID rs847584 rs9474783 rs91343485 · · ·1 2 2 12 0 2 23 2 1 24 2 2 2...

Derudover indeholder data oplysninger om individernes sygdomsstatus, somi PLINK-format er kodet 2 for cases og 1 for kontroller. For hver SNP erder i data oplysninger om SNPens placering i en såkaldt map-�l angivet medet kromosomnummer og dets kb position. Kromosomet er angivet med etnummer fra 1 til 25, hvor nr. 1-22 refererer til kromosom 1-22. Nr. 23 og 24er X- og Y-kromosomet, og nr. 25 en speciel region der kan foretage rekom-

55

Page 58: speciale-thilde

bination imellem disse, kaldet den pseudo-autosomale region. En udsnit afdenne map-�l kunne se således ud:

kromosom snp.name position allele.1 allele.2 · · ·rs847584 1 rs847584 753098 A Grs9474783 1 rs9474783 787364 G Ars91343485 1 rs91343485 816458 C T

...

Kombineres genotype-�len med map-�len kan vi se, at individ 1 på SNPrs847584 har genotypen AA og på SNP rs91343485 har genotypen CT. Yder-ligere oplysninger om individerne ligger i en fam-�l, der kunne se således ud:

ID pedigree member father mother sex a�ected · · ·1 fam1 1 NA NA 1 12 fam1 2 NA NA 1 13 fam1 3 NA NA 2 14 fam1 4 NA NA 1 2...

Dataeksemplerne er opdigtede og er blot for at demonstrere strukturen idata.

Dette kapitel er opdelt i afsnit vedrørende de forskellige datasæt. Førstintroduceres data, hvorefter en kvalitetskontrol udføres, herunder imputa-tion af manglende data og test for populationsstrati�kation. Herefter �ttesde forskellige modeller til data, som senere anvendes til at prædiktere syg-domsrisiko i et testdatasæt, og de forskellige modeller sammenlignes mht.kvaliteten af prædiktionen.

Da jeg kun har et datasæt for hver af de to sygdomme (og altså ikke no-get uafhængigt testdatasæt), benyttes kryds-validering for at minimere denbias på AUC-værdierne, som et konkret split introducerer. AUC-værdierneberegnes for 3 replikationer af 3-foldet krydsvalidering, og et gennemsnit afestimaterne benyttes til at sammenligne prædiktionsmetoderne. Grunden til,at jeg har benyttet 3-foldet krydsvalidering og ikke 5-foldet, som er det mestalmindelige, er for at træningsdatasættet ikke bliver for stort til R.

6.1 Data1: Pylorusstenose

Dette datasæt stammer fra et case-kontrol GWA-studie, hvis formål var atundersøge sygdommen pylorusstenose [Feenstra et al., 2012]. Data indeholderoplysninger om 3372 individer, 1001 cases og 2371 kontroller, der er genoty-pet for 529128 SNPs. 3 signi�kante SNPs fra første studie (og altså fra dettedatasæt) viste sig signi�kante i et replikationsstudie, og til sammenligningmed de øvrige prædiktionsmodeller vil jeg også benytte en prædiktionsmo-del udelukkende baseret på at �tte en logistisk regressionsmodel til disse 3SNPs.

56

Page 59: speciale-thilde

6.1.1 Kvalitetskontrol

Før data benyttes til analyse udføres kvalitetskontrol som beskrevet i kapitel3. Ved hjælp af PLINK fjernes SNPs og individer med en andel af manglendeværdier ≥ 0.01 og SNPs med MAF ≤ 0.01, eller hvor Hardy-Weinbergs testfor ligevægt i kontroller giver p ≤ 10−4. Hvis vi antager, at data ligger ibinært PLINK-format i �lerne ps.bed, ps.bim og ps.fam samt en fænotype-�l ps.pheno gøres dette i PLINK ved

plink --bfile ps --pheno ps.pheno

--mpheno 1 --geno 0.01 --mind 0.01

--maf 0.01 --hwe 0.0001 --make-bed --out ps.

Herefter består data af 3331 individer (990 cases og 2341 kontroller) genoty-pet på 521766 SNPs. Data indeholder 1143 manglende observationer.

For at reducere antallet af SNPs af beregningsmæssige hensyn ved brug afglmnet, udføres nu en LD-baseret udtynding i PLINK. Udtyndingen udførespå baggrund af en maksimal parvis korrelation mellem to SNPs på R2 = 0.5.Dette gøres ved

plink --bfile ihps_filtered --indep-pairwise 50 5 0.5

plink --bfile ihps_filtered --extract plink.prune.in

--make-bed --out ps_pruned.

Et andet argument for at udtynde data er, at Lasso ofte har problemer vedstærkt korrelerede variable.

Data består efter LD-baseret udtynding af 3331 individer genotypet for230373 SNPs. Det udtyndede datasæt vil blive brugt til at �tte Lasso- ogELN-modeller i R med glmnet(), da R af hukommelsesmæssige årsager ikkekan håndtere det fulde datasæt.

De manglende værdier er så få, at det virker rimeligt at erstatte dem medden mest almindelige allel. Alternativt kunne der benyttes imputationsme-toder.

Udføres en CA-trend test som beskrevet nedenfor for det fulde datasætfås for alle SNPs en teststørrelse, som under nulhypotesen følger en χ2-fordeling. Disse plottes som beskrevet i afsnit 3.3.4, og QQ-plottet ses i �gur6.1. Ekskluderes de 10% største værdier fås en hældningskoe�cient på 1.055,hvilket må siges at være relativt tæt på 1. På baggrund af dette og QQ-plottetkonkluderes det, at der ikke ser ud til at være populationsstrati�kation ibetydelige mængder.

6.1.2 Analyse

For hver replikation splittes data i 3 lige store dele. For hver krydsvalide-ringsrunde udgør 2/3 af data træningsdatasættet, og den sidste 1/3 udgør

57

Page 60: speciale-thilde

Figur 6.1: Observerede teststørrelser plottet mod de forventede under anta-gelse af ingen association.

testdatasættet. Modellen �ttes til træningsdatasættet, hvorpå de forskelligeprædiktionsmodeller evalueres på testdatasættet.

I de nedenstående afsnit beskrives, hvordan jeg i praksis har anvendt deforskellige metoder beskrevet i kapitel 4.

Enkelt-SNP logistisk regression

Denne model bygger på, på baggrund af marginale associationstest med re-sponsvariablen, at udvælge et sæt af de n mest signi�kante SNPs. Med disseSNPs �ttes så med logistisk regression en model til træningsdata, som såbenyttes til prædiktion i testdata.

Det antages nu, at �len trainingiid.txt indeholder en liste over deindivider, træningsdata består af. Jeg har i PLINK udført enkelt-SNP asso-cationstests på træningsdatasættet med en CA-trend test,

plink --bfile ps --keep trainingiid.txt --trend ,

og dernæst sorteret alle SNPs efter størrelsen af p-værdierne. Jeg har herefter�ttet 100 logistiske regressionsmodeller, hvor jeg har inkluderet et stigendeantal SNPs fra 1 til 1400.

58

Page 61: speciale-thilde

For hver af disse 100 modeller, med et stigende antal variable, har jegprædikteret sygdomsrisikoen for de 1110 individer i testdatasættet og bereg-net den resulterende AUC-værdi som funktion af antal variable i modellen.Et plot af gennemsnittet af disse over de 3 × 3-krydsvalideringer ses i �gur6.2. Det ses, at maksimum på 0.59 antages, når 19 SNPs indgår i modellen.

0 500 1000 1500

0.50

0.55

0.60

Pylerusstenose

Antal ikke−nul koefficienter

AU

C

glmnet(Lasso) − Maks: 0.5911 ( 10 SNPs)Top marg. SNPs − Maks: 0.6054 ( 13 SNPs)PrincipLasso − Maks: 0.5684 ( 1661 PK'er)3 bekr. SNPs − Maks: 0.5999 (3 SNPs)SparSNP − Maks: 0.6166 ( 774 SNPs)PL(OK−means): 0.5674 ( 52 PK'er)

Figur 6.2: Figuren viser AUC-værdierne for de afprøvede prædiktionsmodel-ler med et varierende antal SNPs i modellen.

På samme måde som for de 100 andre modeller �ttes en logistisk regres-sionsmodel, hvor kun de 3 bekræftede SNPs fra artiklen af Feenstra og andre[Feenstra et al., 2012] indgår (disse er ikke nødvendigvis identiske med de 3mest signi�kante i træningsdatasættet). Det ses af �gur 6.2, at denne modelopnår en AUC-værdi i testdatasættet på 0.60.

Lasso og Elastic-net i en logistisk regressionsmodel

Til træningsdata er �ttet en logistisk regressionsmodel med Lasso- og ELN-penalisering for α = (1, 0.8, 0.5). Dette er gjort med glmnet() i R ved

59

Page 62: speciale-thilde

model <- glmnet(ps_pruned_training, feno_training,

family="binomial", alpha=alpha).

Modellen �ttes da for en sekvens af 100 forskellige værdier for λ, hvor stigendeværdier af λ medfører en større penalisering på koe�cienterne og dermedresulterer i, at �ere koe�cienter sættes til 0, hvilket giver et faldende antalvariable i modellen.

Disse modeller er brugt til at prædiktere sygdomsrisiko i testdata, oggennemsnittet af AUC-værdierne over de 3 × 3-krydsvalideringer beregnes.Da AUC-værdierne var stort set identiske for forskellige værdier af α, harjeg valgt kun at plotte resultatet for α = 1, hvilket svarer til en lasso-penalisering. Et plot af de gennemsnitlige AUC-værdier for logistisk regres-sion med Lasso-penalisering ses i �gur 6.2.

Det ses, at maksimum på 0.60 antages for 10 SNPs i modellen. Dettemaksimum var identisk med det opnåede maksimum for α = 0.8 og α = 0.5.Det ses yderligere, at maksimum ligger en anelse højere end for modellenuden penalisering, der benytter de n mest signi�kante SNPs, men det er ikkemeget.

SparSNP

For metoden SparSNP blev også det fulde datasæt anvendt. Modellen blevsom de andre �ttet gennem 3× 3-krydsvalideringer. Kommandoen for detteer

NLAMBDA1=80 NREPS=3 NFOLDS=2 crossval.sh ps sqrhinge,

hvor NLAMBDA1 angiver antal elementer i sekvensen af λ'er. Det optimale antalSNPs i prædiktionsmodellen rapporteres på baggrund af krydsvalideringernei træningsdatasættet. Gennemsnittet af AUC-værdierne for λ-sekvensen sesi 6.2.

For manglende værdier udfører SparSNP imputation ved tilfældigt attildele værdierne 0, 1 eller 2 med lige stor sandsynlighed.

PrincipLasso

Til denne metode benyttes det fulde datasæt bestående af 529128 SNPs.Data er ordnet således at de forskellige SNPs ligger i rækkefølge efter kromo-somnummer og indbyrdes placering langs kromosomet. Detaljer vedrørendeimplementeringen af denne metode er uddybet i kapitel 5. Metoden afprøvesbåde for LD-blokke dannet med estimerede rekombinationshotspots, og forLD-blokke dannet med OK-means.

Fra UCSCs genombrowser [Kent et al.] er hentet to tabeller med rekom-binationshotspots for henholdsvis mænd og kvinder og for kromosom 1 til22. For kvinder er der estimeret 4135 rekombinationshotspots og for mænder tallet 4771. Ud af disse er 1956 hotspots fælles og resten kønsspeci�kke.

60

Page 63: speciale-thilde

Jeg har i dette speciale valgt kun at bruge de fælles, da det så ud til, at detvar det, der virkede bedst i forhold til PrincipLasso.

De 1956 rekombinationshotspots er benyttet til at inddele data i blokke.Der er dog et problem med, at der ikke er estimerede hotspots for kromosom23, 24 og 25, så disse må håndteres på en anden måde. Opdelingen af SNPsbeliggende på de to kønskromosomer i blokke er derfor baseret på minimalparvis korrelation som beskrevet i afsnit 4.4.1.

Ud fra de givne rekombinationshotspots samt den manuelle blokopde-ling for kromosom 23, 24 og 25 fås 2185 blokke, da der også opdeles efterkromosom-grænser. Da de estimerede hotspots løber over et område, har jegaf praktiske årsager benyttet midten af disse, så ikke en eller �ere SNPs villeende for sig selv. Jeg har også eksperimenteret med mere avancerede metodersom for eksempel at kigge på korrelationen mellem SNPs i hotspotregioner-ne, men det så ikke ud til at gøre nogen forskel. På �gur 6.3 ses et plot afblokkenes størrelse opdelt efter rekombinationshotspots. Det ses, at blokkenetypisk består af mellem 1 og 500 SNPs, men enkelte ligger fra 500 og helt optil 5000.

●●●

●●

●●

●●●

●●

●●●

●●

●●

●●●●●●

● ●●●

●●

●●

●●

●●

●●

●●●●

●●

●●

●●●

●●

●●

●●●

●●

●●

●●

●●●

●●

●●

●●●

●●●

●●●●●●●●●●●●●●●●

1 3 5 7 9 11 13 15 17 19 21 23

010

0020

0030

0040

0050

00

Størrelsen af LD−blokke (hotspots)

Kromosomnummer

Blo

kstø

rrel

se

Figur 6.3: På �guren ses størrelsen af LD-blokke dannet med estimerederekombinationshotspots.

Det ses, at der er en blok beliggende på kromosom 10, som er meget stor.

61

Page 64: speciale-thilde

Dette er en region der spænder over centromeren på kromosom 10. På UCSCsgenombrowser [Kent et al.] ses det, at der i dette område er forholdsvis mangerekombinationshotspots for kvinder, men ingen for mænd og dermed helleringen fælles.

Med OK-means blev estimeret et større antal blokke. Algoritmen blevstartet ved tilfældigt at opdele hvert kromosom i et givet antal blokke, og ialt resulterede algoritmen i 8735 blokke. Et plot af blokkenes størrelse ses i�gur 6.4.

●●●

●●

●●●

●●

●●●

●●

●●

●●

●●

●●

●●●

●●

●●●●

●●

●●

●●●

●●

●●

●●●●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●●

●●●

●●

●●

●●

●●●

●●

●●

● ●●

●●

●●

●●●●●●

●●

●●●

●●

●●

●●

●●●●●

●●●

●●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●●

●●

●●●

●●

●●

●●

●●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●●

●●

● ●

1 3 5 7 9 11 13 15 17 19 21 23

010

020

030

040

050

060

0

Størrelsen af LD−blokke

Kromosomnummer

Blo

kstø

rrel

se

Figur 6.4: På �guren ses størrelsen af LD-blokke dannet med OK-means.

De resulterende blokke skaleres og centreres, så søjlerne har middelværdi0 og varians 1. For hver af disse blokke er der i R udført en singular valuedecomposition, og et antal principalkomponenter fra hver blok benyttes nusom blokrepræsentanter. Antal principalkomponenter for en blok bestemmesud fra en grænse for rekonstruktionsfejlen g = 1500 med den undtagelse, atder højst kan medtages 15 principalkomponenter fra hver blok.

For PrincipLasso med OK-means blev i gennemsnit 52666 principalkom-ponenter udvalgt, og for PrincipLasso med hotspots blev i gennemsnit 21295principalkomponenter udvalgt. For det samlede antal principalkomponenter�ttes nu en logistisk regressionsmodel med Lasso- eller ELN-penaliseringpå samme måde som for det udtyndede datasæt. Testdatasættet skaleres

62

Page 65: speciale-thilde

med de værdier, der blev benyttet på træningsdatasættet, og de såkaldtetest-komponenter beregnes. Disse benyttes til prædiktion ud fra de �ttedemodeller, og AUC-værdierne ses i �gur 6.2.

Det ses, at AUC-kurven for PrincipLasso ligger betydeligt lavere endfor de andre metoder. For at undersøge om dette kunne skyldes korrelationmellem individer forårsaget af genetisk slægtskab, blev metoden afprøvet påto datasæt, hvor et antal individer var blevet ekskluderet.

Blandt de 3331 individer blev 48 par af beslægtede individer (primærtpå fætter-kusine niveau) identi�ceret, og den ene del af hvert par blev eks-kluderet fra datasættet. I det tilfælde, hvor der optrådte både en case og enkontrol, blev kontrolpersonen ekskluderet. Dette havde dog ingen e�ekt påprædiktionen med PrincipLasso.

For at undersøge om der kunne være yderligere slægtskab mellem in-divider, blev data udtyndet ved hjælp af GCTA [Yang et al., 2011], somer software udviklet til at undersøge komplekse træk i genomet. Data kanudtyndes således, at ingen par af individer har et parvist genetisk slægtskabstørre end en valgt grænse. Først beregnes det genetiske slægtskab mellemalle par af individer med kommandoen

gcta64 --bfile ps --autosome --maf 0.01 --make-grm-bin-

--out ps

hvorefter datasættet blev udtyndet efter en grænse på 0.025

gcta64 --grm-bin ps --grm-cutoff 0.025 --make-grm-bin

--out ps_rm025 .

På denne måde blev 181 individer sorteret fra, og PrincipLasso blev �ttet tildet nye datasæt. Dette resulterede imidlertid i en lavere AUC-kurve, sand-synligvis på grund af det lavere antal af individer.

6.1.3 Opsummering

For sygdommen pylorusstenose prædikterede SparSNP-modellen bedst meden AUC-værdi på 0.62. For sygdommen pylorusstenose varierer prevalensenmellem de to køn, men forekommer hos ca. 2 ud af 1000 spædbørn, hvilketgiver en prævalens på ca. 0.002. Den estimerede sensitivitet og speci�citetgivet en grænse T = −0.87 er beregnet til

sens = 0.62 (6.1)

spec = 0.54. (6.2)

Dermed vil en genetisk test baseret på denne prædiktionsmodel resultere ien PPV og NPV på

PPV = 0.0027 (6.3)

NPV = 0.999. (6.4)

63

Page 66: speciale-thilde

Grænseværdien T kan vælges anderledes afhængig af, om man helst vil risi-kere at klassi�cere de raske som syge eller omvendt. Dog kan der højst opnåsen PPV = 0.0046, hvilket nok ikke kan betegnes som værende specielt me-get ekstra information. Det er altså kun ca. 0.5% af de, der klassi�ceres somsyge, der rent faktisk er det.

6.2 Data2: Sygdom2

Dette datasæt er ikke færdiganalyseret af Statens Serum Institut, og densygdom, data omhandler, omtales derfor i dette speciale blot som sygdom2.Data stammer fra et case-kontrol studie, der havde til formål at undersøgesygdom2. Det genetiske signal associeret med denne sygdom er umiddelbartnoget stærkere, end det vi så ved sygdommen pylorusstenose, så det er in-teressant, om de forskellige metoder leder til samme konklusioner i dettetilfælde?

Data indeholder i sin fulde størrelse oplysninger om 6492 individer, 1006cases og 5486 kontroller, der er genotypet for 548642 SNPs. Af beregnings-mæssige årsager udvælges 2000 kontroller tilfældigt, og sammen med de 1006cases er det kun disse, der vil indgå i den videre analyse.

Populationsstrati�kation blev undersøgt på samme måde som for pyleros-stenose, og QQ-plottet af de observerede mod de forventede værdier ses i �gur6.5. Ekskluderes de 10% største observationer fås ved regressionsanalyse afde observerede værdier mod de forventede en hældningskoe�cient på 1.049,hvilket er en anelse lavere end for pylerosstenose.

På samme måde som for pylorusstenose benyttes til glmnet()et udtyndetdatasæt. Dette datasæt indeholder 246526 SNPs.

6.2.1 Analyse

For data vedrørende sygdom2 afprøves de samme metoder som for pylorus-stenose med undtagelse af modellen med kun bekræftede SNPs, da der ikkeforeligger sådanne resultater endnu. Et samlet plot af resultaterne ses i �gur6.6. Analysen forløber på samme måde som for pylorusstenose-datasættet,så jeg vil ikke beskrive de enkelte dele i detaljer.

Til PrincipLasso benyttes de samme estimerede rekombinationshotspots,men de resulterende blokke kan selvfølgelig variere i størrelse og antal, dade to datasæt ikke er fra samme type genotype-chip, eller hvis forskelligeSNPs har måtte udgå fra analysen på grund af manglende værdier. Desudenvil det være andre hotspots for kromosom 23, 24 og 25, da disse estimeresafhængig af data. I alt blev der for dette datasæt dannet 2289 blokke medrekombinationshotspots. Et overblik over størrelsen på blokkene ses på �gur6.7. Det ses af �gur 6.7, at især én blok er meget stor. Denne repræsentereren region på kromosom 6 kaldet Human Leukocyte Antigen regionen, ogsåforkortet HLA regionen. Området indeholder en række gener, der er relateret

64

Page 67: speciale-thilde

Figur 6.5: Observerede teststørrelser plottet mod de forventede under anta-gelse af ingen association.

til immunsystemet, og ser umiddelbart ud til at være en region med en megetlav grad af rekombination. Denne blok er ikke lige så tydelig på �gur 6.3,hvilket sandsynligvis skyldes, at der er genotypet langt færre SNPs i denneregion for pylorusstenose-datasættet. Med OK-means blev der dannet 9179LD-blokke. Et plot over størrelsen af disse ses i �gur 6.7.

I gennemsnit blev 23871 principalkomponenter udvalgt til den videreanalyse med rekombinationshotspots, og i gennemsnit 62708 principalkom-ponenter med OK-means. Det ses af �gur 6.6 at PrincipLasso fungerer næ-sten ligeså godt som Lasso og SparSNP, og at begge metoder prædiktererbetydeligt bedre end en model bygget på SNPs udvalgt med marginale as-sociationstest.

6.2.2 Opsummering

For sygdom2 prædikterede SparSNP, Lasso og Principlasso stort set ligegodt, med en maksimal AUC-værdi på ca. 0.85. Sygdom2 forekommer kunblandt drenge og hos ca. 4.5 ud af 1000, hvilket giver en prævalens på 0.0045.Den estimerede sensitivitet og speci�citet givet en grænse T = −0.16 er

65

Page 68: speciale-thilde

0 200 400 600 800

0.5

0.6

0.7

0.8

Sygdom2

Antal ikke−nul koefficienter

AU

C

glmnet(Lasso) − Maks: 0.8563 ( 94 SNPs)Top marg. SNPs − Maks: 0.7696 ( 775 SNPs)PrincipLasso − Maks: 0.8473 ( 44 PK'er)SparSNP − Maks: 0.8538 ( 163 SNPs)PL(OK−means): 0.8434 ( 48 PK'er)

Figur 6.6: Figuren viser AUC-værdierne for de afprøvede prædiktionsmodel-ler med et varierende antal SNPs i modellen.

beregnet til

sens = 0.798 (6.5)

spec = 0.760. (6.6)

Dermed vil en genetisk test baseret på denne prædiktionsmodel resultere ien PPV og NPV på

PPV = 0.015 (6.7)

NPV = 0.999. (6.8)

Grænseværdien, T , kan vælges anderledes afhængig af, om man helst vilrisikere at klassi�cere de raske som syge eller omvendt. Dog kan der højstopnås en PPV = 0.0302 med en tilhørende npv på 0.996. Dermed er det kun3% af dem, der klassi�ceres syge, der rent faktisk er det, men det er dog enbetydelig forøget risiko.

66

Page 69: speciale-thilde

6.3 Beregningskompleksitet

Alle beregningerne blev udført på en 2.67 GHz 8x Intel(R) Core(TM) i/ CPU920 med 12 Gb RAM og 64-bit Ubuntu linux 10.04.4. For at kunne sammen-ligne beregningskompleksiteten for de forskellige metoder er de alle anvendtpå det udtyndede datasæt for pylorusstenose, da R ikke kan håndtere detfulde datasæt. Det udtyndede datasæt består af 3331 individer genotypet for230373 SNPs. Træningsdatasæt består af 2/3 af individerne.

Med i tidtagningen indgår indlæsning af datasæt, �tte 100 modeller afstigende kompleksitet til træningsdatasættet og prædiktion i testdatasættet.For alle andre metoder end SparSNP har jeg taget tid med kommandoenproc.time() i R. For SparSNP har jeg brugt time()-kommandoen i Ubun-tus terminal. På grund af de forholdsvis høje kørselstider har jeg ikke nåetat tage gennemsnit over �ere tidtagninger, og kørselstiderne må derfor sessom et usikkert estimat. Kørselstiderne ses i tabel 6.1.

Metode kørselstid i minutterLasso 4PrincipLasso m. hotspots 26PrincipLasso m. OK-means 71Logistisk regression 36SparSNP 23

Tabel 6.1: Kørselstider for de afprøvede metoder.

Med SparSNP er der mulighed for at køre beregningerne parallelt, hvisman har en computer med �ere kerner til rådighed, og på denne måde ned-bringe kørselstiden. Dette vil også være en mulighed for PrincipLasso. Deberegningstunge udregninger foregår som beskrevet kromosomvis, og disseindlededende beregninger kunne sagtens køre parallelt. Dette har jeg dogikke haft tiden til at implementere.

Jeg har også sammenlignet kørselstider forK-means ogOK-means. Dettehar jeg gjort ved, at jeg har simuleret et datasæt med 500 observationer af5000 normalfordelte variable med middelværdi 0 og varians 1. Dette data harjeg så kørt begge metoder på, og kørselstiderne er angivet som gennemsnitover 10 beregninger. Kørselstiderne ses i tabel 6.2. som det ses af tabellen

Metode kørselstid i sekunderOK-means 7.6K-means 19.3

Tabel 6.2: Sammenligning af beregningskompleksitet for algoritmerne K-means og OK-means.

er OK-means næsten 3 gange så hurtig som K-means hvilket er af storbetydning for data i størrelsesorden af SNP-data.

67

Page 70: speciale-thilde

●●

●●

●●

●●

●●●

●●●

●●

●●●●

● ●

●●

●●

●●●●

●●

●●●●●

●●

●●

●●

●●

●●●●

●●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●●●●●●●●●●●●●●●●●●●●●●●

●●●●

1 3 5 7 9 11 13 15 17 19 21 23 25

010

0020

0030

0040

0050

00

Størrelsen af LD−blokke (hotspots)

Kromosomnummer

Blo

kstø

rrel

se

●●●●

●●

●●

●●

●●

●●●

●●●

●●●

●●●

●●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●●

●●

●●●

●●

●●

●●

●●

●●●

●●

●●

●●●

●●

●●

●●

●●

●●●

●●

●●

●●●

●●●

●●●

●●

●●●●

●●

●●

●●

●●

●●●

●●

●●●

●●●

●●●

●●

●●

●●

●●

●●●

●●

●●

●●●●●

●●

●●

●●

●●

●●

●●●

●●

●●●●

●●

●●

●●●

●●●●

●●

●●

●●●

●●

●●●

●●

●●●

●●

●●

●●

●●

●●

●●

1 3 5 7 9 11 13 15 17 19 21 23 25

010

020

030

040

050

0

Størrelsen af LD−blokke (OK−means)

Kromosomnummer

Blo

kstø

rrel

se

Figur 6.7: På �guren ses størrelsen af LD-blokke, øverst dannet med estime-rede rekombinationshotspots og nederst dannet med OK-means.

68

Page 71: speciale-thilde

Kapitel 7

Diskussion

Der er i �ere artikler blevet argumenteret for, at penaliserede metoder ge-nerelt virker bedre end enkelt-SNP tests i GWA-studier, da disse metoderbedre kan tage højde for graden af LD blandt SNPs. Erfaringen tyder på, atmetoderne både er bedre til at udvælge vigtige kausale SNPs, men også tilat tildele disse SNPs vægte i en prædiktionsmodel [Abraham et al., 2012].

Ovenstående er også det billede, vi har set i dette speciale. De penalise-rede metoder, som i dette tilfælde er SparSNP og logistisk regression medLasso-penalisering, har i nogle tilfælde en sammenlignelig og i nogle tilfældeen betydelig højere prædiktionsværdi end en prædiktionsmodel baseret påSNPs udvalgt med marginale associationstests.

SparSNP har nogle beregningsmæssige fordele i forhold til hukommelsepå computeren, men med hukommelse nok og et datasæt med dimensionmindre end R's hukommelse, er glmnet noget hurtigere. Derudover har delogistiske regressionsmodeller en klar fordel i deres sandsynlighedsfortolkningaf risikoestimaterne.

En mulig forklaring på, hvorfor de penaliserede metoder har en bedreprædiktionsevne på genomiske SNP-data, kunne meget vel være, at de erbedre til at håndtere graden af korrelation mellem variablene. Det er vel-kendt, at Lasso-metoder kan være dårlige til variabel-selektion blandt kor-relerede variable, men i [Hebiri and Lederer, 2012] argumenteres der for, atLasso giver lige lave prædiktionsfejl både med og uden korrelation mellemvariable, hvis blot tuningsvariablen, λ, vælges afhængig af graden af korre-lation.

En anden fordel, som en lassomodel oplagt har over enkelt-SNP model-len er, at variablene er valgt simultant for at opnå det bedste �t, hvorimod ienkelt-SNP modellen er variablene valgt udelukkende på baggrund af deresmarginale association med fænotypen. Disse SNPs kan så indbyrdes poten-tielt være meget korrelerede, hvilket kan påvirke den simultane prædiktion.

Dog så vi, at den blok-baserede metode, PrincipLasso, i det ene tilfældehavde den dårligste prædiktionsevne af alle de afprøvede metoder. I det an-

69

Page 72: speciale-thilde

det tilfælde derimod var prædiktionsevnen for PrincipLasso næsten identiskmed prædiktionsevnerne for Lasso og SparSNP. Konklusionen for sygdom2-datasættet �ugter meget godt med konklusionen i [Bühlmann et al., 2012],hvor de konkluderer, at deres Group Representative Lasso, også forkortetGRL (en simpel variation af PrincipLasso), fungerer lige så godt som Lasso iforhold til prædiktion. Det så desuden ud til, at prædiktionsevnen med Prin-cipLasso blev forbedret en smule når blokkene blev estimeret med OK-meansalgoritmen istedet for med hotspots. For pylerusstenose ledte PrincipLassomed OK-means til principalkomponenter med større information.

En anden konklusion i [Bühlmann et al., 2012] var, at GRL var klartbedre end Lasso med hensyn til variabelselektion, så der kunne være enmulighed for at dette også gjaldt PrincipLasso. Potentielt kunne det være enmetode til at udvælge områder i genomet til nærmere undersøgelse. Dette erdog ikke blevet undersøgt nærmere i dette speciale.

Forventningen til PrincipLasso var ellers, at det på grund af graden afLD mellem SNPs ville fungere bedre at inddele SNPs i blokke med høj gradaf LD, og så benytte en eller �ere mindre korrelerede blok-repræsentanter.Ideén var, at disse principalkomponenter ville være lineært uafhængige ogdermed fungere bedre som variable i en logistisk penaliseringsmodel, og atet vist antal af de første principalkomponenter for hver blok ville indeholdeen vis information om blokkens association med fænotypen.

En mulig forklaring i variationen af prædiktionsevnen for PrincipLassokunne være, at den er meget afhængig af, hvordan det genetiske signal for-deler sig langs genomet. Man kunne forestille sig, at der ikke var noget atvinde, hvis der var tale om få SNPs, som var indbyrdes afhængige, hvori-mod fordelen muligvis er langt større, hvis der er tale om mange, muligvisindbyrdes korrelerede, SNPs. Det ville være interessant at undersøge dettegennem simulerede datasæt, hvor man kender det underliggende genetiskesignal. Det er imidlertid ikke trivielt at simulere SNP-data, både på grund afstørrelsen, men også på grund af den komplekse LD-struktur langs genomet.Dette har der derfor ikke været tid til i løbet af dette speciale.

En anden mulig forklaring på PrincipLassos svingende kvalitet kunnevære, at metoden er meget sårbar overfor ind�ydelse fra populationsstrati�-kation. Vi så, at der umiddelbart var en anelse mere populationsstrati�kationi pylerusstenose-datasættet end i sygdom2-datasættet, og dette kunne for-klare, hvorfor PrincipLasso fungerede bedre til prædiktion for sygdom2.

En fordel ved PrincipLasso er, at metoden, ligesom det er tilfældet forSparSNP, er i stand til at håndtere det fulde datasæt selv på en god bærbarcomputer, da data kun bliver indlæst et kromosom af gangen. En anden for-del er, at modellen kan give fortolkelige estimator i form af risiko forbundetmed associerede blokke. En ulempe ved metoden er klart den svingende kva-litet sandsynligvis afhængig af, hvordan det underliggende signal er fordelt.

For PrincipLasso indgår �ere parametre der har ind�ydelse på metoden.Disse inkluderer måden blokkene estimeres på, herunder antal blokke der

70

Page 73: speciale-thilde

estimeres, og hvor mange principalkomponenter fra hver blok der indgår iden videre analyse. Det kunne være interessant at undersøge nærmere hvor-dan disse faktorer påvirkede prædiktionsevnen for PrincipLasso, men der hardesværre ikke været tid i dette speciale. Dette skyldes at OK-means algorit-men først blev implementeret forholdsvis sent i forløbet, og at beregningerneer ret tidskrævende.

En alternativ blok-tilgang til data kunne være, i stedet for at beregneprincipalkomponenter, at benytte en grouplasso-model med de samme LD-blokke. Dette er dog ikke blevet undersøgt nærmere da det sandsynligvisville kræve en ret e�ektiv implementering af grouplasso.

71

Page 74: speciale-thilde

72

Page 75: speciale-thilde

Kapitel 8

Konklusion

På baggrund af dataanalyserne i dette speciale er konklusionen, at de pena-liserede metoder generelt fungerer bedre end de marginale med hensyn tilprædiktion.

En lasso-penaliseret logistisk regressionsmodel �ttet med glmnet så udtil at prædiktere godt sammenlignet med de andre metoder, og samtidig vardet suverænt den hurtigste. Ulempen ved metoden er at R i sig selv harnogle begrænsninger i forhold til meget store datasæt.

Metoden SparSNP baseret på SVMs så ud til at være den metode derprædikterede bedst for pylorusstenose, og sammenligneligt med logistisk re-gression med Lasso-penalisering for sygdom2. Metoden er implementeret me-get e�ektivt i forhold til at kunne køre store datasæt med ikke særlig megethukommelse på computeren. Dog er estimaterne ikke fortolkelige i sandsyn-lighedsteoretisk forstand, hvilket i praksis kan være en ulempe.

Metoden PrincipLasso, der blev udviklet i dette speciale, ser ud til atvære af meget svingende kvalitet. Dette skyldes sandsynligvis, at principal-komponenterne er bedre til at fange nogle typer af genetisk signal end andre.Det så desuden ud til, at det ikke er helt ligegyldigt, hvordan LD-blokkenebliver estimeret, og her ser det ud til, at OK-means algoritmen er den bedsteaf de afprøvede metoder, idet der så ud til her at være principalkomponenterder fangede en større grad ad variationen relateret til SNPs. Noget tyderdesuden på at mindre blokke er favorable.

For at genetisk risikoprædiktion skal kunne betale sig ved sjældne syg-domme, skal det genetiske signal i forhold til sygdommen være ret stærkt, daman ellers unødigt kan gøre mange raske mennesker �syge� eller bekymrede.Dog kan det i nogle tilfælde være relevant at vide, om man på baggrundaf genetikken har en forøget risiko og dermed tiligt kan tage forebyggendetiltag i så fald at disse er uskadelige. Selv om det for sygdom2 var muligtat udvikle prædiktionsmodeller med forholdsvis høje AUC-værdier, så vi atdet gav anledning til en relativt lav PPV for en prædiktionstest på grund afden lave prævalens for sygdommen. Genetisk risikoprædiktion ser derfor ud

73

Page 76: speciale-thilde

til primært at være favorabelt for forholdsvis almindelige sygdomme med etstærkt underliggende genetisk signal, indtil vi �nder metoder der kan vristemere potentiel information ud af genomet.

74

Page 77: speciale-thilde

Litteratur

The 1000 Genomes Project. 1000 genomes - a deep catalog of human geneticvariation. URL www.1000genomes.org.

The 1000 Genomes Project Consortium. A map of human genome variationfrom population-scale sequencing. 2010.

Gad Abraham, Adam Kowalczyk, Justin Zobel, and Michael Inouye. Perfor-mance and robustness of penalized and unpenalized methods for geneticprediction of complex human disease. Genetic Epidemiology, 37 (2):184�195, 2012.

D. J. Balding, M. Bishop, and C. Cannings, editors. Handbook of StatisticalGenetics, volume 2. Wiley, 3. edition, 2007.

Mathieu Blondel. Mathieu's log. http://www.mblondel.org/journal/2010/-09/19/support-vector-machines-in-python/, 2013. Hentet 3/5.

Peter Bühlmann, Philipp Rütimann, Sara van de Geer, and Cun-HuiZhang. Correlated variables in regression: clustering and sparse estima-tion. arXiv:1209.5908v1 [stat.ME], 26 Sep, 2012.

Christopher S. Carlson, Michael A. Eberle, Mark J. Rieder, Qian Yi, LeonidKruglyak, and Deborah A. Nickerson. Selecting a maximally informativeset of single-nucleotide polymorphisms for association analysis using linka-ge disequilibrium. The American Journal of Human Genetics, 74:106�120,2004.

Stephen J. Chanock and Teri Manolio. Replicating genotype-phenotype as-sociations. Nature, 2007.

Geraldine M. Clarke, Kim W. Carter, Lyle J. Palmer, Andrew P. Morris,and Lon R. Cardon. Fine mapping versus replication in whole-genomeassociation studies. The American Journal of Human Genetics, pages995�1005, 2007.

David Clayton. snpStats: SnpMatrix and XSnpMatrix classes and methods,2012. R package version 1.8.1.

75

Page 78: speciale-thilde

Paul I. W. de Bakker, Roman Yelensky, Itsik Pe'er, Stacey B. Gabriel,Mark J. Daly, and David Altshuler. E�ciency and power in genetic asso-ciation studies. Nature Genetics, 37(11):1217�1223, 2005.

B. Devlin and Kathryn Roeder. Genomic control for association studies.Biometrics, 55(4):997�1004, 1999.

Bjarke Feenstra, Frank Geller, Camilla Krogh, Mads V Hollegaard, SanneGørtz, Heather A Boyd, Je�rey C Murray, David M Hougaard, and MadsMelbye. Common variants near mbnl1 and nkx2-5 are associated withinfantile hypertrophic pyloric stenosis. Nature Genetics, 44(3):334�338,2012.

Ronald N. Forthofer, Eun Sul Lee, and Michael Hermandez. Biostatistics -A Guide to design, Analysis and Discovery. Academic Press, 2. edition,2007.

Jerome Friedman, Trevor Hasti, and Robert Tibshirani. Regularization pathsfor generalized linear models via coordinate descent. Journal of StatisticalSoftware, 33(1), 2010a.

Jerome Friedman, Trevor Hasti, and Robert Tibshirani. glmnet: Regulariza-tion Paths for Generalized Linear Models via Coordinate Descent, 2010b.URL http://CRAN.R-project.org/package=glmnet. R package.

Peder K. Gasbjerg and Chris Østergaard. Bioaktivator.http://bioaktivator.systime.dk, 2013. Hentet 21/4.

Greg Gibson. Rare and common variants: twenty arguments. Nature reviews- Genetics, 13:135�145, 2012.

The International HapMap Consortium. International hapmap project. URLwww.hapmap.org.

Leland H. Hartwell, Leroy Hood, and Michael L. Goldberg. Genetics - FromGenes to Genomes. McGraw-Hill, 4. edition, 2011. s. 13-162, 391-392.

Trovor Hastie, Robert Tibshirani, and Jerome Friedman. The Elements ofStatistical Learning. Springer, 2. edition, 2009.

Mohamed Hebiri and Johannes C. Lederer. How correlations in�uence lassoprediction. arXiv:1204.1605 [math.ST], 9 july, 2012.

Bryan Howie. Bryan howie - statistical genetics research.http://home.uchicago.edu/ /bhowie/research.html, 2013. Hentet 21/4.

A. J. Je�reys, L. Kauppi, and R. Neumann. Intensely punctuate meioticrecombination in the class ii region of the major histocompatibility com-plex. Nature Genetics, 29(2):217�222, 2001.

76

Page 79: speciale-thilde

Randall C. Johnson, George W. Nelson, Jennifer L. Troyer, James A. Lau-tenberger, Bailey D. Kessing, Cheryl A. Winkler, and Stephan J. O'Brien.Accounting for multiple comparisons in a genome-wide association study(gwas). BMC Genomics, 11(724):1471�2164, 2010.

Eric Jorgenson and John S. White. Coverage and power in genomewideassociation studies. The American Journal og Human Genetics, 78:884�888, 2006.

Luke Jostins and Je�rey C. Barrett. Genetic risk prediction in complexdesease. Human Molecular Genetics, 2011.

Jia Kang, Subra Kugathasan, Michael Georges, Hongyu Zhao, Judy H. Cho,and the NIDDK IBD Genetics Consortium. Improved risk prediction forcrohn's desease with a multi-locus approach. Human Molecular Genetics,20(12):2435�2442, 2011.

WJ Kent, CW Sugnet, and AS Hinrichs. Ucsc genome browser. URLhttp://genome.ucsc.edu.

Augustine Kong, Gudmar Thorleifsson, and Daniel F. Gudbjartsson. Fine-scale recombination rate di�erences between sexes, populations and indi-viduals. Nature, 467:1099�1103, 2010.

Peter Kraft, Eleftheria Zeggini, and John P. A. Loannidis. Replication ingenome-wide association studies. Statistical Science, 24(4):561�573, 2009.

Jin Liu, Jian Huang, Shuanggae Ma, and Kai Wang. Incorporating groupcorrelations in genome-wide association studies using smoothed group las-so. Biostatistics, 10.1093/biostatistics/kxs034(advance), 2012.

J. B. MacQueen. Some methods for classi�cation and analysis of multivariateobservations. Proceedings of the Fifth Symposium on Math, Statistics, andProbability, pages 281�297, 1967.

Jonathan Marchini and Bryan Howie. Genotype imputation for genome-wideassociation studies. Nature Genetics, 11:499�511, 2010.

Nicolai Meinshausen and Peter Bühlmann. Stability selection. Journal ofthe Royal Statistical Society, 72(4):417�473, 2010.

NCBI. National center for biotechnology information. URLwww.ncbi.nlm.nih.gov/.

Benjamin M. Neale, Manuel A. R. Ferreira, Sarah E. Medland, and DaniellePosthuma. Statistical Genetics. Taylor and Francis, 1. edition, 2008.

Bjørn Norheim. Ndla. http://ndla.no/nn/node/3093?fag=7, 2013. Hentet21/4.

77

Page 80: speciale-thilde

Shaun Purcell. Plink(v1.07). URL http://pngu.mgh.harvard.edu/purcell

/plink/.

R Core Team. R: A Language and Environment for Statistical Computing.R Foundation for Statistical Computing, Vienna, Austria, 2012. URLhttp://www.R-project.org. ISBN 3-900051-07-0.

Paul Scheet and Matthew Stephens. A fast and �exible statistical model forlarge-scale population genotype data: Applications to inferring genotypesand haplotypic phase. The American Journal of Human Genetics, 78:629�644, 2006.

Tobias Sing, Oliver Sander, Niko Beerenwinkel, and Thomas Lengauer.ROCR: Visualizing the performance of scoring classi�ers., 2012. URLhttp://CRAN.R-project.org/package=ROCR. R package version 1.0-4.

Montgomery Slatkin. Linkage disequilibrium - understanding the evolutio-nary past and mapping the medical future. Nature reviews - Genetics, 9,2008.

Chris C. A. Spencer, Zhan Su, Peter Donnelly, and Jonathan Marchini. De-signing genome-wide association studies: Sample size, power, imputation,and the choice of genotyping chip. PLoS Genetics, 5(5):e1000477, 2009.

Robert Tibshirani. Regression shrinkage and selection via the lasso. Journalof the Royal Statistical Society. Series B (Methodological), 58, 1996.

Lipo Wang. Support vector machines, theory and applications. Springer, 1.edition, 2005. Kapitel 1.

Tong Tong Wu, Yi Fang Chen, Trevor Hastie, Eric Sobel, and Kenneth Lan-ge. Genomewide association analysis by lasso penalized logistic regression.Bioinformatics, 25(6):714�721, 2009.

J Yang, SH Lee, ME Goddard, and PM Visscher. Gcta:a tool for genome-wide complex trait analysis. AmericanJournal of Human Genetics, Jan 88(1):76�82, 2011. URLwww.complextraitgenomics.com/software/gcta.

Andreas Ziegler and Inke R. König. A Statistical Approach to Genetic Epi-demiologi. Wiley-Blackwell, 2. edition, 2010.

Hui Zou and Trevor Hastie. Regularization and variable selection via theelastic net. Journal of the Royal Statistical Society, series B, 67(2):301�320, 2005.

78

Page 81: speciale-thilde

Bilag I

Synopsis

Nedenstående blev jævnfør gældende regler a�erevet til vejleder og studiele-der halvvejs inde i specialeforløbet.

Problemformulering

Det er efterhånden overkommeligt både i tid og pris at genotype enkelt-nukleotidpolymor�er, de såkaldte SNPs, langs hele det menneskelige genom,og på denne måde erhverve data der antages at repræsentere et individsgen-pro�l.

Disse genomiske SNP-data har gennem de sidste par år været genstandfor Genome-Wide Association Studies (GWA-studier), hvis formål har væretat identi�cere et eller �ere områder langs genomet som er associeret meden given sygdom. Sådanne områder er blevet fundet i stor stil, men de harvist sig (bortset fra få tilfælde) typisk at forklare en lille procentdel af vari-ationen i sygdommen. Dette har gjort, at risikoprædiktion baseret på dissesigni�kante SNPs ikke har vist sig særlig e�ektivt.

Formålet med dette speciale er at anvende og sammenligne forskelligemetoder til genetisk risikoprædiktion. I denne sammenhæng udvikles en nymetode som sammenlignes med �ere eksisterende.

Disposition

Specialet vil starte med en kort introduktion til biologien bag SNP-data,herunder genomets opbygning og teorien omkring genetisk rekombination.Der gives endvidere en introduktion til Hardy-Weinbergs ligevægt og kob-lingsuligevægt (LD) som er to meget centrale begreber i GWA-studier.

Dernæst introduceres teorien bag associationsanalyse mellem fænotyperog genetiske markører, herunder logistisk regression og Cochran-Armitage'strend test. Det forklares hvordan enkelt-SNP-tests kan udvides til konceptetomkring GWA-studier, og hvordan man håndterer multiple test-problemet.

79

Page 82: speciale-thilde

Her introduceres også imputation, som er en metode til at prædiktere mang-lende observationer, ved hjælp af den underliggende LD-struktur i genomet.

Herefter præsenteres de forskellige metoder jeg vil sammenligne til risi-koprædiktion i GWA-studier. Disse indbefatter en standard logistisk regres-sionsmodel baseret på de n mest signi�kante SNPs, en logistisk regressions-model med lasso-penalisering anvendt på et udtyndet datasæt, således at deresterende variable er tilnærmelsesvist uafhængige og SparSNP som er enmetode baseret på support vector machines. Herudover afprøves en metodebaseret på at inddele de enkelte SNPs i grupper baseret på rekombinations-hotspots, således at der er en høj grad af korrelation mellem SNPs indenforsamme gruppe. For hver gruppe beregnes principalkomponenterne, og de før-ste af disse benyttes i en logistisk regressionsmodel med lasso-penalisering.

Software til at køre denne LD-gruppe-baserede nye metode skrives i R.Metoderne testes på et eller �ere SNP-datasæt, og deres præstation indenforrisikoprædiktion sammenlignes. Det diskuteres hvorvidt genetisk risikopræ-diktion virker som en reel mulighed nu og i fremtiden.

80