L'inferenza statistica e la lettura dei dati

114
L’inferenza statistica e la lettura dei dati Concetti e Applicazioni negli studi genetici Serena Sanna Aula Magna Dipartimento di Fisica Cittadella Universitaria di Monserrato 22 Giugno 2011

description

By Serena Sanna (CNR)@ seminari per la valorizzazione della ricerca22 Giugno 2011

Transcript of L'inferenza statistica e la lettura dei dati

  • 1. Linferenza statistica ela lettura dei datiConcetti e Applicazioni negli studi genetici Serena SannaAula Magna Dipartimento di Fisica Cittadella Universitaria di Monserrato22 Giugno 2011

2. 1/7Premessehttp://www.crs4.it/web/valorisation-and-transfer-of-knowledge/seminar-series Andrea Angius High throughput genotyping and next generation sequencing: nuovi strumenti e strategie di analisi della ricerca genetica Frederic ReinerSequenziamento e analisi bioinformatica del genoma umano Ilenia ZaraStudi di associazione genetica e disegno sperimentale "caso-controllo" 3. 1/7 Indice degli argomenti1) Background e concetti base2) Dove ci serve linferenza statistica?3) Modello matematico4) Lettura e uso dei risultati5) Disegni sperimentali e performance6) Esempi di applicazioni7) Risultati preliminari e lavori in corso 4. 1/7Studi genetici:studiano le variazioni del DNA tra individui ecercano di capire se correlano con un fenotipoclinicoLe variazioni del DNA (o marcatori) sono queipunti del DNA che mostrano delle differenzerispetto ad un genoma di riferimentoNe esistono di diversi tipi, classificati rispetto altipo di variazione 5. 1/7 Maggiormente utilizzati sono gli SNPs (Single Nucleotide Polymorphisms)TAGTAATGCGTATCCACTG Genoma di riferimentoTAGTAATGCGTATCCACTG (genotipo omozigoteallele di riferimento)TAGTAATGCGTATACACTGIndividuo sequenziatoTAGTAATGCGTATCCACTG(genotipo eterozigote)TAGTAATGCGTATACACTG Individuo sequenziatoTAGTAATGCGTATACACTG(genotipo omozigote allele alternativo) 6. 1/7 Studi di associazione genetica 1. individuazione dei polimorfismi 2. verifica della correlazione con la malattia ocon variazioni di un tratto quantitativoC/CA/A C/AC/AC/C A/C A/C A/AC/C A/AC/C C/A C/AC/AA/A A/CA/A A/A A/CA/CVolontari affetti da una patologiaVolontari NON affetti dalla patologiaA=8 A=14C=12C=6 7. 1/7 Studi di associazione genetica 1. individuazione dei polimorfismi 2. verifica della correlazione con la malattia ocon variazioni di un tratto quantitativochisquare testC/CA/A pvalue= 0.77C/AC/AC/C A/C A/C A/A C/C A/AC/CNon significativo! C/A C/AC/AA/AA/CA/A A/A A/CA/CVolontari affetti da una patologiaVolontari NON affetti dalla patologiaA=8 A=14C=12C=6 8. 1/7 Studi di associazione genetica 1. individuazione dei polimorfismi 2. verifica della correlazione con la malattia ocon variazioni di un tratto quantitativo necessario sequenziare il DNA di tutti i volontari in studio e confrontarli con un genoma di riferimento? C/C A/A C/A C/AC/CA/C A/C A/A C/C A/A C/CC/AC/A C/AA/AA/CA/AA/A A/CA/C A=8A=14 C=12 C=6 9. 1/7 Sequenziamento del DNA oggi possibile ad un costo pi abbordabile Ancora proibitivo si vogliono sequenziare diverse migliaia di volontari (numeri necessari per studi genetici di associazione per tratti complessi) Si possono tuttavia utilizzare metodi di inferenza statistica per integrare dati da diverse fonti e tipologie per condurre un sequenziamento virtuale 10. 2/7Strategia:a. Leggere il DNA dei volontari in studio solo parzialmente. Guardare (genotipizzare) quei punti del DNA dove sono gi stati osservati dei polimorfismib. Predire lintera sequenza basandosi sulla similitudine tra individui, le conoscenze sulla struttura e le dinamiche di trasmissione dei cromosomi, e delle sequenze ottenute nel proprio laboratorio o reperibili nei database pubblici 11. 2/7Genotyping Arrays 12. 2/7Genotyping Arraysmarcatore 13. 2/7Genotyping ArraysmarcatoreAGGGA 14. 2/7Genotyping arrays: Esistono diverse case produttriciMarcatori predefiniti in base a degli studi delprogetto HapMap, che ha identificato ~2.5M SNPsFino a 1 milione di marcatori genetici per circa200-300 euro a persona 15. Arrays vs Sequenze Economici Costosi Ristretti allo studio di M * b(x,y),M->m ATTCGA G C ACTGAC T T 87. 4/7Lettura dei datiPer ogni individuo, e ad ogni posizione inferita ottengo le probabilit per ogni possibile genotipo. Quindi:Se lo SNP ha alleli A/G, avremo, per ogni individuo, 3 probabilit: P(A/A) , P(A/G) , P(G/G)Come si utilizzano? 88. 4/7Lettura dei dati1. Genotipo pi probabileoppure2. Dosaggio allelico una quantit che tiene traccia della incertezza dei genotipi gA = 2 * P(A/A) + P(A/G) 0gA2Rappresenta il numero atteso di copie dellallele A 89. 4/7Pros del dosaggio allelico rispetto al genotipo Mantiene tutte le possibili configurazioni con le loroprobabilit in un unico valore Files pi piccoli e meno parametri da considerare Pu facilmente essere incorporato nelle analisi diassociazione usando regressioni lineari o logistiche(per tratti quantitativi e discreti) Considera i genotipi come variabile continua La qualit pu essere valutata pi accuratamente(prossima slide) 90. 4/7Come valutare la qualit dei risultati Se il dosaggio rappresenta il numero atteso di copie dellallele A, e poich ogni individuo ha due alleli, la distribuzione che lo modella una binomiale con probabilit p=frequenza allele A= 2 2(1)2 = () 91. 4/7Come valutare la qualit dei risultati Se il dosaggio rappresenta il numero atteso di copie dellallele A, e poich ogni individuo ha due alleli, la distribuzione che lo modella una binomiale con probabilit p=frequenza allele A= 2Si stimato in dati reali che un20.30 2(1)garantisce leliminazione di SNPs di scarsa2 = () qualit. Con questo filtro, ci si aspetta discartare il 70% di marcatori scarsamenteinferiti (accuratezza 80%) e solo 0.50% diquelli bene inferiti (accuratezza50%) 92. 5/7 Fattori che migliorano la qualit diinferenza Alta densit dei marcatori iniziali rispetto al pannello di riferimento Vicinanza genetica degli individui inclusi nel pannello di riferimento con la popolazione in studio Aumento del numero di aplotipi nel pannello di riferimento 93. 5/7Performance per diversi chipAffymetrixAffymetrixN SNPs utiliN SNPs inferitiTasso di erroreChipper inferenzaMAF 5%MAF 5% MAF5% MAF 5%A100K 100,844 259,261 2,086,690 1.80 7.85A250K (Sty) 195,864 251,807 2,002,214,1.33 4.12A250K (Nsp) 216,747 250,364 1,983,146 1.26 3.94A500K 412,611 234,049 1,809,352 0.93 2.12A1M 676,182 209,636 1,580,321 0.73 1.23Li et al, MaCH: Using Sequence and Genotype Data to Estimate Haplotypesand Unobserved Genotypes. Genetic Epidemiology 34 : 816834 (2010) 94. 5/7 Huang et al. Genotype-Imputationaccuracy across Worldwide HumanPopulations. AJHG 2009 95. 5/7Strategie di utilizzo Supponiamo siano disponibili dati GWAS (300K-1M SNPs) su un campione di studio. Possiamo inferiredatabase pubblici ~1.5-2 M SNPs da HapMap ~ 13M SNPs da 1000 Genomes sequenze Sanger (es. sequenziati per un gene dilaboratoriointeresse 100 campioni di cui si hanno i dati GWAS) sequenze intero genoma 96. 6/7Utilit dellintegrazione tramite inferenza: Diverse strategie per diversi obiettivi. Due esempi. 97. 6/71. Scoperta nuovi geni di suscettibilit centinaia di pubblicazioni esistenti su scoperte effettuate tramite integrazione dei dati HapMap, una decina tramite integrazione dei dati 1000 Genomes 882 pazienti+872 individui sani Genotipizzati 1M SNPs (Affymetrix) Inferenza HapMap1000 Genomes Identificato un gene di suscettibilit per la Sclerosi MultiplaSanna, Pitzalis, Zoledziewska et al.Variants within the immunoregulatory CBLB gene are associated with multiple sclerosisNature Genetics 2010 98. 6/72. Valutazione dettagliata di regioni giidentificate tramite i GWAS sequenziati 256 individui con ilSanger a 5 geni associati con LDL-C Identificate nuove varianti, tra cui unarara (freq 0.5%) sardo-specifica Le varianti identificate raddoppianolereditabilit spiegata da questi genirispetto alle varianti trovate nel GWAS Sanna, Li, Mulas et al. PlosGen 2011 (in press) 99. 7/7Scoperta e mappaggio fineDue obiettivi raggiungibili con un unico sforzo? 100. 7/7Progetti in corsoStudio su Sclerosi Multipla Studio delle condizioni legateDiabete di Tipo 1allinvecchiamento individui affetti e volontari sani studia la popolazione da tutta lisola dellogliastra raccogliendo undettaglio quadro clinico, inclusiimmuno-fenotipi~2500 pazienti MS~6,000 volontari di 700~1500 pazienti T1D famiglie~2500 volontari sani Studio Longitudinale(visite ogni 3 anni, dal 2001 101. 7/7Sequenze 2,000 Sardi @ 3x in mediaPannello di sequenze di riferimento con for 2,000 IndividuiGenotipi da arraysGenotipi da arraysper 6,500 individui Inferenza per 6,000 individui(MST1D GWAS) Statistica (Studio in Ogliastra) Sequenze virtualiper 12,500 individui 102. 7/7 Risultati preliminari sullinferenza Sequenziati+analizzati+costruzione pannello di riferimento: completato per 508 Sardi Qualit dellimputazione migliore rispetto ad un pannello di simili dimensioni con individui EuropeiReference PanelImputation Accuracy (r2) IN SARDINIAMAF 1-3%MAF 3-5%MAF 5%1000G (563) 0.750.88 0.94 Sardinia (508) 0.900.95 0.97 103. 7/7 ImplementazioneLalgoritmo discusso implementato nei software MACH e IMPUTE (autori Abecasis e Marchini)Esistono altri algoritmi pi o meno simili (implementati in Beagle, TUNA, PLINK). Simulazioni e applicazioni su diversi data set indicano che lalgoritmo di MACH e IMPUTE quello pi accurato. Pei et al. Analyses and Comparison of Accuracy of Different Genotype Imputation Methods. PlosOne 2008 104. Riferimenti e bibliografia Li et al, MaCH: Using Sequence and Genotype Data to Estimate Haplotypes and Unobserved Genotypes. Genetic Epidemiology 34 : 816834 (2010) Marchini and Howie. Genotype imputation for genome-wide association studies. Nat Rev Gen 11:499-511 (2010) Huang et al. Genotype-Imputation accuracy across Worldwide Human Populations. AJHG 84, 235-50, (2009) Pei et al. Analyses and Comparison of Accuracy of Different Genotype Imputation Methods. PlosOne 3(10):e3551 (2008) Li, Willer, Sanna e Abecasis. Genotype Imputation. Annu. Rev. Genomics Hum. Genet. 2009. 10:387406 105. Riferimenti e bibliografia MACHhttp://www.sph.umich.edu/csg/abecasis/MACH/ minimachttp://genome.sph.umich.edu/wiki/Minimac IMPUTE e IMPUTE 2http://mathgen.stats.ox.ac.uk/impute/impute.html 1000 Genomes Project Illuminawww.1000genomes.orgwww.illumina.com HapMap Project Affymetrixwww.hapmap.org www.affymetrix.com 106. Ringraziamenti CNR-IRGBCRS4 Francesco Cucca Chris Jones Eleonora PorcuIlenia Zara Maristella SteriMaria Valentini Carlo Sidore (1/2)Frederic Reiner il team Progenia (tanti!) Riccardo Berutti Rossano AtzeniUniversity of MichiganGoncalo Abecasis Andrea AngiusGSP group Hyun M Kang Lidia LeoniHPC group Carlo Sidore (1/2)Gianluigi ZanettiDC gropTutti i volontari che partecipano alla ricercaNational Institute of Aging (USA)Universit degli studi di Cagliari e SassariCliniche e ospedali della Sardegna 107. Summer Schoolhttp://www.crs4.it/web/international-project-office/sc2011 108. 7/7 Tempi e costi del calcolo MACH/IMPUTE O(H2 * M * N) Esempio: 1 settimana per inferire 13 M SNPs su 2000 individui genotipizzati per 500K SNPs, con 120 aplotpi di riferimento, usando 22 macchine da 8 core con 16G di RAM.Se ho il doppio degli aplotipi, il tempo va moltiplicato per 4. (4 settimane) tempi proibitivi nellera del highthroughput! 109. 7/7Inferenza a 2 steps 1. si costruiscono gli aplotipi degli individui in studiousando gli SNPs genotipizzati 2. inferenza aploide invece che sui genotipiImplementato in: minimac e IMPUTE v2Complessit: O(H * M * N) 110. 7/7Inferenza a 2 steps 1. si costruiscono gli aplotipi degli individui in studiousando gli SNPs genotipizzati Tempi lunghi, ma task unitario 2. inferenza aploide invece che sui genotipi Step da ripetere ad ogni costruzione di pannello di riferimentoImplementato in: minimac e IMPUTE v2Complessit: O(H * M * N) 111. 7/7 Inferenza a 2 steps 1. si costruiscono gli aplotipi degli individui in studiousando gli SNPs genotipizzati Tempi lunghi, ma task unitario 2. inferenza aploide invece che sui genotipi Step da ripetere ad ogni costruzione di pannello di riferimentoImplementato in: minimace IMPUTE v2Complessit: O(H * M * N)Da ripetere se si hanno nuovi individui o nuovi genotipi! Collaborazione con il gruppo di G. Zanetti del DC group del CRS4 per una nuova implementazione di MACH in Hadoop MapReduce 112. Previous equation obtained as: