Ku 05 08 2009
Transcript of Ku 05 08 2009
Open problems in association mapping
Thomas Mailund
!"!!"#$%&$'()*"%(+,&&&&&&&&&&&&&&&&&&&&&&&
&
Bioinformatics Research Centre
Open problems in association mapping
Thomas Mailund
!"!!"#$%&$'()*"%(+,&&&&&&&&&&&&&&&&&&&&&&&
&
Bioinformatics Research Centre
Stuff about
Overview
• Tutorial
• Multi-marker methods - rare(er) variants
• Multi-loci methods - epistasis
Tutorial
“Genetic” diseases
Gunshot w
oundsC
ar accidents
Smoking induced
lung cancer
Cardiovascular
diseaseO
besityD
iabetes 2
Alzheim
erSchizophrenia
BRC
A1
breast cancer
Cystic fibrosis
Haem
ophilia
Disease mapping...
--A--------C--------A----G---X----T---C---A------T--------G--------A----G---X----C---C---A------A--------G--------G----G---X----C---C---A------A--------C--------A----G---X----T---C---A------T--------C--------A----G---X----T---C---A------T--------C--------A----T---X----T---A---A----
--A--------C--------A----G---X----T---C---A------A--------C--------A----G---X----T---C---A------A--------C--------A----G---X----T---C---G------T--------C--------A----T---X----T---C---A------A--------C--------A----G---X----T---C---A------A--------C--------G----T---X----C---A---A------A--------C--------A----G---X----C---C---G----
Locate disease-affecting polymorphisms
Cases (affected)
Controls (unaffected)
Disease mapping...
--A--------C--------A----G---X----T---C---A------T--------G--------A----G---X----C---C---A------A--------G--------G----G---X----C---C---A------A--------C--------A----G---X----T---C---A------T--------C--------A----G---X----T---C---A------T--------C--------A----T---X----T---A---A----
--A--------C--------A----G---X----T---C---A------A--------C--------A----G---X----T---C---A------A--------C--------A----G---X----T---C---G------T--------C--------A----T---X----T---C---A------A--------C--------A----G---X----T---C---A------A--------C--------G----T---X----C---A---A------A--------C--------A----G---X----C---C---G----
Locate phenotype-affecting polymorphisms
Disease mapping...
--A--------C--------A----G---X----T---C---A------T--------G--------A----G---X----C---C---A------A--------G--------G----G---X----C---C---A------A--------C--------A----G---X----T---C---A------T--------C--------A----G---X----T---C---A------T--------C--------A----T---X----T---A---A----
--A--------C--------A----G---X----T---C---A------A--------C--------A----G---X----T---C---A------A--------C--------A----G---X----T---C---G------T--------C--------A----T---X----T---C---A------A--------C--------A----G---X----T---C---A------A--------C--------G----T---X----C---A---A------A--------C--------A----G---X----C---C---G----
Cases (affected)
Controls (unaffected)
Markers are locally correlated
Marker RelatednessLinkage disequilibrium (LD)
Recombination rate
LD (
r2 )
Empirical Results Theoretical Results
Clark et al. 2003, AJHG 73:285-300. Hein et al. 2005
--A--------C--------A----G---X----T---C---A------T--------G--------A----G---X----C---C---A------A--------G--------G----G---X----C---C---A------A--------C--------A----G---X----T---C---A------T--------C--------A----G---X----T---C---A------T--------C--------A----T---X----T---A---A----
--A--------C--------A----G---X----T---C---A------A--------C--------A----G---X----T---C---A------A--------C--------A----G---X----T---C---G------T--------C--------A----T---X----T---C---A------A--------C--------A----G---X----T---C---A------A--------C--------G----T---X----C---A---A------A--------C--------A----G---X----C---C---G----
Cases (affected)
Controls (unaffected)
Search for indirect signals
Disease mapping...
Indirect Association
--A--------C--------A----G---X----T---C---A------T--------G--------A----G---X----C---C---A------A--------G--------G----G---X----C---C---A------A--------C--------A----G---X----T---C---A------T--------C--------A----G---X----T---C---A------T--------C--------A----T---X----T---A---A----
--A--------C--------A----G---X----T---C---A------A--------C--------A----G---X----T---C---A------A--------C--------A----G---X----T---C---G------T--------C--------A----T---X----T---C---A------A--------C--------A----G---X----T---C---A------A--------C--------G----T---X----C---A---A------A--------C--------A----G---X----C---C---G----
Cases (affected)
Controls (unaffected)
“Tag” markers Unobserved marker
Indirect Association
--A--------C--------A----G---X----T---C---A------T--------G--------A----G---X----C---C---A------A--------G--------G----G---X----C---C---A------A--------C--------A----G---X----T---C---A------T--------C--------A----G---X----T---C---A------T--------C--------A----T---X----T---A---A----
--A--------C--------A----G---X----T---C---A------A--------C--------A----G---X----T---C---A------A--------C--------A----G---X----T---C---G------T--------C--------A----T---X----T---C---A------A--------C--------A----G---X----T---C---A------A--------C--------G----T---X----C---A---A------A--------C--------A----G---X----C---C---G----
Cases (affected)
Controls (unaffected)
Indirect Association
--A--------C--------A----G---X----T---C---A------T--------G--------A----G---X----C---C---A------A--------G--------G----G---X----C---C---A------A--------C--------A----G---X----T---C---A------T--------C--------A----G---X----T---C---A------T--------C--------A----T---X----T---A---A----
--A--------C--------A----G---X----T---C---A------A--------C--------A----G---X----T---C---A------A--------C--------A----G---X----T---C---G------T--------C--------A----T---X----T---C---A------A--------C--------A----G---X----T---C---A------A--------C--------G----T---X----C---A---A------A--------C--------A----G---X----C---C---G----
Cases (affected)
Controls (unaffected)
Indirect Association
--A--------C--------A----G---X----T---C---A------T--------G--------A----G---X----C---C---A------A--------G--------G----G---X----C---C---A------A--------C--------A----G---X----T---C---A------T--------C--------A----G---X----T---C---A------T--------C--------A----T---X----T---A---A----
--A--------C--------A----G---X----T---C---A------A--------C--------A----G---X----T---C---A------A--------C--------A----G---X----T---C---G------T--------C--------A----T---X----T---C---A------A--------C--------A----G---X----T---C---A------A--------C--------G----T---X----C---A---A------A--------C--------A----G---X----C---C---G----
Cases (affected)
Controls (unaffected)
Indirect Association
--A--------C--------A----G---X----T---C---A------T--------G--------A----G---X----C---C---A------A--------G--------G----G---X----C---C---A------A--------C--------A----G---X----T---C---A------T--------C--------A----G---X----T---C---A------T--------C--------A----T---X----T---A---A----
--A--------C--------A----G---X----T---C---A------A--------C--------A----G---X----T---C---A------A--------C--------A----G---X----T---C---G------T--------C--------A----T---X----T---C---A------A--------C--------A----G---X----T---C---A------A--------C--------G----T---X----C---A---A------A--------C--------A----G---X----C---C---G----
Cases (affected)
Controls (unaffected)
GWA
Type 500k - 1m and get 3b
GWA
Type 500k - 1m and get 3bThe common
variants
Multiple test issues
5% significance threshold means 5% false positives...
Null distributionAlternative distribution
Null distributionAlternative distribution
Null distributionAlternative distribution
Null distribution"Real" null distributionAlternative distribution
WTCCC results
GWA a successful approach
~500 validated findings for ~100 different traits
GWA a successful approach
~500 validated findings for ~100 different traits...but much genetic risk remains unexplained!
Why?
Why?
• Rare variants?
• We only tag common variants...
• Gene-gene interaction?
• Marginal effects vs interactions...
Multi-marker methods
Indirect Association
--A--------C--------A----G---X----T---C---A------T--------G--------A----G---X----C---C---A------A--------G--------G----G---X----C---C---A------A--------C--------A----G---X----T---C---A------T--------C--------A----G---X----T---C---A------T--------C--------A----T---X----T---A---A----
--A--------C--------A----G---X----T---C---A------A--------C--------A----G---X----T---C---A------A--------C--------A----G---X----T---C---G------T--------C--------A----T---X----T---C---A------A--------C--------A----G---X----T---C---A------A--------C--------G----T---X----C---A---A------A--------C--------A----G---X----C---C---G----
Cases (affected)
Controls (unaffected)
Indirect Association
--A--------C--------A----G---X----T---C---A------T--------G--------A----G---X----C---C---A------A--------G--------G----G---X----C---C---A------A--------C--------A----G---X----T---C---A------T--------C--------A----G---X----T---C---A------T--------C--------A----T---X----T---A---A----
--A--------C--------A----G---X----T---C---A------A--------C--------A----G---X----T---C---A------A--------C--------A----G---X----T---C---G------T--------C--------A----T---X----T---C---A------A--------C--------A----G---X----T---C---A------A--------C--------G----T---X----C---A---A------A--------C--------A----G---X----C---C---G----
Cases (affected)
Controls (unaffected)
Indirect Association
--A--------C--------A----G---X----T---C---A------T--------G--------A----G---X----C---C---A------A--------G--------G----G---X----C---C---A------A--------C--------A----G---X----T---C---A------T--------C--------A----G---X----T---C---A------T--------C--------A----T---X----T---A---A----
--A--------C--------A----G---X----T---C---A------A--------C--------A----G---X----T---C---A------A--------C--------A----G---X----T---C---G------T--------C--------A----T---X----T---C---A------A--------C--------A----G---X----T---C---A------A--------C--------G----T---X----C---A---A------A--------C--------A----G---X----C---C---G----
Cases (affected)
Controls (unaffected)
Indirect Association
--A--------C--------A----G---X----T---C---A------T--------G--------A----G---X----C---C---A------A--------G--------G----G---X----C---C---A------A--------C--------A----G---X----T---C---A------T--------C--------A----G---X----T---C---A------T--------C--------A----T---X----T---A---A----
--A--------C--------A----G---X----T---C---A------A--------C--------A----G---X----T---C---A------A--------C--------A----G---X----T---C---G------T--------C--------A----T---X----T---C---A------A--------C--------A----G---X----T---C---A------A--------C--------G----T---X----C---A---A------A--------C--------A----G---X----C---C---G----
Cases (affected)
Controls (unaffected)
IndirectMulti-Marker
Association
--A--------C--------A----G---X----T---C---A------T--------G--------A----G---X----C---C---A------A--------G--------G----G---X----C---C---A------A--------C--------A----G---X----T---C---A------T--------C--------A----G---X----T---C---A------T--------C--------A----T---X----T---A---A----
--A--------C--------A----G---X----T---C---A------A--------C--------A----G---X----T---C---A------A--------C--------A----G---X----T---C---G------T--------C--------A----T---X----T---C---A------A--------C--------A----G---X----T---C---A------A--------C--------G----T---X----C---A---A------A--------C--------A----G---X----C---C---G----
Cases (affected)
Controls (unaffected)
Local trees along the genome
Local trees along the genome
Local trees along the genome
Local trees along the genome
Trees and LD
Recombination rate
Tree
sim
ilari
ty
Recombination rate
LD r
2
Clustering on a tree
Disease affecting mutation
Clustering on a tree
Complete penetrance
Incomplete penetrance
Spurious disease
Clustering on a tree
60%
40%
25%
75%
Case/control clusteringis not random on the tree...
Scoring the clustering
Red=casesGreen=controls
Are the case chromosomes significantly over-represented in some clusters?
Besenbacher et al. 2009
Multi-loci methods
AAAGG
AAAGG
A 3 2
G 3 2
0
1.5
3
A G
T 2 3
A 2 3
0
1.5
3
T A
TTAAA
AAATT
AAAGG
AAAGG
TTAAA
AAATT
AT 2 0
AA 1 1
GA 2 0
GT 0 2
0
1
2
AT AA GA GT
Explosion in complexity
500k markers gives us ~125 billion pairs!
Explosion in complexity
500k markers gives us ~2·1016 triplets
• Using protein interaction networks we
• Reduced ~125 billion tests to ~3-4 million
• Reduced corrected significance threshold from ~4·10-13 to ~9·10-8
Perspectives...
• Complete genome sequencing
• No need for tagging
• Rare variants
• Structural variation
• Pathway analysis
• Analysis of pathways as a whole
• Constructing tests from known pathways