Evaluation parasismique des ponts-routes existants Documentation
Introduction au GBS - South...
Transcript of Introduction au GBS - South...
![Page 1: Introduction au GBS - South Greensouthgreen.fr/sites/southgreen.fr/files/GBS_overview_formation... · multiplexage et couverture • Pipelines d’analyse déjà existants. Inconvénients](https://reader031.fdocuments.in/reader031/viewer/2022031018/5b9c11a209d3f2194e8ba373/html5/thumbnails/1.jpg)
Introduction au GBS
Hueber Yann, Alexis Dereeper, Gautier Sarah, François Sabot, Vincent Ranwez, Jean-François Dufayard
9-13 février 2015
![Page 2: Introduction au GBS - South Greensouthgreen.fr/sites/southgreen.fr/files/GBS_overview_formation... · multiplexage et couverture • Pipelines d’analyse déjà existants. Inconvénients](https://reader031.fdocuments.in/reader031/viewer/2022031018/5b9c11a209d3f2194e8ba373/html5/thumbnails/2.jpg)
Sommaire
• Définition
• Les différentes méthodologies
• Exemple du RADseq (single, paired-end)
• Implications bioinformatiques
• Applications (avantages, inconvénients)
• Pipelines existants
![Page 3: Introduction au GBS - South Greensouthgreen.fr/sites/southgreen.fr/files/GBS_overview_formation... · multiplexage et couverture • Pipelines d’analyse déjà existants. Inconvénients](https://reader031.fdocuments.in/reader031/viewer/2022031018/5b9c11a209d3f2194e8ba373/html5/thumbnails/3.jpg)
Définition
• GBS = Genotyping by Sequencing
• Génotypage de milliers de variants (SNP, INDEL) chez de nombreux individus
• Réduction de la complexité des génomes ciblés Utilisation d’enzyme de restriction
• Utilisation des technologies NGS (Illumina, etc..)
![Page 4: Introduction au GBS - South Greensouthgreen.fr/sites/southgreen.fr/files/GBS_overview_formation... · multiplexage et couverture • Pipelines d’analyse déjà existants. Inconvénients](https://reader031.fdocuments.in/reader031/viewer/2022031018/5b9c11a209d3f2194e8ba373/html5/thumbnails/4.jpg)
Pourquoi ?
• Centaines d’individus séquencés simultanément (multiplexage des individus sur une même lane)
• Milliers/Millions de marqueurs
• Sous-échantillonnage du génome
Prix attractifs
![Page 5: Introduction au GBS - South Greensouthgreen.fr/sites/southgreen.fr/files/GBS_overview_formation... · multiplexage et couverture • Pipelines d’analyse déjà existants. Inconvénients](https://reader031.fdocuments.in/reader031/viewer/2022031018/5b9c11a209d3f2194e8ba373/html5/thumbnails/5.jpg)
Réduction de la complexité
• Avec une (ou plusieurs) enzyme de restriction
– Large choix
– Site de reconnaissance de tailles différentes
– Sensibilité à la méthylation (cibler les régions géniques, éviter les régions répétées)
ADNg
Site de restriction
![Page 6: Introduction au GBS - South Greensouthgreen.fr/sites/southgreen.fr/files/GBS_overview_formation... · multiplexage et couverture • Pipelines d’analyse déjà existants. Inconvénients](https://reader031.fdocuments.in/reader031/viewer/2022031018/5b9c11a209d3f2194e8ba373/html5/thumbnails/6.jpg)
Méthodologies « GBS »
• Préparation des échantillons
Restriction site associated DNA markers
Double digest RAD
Genotyping by sequencing
Reduce-representation library
![Page 7: Introduction au GBS - South Greensouthgreen.fr/sites/southgreen.fr/files/GBS_overview_formation... · multiplexage et couverture • Pipelines d’analyse déjà existants. Inconvénients](https://reader031.fdocuments.in/reader031/viewer/2022031018/5b9c11a209d3f2194e8ba373/html5/thumbnails/7.jpg)
RAD
• Digestion : fragmentation de l’ADNg avec une enzyme de restriction
Digestion
Ligation
Pooling
Random shear
Size selection
Ligation
![Page 8: Introduction au GBS - South Greensouthgreen.fr/sites/southgreen.fr/files/GBS_overview_formation... · multiplexage et couverture • Pipelines d’analyse déjà existants. Inconvénients](https://reader031.fdocuments.in/reader031/viewer/2022031018/5b9c11a209d3f2194e8ba373/html5/thumbnails/8.jpg)
RAD
• Ligation : ajout d’un adaptateur commun + barcode – Barcode = séquence de 4 à 8 bases qui permet d’identifier un individu
barcode Site de
restriction ADNg Adaptateur 1
Digestion
Ligation
Pooling
Random shear
Size selection
Ligation
![Page 9: Introduction au GBS - South Greensouthgreen.fr/sites/southgreen.fr/files/GBS_overview_formation... · multiplexage et couverture • Pipelines d’analyse déjà existants. Inconvénients](https://reader031.fdocuments.in/reader031/viewer/2022031018/5b9c11a209d3f2194e8ba373/html5/thumbnails/9.jpg)
RAD
• Pooling
• Random shear
• Size selection
Digestion
Ligation
Pooling
Random shear
Size selection
Ligation
![Page 10: Introduction au GBS - South Greensouthgreen.fr/sites/southgreen.fr/files/GBS_overview_formation... · multiplexage et couverture • Pipelines d’analyse déjà existants. Inconvénients](https://reader031.fdocuments.in/reader031/viewer/2022031018/5b9c11a209d3f2194e8ba373/html5/thumbnails/10.jpg)
RAD
• Ligation
• PCR
barcode Site de
restriction ADNg Adaptateur 1 Adaptateur 2
Digestion
Ligation
Pooling
Random shear
Size selection
Ligation
![Page 11: Introduction au GBS - South Greensouthgreen.fr/sites/southgreen.fr/files/GBS_overview_formation... · multiplexage et couverture • Pipelines d’analyse déjà existants. Inconvénients](https://reader031.fdocuments.in/reader031/viewer/2022031018/5b9c11a209d3f2194e8ba373/html5/thumbnails/11.jpg)
RAD : single vs paired-end
• Single-end
Read forward
Site de restriction
• Paired-end
SE : jusqu’à 300pb PE : 300 pb + 300 à 500 pb
Read reverse
ADNg
![Page 12: Introduction au GBS - South Greensouthgreen.fr/sites/southgreen.fr/files/GBS_overview_formation... · multiplexage et couverture • Pipelines d’analyse déjà existants. Inconvénients](https://reader031.fdocuments.in/reader031/viewer/2022031018/5b9c11a209d3f2194e8ba373/html5/thumbnails/12.jpg)
RAD : paired-end contig
![Page 13: Introduction au GBS - South Greensouthgreen.fr/sites/southgreen.fr/files/GBS_overview_formation... · multiplexage et couverture • Pipelines d’analyse déjà existants. Inconvénients](https://reader031.fdocuments.in/reader031/viewer/2022031018/5b9c11a209d3f2194e8ba373/html5/thumbnails/13.jpg)
RAD : paired-end contig
![Page 14: Introduction au GBS - South Greensouthgreen.fr/sites/southgreen.fr/files/GBS_overview_formation... · multiplexage et couverture • Pipelines d’analyse déjà existants. Inconvénients](https://reader031.fdocuments.in/reader031/viewer/2022031018/5b9c11a209d3f2194e8ba373/html5/thumbnails/14.jpg)
RAD : single-end vs paired-end
![Page 15: Introduction au GBS - South Greensouthgreen.fr/sites/southgreen.fr/files/GBS_overview_formation... · multiplexage et couverture • Pipelines d’analyse déjà existants. Inconvénients](https://reader031.fdocuments.in/reader031/viewer/2022031018/5b9c11a209d3f2194e8ba373/html5/thumbnails/15.jpg)
Fichier fastq
• Exemple (2 premiers reads)
barcode Site de restriction
ADNg
@HWI-ST1085:185:C30RAACXX:6:1101:2648:2087 1:N:0: TGCTTTGCAGCGTGATAAAGGTTTGCCAGAGAAGCTGCAGGCTCGCTCTCCTGGCGAATC + ???DDBBDDDDDA@E?BB>4<<CE+CEE<C89?D@DDCABBDD9D6CD=8@==@65::/? @HWI-ST1085:185:C30RAACXX:6:1101:2614:2089 1:N:0: ATAGATTGCAGCTGCCACTGCCGCAGCTGCCTCCCCTTCTCCTCTTCCTCGCTTCTTCCC + ?@@DFFFDFHHGH>EGGIDEHIGIDGI>?DBB9DGGADFBBF@GGH4BAH@G@FBDCAEF
Read indiv 1
Read indiv 2
…
![Page 16: Introduction au GBS - South Greensouthgreen.fr/sites/southgreen.fr/files/GBS_overview_formation... · multiplexage et couverture • Pipelines d’analyse déjà existants. Inconvénients](https://reader031.fdocuments.in/reader031/viewer/2022031018/5b9c11a209d3f2194e8ba373/html5/thumbnails/16.jpg)
Contrôle qualité
• Filtrer sur la qualité/longueur des reads • Enlever les éventuels adaptateurs communs • Garder les reads sans erreur de séquençage dans
le barcode + site de coupure ? • Si données pairées : garder read 1 et read 2
correspondant dans le même ordre dans fichier fastq1 et fastq2
• Vérification de la qualité avec FASTQC
Outils: cutadapt, trimmomatic, etc..
![Page 17: Introduction au GBS - South Greensouthgreen.fr/sites/southgreen.fr/files/GBS_overview_formation... · multiplexage et couverture • Pipelines d’analyse déjà existants. Inconvénients](https://reader031.fdocuments.in/reader031/viewer/2022031018/5b9c11a209d3f2194e8ba373/html5/thumbnails/17.jpg)
Démultiplexage
• Obtenir un fichier fastq unique par individu
FASTQ (reads correspondant à n
individus)
Fichier Barcode (correspondance NOM
indiv <--> barcode
fastx_splitter.pl TASSEL STACKS
FASTQ (indiv 1)
FASTQ (indiv 2)
FASTQ (indiv n)
…
Suppression des barcodes mais pas des sites de restrictions !!
![Page 18: Introduction au GBS - South Greensouthgreen.fr/sites/southgreen.fr/files/GBS_overview_formation... · multiplexage et couverture • Pipelines d’analyse déjà existants. Inconvénients](https://reader031.fdocuments.in/reader031/viewer/2022031018/5b9c11a209d3f2194e8ba373/html5/thumbnails/18.jpg)
Applications • Linkage/QTL mapping
• Population genomics
• Marker discovery
• Phylogenetics/geography
• Genome assembly
![Page 19: Introduction au GBS - South Greensouthgreen.fr/sites/southgreen.fr/files/GBS_overview_formation... · multiplexage et couverture • Pipelines d’analyse déjà existants. Inconvénients](https://reader031.fdocuments.in/reader031/viewer/2022031018/5b9c11a209d3f2194e8ba373/html5/thumbnails/19.jpg)
Applications • Filtration pipeline on raw variants (SNPs, short indels) called on 106 accessions of Musa using GBS
single-end methodology to get highly reliable markers for Genome Wide Association Studies (GWAS).
# Raw variants (SNPs, short indels)
148,108
22,456
21,769
5,544
1) Remove individuals with missing data > 50 % 2) Discard markers with one or more missing genotypes
5) Remove markers with Fis (inbreeding coefficient) score outside normal range of gaussian distribution (in our case inferior to -0,8)
6) Keep markers with minor allele frequency (MAF) ≥ 5 % 7) Set to missing genotypes positions with read depth < 10 8) Discard markers > 9 missing genotypes
# Analysis-ready variants
46,418
3) Remove non-polymorphic markers 4) Keep only biallelic markers
![Page 20: Introduction au GBS - South Greensouthgreen.fr/sites/southgreen.fr/files/GBS_overview_formation... · multiplexage et couverture • Pipelines d’analyse déjà existants. Inconvénients](https://reader031.fdocuments.in/reader031/viewer/2022031018/5b9c11a209d3f2194e8ba373/html5/thumbnails/20.jpg)
Applications
• Phylogenetic trees generated with markers coming from a) GBS (3257 SNPs) and b) RAD sequencing (12880 SNPs) on 11 Musa diploids
banksii
pisang jari buaya (cv)
tomolo (cv)
microcarpa
zebrina pisang mas (cv)
siamea
burmannica
burmannicoïdes
balbisiana
AB
BB
ney poovan (cv)
AA AA
AB
BB a) b)
![Page 21: Introduction au GBS - South Greensouthgreen.fr/sites/southgreen.fr/files/GBS_overview_formation... · multiplexage et couverture • Pipelines d’analyse déjà existants. Inconvénients](https://reader031.fdocuments.in/reader031/viewer/2022031018/5b9c11a209d3f2194e8ba373/html5/thumbnails/21.jpg)
Avantages
• Simple et rapide à mettre en œuvre
• Pas besoin de beaucoup d’ADN (100ng/indiv)
• Applicable à toutes les espèces (avec ou sans génome de référence)
• Flexible : plus ou moins de marqueurs selon multiplexage et couverture
• Pipelines d’analyse déjà existants
![Page 22: Introduction au GBS - South Greensouthgreen.fr/sites/southgreen.fr/files/GBS_overview_formation... · multiplexage et couverture • Pipelines d’analyse déjà existants. Inconvénients](https://reader031.fdocuments.in/reader031/viewer/2022031018/5b9c11a209d3f2194e8ba373/html5/thumbnails/22.jpg)
Inconvénients
• Plus la librarie GBS est grande, plus on a de données manquantes
• Polymorphismes dans les sites de restrictions
• Variations structurales entre individus
• Hétérogénéité des qualités/quantités d’ADN
• Séquences répétées
![Page 23: Introduction au GBS - South Greensouthgreen.fr/sites/southgreen.fr/files/GBS_overview_formation... · multiplexage et couverture • Pipelines d’analyse déjà existants. Inconvénients](https://reader031.fdocuments.in/reader031/viewer/2022031018/5b9c11a209d3f2194e8ba373/html5/thumbnails/23.jpg)
Coûts (ex librairie GBS 96 échantillons)
![Page 24: Introduction au GBS - South Greensouthgreen.fr/sites/southgreen.fr/files/GBS_overview_formation... · multiplexage et couverture • Pipelines d’analyse déjà existants. Inconvénients](https://reader031.fdocuments.in/reader031/viewer/2022031018/5b9c11a209d3f2194e8ba373/html5/thumbnails/24.jpg)
Pipeline TASSEL GBS (Cornell)
• Pipeline de découverte des variants
Tag = séquence
de read unique
![Page 25: Introduction au GBS - South Greensouthgreen.fr/sites/southgreen.fr/files/GBS_overview_formation... · multiplexage et couverture • Pipelines d’analyse déjà existants. Inconvénients](https://reader031.fdocuments.in/reader031/viewer/2022031018/5b9c11a209d3f2194e8ba373/html5/thumbnails/25.jpg)
Logiciel TASSEL (v 5.0)
![Page 26: Introduction au GBS - South Greensouthgreen.fr/sites/southgreen.fr/files/GBS_overview_formation... · multiplexage et couverture • Pipelines d’analyse déjà existants. Inconvénients](https://reader031.fdocuments.in/reader031/viewer/2022031018/5b9c11a209d3f2194e8ba373/html5/thumbnails/26.jpg)
Pipeline STACKS
![Page 27: Introduction au GBS - South Greensouthgreen.fr/sites/southgreen.fr/files/GBS_overview_formation... · multiplexage et couverture • Pipelines d’analyse déjà existants. Inconvénients](https://reader031.fdocuments.in/reader031/viewer/2022031018/5b9c11a209d3f2194e8ba373/html5/thumbnails/27.jpg)
Pipeline STACKS
• Détection de SNP
• Cartographie Génétique
• Construction de mini-contig (données pairées)
• Génomique des populations (avec ou sans génome de référence)
![Page 28: Introduction au GBS - South Greensouthgreen.fr/sites/southgreen.fr/files/GBS_overview_formation... · multiplexage et couverture • Pipelines d’analyse déjà existants. Inconvénients](https://reader031.fdocuments.in/reader031/viewer/2022031018/5b9c11a209d3f2194e8ba373/html5/thumbnails/28.jpg)
Références
• Davey J.W., Hohenlohe P.A., Etter P.D., Boone J.Q., Catchen J.M., Blaxter
M.L. (2011) Genome-wide genetic marker discovery and genotyping using next-generation sequencing. Nature Reviews Genetics 12(7):499-510.
• Baird NA, Etter PD, Atwood TS, Currey MC, Shiver AL, Lewis ZA, Selker EU, Cresko WA and Johnson EA (2008) Rapid SNP discovery and genetic mapping using sequenced RAD markers. PLoSONE 3: e3376.
• Bradbury PJ, Zhang Z, Kroon DE, Casstevens TM, Ramdoss Y, Buckler ES. (2007) TASSEL: Softwar for association mapping of complex traitts in diverse samples. Bioinformatics 23:2633-2635.
• J. Catchen, P. Hohenlohe, S. Bassham, A. Amores, and W. Cresko. Stacks: an analysis tool set for population genomics. Molecular Ecology. 2013.
• Karim Gharbi RAD sequencing: next-generation tools for an old problem (workshop Rennes 30/01/2014)