Une plateforme d’annotation et de génomique comparative...

38
1 LABGEM - Laboratoire d'Analyse Bioinformatique pour la Génomique et le Métabolisme - dir. C. Médigue Une plateforme d’annotation et de génomique comparative des microbes Institut de Génomique CEA / UMR CNRS “Génomique Métabolique”- dir. M. Salanoubat http://www.genoscope.cns.fr/agc/microscope Introduction à

Transcript of Une plateforme d’annotation et de génomique comparative...

Page 1: Une plateforme d’annotation et de génomique comparative ...pdessen.free.fr/M2BI/TP-Introduction-lg.pdf · Partie 1 : Annotation Syntaxique 1. Centrez la carte du génome d’intérêt

1

LABGEM - Laboratoire d'Analyse Bioinformatique pour la Génomique et le Métabolisme - dir. C. Médigue"

Une plateforme d’annotation et de génomique comparative des microbes

Institut de Génomique CEA / UMR CNRS “Génomique Métabolique”- dir. M. Salanoubat"

http://www.genoscope.cns.fr/agc/microscope"

Introduction à

Page 2: Une plateforme d’annotation et de génomique comparative ...pdessen.free.fr/M2BI/TP-Introduction-lg.pdf · Partie 1 : Annotation Syntaxique 1. Centrez la carte du génome d’intérêt

détection par contenu

Annotation : 3 étapes !  Annotation Syntaxique

• CDSs, RNAs • Regulation • Répétitions... etc

!  Annotation Fonctionnelle • Fonction des gènes • Familles

Vue Statique du génome

Vue Dynamique du génome

! Annotation relationnelle

• Voies métaboliques • Cascades de signalisation • Regulation • …

Déterminer l’ensemble des fonctions nécessaires à l’accomplissement d’un processus biologique

L. Stein (2001)

Et après la séquence?

Page 3: Une plateforme d’annotation et de génomique comparative ...pdessen.free.fr/M2BI/TP-Introduction-lg.pdf · Partie 1 : Annotation Syntaxique 1. Centrez la carte du génome d’intérêt

Visu

aliz

atio

n

Primary Databanks

Internal Genomic Objects

Computational results

Pathway Genome

DataBases

PkGDB

Dat

a M

anag

emen

t Pr

oces

s M

anag

emen

t

MaGe Web Interface

MicroCyc

JBPM Workflows

DB Release

JBPM Database

Functional / relational Analyses Primary Databank

Update

Login

Genome browser and

Synteny maps

Tutorial

Artemis Data Export

CGView LinePlot

Genome overview

Keyword search Blast and Pattern

Phylogenetic Profile Fusion / Fission

Tandem duplications Minimal Gene Set

RGPfinder SNPs / InDels

KEGG MicroCyc

Metabolic Profile Pathway / Synteny Synton

display Gene editor

Job History

Syntactic Annotations

Gene cart

Vallenet D. et al. MicroScope--an integrated microbial resource for the curation and comparative analysis of genomic and metabolic data Nucleic Acids Research 2013

> 25 méthodes :

=> Automatique: • Annotation • données primaires à jour

Intégrées dans un gestionnaire de

workflows

MicroScope - Composants

Page 4: Une plateforme d’annotation et de génomique comparative ...pdessen.free.fr/M2BI/TP-Introduction-lg.pdf · Partie 1 : Annotation Syntaxique 1. Centrez la carte du génome d’intérêt

Process reconstruction

Biological Processes

RELATIONELLE

• Gene context, gene order • Comparative genomics: PhyloProfile Gene fusion/fission • Regulatory networks • Protein interaction • Metabolic networks

Genomic sequences

• RNA and protein genes • Transcription/translation

start & stop • Nucleotide composition

and «Words» • Codon usage

• Genomic islands

Genes / Proteins

SYNTAXIQUE

Computations, similarity searches

• Ortho/Para/Homologs • Gene/protein families

• Subcellular localization

• Motifs

Functional assignations

Annotated proteins

FONCTIONNELLE

Data Expert visualization annotations

EXPERTISE HUMAINE

EXPERTISE HUMAINE

Flux d’informations pendant le processus d’annotation

Page 5: Une plateforme d’annotation et de génomique comparative ...pdessen.free.fr/M2BI/TP-Introduction-lg.pdf · Partie 1 : Annotation Syntaxique 1. Centrez la carte du génome d’intérêt

Pipeline d’annotation automatique Ssytème de Production

•  Programmes enchaînés" l’output du précédent est l’input du suivant.

- Pas d’interaction avec les utilisateurs + Originalité des méthodes et utilisation des données primaires

•  Procedure d’assignation automatique (AutoFAssign)

MicroScope components

Page 6: Une plateforme d’annotation et de génomique comparative ...pdessen.free.fr/M2BI/TP-Introduction-lg.pdf · Partie 1 : Annotation Syntaxique 1. Centrez la carte du génome d’intérêt

Annotation Fonctionnelle �  BLAST (recherche de similitude), InterproScan (domaines fonctionnels), COGnitor (familles de protéines), PRIAM (fonctions enzymatiques), Pathway tools (reconstruction de voies métaboliques), SignalP & TMHMM & PSORT (localisation des protéines). �  Syntonizer (analyses du contexte génomique)

Tools for syntactic and functional annotation

En bout de course, AutoFAssign, réalise une assignation fonctionnelle sur la base de règles de décision

Annotation Syntaxique �  Prodigal (prédiction gènes), RepSeek (répétitions), RNAmmer (rRNA), tRNAscan-SE (tRNA), RfamScan (ncRNA) �  AMIGene (prédiction gènes), MICheck (re-annotation de génomes publics)

Page 7: Une plateforme d’annotation et de génomique comparative ...pdessen.free.fr/M2BI/TP-Introduction-lg.pdf · Partie 1 : Annotation Syntaxique 1. Centrez la carte du génome d’intérêt

Le tout centralisé dans une seule instance… #  Annotation collaborative #  gestion des droits utilisateurs

Historique des annotations

#  Données primaires (banques) #  Résultats d’analyses #  Annotation experte

Organisation des données et persistence:

PkGDB (Prokaryotic Genome DataBase)

The MicroScope platform : Data Management - 1

> 6TB of data

Page 8: Une plateforme d’annotation et de génomique comparative ...pdessen.free.fr/M2BI/TP-Introduction-lg.pdf · Partie 1 : Annotation Syntaxique 1. Centrez la carte du génome d’intérêt

Annotation

automatique

Expert annotation 1

Expert annotation N

Update

Historique

Pipeline : AutoFAssign

$ Annotation des objets génomiques

=> Transfert des annotations des versions N des génomes vers les

versions N+1

PkGDB

Page 9: Une plateforme d’annotation et de génomique comparative ...pdessen.free.fr/M2BI/TP-Introduction-lg.pdf · Partie 1 : Annotation Syntaxique 1. Centrez la carte du génome d’intérêt

Pipeline d’annotation

PkGDB

Interface Graphique pour l’annotation et la consultation

Système de production

Data management

Visualisation system

Exploration and edition de la connaissance: • Annotation Experte • Outils de génomique comparative

MicroScope components

Page 10: Une plateforme d’annotation et de génomique comparative ...pdessen.free.fr/M2BI/TP-Introduction-lg.pdf · Partie 1 : Annotation Syntaxique 1. Centrez la carte du génome d’intérêt

Login

Navigation

http://www.genoscope.cns.fr/agc/microscope

Liste des organismes disponibles

News

Page 11: Une plateforme d’annotation et de génomique comparative ...pdessen.free.fr/M2BI/TP-Introduction-lg.pdf · Partie 1 : Annotation Syntaxique 1. Centrez la carte du génome d’intérêt

Navigation Login Organisme et séquence

Quick Documentation

Carte génomique et table des gènes

Documentation

Genomic map in MicroScope : MaGe Genome Browser

Page 12: Une plateforme d’annotation et de génomique comparative ...pdessen.free.fr/M2BI/TP-Introduction-lg.pdf · Partie 1 : Annotation Syntaxique 1. Centrez la carte du génome d’intérêt

MaGe: Génome Browser et outils dédiés à l’annotation experte Outils Génomiques: Genome overview, CG View, Tandem Duplications, COG automatic classification, Minimal Gene Set Génomique Comparative: Gene Phyloprofile, Genomic Islands, Line Plot, Fusion/Fission, Synteny statistics Métabolisme: KEGG, MicroCyc, Metabolic profiles, Synteny groups containing genes involved in metabolic pathway(s), CanOE, Pathway Curation tool. Recherche/Export: Search by keywords, BLAST searches & Download data Transcriptomique: Analysis of RNA-seq data Analyse de Variants: Analysis of evolution projects (SNPs/InDels) Panneau Utilisateur: Display preferences, Gene Carts, My Favourite Organisms, Personal Information A propos: Tutorial Access, Service offer, Collaborative Projects, Professional Trainings, …

Overview of the navigation bar Microscope – Les outils

Page 13: Une plateforme d’annotation et de génomique comparative ...pdessen.free.fr/M2BI/TP-Introduction-lg.pdf · Partie 1 : Annotation Syntaxique 1. Centrez la carte du génome d’intérêt

Annotation Experte

Annoter les gènes du génome d’Intérêt •  Utiliser les divers outils à disposition pour améliorer si possible

l’annotation autom

Page 14: Une plateforme d’annotation et de génomique comparative ...pdessen.free.fr/M2BI/TP-Introduction-lg.pdf · Partie 1 : Annotation Syntaxique 1. Centrez la carte du génome d’intérêt

Outils de génomique comparative

COMPARATIVE GENOMICS

Synton visualization

0 0 RGP finder

LinePlot

Pan/core Genome

Fusion/Fission

Page 15: Une plateforme d’annotation et de génomique comparative ...pdessen.free.fr/M2BI/TP-Introduction-lg.pdf · Partie 1 : Annotation Syntaxique 1. Centrez la carte du génome d’intérêt

Exploration du métabolisme

Metabolic phyloprofile

Page 16: Une plateforme d’annotation et de génomique comparative ...pdessen.free.fr/M2BI/TP-Introduction-lg.pdf · Partie 1 : Annotation Syntaxique 1. Centrez la carte du génome d’intérêt

Analyses de Transcriptomes

"   Gènes Sur/Sous Exprimés "   RNA-Seq

Page 17: Une plateforme d’annotation et de génomique comparative ...pdessen.free.fr/M2BI/TP-Introduction-lg.pdf · Partie 1 : Annotation Syntaxique 1. Centrez la carte du génome d’intérêt

Analyses de variants génomiques

Evolution projects •  Détection des polymorphismes dans les populations

bactériennes (SNPs/InDel) •  Dynamique mutationnelle des populations

bactériennes (Suivi temporel)

"   Re séquençage de clones

Page 18: Une plateforme d’annotation et de génomique comparative ...pdessen.free.fr/M2BI/TP-Introduction-lg.pdf · Partie 1 : Annotation Syntaxique 1. Centrez la carte du génome d’intérêt

Training courses on MicroScope platform

Annotation Syntaxique des

Génomes Bactériens

Le codon d’initiation

Page 19: Une plateforme d’annotation et de génomique comparative ...pdessen.free.fr/M2BI/TP-Introduction-lg.pdf · Partie 1 : Annotation Syntaxique 1. Centrez la carte du génome d’intérêt

Moving along the bacterial chromosome (here the E. coli genome)

Repeat Regions CDSs

RNA genes (rRNA, tRNA, misc_RNA,…)

Coding prediction curve obtained with Matrix 1

Carte du Génome d’intérêt

Page 20: Une plateforme d’annotation et de génomique comparative ...pdessen.free.fr/M2BI/TP-Introduction-lg.pdf · Partie 1 : Annotation Syntaxique 1. Centrez la carte du génome d’intérêt

Ou là ;-)

Cliquez Ici

Annotation editor access Carte du Génome d’intérêt

Page 21: Une plateforme d’annotation et de génomique comparative ...pdessen.free.fr/M2BI/TP-Introduction-lg.pdf · Partie 1 : Annotation Syntaxique 1. Centrez la carte du génome d’intérêt

Partie de l'éditeur d'annotation permettant à l'expert de compléter / corriger l’annotation automatique => La dernière annotation mise à jour est affichée avec le nom de l'annotateur courant (ici Giraud à qui un autre expert peut envoyer un courriel pour discuter de l'annotation actuelle)

Partie de l'éditeur d'annotation contenant les résultats de l'annotation automatique. Ces valeurs sont mises à jour chaque fois que de nouveaux calculs doivent être effectués (mise à jour de base de données ou une nouvelle version de la molécule d'ADN du génome étant annoté)

L'accès aux résultats individuels de chaque outil d'annotation utilisé sur le gène de courant. Ces résultats sont régulièrement mis à jour avec de nouveaux calculs (mise à jour de base de données ou une nouvelle version de la molécule d'ADN du génome étant annotées).

L’éditeur d’annotation

Page 22: Une plateforme d’annotation et de génomique comparative ...pdessen.free.fr/M2BI/TP-Introduction-lg.pdf · Partie 1 : Annotation Syntaxique 1. Centrez la carte du génome d’intérêt

5’ 3’

Begin End (leftmost start)

AMstart (AMIGene Start)

AM_Lpcod

%  CDS en sens reverse (R)

AM_Apcod

Probabilité de codage est meilleure avec la position de ré-ajusté du codon de dinititiation (Amstart = SHOW = prodigal) Probabilité de Codage calculée avec le modèle de gènes 1 (ie Matrix)

= SHOW end & Prodigal End

%  CDS en sens direct (D)

Probabilité de codage est meilleure avec la position de ré-ajusté du codon d'initiation par SHOW mais le début réajustement des prodigal est moins important. Probabilité de Codage calculée avec le modèle de gènes 3 (ie Matrix)

5’ 3’

Begin (leftmost start) End

AMstart (AMIGene Start) AM_Apcod (the length End-AMstart+1)

SHOW begin SHOW_proba (Mean coding probability on the length End-SHOW_begin +1)

AM_Lpcod (Mean coding probability on the length End-Begin+1)

Prodigal Start

Les résultats AMIGene

Page 23: Une plateforme d’annotation et de génomique comparative ...pdessen.free.fr/M2BI/TP-Introduction-lg.pdf · Partie 1 : Annotation Syntaxique 1. Centrez la carte du génome d’intérêt

Start codon ?

Click on this functionality

Herminiimonas arsenicoxydans - chromosome HEAR 456055 -- 476055

(Re)annotation du codon d’initiation avec Artemis -1-

Page 24: Une plateforme d’annotation et de génomique comparative ...pdessen.free.fr/M2BI/TP-Introduction-lg.pdf · Partie 1 : Annotation Syntaxique 1. Centrez la carte du génome d’intérêt

1

2

Double click on one CDS to see the corresponding annotations in the upper map. 3

!  The overall DNA sequence is loaded !  The annotation data corresponding to the visualized region in MaGe are loaded.

Loading data from the analyzed region in the Artemis software Analyses de variants génomiques

Page 25: Une plateforme d’annotation et de génomique comparative ...pdessen.free.fr/M2BI/TP-Introduction-lg.pdf · Partie 1 : Annotation Syntaxique 1. Centrez la carte du génome d’intérêt

RBS?

Start codon for CENAR0439 OK (coding prediction curve + Artemis)

The start codon for CENAR0438 is WRONG (coding prediction curve + alignments + overlap in Artemis)

RBS?

(Re)annotation du codon d’initiation avec Artemis -2-

Page 26: Une plateforme d’annotation et de génomique comparative ...pdessen.free.fr/M2BI/TP-Introduction-lg.pdf · Partie 1 : Annotation Syntaxique 1. Centrez la carte du génome d’intérêt

-1- select the CDS CENAR0438 -2- press the ‘Y’ key (=> next start codon), ‘U’ undo, ‘Q’ the whole ORF -3- check the new start codon position (looking for the RBS pattern)

CENAR0438 is selected

New possible start position (two ‘y’ key)

Value of the new start position

(Re)annotation du codon d’initiation avec Artemis -3-

Page 27: Une plateforme d’annotation et de génomique comparative ...pdessen.free.fr/M2BI/TP-Introduction-lg.pdf · Partie 1 : Annotation Syntaxique 1. Centrez la carte du génome d’intérêt

Other possible start position

(three ‘y’)

Value of the new start position Which one is correct ?.. Have a look at the alignments :

(Re)annotation du codon d’initiation avec Artemis -4-

Page 28: Une plateforme d’annotation et de génomique comparative ...pdessen.free.fr/M2BI/TP-Introduction-lg.pdf · Partie 1 : Annotation Syntaxique 1. Centrez la carte du génome d’intérêt

Genomic Object Editor: CENAR0438 Herminiimonas arsenicoxydans - chromosome HEAR

Mise à jour des annotations -1-

Page 29: Une plateforme d’annotation et de génomique comparative ...pdessen.free.fr/M2BI/TP-Introduction-lg.pdf · Partie 1 : Annotation Syntaxique 1. Centrez la carte du génome d’intérêt

Before …

After correction ….

Mise à jour des annotations -2-

Page 30: Une plateforme d’annotation et de génomique comparative ...pdessen.free.fr/M2BI/TP-Introduction-lg.pdf · Partie 1 : Annotation Syntaxique 1. Centrez la carte du génome d’intérêt

Exercices

A propos de Burkholderia thailandensis : "   Selectionnez B. thailandensis BTH_I. Ouvrez la barre d'outils « MaGe

» et regardez la section « Overlapping CDS ». Accédez à la région de MaGe correspondant à la BTH_I0001 / 0002 et utiliser Artemis pour trouver la bonne position du codon start pour BTH_I0001. Regardez les résultats ‘Start’ et ‘alignements’ de ‘SwissProt’ dans l'éditeur de gène BTH_I0001 pour vérifier votre conclusion ...

Page 31: Une plateforme d’annotation et de génomique comparative ...pdessen.free.fr/M2BI/TP-Introduction-lg.pdf · Partie 1 : Annotation Syntaxique 1. Centrez la carte du génome d’intérêt

Training courses on MicroScope platform

Annotation Fonctionnelle des

Génomes Bactériens

Utilisation des alignements

Page 32: Une plateforme d’annotation et de génomique comparative ...pdessen.free.fr/M2BI/TP-Introduction-lg.pdf · Partie 1 : Annotation Syntaxique 1. Centrez la carte du génome d’intérêt

SwissProt >500,000 entries, <1 %

Literature extracted

information

Manually curated functional annotations

TrEMBL >90,000,000 entries, >99 %

Automatic translation of EMBL CDSs Complete and incomplete genomes

(“Whole Genome Shotgun”)

Functional annotations are very often coming from automatic

procedure only

Mais…

TrEMBL contient tout de même “quelques” protéines

dont la fonction a été validée EXPERIMENTALEMENT

UniProt

Page 33: Une plateforme d’annotation et de génomique comparative ...pdessen.free.fr/M2BI/TP-Introduction-lg.pdf · Partie 1 : Annotation Syntaxique 1. Centrez la carte du génome d’intérêt

%  Les rapports des longueurs d'alignement sont calculés pour chaque comparaison en utilisant le logiciel Blast:

minLrap = Lmatch/ min(Lprot1, Lprot2)

Lmatch = length of the match Lprot1 = length of protein 1 Lprot2 = length of protein 2.

maxLrap = Lmatch /max(Lprot1, Lprot2)

minL=1 maxL=1

minL=1 maxL<1

minL=1 maxL<1

minL<1 maxL<1

minL<1 maxL<1

Alignement OK !

Protéine modulaire? (domain fusion/fission) Ou problème fde start?

Ou pseudogène? Ou frameshift (erreur de séquençage) ?

Probable “gene Remnant”

Analyser les résultats d’alignements

Page 34: Une plateforme d’annotation et de génomique comparative ...pdessen.free.fr/M2BI/TP-Introduction-lg.pdf · Partie 1 : Annotation Syntaxique 1. Centrez la carte du génome d’intérêt

Alignment OK !

Problème de start: maxL<1

minL=1 Alignment complet Sur le protéine de ref. :

Quelques exemples -1-

Page 35: Une plateforme d’annotation et de génomique comparative ...pdessen.free.fr/M2BI/TP-Introduction-lg.pdf · Partie 1 : Annotation Syntaxique 1. Centrez la carte du génome d’intérêt

Alignment is OK !

minL=1

Alignment complet Sur le protéine de ref. :

Query plus longue → protéine modulaire:

maxL<1

Quelques exemples -2-

Page 36: Une plateforme d’annotation et de génomique comparative ...pdessen.free.fr/M2BI/TP-Introduction-lg.pdf · Partie 1 : Annotation Syntaxique 1. Centrez la carte du génome d’intérêt

Partie 1 : Annotation Syntaxique

1.  Centrez la carte du génome d’intérêt sur la séquence codante dont le label est Acfer_0931. La probabilité de codage vous semble-t’elle bonne? Combien y a t’il de modèles de gènes disponibles pour ce génome?

2.  Ouvrir la fiche d’annotation de l’objet génomique en question.

a)  Avec quel modèle de gène a-t’il été prédit?

b)  Le codon d’initiation a t’il été réajusté?

c)  La protéine encodée est-elle plutôt basique? Plutôt acide?

Exercices Sélectionner le génome d’Acidaminococcus fermentans DSM 20731

Page 37: Une plateforme d’annotation et de génomique comparative ...pdessen.free.fr/M2BI/TP-Introduction-lg.pdf · Partie 1 : Annotation Syntaxique 1. Centrez la carte du génome d’intérêt

Partie 2 : Annotation Fonctionnelle

1.  Qu’indiquent les annotations primaires?

2.  Les similitudes sont calculées contre des données de référence issues de bactéries modèles E. coli K12 et B. subtilis 168. Que suggèrent les résultats obtenus contre ces 2 références?

3.  Analyses des alignments:

a)  Section SwissProt

•  Qu’indique le premier hit obtenu?

•  Cliquer sur le PBid de ce premier hit. Quelle(s) information(s) importante(s) doit-on retenir quant à l’annotation de cette entrée?

•  Qu’indiquent les 2 et 3ème hits?

b)  Section TrEMBL

•  Qu’indique le premier hit obtenu? Pourquoi?

Exercices Sélectionner le génome d’Acidaminococcus fermentans DSM 20731

Page 38: Une plateforme d’annotation et de génomique comparative ...pdessen.free.fr/M2BI/TP-Introduction-lg.pdf · Partie 1 : Annotation Syntaxique 1. Centrez la carte du génome d’intérêt

Partie 2 : Annotation Fonctionnelle (Suite)

4. Les activités enzymatiques potentielles sont reportées dans les résultats PRIAM (PRofils pour l’Identification Automatique du Métabolisme). Combien d’activités sont reportées? Cliquer sur le(s) lien(s) proposés pour obtenir de plus amples informations sur cette/ces activité(s)? Sont-elles toutes pertinentes?

5. L’étude des domaines fonctionnels est reportée dans la section InterProScan

a)  Combien de méthodes différentes détectent des motifs/domaines dans notre séquence d’intérêt? Quelles sont celles qui détectent préférentiellment des domaines?

b)  Parmi celles qui détectent des domaines, proposent-elles toutes les mêmes résultats? Pourquoi (Hint: comparer par exemple les résultats HMMPfam et Gene3D)?

6. Et pour finir l’annotation fonctionnelle proprement dite…

a)  Le produit…

b)  La confiance accordée à cette annotation…

Exercices Sélectionner le génome d’Acidaminococcus fermentans DSM 20731