Principaux alignements multiples - INRA

38
Principaux alignements multiples

Transcript of Principaux alignements multiples - INRA

Principaux alignements multiples

From: Methods in Molecular Biology, vol. 484: Functional Proteomics: Methods and Protocols (Do and Katoh)

Table 1 MSA Programs Tool URL CLUSTALW http://www.clustal.org/ DIALIGN http://bibiserv.techfak.uni-bielefeld.de/dialign/ MAFFT http://align.bmr.kyushu-u.ac.jp/mafft/software/ MUMMALS http://prodata.swmed.edu/mummals/ MUSCLE http://www.drive5.com/muscle/ PRALINE http://zeus.cs.vu.nl/programs/pralinewww/ PRIME http://prime.cbrc.jp/ ProbAlign http://probalign.njit.edu/standalone.html PROBCONS http://probcons.stanford.edu/ ProDA http://proda.stanford.edu/ PROMALS http://prodata.swmed.edu/promals/ SPEM http://sparks.informatics.iupui.edu/ T-Coffee, http://www.tcoffee.org/ M-Coffee, 3D-Coffee

Summary view of alignments of highly similar sequences containing gaps (dashes) at overlapping positions.

Golubchik T et al. Mol Biol Evol 2007;24:2433-2442

© The Author 2007. Published by Oxford University Press on behalf of the Society for Molecular Biology and Evolution. All rights reserved. For permissions, please e-mail: [email protected]

Summary view of alignments of highly similar sequences (boxes) containing

deletions (horizontal lines) at non-overlapping positions.

Golubchik T et al. Mol Biol Evol 2007;24:2433-2442

© The Author 2007. Published by Oxford University Press on behalf of the Society for Molecular Biology and Evolution. All rights reserved. For permissions, please e-mail: [email protected]

C. Notredame

Familles, domaines, motifs

➢ domaine protéique : unité structurale (et fonctionnelle) indépendante, évolutivement conservée (doigt de zinc, boucle,...) ➢ motifs protéiques : plus courts • site de modification post-traductionnelle • site de liaison (ADN, métal,...) • site actif d'enzyme ➢ famille protéique : ensemble de protéines évolutivement reliées un ou plusieurs domaines protéiques communs

Familles, domaines, motifs

➢ domaine protéique : unité structurale (et fonctionnelle) indépendante, évolutivement conservée (doigt de zinc, boucle,...) ➢ motifs protéiques : plus courts • site de modification post-traductionnelle • site de liaison (ADN, métal,...) • site actif d'enzyme ➢ famille protéique : ensemble de protéines évolutivement reliées un ou plusieurs domaines protéiques communs

Profil, HMM

Consenus Pattern Matrice poids

GHEGVGKVVKLGAGA GHEKKGYFEDRGPSA GHEGYGGRSRGGGYS GHEFEGPKGCGALYI GHELRGTTFMPALEC GHE--G--------- GHE--G-----G---

GHE-x(2)-G-x(5)-[GA]

consensus à 100% consensus à 60%

Pattern ou signature (Prosite)

- Le consensus est très simpliste/restrictif - Pattern + souple mais pas de poids relatif des résidus

Alignement multiple => pattern

Pour les faire : Consensus PRATT

Pour les utiliser : ScanPROSITE Fuzznuc (EMBOSS) Fuzzpro Fuzztran Recherche d’expression régulière (PERL…)

- Facile et rapide à implémenter - Modèle indel simple - Beaucoup de FP sur les petits patterns - Grands patterns difficiles à produire - Pas prédictifs => retrouve à l’identique des séq. apprentissage - Pas de score

Alignement multiple => pattern

[FY]-[LIVMK]-{I}-{Q}-H-P-[GA]-G

Pattern

GHEGVGKVVKLGAGA GHEKKGYFEDRGPSA GHEGYGGRSRGGGYS GHEFEGPKGCGALYI GHELRGTTFMPALEC

Alignement multiple => PSSM

GHEGVGKVVKLGAGA GHEKKGYFEDRGPSA GHEGYGGRSRGGGYS GHEFEGPKGCGALYI GHELRGTTFMPALEC

Alignement multiple => PSSM

Pseudo-counts

=

ib

ibib p

fScore

,

,,

'log

Alignement multiple => PSSM

Utilisation d’une PSSM => identification d’un motif

-Facile et rapide à implémenter -Pas d’indel possible -Retourne un score

=> régions courtes (taille fixe), variables

Profils généralisés

- possibilité d’événement d’insertion/délétion => 1 colonne en plus - prise en compte de la similarité entre acide aminé => poids dérivés des matrices de substitution (BLOSUM, PAM)

∑=

=20

1),(Profil

kikij kjMf

Fréquence du kième l'acide amine à la position i ikf),( kjM Score de substitution entre les acides aminés j et k

Profile (PROSITE)

∑=

=20

1),(Profil

kikij kjMf

M(j,k) score de substitution de l’a.a. k par j (matrice PAM, BLOSUM…)

Profils HMM HMM = Hidden Markov Model

Algorithme de Viterbi (DP)

• PFtools : méthode des profils Prosite pfscan, pfsearch…

• HMMer

hmmbuild : construit une HMM hmmalign : compare une séquence à un modèle HMM hmmpfam : compare une séquence à une base de HMMs hmmsearch : compare une HMM à une banque de séquences hmmemit : génère une séquence basée sur HMM

• Banques d’alignements de domaines

- ProDom (Psi-BLAST avec Uniprot)

- Pfam, SMART : alignements + modèles HMM

• Banque de signatures protéiques :

- PROSITE patterns + matrices

ProDom : banque de famille de domaines protéiques

Cytochrome B5

Pfam : sequence search

Interpro (Integrated ressource of

Protein families, Domains ans Sites

Théorie de l’information et LOGO

Evaluation des prédictions (1)

VP FP

FN VN

on maximise le % de VP (donc minimise le % de FN) Inconvénient : augmentation du %FP = on privilégie la sensiblilité de la méthode on minimise le % de FP Inconvénient : cela conduit à ne pas détecter certaines séquences d'intérêts (donc plus grand %FN) = on privilégie la spécificité Sensibilité = VP/(VP+FN) [sensibility]

Spécificité = VP/(VP+FP) [specificity ] Précision = (VP+VN)/(VP+VN+FP+FN) [accuracy]

Objectif : prédire le maximum d'exemples (max VP) avec un minimum d'erreurs (min FP).

VP FP

FN VN

Evaluation des prédictions (2)

Cours Denis Tieffry

http://meme.sdsc.edu/meme/

• MEME - implements EM for motif discovery in DNA and proteins

• MAST – search sequences for motifs given a model

MEME (algorithme Expecting Maximisation)

Programmes Sites web Références

RSA-tools http://rsat.ulb.ac.be/rsat/ (van Helden et al., 2000a)

SMILE http://bioweb.pasteur.fr/seqanal/interfaces/smile2.html (Marsan and Sagot, 2000)

R’MES http://www-mig.versailles.inra.fr/ssb/rmes/welcome.html (Schbath, 1997)

MEME http://meme.sdsc.edu/meme/website/ (Bailey and Elkan, 1995)

CONSENSUS http://ural.wustl.edu/~jhc1/consensus/html/Html/main.html http://rsat.ulb.ac.be/rsat/ (Hertz and Stormo, 1999)

Gibbs sampling http://bayesweb.wadsworth.org/gibbs/gibbs.html http://rsat.ulb.ac.be/rsat/

(Lawrence et al., 1993) (Neuwald et al., 1995)

Motif Sampler http://www.esat.kuleuven.ac.be/~thijs/Work/MotifSampler.html (Thijs et al., 2001a) (Thijs et al., 2001b)

Improbizer http://www.cse.ucsc.edu/~kent/improbizer/

BioProspector http://bioprospector.standford.edu (Liu et al., 2001)