Caratterizzazione di una sequenza genomica - siga.unina.it · score div.del.ins. sequence begin end...

91
>UNKNOWN_SEQUENCE ATGCCCTCCTACCCACTTCTGGCCACCCTATCCCATACATTTACTTAGGGACTTATTTAG GGACACGCAGAACATCCTCCTACACAGCTCAGTGCGTTTCCAGTCCCTGCAGCGCCCAGT AGCTAAGACTGGCTTCTCTATAAGTATTTTATAGATTGAACCTAAAGAATGGCAACGATT TCTAACATCTATAGAATTTTTACGAAGTCACTTCGCTCTGATATTGAAGAATACAACGCT GTTCTTCTTATCCTGTATGTTCAGGCCTGTTTCAGCTTGCAAGTAATACGGGAAGTGAAC TTCACCTCGAGGATGATCTACTGAAAAGGAAGAGAGTCGCCCACACACTCCCCCTTCAGC TCAAAACTACAGACAAAGCGAAGCTCAGGAGACTCCGTTCGCACAAAACGCTTAAGATGG GATTCGAACCACCAAACACCCAACAGAAGTTCCCCATATGACTCACCGCGTGAGCCCACC TGGAGCCGCACACTCTCCGCAGCCTCAGCCAGCAGAGTGGCGCTAAACCTGCAGATACAA ACTCCACCCTCAGCCAATCAAAACCCCCTCCCCTGCCGCCGGACCAATGAGGAGCAGCAG ATGTGGCCGTCAGGCGCCGCCTCAATGCCTCCTGGGAGTTGTAGTTTAGAAGGGAGAGCG GAACTTAGAACCCGGGTTCCCCTCGGGTGATCCCGCCCCCTCGACTCCCCAGCCAATCAG CAACATTAGTCTGGTTAGACGCTCTCTTTGCTTTTCCCCACGAGTGACCACGGCTAGATA GGCCGCCGGCCAGATGTGGCGGGGGAGAGCCGGGGCTTTGCTCCGGGTGTGGGGGTTTTG GCCGACAGGGGTTCCCAGAAGGAGACCGCTAAGCTGCGATGCTGCGTCGCAGGCGGGAAG CAATTATCCCCGCTGTTGGAACTGCGGCGGCCCATGGGGCCCCGGGCGGGAGGACAGGTT CTTCTGCCCACAGTGCCGAGCGCTGCAGGCACCTGACCCCACTCGAGACTACTTCAGCCT TATGGACTGGTACGAGCGACGGTTTCGGGAAACGGGCCCGGGCGAGAGACACGTCGAGGT CTGGCCTGCGAGAGGGGAGGACGGATCTGGCTGGCGGAAGAGAAGGCGGGACTGATGGGG GGGCGGAGGTCTAGAGAGCAGGCGTGAGAGAAGTGTCTTGATTTCTCAGGAGGAAATTGA GAGGCGGGGACTGAGGGAAGCAACGTTGAGGTGTGGAGAAGGGAGACGAACGGGACTGGA GGGGCGGGCGCTGAAGTTAGAGGAAATAGGGGGGCCGAGGCTAGAGGGGAGGGAGATTTG AGGGGCGGTACCTACGGGAAAGGGAAGGAGAAGTCGAGGGGCGGAACTTGAGGAAAGGGT ACTTGAGGGGCAGGGCCTGGGAGACTGGAAGACTTGAATGAATAGGGTGAGTAAGGTTTA Caratterizzazione di una sequenza genomica

Transcript of Caratterizzazione di una sequenza genomica - siga.unina.it · score div.del.ins. sequence begin end...

Page 1: Caratterizzazione di una sequenza genomica - siga.unina.it · score div.del.ins. sequence begin end ( lef t ) r epe a t c las s / f amily begin end(2203 17.112.0 0.2 SEQ 1744 2176

>UNKNOWN_SEQUENCEATGCCCTCCTACCCACTTCTGGCCACCCTATCCCATACATTTACTTAGGGACTTATTTAGGGACACGCAGAACATCCTCCTACACAGCTCAGTGCGTTTCCAGTCCCTGCAGCGCCCAGTAGCTAAGACTGGCTTCTCTATAAGTATTTTATAGATTGAACCTAAAGAATGGCAACGATTTCTAACATCTATAGAATTTTTACGAAGTCACTTCGCTCTGATATTGAAGAATACAACGCTGTTCTTCTTATCCTGTATGTTCAGGCCTGTTTCAGCTTGCAAGTAATACGGGAAGTGAACTTCACCTCGAGGATGATCTACTGAAAAGGAAGAGAGTCGCCCACACACTCCCCCTTCAGCTCAAAACTACAGACAAAGCGAAGCTCAGGAGACTCCGTTCGCACAAAACGCTTAAGATGGGATTCGAACCACCAAACACCCAACAGAAGTTCCCCATATGACTCACCGCGTGAGCCCACCTGGAGCCGCACACTCTCCGCAGCCTCAGCCAGCAGAGTGGCGCTAAACCTGCAGATACAAACTCCACCCTCAGCCAATCAAAACCCCCTCCCCTGCCGCCGGACCAATGAGGAGCAGCAGATGTGGCCGTCAGGCGCCGCCTCAATGCCTCCTGGGAGTTGTAGTTTAGAAGGGAGAGCGGAACTTAGAACCCGGGTTCCCCTCGGGTGATCCCGCCCCCTCGACTCCCCAGCCAATCAGCAACATTAGTCTGGTTAGACGCTCTCTTTGCTTTTCCCCACGAGTGACCACGGCTAGATAGGCCGCCGGCCAGATGTGGCGGGGGAGAGCCGGGGCTTTGCTCCGGGTGTGGGGGTTTTGGCCGACAGGGGTTCCCAGAAGGAGACCGCTAAGCTGCGATGCTGCGTCGCAGGCGGGAAGCAATTATCCCCGCTGTTGGAACTGCGGCGGCCCATGGGGCCCCGGGCGGGAGGACAGGTTCTTCTGCCCACAGTGCCGAGCGCTGCAGGCACCTGACCCCACTCGAGACTACTTCAGCCTTATGGACTGGTACGAGCGACGGTTTCGGGAAACGGGCCCGGGCGAGAGACACGTCGAGGTCTGGCCTGCGAGAGGGGAGGACGGATCTGGCTGGCGGAAGAGAAGGCGGGACTGATGGGGGGGCGGAGGTCTAGAGAGCAGGCGTGAGAGAAGTGTCTTGATTTCTCAGGAGGAAATTGAGAGGCGGGGACTGAGGGAAGCAACGTTGAGGTGTGGAGAAGGGAGACGAACGGGACTGGAGGGGCGGGCGCTGAAGTTAGAGGAAATAGGGGGGCCGAGGCTAGAGGGGAGGGAGATTTGAGGGGCGGTACCTACGGGAAAGGGAAGGAGAAGTCGAGGGGCGGAACTTGAGGAAAGGGTACTTGAGGGGCAGGGCCTGGGAGACTGGAAGACTTGAATGAATAGGGTGAGTAAGGTTTA

Caratterizzazione di una sequenza genomica

Page 2: Caratterizzazione di una sequenza genomica - siga.unina.it · score div.del.ins. sequence begin end ( lef t ) r epe a t c las s / f amily begin end(2203 17.112.0 0.2 SEQ 1744 2176

Caratterizzazione di una sequenza genomica

- Identificazione di sequenze ripetute

- Ricerca di isole CpG

- Caratterizzazione di Promotori

- Predizione di geni (Gene Finding)

- Validazione della predizione di geni

- Caratterizzazione funzionale dei geni

Page 3: Caratterizzazione di una sequenza genomica - siga.unina.it · score div.del.ins. sequence begin end ( lef t ) r epe a t c las s / f amily begin end(2203 17.112.0 0.2 SEQ 1744 2176

Caratterizzazione di una sequenza genomica

- Identificazione di sequenze ripetute

- RepeatMasker (ricerca di repeats noti)

- trf (ricerca di minisatelliti)

Page 4: Caratterizzazione di una sequenza genomica - siga.unina.it · score div.del.ins. sequence begin end ( lef t ) r epe a t c las s / f amily begin end(2203 17.112.0 0.2 SEQ 1744 2176

RepeatMasker((((httphttphttphttp://://://://ftpftpftpftp....genomegenomegenomegenome....washingtonwashingtonwashingtonwashington....eduedueduedu////cgicgicgicgi----binbinbinbin////RepeatMaskerRepeatMaskerRepeatMaskerRepeatMasker))))

QuickTime™ e un decompressore TIFF (LZW) sono necessari per visualizzare quest'immagine.

Page 5: Caratterizzazione di una sequenza genomica - siga.unina.it · score div.del.ins. sequence begin end ( lef t ) r epe a t c las s / f amily begin end(2203 17.112.0 0.2 SEQ 1744 2176

Caratterizzazione di una sequenza genomica1. Identificazione di sequenze ripetute

(RepeatMasker)

S W p e r cp e r c p e r c q u e ry p o si t i o n i nqu e r y m at c h i ng r ep e a t p os i t io n i ns co r e d i v .d e l . i n s . s e q ue n c e b e gi n en d ( le f t ) r ep e a t c la s s / fa m i l y b eg i n e n d(

22 0 3 1 7 . 11 2 . 0 0 . 2 S E Q 1 74 4 2 17 6 ( 42 4 1 )C M ER 3 1 B L TR / M E R4 - g r ou p ( 0 ) 4 8 52 3 4 2 9 . 62 8 . 0 1 . 6 S E Q 2 24 9 2 50 5 ( 39 1 2 )+ L 2 L IN E / L 2 28 7 1 3 1 9 519 8 9 1 4 . 1 3 . 4 0 . 7 S E Q 2 96 8 3 26 5 ( 31 5 2 )+ A lu S x S IN E / A lu 1 3 0 617 8 2 1 4 . 7 9 . 9 0 . 0 S E Q 3 49 9 3 77 0 ( 26 4 7 )+ A lu J b S IN E / A lu 1 2 9 923 7 7 7 . 2 0 . 7 0 . 7 S E Q 3 96 6 4 25 6 ( 21 6 1 )+ A lu S g 1 S IN E / A lu 1 2 9 124 7 9 8 . 3 0 . 0 0 . 0 S E Q 4 79 9 5 10 0 ( 13 1 7 )+ A lu S x S IN E / A lu 3 3 0 416 3 2 1 6 . 2 1 . 9 8 . 0 S E Q 5 10 5 5 16 8 ( 12 4 9 )C M LT 2 E L TR / R e tr o v i ra l (5 6 ) 3 4 118 8 0 1 5 . 0 0 . 3 5 . 1 S E Q 5 16 9 5 31 5 ( 11 0 2 )+ A lu J b S IN E / A lu 1 1 2 722 8 4 1 0 . 8 0 . 3 0 . 0 S E Q 5 31 6 5 61 2 (8 0 5 )+ A lu S x S IN E / A lu 1 2 9 818 8 0 1 5 . 0 0 . 3 5 . 1 S E Q 5 61 3 5 77 8 (6 3 9 )+ A lu J b S IN E / A lu 1 2 7 2 9 916 3 2 1 6 . 2 1 . 9 8 . 0 S E Q 5 77 9 6 00 3 (4 1 4 )C M LT 2 E L TR / R e tr o v i ra l ( 12 2 ) 4 3 117 8 8 1 8 . 2 0 . 3 0 . 7 S E Q 6 00 4 6 29 9 (1 1 8 )C A lu J b S IN E / A lu (1 6 ) 2 9 616 3 2 1 6 . 2 1 . 9 8 . 0 S E Q 6 30 0 6 37 1 ( 4 6 )C M LT 2 E L TR / R e tr o v i ra l ( 47 7 ) 7 6

Page 6: Caratterizzazione di una sequenza genomica - siga.unina.it · score div.del.ins. sequence begin end ( lef t ) r epe a t c las s / f amily begin end(2203 17.112.0 0.2 SEQ 1744 2176

TRF((((httphttphttphttp://tandem.://tandem.://tandem.://tandem.biomathbiomathbiomathbiomath....mssmmssmmssmmssm....eduedueduedu////trftrftrftrf////trftrftrftrf.basic..basic..basic..basic.submitsubmitsubmitsubmit....htmlhtmlhtmlhtml))))

QuickTime™ e un decompressore TIFF (LZW) sono necessari per visualizzare quest'immagine.

QuickTime™ e un decompressore TIFF (LZW) sono necessari per visualizzare quest'immagine.

Page 7: Caratterizzazione di una sequenza genomica - siga.unina.it · score div.del.ins. sequence begin end ( lef t ) r epe a t c las s / f amily begin end(2203 17.112.0 0.2 SEQ 1744 2176

UCSC Genome Browser ((((httphttphttphttp://://://://genomegenomegenomegenome....ucscucscucscucsc....eduedueduedu))))

QuickTime™ e un decompressore TIFF (LZW) sono necessari per visualizzare quest'immagine.

QuickTime™ e un decompressore TIFF (LZW) sono necessari per visualizzare quest'immagine.

Page 8: Caratterizzazione di una sequenza genomica - siga.unina.it · score div.del.ins. sequence begin end ( lef t ) r epe a t c las s / f amily begin end(2203 17.112.0 0.2 SEQ 1744 2176

Caratterizzazione di una sequenza genomicaIdentificazione di isole CpG

- Il dinucleotide CpG è generalmente evitato nelgenoma in quanto sito preferenziale di metilazione(CpG →→→→m5CpG … →→→→ TpG).

- Le isole CpG sono regioni del genoma ”ipo-metilate” e caratterizzate da una minore scarsitàdel nucleotide CpG:- genoma Obs(CpG) = 1/4 dell’atteso- isola CpG Obs(CpG) = >2/3 dell’atteso

- Le isole G�pG si trovano a monte (5’) di oltre il50% dei geni umani.

Page 9: Caratterizzazione di una sequenza genomica - siga.unina.it · score div.del.ins. sequence begin end ( lef t ) r epe a t c las s / f amily begin end(2203 17.112.0 0.2 SEQ 1744 2176

Caratterizzazione di una sequenza genomicaIdentificazione di isole CpG

- L > 200 bp- C+G% > 50%- CpG Obs/Exp > 0.6

CpG Exp = pC x pG x L

L = 138940 C = 40295 (0.29) G = 39264 (0.28)CpG = 4160 (0.03)

CpG Exp = 0.29 x 0.28 x 138940 = 11282CpG Obs/Exp = 4160 / 11282 = 0.37

Esempio:

Page 10: Caratterizzazione di una sequenza genomica - siga.unina.it · score div.del.ins. sequence begin end ( lef t ) r epe a t c las s / f amily begin end(2203 17.112.0 0.2 SEQ 1744 2176

Caratterizzazione di una sequenza genomicaIdentificazione di isole CpG

Programmi per l’identificazione di CpG islands:

CpGplot (EMBOSS)CpGreport (EMBOSS)���GRAIL

QuickTime™ e un decompressore TIFF (LZW) sono necessari per visualizzare quest'immagine.

QuickTime™ e un decompressore TIFF (LZW) sono necessari per visualizzare quest'immagine.

Page 11: Caratterizzazione di una sequenza genomica - siga.unina.it · score div.del.ins. sequence begin end ( lef t ) r epe a t c las s / f amily begin end(2203 17.112.0 0.2 SEQ 1744 2176
Page 12: Caratterizzazione di una sequenza genomica - siga.unina.it · score div.del.ins. sequence begin end ( lef t ) r epe a t c las s / f amily begin end(2203 17.112.0 0.2 SEQ 1744 2176
Page 13: Caratterizzazione di una sequenza genomica - siga.unina.it · score div.del.ins. sequence begin end ( lef t ) r epe a t c las s / f amily begin end(2203 17.112.0 0.2 SEQ 1744 2176

Vertebrate pol II promoters usually consist of multiple binding sites fortranscription factors which are necessary for promoter function. However,individual promoter elements require a specific order to constitute afunctional promoter. This organization can be dissected into at least threedifferent levels with distinct functionality encoded at each level.

Page 14: Caratterizzazione di una sequenza genomica - siga.unina.it · score div.del.ins. sequence begin end ( lef t ) r epe a t c las s / f amily begin end(2203 17.112.0 0.2 SEQ 1744 2176

Organizzazione gerarchica dei promotorieucariotici

QuickTime™ e un decompressore TIFF (LZW) sono necessari per visualizzare quest'immagine.

Page 15: Caratterizzazione di una sequenza genomica - siga.unina.it · score div.del.ins. sequence begin end ( lef t ) r epe a t c las s / f amily begin end(2203 17.112.0 0.2 SEQ 1744 2176

The ground level is represented by individual TF-sites. These are relativelyshort stretches of DNA (10 - 20 nucleotides), sufficiently conserved insequence to allow specific recognition by the corresponding transcriptionfactor.

TF-acquisition by DNA binding is the sole function of a TF-site! TF-site detection in sequences: TF-sites are generally best described by nucleotide weight matrices.

Page 16: Caratterizzazione di una sequenza genomica - siga.unina.it · score div.del.ins. sequence begin end ( lef t ) r epe a t c las s / f amily begin end(2203 17.112.0 0.2 SEQ 1744 2176

( A) TATA - b o x c o nse n s us matrix (TRA NSFA C entr y V $ T ATA _ 0 1) calc ulate d o n 3 8 9 TATA - b o xeleme nts. (B) Lo d -sc o re matrix (b ase tw o lo g a rithms) c alc ulate d ass umin g a homo g e n e o us b ack g r o ufr e q uen c y (0.2 5 ) a n d s= 0.0 1 .

(A)

Positi onBase 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15A 61 16 352 3 354 268 360 222 155 56 83 82 82 68 77C 145 46 0 10 0 0 3 2 44 135 147 127 118 107 101G 152 18 2 2 5 0 20 44 157 150 128 128 128 139 140T 31 309 35 374 30 121 6 121 33 48 31 52 61 75 71Consensus S T A T A A A W R N N N N N N

(B)

Positi onBase 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15A -0.65 -2.52 1. 86 -4.61 1. 87 1. 47 1. 89 1. 20 0. 68 -0.77 -0.21 -0.23 -0.23 -0.50 -0.32C 0. 59 -1.05 -6.64 -3.16 -6.64 -6.64 -4.61 -5.03 -1.11 0. 48 0. 61 0. 40 0. 29 0. 15 0. 07G 0. 65 -2.36 -5.03 -5.03 -4.03 -6.64 -2.21 -1.11 0. 70 0. 63 0. 41 0. 41 0. 41 0. 53 0. 54T -1.60 1. 67 -1.43 1. 95 -1.65 0. 33 -3.80 0. 33 -1.52 -0.99 -1.60 -0.88 -0.65 -0.36 -0.43

Position Weight Matrix (PWM)

Page 17: Caratterizzazione di una sequenza genomica - siga.unina.it · score div.del.ins. sequence begin end ( lef t ) r epe a t c las s / f amily begin end(2203 17.112.0 0.2 SEQ 1744 2176

The next higher level of promoter organization is the one of promoter modules which are composed of two or more TF-sites in a defined distance range. In contrast to isolated binding sites these sites allow synergistic or antagonistic effects. The module below, for example, confers inducibility by tumor necrosis factor alpha (TNF-alpha) and gamma-Interferon (gamma-IFN) to several promoters of the MHC/HLA class I genes as well as to beta-2 microglobulin and beta-Interferon genes.

The function of a promoter module is specific activation or repression!

Page 18: Caratterizzazione di una sequenza genomica - siga.unina.it · score div.del.ins. sequence begin end ( lef t ) r epe a t c las s / f amily begin end(2203 17.112.0 0.2 SEQ 1744 2176

Promoter modules cannot be detected reliably by alignment procedures. They can be successfully detected by searching for combinations of individual elements (individual models).

Promoter models Functionally related promoters often exhibit a clearly defined core organization of binding sites conserved both in orientation as well as in distances (with some variability). This is true even when the promoter sequences show no significant overall sequence similarity precluding alignment-based detection also for whole promoters (except phylogenetic footprints of evolutionary related promoters). The promoter model shown below describes the general framework of TF-sites which is common to all mammalian actin promoters even across species!

This model does not contain all functional TF-sites that are present in individual actin promoters. However, the combination of these six TF-sites is sufficient to detect all mammalian actin promoters with unprecedented specificity, yielding only about 30 additional matches in all the vertebrate sections of GenBank! A promoter contains all response elements necessary for its complete transcriptional regulation! (However, in many cases additional elements like enhancers might be required.)

Page 19: Caratterizzazione di una sequenza genomica - siga.unina.it · score div.del.ins. sequence begin end ( lef t ) r epe a t c las s / f amily begin end(2203 17.112.0 0.2 SEQ 1744 2176

QuickTime™ e un decompressore TIFF (LZW) sono necessari per visualizzare quest'immagine.

Page 20: Caratterizzazione di una sequenza genomica - siga.unina.it · score div.del.ins. sequence begin end ( lef t ) r epe a t c las s / f amily begin end(2203 17.112.0 0.2 SEQ 1744 2176

Muscle specific promoter of mammalian actingenes

QuickTime™ e un decompressore TIFF (LZW) sono necessari per visualizzare quest'immagine.

Page 21: Caratterizzazione di una sequenza genomica - siga.unina.it · score div.del.ins. sequence begin end ( lef t ) r epe a t c las s / f amily begin end(2203 17.112.0 0.2 SEQ 1744 2176

P1 P2 P3 P4 P5 P6A 9 214 63 142 118 8C 22 7 26 31 52 13G 18 2 29 38 29 5T 193 19 124 31 43 216

Count matrix

P1 P2 P3 P4 P5 P6A 0.04 0.88 0.26 0.59 0.49 0.03

C 0.09 0.03 0.11 0.13 0.21 0.05

G 0. 07 0. 01 0. 12 0. 16 0. 12 0. 02

T 0. 80 0. 08 0. 51 0. 13 0. 18 0. 89

Frequency matrix

P1 P2 P3 P4 P5 P6A -2 .7 1 .8 0 .1 1 .2 1 .0 -2 .9C -1 .5 -3 .1 -1 .2 -1 .0 -0 .2 -2 .2G -1 .7 -4 .9 -1 .1 -0 .7 -1 .1 -3 .6T 1 .7 -1 .7 1 .0 -1 .0 -0 .5 1 .8

Log-Odds matrix

log2 fi

ei

� � � �

� � (ei = 0.25)

Page 22: Caratterizzazione di una sequenza genomica - siga.unina.it · score div.del.ins. sequence begin end ( lef t ) r epe a t c las s / f amily begin end(2203 17.112.0 0.2 SEQ 1744 2176

A C T A T A A T C G

-2 .7 1 .8 0 .1 1 .2 1 .0 -2 .9-1 .5 -3 .1 -1 .2 -1 .0 -0 .2 -2 .2-1 .7 -4 .9 -1 .1 -0 .7 -1 .1 -3 .61 .7 -1 .7 1 .0 -1 .0 -0 .5 1 .8

Score = -5.9-2 .7 1 .8 0 .1 1 .2 1 .0 -2 .9-1 .5 -3 .1 -1 .2 -1 .0 -0 .2 -2 .2-1 .7 -4 .9 -1 .1 -0 .7 -1 .1 -3 .61 .7 -1 .7 1 .0 -1 .0 -0 .5 1 .8

Score = -6.0-2 .7 1 .8 0 .1 1 .2 1 .0 -2 .9-1 .5 -3 .1 -1 .2 -1 .0 -0 .2 -2 .2-1 .7 -4 .9 -1 .1 -0 .7 -1 .1 -3 .61 .7 -1 .7 1 .0 -1 .0 -0 .5 1 .8

Score = +8.5

A C T A T A A T C G

Threshold Score = +7.0

Page 23: Caratterizzazione di una sequenza genomica - siga.unina.it · score div.del.ins. sequence begin end ( lef t ) r epe a t c las s / f amily begin end(2203 17.112.0 0.2 SEQ 1744 2176
Page 24: Caratterizzazione di una sequenza genomica - siga.unina.it · score div.del.ins. sequence begin end ( lef t ) r epe a t c las s / f amily begin end(2203 17.112.0 0.2 SEQ 1744 2176
Page 25: Caratterizzazione di una sequenza genomica - siga.unina.it · score div.del.ins. sequence begin end ( lef t ) r epe a t c las s / f amily begin end(2203 17.112.0 0.2 SEQ 1744 2176
Page 26: Caratterizzazione di una sequenza genomica - siga.unina.it · score div.del.ins. sequence begin end ( lef t ) r epe a t c las s / f amily begin end(2203 17.112.0 0.2 SEQ 1744 2176

T able 6 . 7. S pecializ e d data b a ses c ollectin g D N A bindin g site s rec o g niz e d b y pro k a r y otic a n de u k aryotic tra nscri ption.

D ataba s e U RL D esc ription

C OMPEL htt p : //c ompel . bio net .nsc.ru / C omposite re g ulatory elemen ts

D BTSB htt p : //e lmo .ims. u-tokyo . ac. jp/ dbt bs/ Ba cill us subtilis b i n ding facto rs andpromo ters

EP D htt p : //www.e p d .isb-s ib. ch/ Eu k a r y otic PolII promoters wit he x p erime ntally-d ete rmin e d tran s criptionstart site s

Reg u l o nDB htt p : //www.ci fn. u na m .mx/Compu ta t i ona l_B i olo gy/regulo ndb / E. c oli tra nscri ptio n al regulatio n a n do p ero n org a niz ation

TR A NSFA C htt p : //tra ns f ac. gbf . de / TRANS F AC/ Tr a nscrip tion fa cto rs and bindin g site s

O oTFD htt p : //www.if t i .org / Tr a nscrip tion fa cto rs and g e n ee x pre ssion

SCPD htt p : //c gs igm a.cs h l .org /ji an/ S a c c h aro m y ces ce revisia e p r omoterd ata b ase

Page 27: Caratterizzazione di una sequenza genomica - siga.unina.it · score div.del.ins. sequence begin end ( lef t ) r epe a t c las s / f amily begin end(2203 17.112.0 0.2 SEQ 1744 2176

Dato un gruppo di geni con un simile profilo diespressione (es. geni attivati simultaneamentedurante il ciclo cellulare) una sempliceassunzione è che questo profilo è almeno inparte determinato da similarità a livello delPROMOTORE.

Page 28: Caratterizzazione di una sequenza genomica - siga.unina.it · score div.del.ins. sequence begin end ( lef t ) r epe a t c las s / f amily begin end(2203 17.112.0 0.2 SEQ 1744 2176

La ricerca è stata dunque focalizzata allaricerca di motivi oligonucleotidici (probabilisiti di legame per Fattori di Trascrizione)comuni ai promotori dei geni co-regolati.

Page 29: Caratterizzazione di una sequenza genomica - siga.unina.it · score div.del.ins. sequence begin end ( lef t ) r epe a t c las s / f amily begin end(2203 17.112.0 0.2 SEQ 1744 2176

Pattern Significativo Pattern casuale

Page 30: Caratterizzazione di una sequenza genomica - siga.unina.it · score div.del.ins. sequence begin end ( lef t ) r epe a t c las s / f amily begin end(2203 17.112.0 0.2 SEQ 1744 2176

� Occorrenza

� Posizione non casuale

� Contenuto informativo

Page 31: Caratterizzazione di una sequenza genomica - siga.unina.it · score div.del.ins. sequence begin end ( lef t ) r epe a t c las s / f amily begin end(2203 17.112.0 0.2 SEQ 1744 2176

� Occorrenza Il numero di sequenze che contiene un certopattern è significativamente maggiore diquanto atteso (es. algoritmo WordUP).

PATTERNS O BSERVED EXPECTED CHI-SQ UAREPATTERNS O BSERVED EXPECTED CHI-SQ UARE

AATAAA 1345 414.00035 2093.62225AAATAA 834 414.00035 426.08588ATAAAG 578 258.12928 396.37997ATAAAA 744 414.00035 263.04270CCCCCC 273 654.61047 222.46291ATAAAT 584 321.22291 214.96537G AAATA 443 239.14498 173.77269TAAATA 496 285.44362 155.31610

TG TATTT 243 103.18333 189.45602TG TATAT 154 56.34083 169.27891ATATTTA 221 95.25445 165.99689TTTATAT 218 103.87432 125.38875TG TACAT 130 50.48650 125.22942ATATATA 136 59.08119 100.14193

G CG G CCG C 38 5.41527 196.06842ATATATTT 100 31.42024 149.68643G G G TG G G G 92 31.82251 113.79774TTTAAAAA 211 103.89444 110.41593TACATTTT 92 33.40711 102.76638

TATTTATTT 94 16.60269 360.80574TTTTTAAAA 139 40.25077 242.26645

Page 32: Caratterizzazione di una sequenza genomica - siga.unina.it · score div.del.ins. sequence begin end ( lef t ) r epe a t c las s / f amily begin end(2203 17.112.0 0.2 SEQ 1744 2176

Le sequenze di DNA come “catene Markoviane”Markov chain order k=0

Exp (TATA)=pA2pT

2LMarkov chain order k=1

Exp (TATA)= fTAfATfTA

fAfTMarkov chain order k=2

Exp (TATA)= fTATfATA

fAT

Page 33: Caratterizzazione di una sequenza genomica - siga.unina.it · score div.del.ins. sequence begin end ( lef t ) r epe a t c las s / f amily begin end(2203 17.112.0 0.2 SEQ 1744 2176

� PosizioneI pattern funzionali sono generalmente localizzatiin posizioni conservate (es. ad una certa distanzadal sito di inizio della trascrizione).

TATA-box distribution

0

10

20

30

40

50

60

Distance from TSS

N

Page 34: Caratterizzazione di una sequenza genomica - siga.unina.it · score div.del.ins. sequence begin end ( lef t ) r epe a t c las s / f amily begin end(2203 17.112.0 0.2 SEQ 1744 2176

� Contenuto InformazionaleLe costrizioni funzionali su ogni specifica posizione del pattern sonodiverse, con alcuni siti assolutamente conservati ed altri variabil. (es.contenuto informazionale secondo Shannon variabile tra 0 e 100).

Page 35: Caratterizzazione di una sequenza genomica - siga.unina.it · score div.del.ins. sequence begin end ( lef t ) r epe a t c las s / f amily begin end(2203 17.112.0 0.2 SEQ 1744 2176
Page 36: Caratterizzazione di una sequenza genomica - siga.unina.it · score div.del.ins. sequence begin end ( lef t ) r epe a t c las s / f amily begin end(2203 17.112.0 0.2 SEQ 1744 2176

Due differenti approcci possono essereutilizzati per individuare motivi funzionalida regioni regolatorie di geni co-regolati.

� Metodi di Allineamento

� Metodi Enumerativi

Page 37: Caratterizzazione di una sequenza genomica - siga.unina.it · score div.del.ins. sequence begin end ( lef t ) r epe a t c las s / f amily begin end(2203 17.112.0 0.2 SEQ 1744 2176

Metodi basati sull’identificazione di SEGNALI

Metodi basati sulle proprietà generali delle sequenze codificanti

Page 38: Caratterizzazione di una sequenza genomica - siga.unina.it · score div.del.ins. sequence begin end ( lef t ) r epe a t c las s / f amily begin end(2203 17.112.0 0.2 SEQ 1744 2176

cap-site Y Y A N W Y Y

Start Codon Context (Homo sapiens - > 9000 genes)

-6 -5 -4 -3 -2 -1 +1 +2 +3 +4 +5 +6 +7 +8

% G 38 29 25 36 18 31 0 0 100 49 19 37 34 21

% A 20 17 23 47 32 16 100 0 0 22 27 15 23 26

% T 19 20 12 6 12 7 0 100 0 14 14 21 17 22

% C 24 34 41 12 38 46 0 0 0 15 40 27 27 31

g c c R c c A T G g c a n n

Exon / Intron Profile Matrix (Donor Site)

-3 -2 -1 +1 +2 +3 +4 +5 +6A 28 59 8 / 0 0 54 74 5 16C 40 14 5 / 0 0 2 8 6 18G 17 13 81 / 100 0 42 11 85 21T 14 14 6 / 0 100 2 8 4 45

c A G G T A A G N

Intron /Exon Profile M atrix (AcceptorSite)

-8 -7 -6 -5 -4 -3 -2 -1 +1A 11 11 7 8 25 3 100 0 /27C 37 38 39 36 26 75 0 0 /14G 10 9 7 6 26 1 0 100 /49T 42 43 47 51 23 21 0 0 /10

Y Y Y Y N C A G G

Page 39: Caratterizzazione di una sequenza genomica - siga.unina.it · score div.del.ins. sequence begin end ( lef t ) r epe a t c las s / f amily begin end(2203 17.112.0 0.2 SEQ 1744 2176
Page 40: Caratterizzazione di una sequenza genomica - siga.unina.it · score div.del.ins. sequence begin end ( lef t ) r epe a t c las s / f amily begin end(2203 17.112.0 0.2 SEQ 1744 2176
Page 41: Caratterizzazione di una sequenza genomica - siga.unina.it · score div.del.ins. sequence begin end ( lef t ) r epe a t c las s / f amily begin end(2203 17.112.0 0.2 SEQ 1744 2176

Aasim = max (A1, A2, A3)

min ( A1, A2, A3) +1

Fickett Method: qa, qc, qg, qt, Aasim, Casim, Gasim, Tasim

Page 42: Caratterizzazione di una sequenza genomica - siga.unina.it · score div.del.ins. sequence begin end ( lef t ) r epe a t c las s / f amily begin end(2203 17.112.0 0.2 SEQ 1744 2176

p =fxyz / Fxyz

rxyz / Rxyz

P = expln pi

L (L = 25 − 50 codons)

i =1

L

Page 43: Caratterizzazione di una sequenza genomica - siga.unina.it · score div.del.ins. sequence begin end ( lef t ) r epe a t c las s / f amily begin end(2203 17.112.0 0.2 SEQ 1744 2176

Mer Line/L2 AluSxAluSx AluJb AluSg1 AluSx

LTR

AluJb

AluSx AluJb

LTR AluJb

1000 2000 3000 4000 5000 6000

LTRCpG island

GRAIL

Genscan

poly-A site GENSCANW output for sequence 03:43:58

G E N S C A N 1 . 0 D a t e r u n : 1 2 - J a n - 1 0 0 T i m e :S e q u e n c e S E Q : 6 4 1 7 b p : 4 8 . 3 6 % C + G : I s o c h o r eP a r a m e t e r m a t r i x : H u m a n I s o . s m a t

P r e d i c t e d g e n e s / e x o n s :

G n . E x T y p e S . B e g i n . . . E n d . L e n F r P h I / A c D o /- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -

1 . 0 1 I n i t + 7 9 4 1 0 2 9 2 3 6 1 2 5 0 71 . 0 2 I n t r + 2 5 8 0 2 6 7 6 9 7 0 1 8 4 71 . 0 3 I n t r + 3 3 1 3 3 4 0 2 9 0 0 0 5 9 61 . 0 4 T e r m + 4 5 6 2 4 7 1 7 1 5 6 1 0 7 9 31 . 0 5 P l y A + 5 7 6 8 5 7 7 3 6

Page 44: Caratterizzazione di una sequenza genomica - siga.unina.it · score div.del.ins. sequence begin end ( lef t ) r epe a t c las s / f amily begin end(2203 17.112.0 0.2 SEQ 1744 2176

Mer Line/L2 AluSxAluSx AluJb AluSg1 AluSx

LTR

AluJb

AluSx AluJb

LTR AluJb

1000 2000 3000 4000 5000 6000

LTRCpG island

GRAIL

Genscan

poly-A site

Transcription Map

(mRNA UTRs are not predicted)

Page 45: Caratterizzazione di una sequenza genomica - siga.unina.it · score div.del.ins. sequence begin end ( lef t ) r epe a t c las s / f amily begin end(2203 17.112.0 0.2 SEQ 1744 2176

QuickTime™ e un decompressore TIFF (LZW) sono necessari per visualizzare quest'immagine.

QuickTime™ e un decompressore TIFF (LZW) sono necessari per visualizzare quest'immagine.

Tblastx di una sequenzacontro l’altra associato aduna procedura di gene-finding

Page 46: Caratterizzazione di una sequenza genomica - siga.unina.it · score div.del.ins. sequence begin end ( lef t ) r epe a t c las s / f amily begin end(2203 17.112.0 0.2 SEQ 1744 2176

Predizione della funzione genica

Analisi della similarità con altresequenze nucleotidiche oaminoacidiche a funzione nota :- Database searching- Allineamento e Multiallineamento- Costruzione di profili- Ricerca di Motivi- Studi di Evoluzione Molecolare

Page 47: Caratterizzazione di una sequenza genomica - siga.unina.it · score div.del.ins. sequence begin end ( lef t ) r epe a t c las s / f amily begin end(2203 17.112.0 0.2 SEQ 1744 2176

Evoluzione Molecolare

Gli “errori” nella trasmissione genetica sono allabase dei processi evolutivi che a partire da unaforma di vita primitiva hanno prodotto l’enormediversità delle forme di vita attuali.

• mutazioni puntiformi• inserzioni• delezioni• riarrangiamenti di vario tipo

Page 48: Caratterizzazione di una sequenza genomica - siga.unina.it · score div.del.ins. sequence begin end ( lef t ) r epe a t c las s / f amily begin end(2203 17.112.0 0.2 SEQ 1744 2176

Basi Molecolari delle MutazioniLe mutazioni possono essere “spontanee” o “indotte” daspecifici agenti chimici. Le mutazioni puntiformi spontaneesono generalmente dovute alle peculiari proprietà delle basiazotate ed in particolare alla proprietà diassumere duediverse forme in seguito alla “tautomeria cheto-enolica”.

Genolo - T Cimino - A (es. GC →AT)

Tenolo - G Aimino - C

In questo modo possiamo spiegare le “transizioni” (es.purina →purina). Analogamente la rotazione del legameglicosidico di una purina sullo stampo in una conformazionesfavorevole (anti → syn) e il concomitante tautomerismodella base appaiata potrebbe originare le “trasversioni”(purina →pirimidina).

Page 49: Caratterizzazione di una sequenza genomica - siga.unina.it · score div.del.ins. sequence begin end ( lef t ) r epe a t c las s / f amily begin end(2203 17.112.0 0.2 SEQ 1744 2176

Basi Molecolari delle MutazioniLa probabilità della forma tautomerica sfavorita (enolo/imino)è pari a 10-4 - 10 -5

La probabilità della conformazione syn di G o A è parirettivamente a 0.1 e 0.05

Le transizioni sono effettivamente più probabili delletransversioni anche se hanno probabilità complessivamentepiù basse a causa dell’intervento dei meccanismi di riparo.

Altre dovute ad appaiamenti non canonici diversi, a processidi depurinazione, a deaminazioni ossidative, ecc.)

Page 50: Caratterizzazione di una sequenza genomica - siga.unina.it · score div.del.ins. sequence begin end ( lef t ) r epe a t c las s / f amily begin end(2203 17.112.0 0.2 SEQ 1744 2176

Mutazioni

Tipi di mutazione cheintervengono nel corso delprocesso di evoluzionemolecolare.A partire da una sequenzaprogenitore (A) possonoverificarsi:sostituzioni puntiformi (B);delezioni (C);inserzioni (D);inversioni (E).Questo fa sì che la sequenzadiscendente possa risultaredifferente da quella ancestraleanche nella lunghezza (F).

(A )

5’-ATGGACCGGATGGATGATGGACCGTTAGGAT-3’

(B)

5’-ATGGACCGAATGGCTGACGGACCGTGAGGAT-3’

(C) -( CGAA)5’ - ATGGAC.TGGCTGACGGACCGTGAGGAT-3 ’

(D )

5’ - ATGGAC.TGGCTGACGGAACTCCGTGAGGAT-3 ’

(E)

5’ - AGTCCA.T GGCTGACGGAACTCCGTGAGGAT-3 ’

(F)

5’ - ATGGACCGGATGGATGATGGA---C CGTTAGGAT-3’ | | || | | | || | | | || | | |||5’ - AGTCCA-- - -TGGCTGACGGAACTCCGTGAGGAT-3 ’

So sti t uzi o n i p u n tiform i

De lez i o ne

Inserzio n e

In v ersi o ne

Page 51: Caratterizzazione di una sequenza genomica - siga.unina.it · score div.del.ins. sequence begin end ( lef t ) r epe a t c las s / f amily begin end(2203 17.112.0 0.2 SEQ 1744 2176

SlippageGenerazione di piccoleinserzioni o delezioniattraverso il meccanismodello slippage.Nell’esempio qui riportatosi osserva unmisappaiamentodell’elica di nuova sintesisull’elica stampo dovutoalla presenza di unmicrosatellite (TA)n cheproduce l’inserzione diun dinucleotide TA in unadelle due eliche figlie (B).Allo stesso modo ilmisappaiamento puòriguardare l’elica stampo,in questo caso siproduce una delezione inuna delle due eliche figlie(B).

( A )

T AA T

5 ’ T C C G T C T A C T A A T A T A T A T 3 ’e l i c a d i n u o v as i n t e s i3 ’ A G G C A G A T G A T T A T A T A T A T A T A A G C T T A G A 5 ’e l i c a s t a m p o

5 ’ T C C G T C T A C T A A T A T AT AT A T A T. . 3 ’3 ’ A G G C A G A T G A T T A T A TA TA T A T A . . 5 ’

( B )

5 ’ T C C G T C T A C T A A T A T A T A T 3 ’e l i c a d i n u o v a s i n t3 ’ A G G C A G A T G A T T A T A T A T A T A T A A G C T T A G A 5 ’e l i c a s t a m po

T AA T

5 ’ T C C G T C T A C T A A - - T A T A T A T . . 3 ’3 ’ A G G C A G A T G A T T - - A T A T A T A . . 5 ’

inser zione

de lez ione

Page 52: Caratterizzazione di una sequenza genomica - siga.unina.it · score div.del.ins. sequence begin end ( lef t ) r epe a t c las s / f amily begin end(2203 17.112.0 0.2 SEQ 1744 2176

Duplicazioni eInserzioni

Generazione diinserzioni e delezioni

attraverso ilmeccanismo del

crossing-overdisuguale mediato da

segmenti ripetuti(rappresentati da

rettangoli con coloreuguale) nel caso diappaiamento inter-cromosomico (A) eintracromosomico

(B).

+Inserzione

Delezione

Delezi one

(A)

(B)

Page 53: Caratterizzazione di una sequenza genomica - siga.unina.it · score div.del.ins. sequence begin end ( lef t ) r epe a t c las s / f amily begin end(2203 17.112.0 0.2 SEQ 1744 2176

Mutazione e Fissazione

Il fatto che una mutazione venga fissata all’interno di una popolazionepuò risultare da due processi distinti: 1) la selezione naturale e 2) laderiva genica casuale (neutral genetic drift).La selezione naturale è definita come la capacità differenziata diriproduzione di individui geneticamente distinti (o genotipi) all’interno diuna popolazione. La capacità di riproduzione di un individuo èdeterminata dal proprio livello di adattamento all’ambiente rispetto adaltri individui della stessa specie. Rispetto alla selezione naturale, lemutazioni possono essere vantaggiose, svantaggiose o neutrali. Laselezione naturale contrasta la fissazione di mutazioni svantaggiose,favorisce la fissazione di mutazioni vantaggiose e non ha alcunainfluenza sulle mutazioni neutrali.La deriva genica casuale può produrre la fissazione di mutazioni neutraliattraverso un processo stocastico per cui la frequenza dell’allele mutatopuò aumentare nel tempo in seguito ad un processo di tipoesclusivamente casuale.

Page 54: Caratterizzazione di una sequenza genomica - siga.unina.it · score div.del.ins. sequence begin end ( lef t ) r epe a t c las s / f amily begin end(2203 17.112.0 0.2 SEQ 1744 2176

♦ Similarità

• Somiglianza tra due sequenze (DNA o proteine)• può essere locale o globale• si può misurare (grandezza quantitativa)

♦ Omologia

• Comune origine evolutiva di due sequenze• Si determina per mezzo di una analisi evolutiva• C’è o non c’è (carattere qualitativo)

Similarità vs. Omologia

Page 55: Caratterizzazione di una sequenza genomica - siga.unina.it · score div.del.ins. sequence begin end ( lef t ) r epe a t c las s / f amily begin end(2203 17.112.0 0.2 SEQ 1744 2176

� Implicano entrambe OMOLOGIA

� Ortologia• Sequenze che hanno avuto origine da un

progenitore comune in seguito a speciazione

� Paralogia• Sequenze che hanno avuto origine da un

progenitore comune in seguito a duplicazione genica

� Xenologia • Sequenze che hanno avuto origine da un processo di trasferimento

orizzontale

Ortologia e Paralogia

Page 56: Caratterizzazione di una sequenza genomica - siga.unina.it · score div.del.ins. sequence begin end ( lef t ) r epe a t c las s / f amily begin end(2203 17.112.0 0.2 SEQ 1744 2176

(A )

1A707 FD1

(B)

1 . A F V V T D N C I K C K Y T D C V E V . C P V D C F Y E G P N F L V I| : | | . . | : | | . | | | . : : |

1 X A Y K V T . . . . L V T P T G N V E F Q C P D D V Y . . . . . I L D A. . .

4 6 E P E C P A Q A I F S E D E V P E D M Q E F I Q L N A E L A E V W P N I: . : . . . : : . . : . : : | | . | : : : . : : . | . | . :

4 2 G S C S S C A G K L K T G S L N Q D D Q S F L D . D D Q I D E G W V . L.

9 6 G V K G K L Q H L E R 1 0 6| : . |

9 0 H K K E E L T A . . . 9 7

Le strutturesono piùconservate dellesequenze(Confronto traFerredossina diSpinacio e diAzotobacter)

Page 57: Caratterizzazione di una sequenza genomica - siga.unina.it · score div.del.ins. sequence begin end ( lef t ) r epe a t c las s / f amily begin end(2203 17.112.0 0.2 SEQ 1744 2176

paraloghi

gene ancestrale

gene A gene B

duplicazione genica

0

speciazione

gene A1

gene B1

gene A2

gene B2

ortologhi

ortologhi

Ortologia e Paralogia

Page 58: Caratterizzazione di una sequenza genomica - siga.unina.it · score div.del.ins. sequence begin end ( lef t ) r epe a t c las s / f amily begin end(2203 17.112.0 0.2 SEQ 1744 2176

Divergenza geneticaACTGAACGTAACGC

ACTGAACGTAACGC

ACTGAACGTAACGC

T AT

A a T a A A C G T A a C G C

t C T a A A C G T A A C G C

Confronto delle sequenze evolute

sostituzione singolasostituzione multipla

sostituzione convergente

sostituzioni coincidenti

Sequenza ancestrale

tempo

Sequenze discendenti

Divergenza

A

G A

A

� �

➨➨ ➨

➨ ➨

A causa della possibilità dimutazioni multiple sullo stessosito, di retromutazioni, o disostituzioni convergenti, ilnumero di sostituzioni che vieneosservato tra due sequenze éinferiore al numero effettivo disostituzioni. In questo esempio,in seguito a divergenza da unasequenza ancestrale, ilconfronto tra le sequenzediscendenti 1 e 2, evidenzia duesole differenze a fronte dei setteeventi di sostituzione che hannoavuto luogo in realtà.L’allineamento riporta incarattere minuscolo le basicoinvolte nel processo disostituzione.

Page 59: Caratterizzazione di una sequenza genomica - siga.unina.it · score div.del.ins. sequence begin end ( lef t ) r epe a t c las s / f amily begin end(2203 17.112.0 0.2 SEQ 1744 2176

DNA vs proteine

Il confronto tra sequenze di DNAè più informativo di quello tra lecorrispondenti sequenze diproteine. In questo esempio cheriporta l’allineamento sia a livellodi DNA che di proteina tra gliistoni H2A di uomo (Z80778) etopo (X16148) mostra che afronte di 52 sostituzioninucleotidiche si osservano solodue sostituzioni aminoacidiche ditipo conservativo.

(A)G AP o f : h 2 a _hu m . seq x h2 a _ mus . seq F ebr u a ry 6 ,19 1 0 2 2 0 : 25 . .

P erc e n t S i m ila r i ty: 8 6.7 6 8 P erc e n t I d e nti t y : 8 6 . 768

. . . . .1 ATGTCTGGACGTGGTAAGCAAGGAGGCAAAGCTCGCGCCAAAGCGAAATC 50||||| || ||||| |||||||||||||| || |||||||| || || ||

1 ATGTCCGGTCGTGGCAAGCAAGGAGGCAAGGCCCGCGCCAAGGCCAAGTC 50. . . . .

51 CCGCTCTTCTCGCGCTGGTCTCCAGTTCCCGGTGGGCCGAGTGCACCGCC 100|| ||||| || || || || |||||||||||||| || |||||||| |

51 GCGGTCTTCCCGGGCCGGGCTACAGTTCCCGGTGGGGCGTGTGCACCGGC 100. . . . .

101 TGCTCCGTAAAGGCAACTACGCAGAGCGGGTTGGGGCAGGCGCGCCGGTG 150|||| || || ||||||||||| ||||| || || || |||||||||||

101 TGCTGCGGAAGGGCAACTACGCGGAGCGCGTGGGCGCCGGCGCGCCGGTA 150. . . . .

151 TACCTGGCGGCGGTGTTAGAGTACCTGACCGCCGAGATCCTGGAGCTGGC 200||| ||||||||||| | |||||||| || ||||||||||||||||||||

151 TACATGGCGGCGGTGCTGGAGTACCTAACGGCCGAGATCCTGGAGCTGGC 200. . . . .

201 CGGCAACGCGGCTCGCGACAACAAGAAGACTCGCATCATCCCGCGCCACT 250||||||||||| ||||||||||||||||| ||||||||||||||||||

201 GGGCAACGCGGCCCGCGACAACAAGAAGACGCGCATCATCCCGCGCCACC 250. . . . .

251 TGCAGCTGGCCATCCGCAACGACGAGGAGCTCAACAAACTGCTAGGCCGG 300||||||||||||||||||||||||||||||||||||| ||||| |||

251 TGCAGCTGGCCATCCGCAACGACGAGGAGCTCAACAAGCTGCTGGGCAAA 300. . . . .

301 GTGACCATTGCTCAGGGCGGCGTCCTTCCTAACATCCAGGCCGTGCTTCT 350||||| || || |||||||||||||| || ||||||||||||||||| ||

301 GTGACGATCGCGCAGGGCGGCGTCCTGCCCAACATCCAGGCCGTGCTGCT 350. . . .

351 GCCTAAGAAGACCGAGAGTCACCACAAGGCCAAGGGCAAGTGA 393||| |||||||| ||||| ||||| ||||| ||||||||||||

351 GCCCAAGAAGACGGAGAGCCACCATAAGGCGAAGGGCAAGTGA 393(B)G AP o f : h 2 a _hu m . pep x h2 a _ mus . pep F ebr u a ry 6 ,19 1 0 2 2 0 : 25 . .

P erc e n t S i m ila r i ty: 1 00. 0 0 0 Per c e nt I d ent i t y: 9 8 .47 3. . . . .

1 M S GRG K Q GGK A R AKA K S RSS R AGL Q F PVG R V HRL L R KGN Y A ERV G A GAP V50| | ||| | | ||| | | ||| | | ||| | ||| | | ||| | | ||| | | ||| | | ||| | | ||| |

1 M S GRG K Q GGK A R AKA K S RSS R AGL Q F PVG R V HRL L R KGN Y A ERV G A GAP V50. . . . .

51 Y L AAV L E YLT A E ILE L A GNA A RDN K K TRI I P RHL Q L AIR N D EEL N K LLG R100| : ||| | | ||| | | ||| | | ||| | ||| | | ||| | | ||| | | ||| | | ||| | | ||| :

51 Y M AAV L E YLT A E ILE L A GNA A RDN K K TRI I P RHL Q L AIR N D EEL N K LLG K100. . .

1 01 V T IAQ G G VLP N I QAV L L PKK T ESH H K AKG K *13 1| | ||| | | ||| | | ||| | | ||| | ||| | | ||| | |

1 01 V T IAQ G G VLP N I QAV L L PKK T ESH H K AKG K *13 1

52 sost. (DNA)

2 sost. (proteina)

Page 60: Caratterizzazione di una sequenza genomica - siga.unina.it · score div.del.ins. sequence begin end ( lef t ) r epe a t c las s / f amily begin end(2203 17.112.0 0.2 SEQ 1744 2176

Metodi Stocastici per la stima delle distanze genetiche tra sequenze omologhe

I modelli stocastici descrivono il processo di evoluzionemolecolare come un processo probabilistico dipendente daltempo. I vari modelli si differenziano per le assunzioni “apriori” incorporate nel modello.

• tutti i siti evolvono in modo indipendente• tutti i siti possono mutare con la stessa probabilità• tutti i tipi di sostituzione sono ugualmente probabili• la velocità di sostituzione è costante nel tempo• la composizione in basi delle sequenze è all’equilibrio

Page 61: Caratterizzazione di una sequenza genomica - siga.unina.it · score div.del.ins. sequence begin end ( lef t ) r epe a t c las s / f amily begin end(2203 17.112.0 0.2 SEQ 1744 2176

Metodi Stocastici

A

G

T

C

Page 62: Caratterizzazione di una sequenza genomica - siga.unina.it · score div.del.ins. sequence begin end ( lef t ) r epe a t c las s / f amily begin end(2203 17.112.0 0.2 SEQ 1744 2176

Metodi Stocastici

M odello M atric e delle pr obabilit à delles ostituzioni nucle otidiche

C ompo sizione in ba sinello st ato sta ziona rio( fi

∞ , i = A, C, G, T

Nume r o dipa r ame tri

J u kes & Can t or ( 1 9 6 9) p11 α α αα p22 α αα α p33 αα α α p44

14

, 14

, 14

, 14

� �

� � 1

Kimura (1980) p11 β α ββ p22 β αα β p33 ββ α β p44

14

, 14

, 14

, 14

� �

� �

2

Tamu r a (1 9 9 2 ) p11 θβ θα (1 − θ )β(1 −θ )β p22 θβ (1 − θ)α(1 − θ )α θβ p33 (1 − θ )β(1 −θ )β θα θβ p44

1−θ2

, θ2

, θ2

, 1−θ

2 �

� � �

3

Page 63: Caratterizzazione di una sequenza genomica - siga.unina.it · score div.del.ins. sequence begin end ( lef t ) r epe a t c las s / f amily begin end(2203 17.112.0 0.2 SEQ 1744 2176

Metodi Stocastici

M odello M atric e delle pr obabilit à delles ostituzioni nucle otidiche

C ompo sizione in ba sinello st ato sta ziona rio( fi

∞ , i = A, C, G, T

Nume r o dipa r ame tri

J u kes & Can t or ( 1 9 6 9) p11 α α αα p22 α αα α p33 αα α α p44

14

, 14

, 14

, 14

� �

� � 1

H ase g a w a et al. ( 1 9 8 5) p11 πCβ π Gα πTβπA β p22 π Gβ πTαπ Aα πCβ p33 πTβπ Aβ π Cα πGβ p44

[πA, πC, πG, πT]5

La n a v e et al. (1984)Sa c c o ne et al. ( 1 9 9 0)

p11 πCβ1 πGα1 πTβ2

π Aβ1 p22 π Gβ3 πTα 2

π Aα 1 πCβ3 p33 πTβ 4

π Aβ 2 π Cα 2 π Gβ4 p44

[πA, πC, πG, πT] 9

Page 64: Caratterizzazione di una sequenza genomica - siga.unina.it · score div.del.ins. sequence begin end ( lef t ) r epe a t c las s / f amily begin end(2203 17.112.0 0.2 SEQ 1744 2176

(A)

Nucleotide frequencies (estimated from data set):

pi(A) = 29.5%pi(C) = 19.1%pi(G) = 23.7%pi(T) = 27.7%

Expected transition/transversion ratio: 2.50Expected pyrimidine transition/purine transition ratio: 0.76

SEQUENCE COMPOSITION (SEQUENCES IN INPUT ORDER)

5% chi-square test p-valueCHIMP passed 99.19%HUMAN passed 99.92%GORILLA passed 95.69%ORANG passed 95.63%MACAQUE passed 97.86%OWL_MONKEY passed 96.98%

The chi-square tests compares the nucleotide composition of each sequenceto the frequency distribution assumed in the maximum likelihood model.

(B)

S equ e n ces a nal y z ed : CHI M P- H UMA NP osi t i on a n aly z e d :t ot

A C G T- --- - - --- - - --- - - --- - - --- - - --- -A 5 9 6 0 9 0C 0 3 84 3 5G 5 0 473 3T 0 4 0 55 5- --- - - --- - - --- - - --- - - --- - - --- -

- --- - - --- - - --- - - --- - - --- - - --- - --- - - --- - - --- - - --- - - --- - - --- - - --- - - --- - - --- - - --- - -S equ e n ce p a ir b a se c o mpo s i tio n :i)q A = 0.2 9 7 0 q C = 0.1 9 2 4 q G = 0.2 3 61 q T =0. 2 7 44 A + T=0 . 5 714 G +C= 0 . 428 6 G+C / A +T= 0 . 750 0

i i)q A = 0.2 9 5 0 q C = 0.1 9 0 5 q G = 0.2 3 81 q T =0. 2 7 64 A + T=0 . 5 714 G +C= 0 . 428 6 G+C / A +T= 0 . 750 0- --- - - --- - - --- - - --- - - --- - - --- - --- - - --- - - --- - - --- - - --- - - --- - - --- - - --- - - --- - - --- - -A ver a g e:q A= 0 . 296 q C= 0 . 191 q G= 0 . 237 qT= 0 .27 5

S ubs t i tut i o ns ( S B) = 29 Tr a nsi t i ons ( TS) = 23 T r a nsv e r sio n s(T V ) = 6S ite s = 2 0 3 7S tat i o nar y Con d i tio n = V E R IFI E D ( C H I2 = 7.2 5 4 0)

Stazionarietà dellacomposizione in basi

Page 65: Caratterizzazione di una sequenza genomica - siga.unina.it · score div.del.ins. sequence begin end ( lef t ) r epe a t c las s / f amily begin end(2203 17.112.0 0.2 SEQ 1744 2176

Differente variabilità dei siti

Analizzare separatamente le prime (100% repl.) e secondeposizioni del codone (95% repl.) rispetto alle terze posizioni(30% repl.).

Tener conto della diversa variabilità dei siti considerati(GAMMA distribution).

Tener conto dei siti invarianti.

Page 66: Caratterizzazione di una sequenza genomica - siga.unina.it · score div.del.ins. sequence begin end ( lef t ) r epe a t c las s / f amily begin end(2203 17.112.0 0.2 SEQ 1744 2176

Calcolo delle distanze genetiche

(A)

U nco r r ect e d(" p " ) d i s tan c ema t rix

1 2 3 4 5 6 71 C H IMP -2 H U MAN 0 . 0 142 2 -3 G O RIL L A 0 . 0 196 1 0. 0 147 1 -4 O R ANG 0 . 0 362 7 0. 0 313 7 0. 0 3 725 -5 M A CAQ U E 0 . 0 769 6 0. 0 715 7 0. 0 7 549 0.0 7 5 49 -6 O W L M O N KEY 0 . 1 083 3 0. 1 049 0 0. 1 0 784 0.1 0 7 84 0 .12 1 5 7 -7 S P IDE RMON K E 0 . 1 007 4 0. 0 964 3 0. 0 9 776 0.1 0 0 52 0 .11 1 5 50 . 052 5 6 -

(B)

J uke s - Can t o r d i s tan c ema t r ix

1 2 3 4 5 6 71 C H IMP -2 H U MAN 0 . 0 143 5 -3 G O RIL L A 0 . 0 198 7 0. 0 148 5 -4 O R ANG 0 . 0 371 8 0. 0 320 5 0. 0 3 821 -5 M A CAQ U E 0 . 0 812 0 0. 0 752 2 0. 0 7 957 0.0 7 9 57 -6 O W L M O N KEY 0 . 1 170 0 0. 1 130 0 0. 1 1 643 0.1 1 6 43 0 .13 2 6 3 -7 S P IDE RMON K E 0 . 1 081 8 0. 1 032 2 0. 1 0 475 0.1 0 7 92 0 .12 0 7 70 . 054 4 9 -

Page 67: Caratterizzazione di una sequenza genomica - siga.unina.it · score div.del.ins. sequence begin end ( lef t ) r epe a t c las s / f amily begin end(2203 17.112.0 0.2 SEQ 1744 2176

Calcolo delle distanze genetiche

(C)

K imu r a2- p a ram e t er d i sta n c e m a tri x

1 2 3 4 5 6 71 C H IMP -2 H U MAN 0 . 0 143 9 -3 G O RIL L A 0 . 0 199 3 0. 0 148 9 -4 O R ANG 0 . 0 373 6 0. 0 321 8 0. 0 3 841 -5 M A CAQ U E 0 . 0 818 6 0. 0 757 4 0. 0 8 017 0.0 8 0 11 -6 O W L M O N KEY 0 . 1 186 2 0. 1 145 1 0. 1 1 802 0.1 1 7 84 0 .13 4 5 8 -7 S P IDE RMON K E 0 . 1 093 2 0. 1 042 2 0. 1 0 576 0.1 0 8 89 0 .12 2 2 00 . 054 7 8 -

(D)

G ene r a l t i m e-r e v ers i b le d i sta n ce m a tri x

1 2 3 4 5 6 71 C H IMP -2 H U MAN 0 . 0 144 0 -3 G O RIL L A 0 . 0 199 5 0. 0 149 0 -4 O R ANG 0 . 0 374 4 0. 0 322 3 0. 0 3 846 -5 M A CAQ U E 0 . 0 820 4 0. 0 758 7 0. 0 8 028 0.0 8 0 31 -6 O W L M O N KEY 0 . 1 189 0 0. 1 147 4 0. 1 1 829 0.1 1 8 17 0 .13 5 1 2 -7 S P IDE RMON K E 0 . 1 096 7 0. 1 044 9 0. 1 0 604 0.1 0 9 24 0 .12 2 8 20 . 054 9 0 -

Page 68: Caratterizzazione di una sequenza genomica - siga.unina.it · score div.del.ins. sequence begin end ( lef t ) r epe a t c las s / f amily begin end(2203 17.112.0 0.2 SEQ 1744 2176

Calcolo delle distanze trasequenze proteiche (Kimura)

d = − ln(1 − p − 0.2p)

p ≤ 0.7

Page 69: Caratterizzazione di una sequenza genomica - siga.unina.it · score div.del.ins. sequence begin end ( lef t ) r epe a t c las s / f amily begin end(2203 17.112.0 0.2 SEQ 1744 2176

FILOGENESI MOLECOLARE

Le relazioni evolutive tra gli organismi, o più in generale tra geniomologhi possono essere rappresentate attraverso “alberi filogenetici”.Un albero filogenetico è un grafo costituito da nodi e da rami, in cuiogni ramo mette in relazione solo due nodi. I nodi rappresentano leunità tassonomiche mentre i rami definiscono le relazioni tra queste intermini di ascendenza e discendenza.

Page 70: Caratterizzazione di una sequenza genomica - siga.unina.it · score div.del.ins. sequence begin end ( lef t ) r epe a t c las s / f amily begin end(2203 17.112.0 0.2 SEQ 1744 2176

A

B

C

D

E

F

C

A

B

D

E

F

branch

Rooted Tree Unr ooted Tree

node

root

OTU

FILOGENESI MOLECOLARETopologia

N R =2n − 3( )!

2n− 2 n − 2( )!

NU =2n − 5( )!

2n −3 n − 3( )!

Page 71: Caratterizzazione di una sequenza genomica - siga.unina.it · score div.del.ins. sequence begin end ( lef t ) r epe a t c las s / f amily begin end(2203 17.112.0 0.2 SEQ 1744 2176

FILOGENESI MOLECOLAREScelta della radice dell’albero

CHIMP

HUMAN

GORILLA

ORANG

OWL MONKEY

SPIDER MONKEY

MACAQUE

CHIMP

HUMAN

GORILLA

MACAQUE

OWL MONKEY

SPIDER MONKEY

o u t group

ra dic e

Page 72: Caratterizzazione di una sequenza genomica - siga.unina.it · score div.del.ins. sequence begin end ( lef t ) r epe a t c las s / f amily begin end(2203 17.112.0 0.2 SEQ 1744 2176

FILOGENESI MOLECOLARELunghezza dei rami - NEWICK format

0.0222

0.0328

0.0534

0.0140

0.0187

0.0101

0.0091

0.00014

0.0046

CHIMP

HUMAN

GORILLA

ORANG

MACAQUE

OWL MONKEY

SPIDER MONKEY

0.0098

0.0480

#NEXUS

Begin trees; [Treefile saved Mercoledì, 6marzo 2002 20:59][!>Neighbor-joining search settings:> Using BioNJ method> Ties (if encountered) will be broken systematically> Distance measure = general time-reversible> (Tree is unrooted)]tree nj =[&U](((((CHIMP:0.00979,HUMAN:0.00460):0.00014,GORILLA:0.01011):0.00909,ORANG:0.01867):0.01396,MACAQUE:0.04797):0.05338,OWL_MONKEY:0.03275,SPIDER_MONKEY:0.02215);end;

Page 73: Caratterizzazione di una sequenza genomica - siga.unina.it · score div.del.ins. sequence begin end ( lef t ) r epe a t c las s / f amily begin end(2203 17.112.0 0.2 SEQ 1744 2176

FILOGENESI MOLECOLAREMetodi per la costruzione degli alberi filogenetici

I metodi comunemente utilizzati per la costruzione degli alberifilogenetici possono essere classificati sulla base del tipo di metodologiautilizzata o della natura dei dati analizzati. Si possono adottare duediverse metodologie:

M1) metodi che applicano algoritmi di clustering o raggruppamento delleOTUs analizzate, generalmente basati su misure di distanze genetiche

M2) metodi che utilizzano algoritmi che massimizzano una funzioneobiettiva di qualità dell’albero (criterio di ottimalità).

Per quanto riguarda i dati analizzati possono essere utilizzate o lesequenze omologhe multiallineate oppure semplicemente le distanzegeniche calcolate tra tutte le possibili coppie di sequenze con i metodiprecedentemente illustrati.

Page 74: Caratterizzazione di una sequenza genomica - siga.unina.it · score div.del.ins. sequence begin end ( lef t ) r epe a t c las s / f amily begin end(2203 17.112.0 0.2 SEQ 1744 2176

FILOGENESI MOLECOLAREMetodi per la costruzione degli alberi filogenetici

T ipo d i Dati

T ipo d i metodo Di s tanze Sequenze

Algori t m i dicl uster ing

UPGMA

Nei ghbor-joi n ing

Algori t m i diot t i m izzazi one

Mi n imaEvol uzione

Mas s imaPars imoni aMas s imaVeros imi g lianza

Page 75: Caratterizzazione di una sequenza genomica - siga.unina.it · score div.del.ins. sequence begin end ( lef t ) r epe a t c las s / f amily begin end(2203 17.112.0 0.2 SEQ 1744 2176

FILOGENESI MOLECOLAREUPGMA - Alberi “rooted” ultrametrici

CHIMP

HUMAN

GORILLA

ORANG

MACAQUE

OWL MONKEY

SPIDER MONKEY0.01 substitutions/site

0.018

0.022

0.009

0.002

0.007

0.007

0.009

0.018

0.040

0.030

0.027

0.027

radice

Page 76: Caratterizzazione di una sequenza genomica - siga.unina.it · score div.del.ins. sequence begin end ( lef t ) r epe a t c las s / f amily begin end(2203 17.112.0 0.2 SEQ 1744 2176

FILOGENESI MOLECOLARE -UPGMA

QuickTime™ e un decompressore TIFF (LZW) sono necessari per visualizzare quest'immagine.

QuickTime™ e un decompressore TIFF (LZW) sono necessari per visualizzare quest'immagine.QuickTime™ e un decompressore TIFF (LZW) sono necessari per visualizzare quest'immagine.QuickTime™ e un decompressore TIFF (LZW) sono necessari per visualizzare quest'immagine.QuickTime™ e un decompressore TIFF (LZW) sono necessari per visualizzare quest'immagine.

Page 77: Caratterizzazione di una sequenza genomica - siga.unina.it · score div.del.ins. sequence begin end ( lef t ) r epe a t c las s / f amily begin end(2203 17.112.0 0.2 SEQ 1744 2176

L’ OROLOGIO MOLECOLARE

Tempo di Divergenza n oto

Tempo di Di vergenza

Div

erge

nza

gene

ticaetic

a

� �

� �

V= K/2TT= K/2V

Page 78: Caratterizzazione di una sequenza genomica - siga.unina.it · score div.del.ins. sequence begin end ( lef t ) r epe a t c las s / f amily begin end(2203 17.112.0 0.2 SEQ 1744 2176

FILOGENESI MOLECOLAREMolecular Clock

Stima dei tempi di Divergenza

A B C

T2T2

T 1T

T2 =2dAB

dAC + dBC

T1 =dAB

dAC

T1 =dAB

dBC

T1

calibrazione

Page 79: Caratterizzazione di una sequenza genomica - siga.unina.it · score div.del.ins. sequence begin end ( lef t ) r epe a t c las s / f amily begin end(2203 17.112.0 0.2 SEQ 1744 2176

FILOGENESI MOLECOLAREMolecular Clock

QuickTime™ e un decompressore TIFF (LZW) sono necessari per visualizzare quest'immagine.

QuickTime™ e un decompressore TIFF (LZW) sono necessari per visualizzare quest'immagine.

(Nature 392:917-920, 2998)

QuickTime™ e un decompressore TIFF (LZW) sono necessari per visualizzare quest'immagine.

Calibrazione

Page 80: Caratterizzazione di una sequenza genomica - siga.unina.it · score div.del.ins. sequence begin end ( lef t ) r epe a t c las s / f amily begin end(2203 17.112.0 0.2 SEQ 1744 2176

FILOGENESI MOLECOLARENeighbor-Joining

Tra tutti i possibili “neighbors” scegliamoquelli che minimizzano la lunghezzacomplessiva dell’albero. La procedura vieneiterata finchè non siano determinati tutti gliN-3 nodi interni dell’albero.

A A

A

B

B

B

CC

C

D

D

D

E

E

EFF

F

Page 81: Caratterizzazione di una sequenza genomica - siga.unina.it · score div.del.ins. sequence begin end ( lef t ) r epe a t c las s / f amily begin end(2203 17.112.0 0.2 SEQ 1744 2176

FILOGENESI MOLECOLARENeighbor-Joining

0.0222

0.0328

0.0534

0.0140

0.0187

0.0101

0.0091

0.00014

0.0046

CHIMP

HUMAN

GORILLA

ORANG

MACAQUE

OWL MONKEY

SPIDER MONKEY

0.0098

0.0480

Page 82: Caratterizzazione di una sequenza genomica - siga.unina.it · score div.del.ins. sequence begin end ( lef t ) r epe a t c las s / f amily begin end(2203 17.112.0 0.2 SEQ 1744 2176

QuickTime™ e un decompressore TIFF (LZW) sono necessari per visualizzare quest'immagine.

Page 83: Caratterizzazione di una sequenza genomica - siga.unina.it · score div.del.ins. sequence begin end ( lef t ) r epe a t c las s / f amily begin end(2203 17.112.0 0.2 SEQ 1744 2176

FILOGENESI MOLECOLAREMassima Parsimonia

1

2

3

4

1

3

2

4

1

4

2

3

I II III

sito 2G

AA A

A

A AA A

A

AG

AA A

A

AG

1

2

3

4

1

3

2

4

1

4

2

3

sito 3C

GG T

T

T TT T

T

GC

TT T

T

GC

1

2

3

4

1

3

2

4

1

4

2

3

sito 5G

GG A

A

A AA A

A

GG

AA A

A

GG

1

2

3

4

1

3

2

4

1

4

2

3

sito 7C

CT T

T

T TT T

T

CC

TT T

T

CC

1

2

3

4

1

3

2

4

1

4

2

3

sito 9A

GG G

A

G AA G

G

GA

GA A

A

GA

Sito

Sequenz a 1 2 3 4 5 6 7 8 9 101 G G C A G T C C A C

2 G A G C G T C C G C

3 G A T G A T T C A C4 G A T T A T T C G C

Page 84: Caratterizzazione di una sequenza genomica - siga.unina.it · score div.del.ins. sequence begin end ( lef t ) r epe a t c las s / f amily begin end(2203 17.112.0 0.2 SEQ 1744 2176

QuickTime™ e un decompressore TIFF (LZW) sono necessari per visualizzare quest'immagine.

Page 85: Caratterizzazione di una sequenza genomica - siga.unina.it · score div.del.ins. sequence begin end ( lef t ) r epe a t c las s / f amily begin end(2203 17.112.0 0.2 SEQ 1744 2176

QuickTime™ e un decompressore TIFF (LZW) sono necessari per visualizzare quest'immagine.

Page 86: Caratterizzazione di una sequenza genomica - siga.unina.it · score div.del.ins. sequence begin end ( lef t ) r epe a t c las s / f amily begin end(2203 17.112.0 0.2 SEQ 1744 2176

FILOGENESI MOLECOLAREMaximum Lilelihood

� Metodo estremamente accurato che oltre alla topologia ealle lunghezze dei rami dell’albero consente di tener contodella variabilità dei siti (stima del parametro alpha delladistribuzione Gamma) e del numero sei siti invarianti.

� … ma presenta notevoli limiti di natura computazionale(in alternativa si possono usare metodi approssimati come“Quartet Puzzling”).

� Consente di stimare ipotesi filogenetiche alternative

Page 87: Caratterizzazione di una sequenza genomica - siga.unina.it · score div.del.ins. sequence begin end ( lef t ) r epe a t c las s / f amily begin end(2203 17.112.0 0.2 SEQ 1744 2176

FILOGENESI MOLECOLAREMaximum Lilelihood

Valutazione Ipotesi Filogenetiche Alternative

QuickTime™ e un decompressore TIFF (LZW) sono necessari per visualizzare quest'immagine.

H0 : no Clock H1 : Clock

L0 L1

Likelihood Ratio Test (LRT): 2(L1 - L0 ) ≅≅≅≅ χ2 (k-2)

Page 88: Caratterizzazione di una sequenza genomica - siga.unina.it · score div.del.ins. sequence begin end ( lef t ) r epe a t c las s / f amily begin end(2203 17.112.0 0.2 SEQ 1744 2176

FILOGENESI MOLECOLAREValutazione della Affidabilità delle Ipotesi Filogenetiche

Bootstrap2 5 7 9 2 6 1 5 3 9

g t t g g a a t c gg t t g g g c t t gg g t a g g a g c ag t c g g g a t t g

5 2 7 1 9 3 10 1 10 6t g t a g c a a a at g t c g t a c a gg g t a a c a a a gt g c a g t a a a g

1 2 3 4 5 6 7 8 9 10a g c c t a t a g ac g t c t g t a g aa g c a g g t a a aa g t g t g c a g a

Ricampionamentocon ripetizione

CHIMP

HUMAN

GORILLA

ORANG

OWL MONKEY

SPIDER MONKEY

MACAQUE

CHIMP

HUMAN

GORILLA

ORANG

OWL MONKEY

SPIDER MONKEY

MACAQUE

CHIMP

HUMAN

GORILLA

ORANG

OWL MONKEY

SPIDER MONKEY

MACAQUE

CHIMP

HUMAN

GORILLA

ORANG

OWL MONKEY

SPIDER MONKEY

MACAQUE

CHIMP

HUMAN

GORILLA

ORANG

OWL MONKEY

SPIDER MONKEY

MACAQUE

CHIMP

HUMAN

GORILLA

ORANG

OWL MONKEY

SPIDER MONKEY

MACAQUE

CHIMP

HUMAN

GORILLA

ORANG

OWL MONKEY

SPIDER MONKEY

MACAQUE

Albero ConsensoJacknife : Ricampionamento senza ripetizione

Page 89: Caratterizzazione di una sequenza genomica - siga.unina.it · score div.del.ins. sequence begin end ( lef t ) r epe a t c las s / f amily begin end(2203 17.112.0 0.2 SEQ 1744 2176

FILOGENESI MOLECOLAREValutazione della Affidabilità delle Ipotesi Filogenetiche

BootstrapCHIMP

HUMAN

GORILLA

ORANG

MACAQUE

OWL MONKEY

SPIDER MONKEY

100

100

100

Page 90: Caratterizzazione di una sequenza genomica - siga.unina.it · score div.del.ins. sequence begin end ( lef t ) r epe a t c las s / f amily begin end(2203 17.112.0 0.2 SEQ 1744 2176

FILOGENESI MOLECOLAREValutazione della omogeneità della velocità evolutiva

Relative Rate Test

∆RAB=dA/dB=(d AB+d AO-dBO)/(d AB-dAO+dBO)

ingroup A ingroup B outgroup

radice

dA dB

Page 91: Caratterizzazione di una sequenza genomica - siga.unina.it · score div.del.ins. sequence begin end ( lef t ) r epe a t c las s / f amily begin end(2203 17.112.0 0.2 SEQ 1744 2176

Pac chetto/ P rogra m ma Desc riz ione URL

PH YLIP Pa c che tto c he c ompre nde numerosi programmi per ana lisi evolutive che consentono lacostru zione di al beri fi logen eti ci me diant e l’appl ica z ione di metodi basa ti sull a massimapa rsimoni a , sull a matric e d ell e dista nze , sulla massima v erosimigl ian za. Consen te diana liz z are vari tipi di dati , DNA prote ine , fre quenz e ge nic he, ecc .

evolu tion.ge net ics .washi ngton .edu/phyl ip. html

PA UP* Programma p er ana lisi evolut ive , svilupp ato origi nariament e per ana lisi di massimapa rsimoni a (PAUP deri va da Phyl ogene tic An alysis Using Parsimony), c he n ell a su ave rsione più rec ent e conse nte de t ermina zioni filoge net ich e at traverso una seri e di metod ibasa ti su p arsimonia , matric e dell e dista n ze e massima ve rosimig lianz a . Inc lud e a nch eva rie op zioni ch e c onse ntono d i eff ettuare numerosi t est stat isti ci per c onfron tar e l asignific ati vit à di varie ipotesi filog ene tic he.

pa up.cs it. fsu .edu/

Mar k o v Programma c h e c onsent e il ca l colo de lle dist anz e g ene tic he, fornendoi a nch e una stimade l le fl uttua zioni sta tisti che , a ttr averso i l metodo rev ersibile (G TR, Gene ral TimeRev ersibl e), effett ua un test de lla sta z ionarie t à d ell a c omposiz ion e i n b asi de lle sequ enz e ,e conse nte la stima di tempi di diverge nza .

bi ghost .ar ea.ba .cn r.i t/BIG/Markov/

PA ML Pa c che tto di programmi per eff ettuare ana lisi evol utive , su sequ enz e di DNA e protei ne,basa t e sul me todo de l la massima v erosimigl ian za.

abacus. gene.uc l .ac.uk/ sof tware/p aml.html

MrBay e s Programma p er effe ttu are an alisi filog ene tiche si se que nze di DNA e prote ine attrave rsol’appli c azion e di un me todo di infere nza Bay esia n a.

morphbank. ebc .uu.s e/mrbayes /

Tr ee-Pu z zle Programma p er effe ttu are an alisi filog ene tiche di sequ enz e d i DNA e prot eine a ttrav ersol’appli c azion e di metod i di massima v erosimigl ian z a c he effet tuano un a d ecomposizi onea quarte tti de lle sequen z e in esame.

www.tr ee-puzz le. de/

Phylo Win Programma dot ato di interf acc i a grafi c a p er l’appl i caz ion e di vari me todi di ana lisifi logen eti ca b asat i su parsimonia, matric e de lle distan z e e massima verosimiglia nza .

pb il. univ- lyon1 .fr /softwa re/phyl owin.html

MEG A Pa c che tto di programmi per l’app lic a zione di vari metodi d i a nal isi fi logen eti c a b asat i supa rsimoni a , ma tri ce del le dist anz e e massima v erosimigl i anz a.

www.megas oftwa re.ne t/

Pr otML Programma p er la det ermina z ione di alb eri filog ene tic i d a multi all ine amentiamminoac idi ci me diant e il met odo d ell a massima verosimigli anz a

www.ism.ac . jp/so ftware/ ismli b/sof tothe r.e .html#molphy

Software per Analisi Filogenetiche