Internet web: >8,000,000,000 pagine -...
Transcript of Internet web: >8,000,000,000 pagine -...
Internet web: >8,000,000,000 pagine
Merck Index: >10.000 monografie su composti chimici
Uric Acid
Ammonia is a universal participant in amino acid synthesis and degradation, but its accumulation has toxic consequences. Because terrestrial animals must conserve water, they convert ammonia to a form that can be excreted without large water losses. Birds, terrestrial reptiles, and insects convert most of their excess ammonia to uric acid, an oxidized purine. Most mammals excrete the bulk of their nitrogen as urea. See urea cycle reactions here. Uric acid is an intermediate in purine nucleotide metabolism (Figure 22.7) and is quite insoluble in water. Consequently, increasing concentrations of it causes it to precipitate as crystals of sodium urate, and cause the painful condition of gout.Uric acid also has antioxidant properties.
Riccardo Percudani 01/10/2007 File: PRESENTAZIONE_Abilita_INFORMATICA.SXI
Bioinformatica
Biologia (molecolare)+
Informatica
:studio dei problemi biologici attraverso le metodologie dell'informatica
~Biologia molecolare computazionale~Biochimica computazionale
Riccardo Percudani 01/10/2007 File: PRESENTAZIONE_Abilita_INFORMATICA.SXI
...viceversa
•Biocomputazione•Algoritmi genetici•Reti neurali
:Metodi informatici di applicazione generale che si ispirano ai principi della biologia
Riccardo Percudani 01/10/2007 File: PRESENTAZIONE_Abilita_INFORMATICA.SXI
Gli oggetti principali della bioinformatica
Sequenze di acidi nucleici
Sequenze di proteine
Strutture di macromolecole
>P25032 MASSSSATSGDDRPPAAGGGTPAQAHAEWAASMHAYYAAAASAAGHPYAAWPLPPQAQQHGLVAAGAGAAYGAGAVPHVPPPPAGTRHAHASMAAGVPYMA
>gi|8886401|gb|AF162269.1| CCCACTCCTCCATCTCACAAACACTTCTCTATACCCAACAATCCCTTTTACAATCCCTGCTCATTTAGTCAAAATGGTCAAGATTGCTGCTATCATCCTCCTCATGGGCATTCTCGCCAATGCTGCCGCCATCCCTGTCATTTCAACACCCAAATTACAGAGCCAACCGGCGAGGGCGACCGTGGGGACGTGGCCGAC
Riccardo Percudani 01/10/2007 File: PRESENTAZIONE_Abilita_INFORMATICA.SXI
Gli scopi della bioinformatica
Gestione dei dati biologicimantenimento, organizzazione, distribuzione...
Analisi dei dati biologiciinferenze e predizioni sul significato biologico
Riccardo Percudani 01/10/2007 File: PRESENTAZIONE_Abilita_INFORMATICA.SXI
Crescita esponenziale dei dati bioinformatici
Riccardo Percudani 02/03/04 File: PRESENTAZIONE_Abilita_INFORMATICA.SXI
Incremento dei dati di sequenza Vs diminuizione dei costi
Sequencing costs have dropped several orders of magnitude, from $10 per finished base in 1990 to today's cost, which are estimated at about 5 or 6 cents per base for finished sequence and about 2 to 4 cents for draft sequence.
The Scientist 17, 2003
Riccardo Percudani 01/10/2007 File: PRESENTAZIONE_Abilita_INFORMATICA.SXI
= Dogma centrale della biologia
Dogma centrale della bioinformatica
DNA RNA Proteine
struttura/funzione struttura/funzione
Secondo il dogma centrale della biologia le funzioni biologiche sono interamente codificate nella sequenza del DNA
Riccardo Percudani 01/10/2007 File: PRESENTAZIONE_Abilita_INFORMATICA.SXI
Affidabilità e completezza dei dati di sequenza
Completezza dell'informazione
Disponibili informazioni genomiche complete per numerosi organismi
Esattezza dell'informazione
A differenza di altre osservazioni biologiche, i dati di sequenza hanno una bassa percentuale di errore.Un sequenziamento accurato ha un errore di ~10-4
Riccardo Percudani 01/10/2007 File: PRESENTAZIONE_Abilita_INFORMATICA.SXI
Importanza della bioinformatica
●Quantità di informazione●Valore dell'informazione ●Esattezza e completezza dell'informazione
Riccardo Percudani 01/10/2007 File: PRESENTAZIONE_Abilita_INFORMATICA.SXI
Genomica
“Genoma” indica l'insieme del materiale genetico trasmissibile di unessere vivente (Hans Winkler, 1920). La genomica è la disciplina che studia i genomi completi.
Riccardo Percudani 01/10/2007 File: PRESENTAZIONE_Abilita_INFORMATICA.SXI
Genomica
http://www.nslij-genetics.org/seq/
Organismi a genoma completo
Studio dei genomi completi degli organismi. Possibile grazie a:- Metodi di sequenziamento automatico- Metodi bioinformatici
Riccardo Percudani 01/10/2007 File: PRESENTAZIONE_Abilita_INFORMATICA.SXI
Genomica
Dimensione del genoma e numero di geni
Homo sapiens: 30.000 geni, 3 * 109 caratteri
Riccardo Percudani 01/10/2007 File: PRESENTAZIONE_Abilita_INFORMATICA.SXI
Post-genomica?
Riccardo Percudani 01/10/2007 File: PRESENTAZIONE_Abilita_INFORMATICA.SXI
Storia evolutiva degli organismi
Nature is a tinkerer and not an inventorJacob, 1977
voi siete qui
LCA
Riccardo Percudani 01/10/2007 File: PRESENTAZIONE_Abilita_INFORMATICA.SXI
ATCGGCCACTTTCGCGATCA Sequenza ancestrale
ATAGGCCACTTTCGCGATCA ATAGGCCACTTTCGCGATTA
ATAGGGCACTTTCGCGATTA ATAGGGCACTTT-GCGATTA
ATAGGGCACTTT-GCGATGA
ATCGGCCACTTTCGCGATCG
ATCGGCCACTTTCGTGATCG
ATCGGCCACGTTCGTGATCG
ATCGCCCACGTTCGCGATCG
ATTGCCCACGTTCGCGATCG
Sequenze omologhe
ATCGGCCACGTTCGCGATCG
Evoluzione nel tempo dell'informazione biologica
Omologia = condivisione di un ancestore comune
Evento di separazione
Riccardo Percudani 01/10/2007 File: PRESENTAZIONE_Abilita_INFORMATICA.SXI
Separazione per speciazione
Riccardo Percudani 01/10/2007 File: PRESENTAZIONE_Abilita_INFORMATICA.SXI
ATCGGCCACTTTCGCGATCA Organismo ancestore
ATAGGGCACTTT-GCGATGA ATTGCCCACGTTCGCGATCG
Sequenze ortologhe
Separazione dei geni per speciazione
Specie moderna A Specie moderna B
Evento di speciazione
Lo stesso gene in organismi diversi
Riccardo Percudani 01/10/2007 File: PRESENTAZIONE_Abilita_INFORMATICA.SXI
I geni hanno una storia evolutiva più complicata di quella degli organismi
MIOGLOBINA
α-GLOBINA β-GLOBINA
α
α α
β
β β
Separazionedel gene
Separazione della specie
GLOBINA
GLOBINA
Riccardo Percudani 01/10/2007 File: PRESENTAZIONE_Abilita_INFORMATICA.SXI
ATCGGCCACTTTCGCGATCA gene ancestore
ATAGGGCACTTT-GCGATGA ATTGCCCACGTTCGCGATCG
Sequenze paraloghe
Separazione per duplicazione genica
gene moderno A gene moderno B
Evento di duplicazione
Geni originati per duplicazione in uno stesso genoma
Riccardo Percudani 01/10/2007 File: PRESENTAZIONE_Abilita_INFORMATICA.SXI
Caratteristiche dei geni omologhi
- Proteine derivanti da geni omologhi hanno struttura tridimensionale (3D) simile
- Proteine derivanti da geni ortologhi hanno probabilmente una funzione uguale o simile
- Proteine derivanti da geni paraloghi possono avere una funzione uguale o simile
Riccardo Percudani 01/10/2007 File: PRESENTAZIONE_Abilita_INFORMATICA.SXI
ATCGGCCACTTTCGCGATCA Sequenza ancestrale
ATAGGGCACTTT-GCGATGA ATTGCCCACGTTCGCGATCG
ATAGGGCACTTT-GCGATGA** * *** ** *****ATTGCCCACGTTCGCGATCG
Sequenze allineate
L'omologia è dedotta dall'allineamento
?
Osservazione
Ipotesi
Riccardo Percudani 01/10/2007 File: PRESENTAZIONE_Abilita_INFORMATICA.SXI
Allineamento di sequenze biologiche
• DNA: alfabeto di 4 lettere + gaps
• Proteine: alfabeto di 20 lettere + gaps
AATGTCAAC-GTAA
SPRRNQ-ACTCCNPR-NQGASCCC
Riccardo Percudani 01/10/2007 File: PRESENTAZIONE_Abilita_INFORMATICA.SXI
Penalità per apertura gap e penalità per allungamento gap
Se in una posizione è tollerata l'inserzione o delezione di un residuo è probabile che siano tollerate inserzioni o delezioni di più residui
Penalità gap= penalita apertura penalità allungamento
Uno o più gap tollerati dalla struttura
Regione in cui non sono tollerati i gap
Riccardo Percudani 01/10/2007 File: PRESENTAZIONE_Abilita_INFORMATICA.SXI
Criteri per la somiglianza di nucleotidi e amninoacidi
● Nucleotidi: identità
● Aminoacidi: identità + somiglianza
VLSSADKTNVKAAWGKVGAHAGEYGAEALERMFL
VLSAADKANIKAAW-KVGGQAGDHGAEALERMPL
***:*** *:**** ***: **: ******** *
AGGCTGACCTGGGAAGGGAAACTCTCAAAACCAT
AGGATGAGCT-GGAAGGATA-CTCTCAAAAACAT
*** *** ** ******* ** ******** ***
Riccardo Percudani 01/10/2007 File: PRESENTAZIONE_Abilita_INFORMATICA.SXI
Matrici empiriche di sostituzione
Riccardo Percudani 02/03/04 File: PRESENTAZIONE_Abilita_INFORMATICA.SXI
Significatività di un allineamento
ATAGGGCACTTT-GCGATGA** * *** ** *****ATTGCCCACGTTCGCGATCG
Sequenze allineate
Osservazione
Ipotesi
OMOLOGIA? CASO?
P(omologia) + P(caso) = 1
Riccardo Percudani 02/03/04 File: PRESENTAZIONE_Abilita_INFORMATICA.SXI
Banche dati primarie: acidi nucleiciTre consorzi che scambiano informazioni(International Nucleotide Sequence Database Collaboration):
GenBank (americana) EMBL(europea)DDBJ (giapponese)
Genetic Sequence Data Bank October 15 2001
NCBI-GenBank Flat File Release 126.0
Distribution Release Notes
13602262 loci, 14396883064 bases, from 13602262 reported sequences
This document describes the format and content of the flat files thatcomprise releases of the GenBank database. If you have any questions orcomments about GenBank or this document, please contact NCBI via emailat [email protected] or:
Una Release in cui la banca dati viene “congelata” ad una certa data
+
Aggiornamenti quotidiani:Es: GenBank_new, EMBL_new
Riccardo Percudani 02/03/04 File: PRESENTAZIONE_Abilita_INFORMATICA.SXI
Ricerca di omologia in banca dati>AAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
>BBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg
>CCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat
>DDDDacgctaaaaggctagcatcggggatcggat
>FFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
>EEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
Filtro statistico
>EEEEEcggctcggatcgggatttgagtctagccgctaggctagcc....
>DDDDacgctaaaaggctagcatcgggga...
>AAAAacgctaggctagctggatcggggatcggat.....
1°
n°
2°>queryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa
Riccardo Percudani 02/03/04 File: PRESENTAZIONE_Abilita_INFORMATICA.SXI
BLAST Output ESequences producing significant alignments: Valuegi|6320379|ref|NP_010459.1| High mobility group (HMG)-like ... 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean >gi... 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 23.8 KD PROTEI... 48 8e-05gi|14550383|gb|AAK67237.1|U22831_8 (U22831) Hypothetical pr... 48 1e-04gi|4507241|ref|NP_003137.1| structure specific recognition ... 48 1e-04gi|11359753|pir||T43009 HMG protein 1.2 - Caenorhabditis el... 47 1e-04gi|14550384|gb|AAK67238.1|U22831_9 (U22831) Hypothetical pr... 47 1e-04gi|12857100|dbj|BAB30892.1| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_080088.1| high mobility group 20A [Mus m... 46 3e-04gi|8922633|ref|NP_060670.1| high-mobility group 20A [Homo s... 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly ... 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1-... 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT... 45 4e-04gi|65265|emb|CAA42523.1| (X59863) a xenopus upstream bindi... 45 4e-04gi|587104|emb|CAA57212.1| (X81456) unnamed protein product ... 45 4e-04
gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11... 37 0.11gi|14786454|ref|XP_030626.1| hypothetical protein XP_030626... 37 0.11gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag... 37 0.12gi|12836358|dbj|BAB23621.1| (AK004857) putative [Mus musculus] 37 0.13gi|576153|pdb|1HME| High Mobility Group Protein Fragment... 37 0.13gi|7446228|pir||T03375 high mobility group protein HMGd1 - ... 37 0.17gi|13559761|gb|AAK29965.1| (AC024859) Hypothetical protein ... 37 0.18
Riccardo Percudani 01/10/2007 File: PRESENTAZIONE_Abilita_INFORMATICA.SXI
Trascrittomica
- Studio dei profili di esperssione (quantità di mRNA) dei geni in una cellula o tessuto
- Il segnale misurato dipende dall'ibridazione tra le molecole di mRNA estratte e sequenze complementari depositate su microsupporti
- E' usata tipicamente per confrontare cellule in diverse condizioni (es. 'normale' vs 'tumorale')
Riccardo Percudani 01/10/2007 File: PRESENTAZIONE_Abilita_INFORMATICA.SXI
Proteomica
- Separazione attraverso gel bidimensionale delle proteine presenti nella cellula
- Comparazione tra diverse condizioni e individuazione delle macchie differenziali
- Sequenziamento parziale attraverso spettrometria di massa
- Identificazione tramite confronto con un database di sequenze