Banche Dati - di.univaq.it dati-040216.pdf · Banche Dati Modification Date: indica la data di...

50
Banche Dati Docente: Dr. Antinisca DI MARCO – Email: [email protected]

Transcript of Banche Dati - di.univaq.it dati-040216.pdf · Banche Dati Modification Date: indica la data di...

Banche Dati Docente: Dr. Antinisca DI MARCO – Email: [email protected]

Banche Dati

La biologia molecolare produce una grande mole di dati che può essere memorizzata in database general-purpose o specialized (es. immunological):

general-purpose o primarie:

entries (o voci) di sequenze biologiche:

sequenza;

una breve descrizione;

l’organismo da cui proviene;

una lista di funzionalità strutturali e/o funzionali;

letteratura di riferimento;

Banche Dati

La biologia molecolare produce una grande mole di dati che può essere memorizzata in database general-purpose o specialized (es. immunological):

specialized:

entries (o voci) di sequenze biologiche:

sequenza;

una breve descrizione;

l’organismo da cui proviene;

una lista di funzionalità strutturali e/o funzionali;

letteratura di riferimento;

annotazioni specifiche (expert).

Banche Dati

EMBL: European Molecular Biology Laboratory – http://www.embl.org/

L'European Molecular Biology Laboratory è un istituto di ricerca di biologia molecolare, sostenuto da 20 paesi europei e dall'Australia come stato membro associato. L'EMBL è stato creato nel 1974 ed è un'organizzazione intergovernativa di ricerca finanziata con denaro pubblico dai suoi stati membri. In EMBL la ricerca viene svolta da circa 85 gruppi indipendenti che coprono i vari campi della biologia molecolare.

Il Laboratorio è attivo in cinque siti: il laboratorio principale a Heidelberg, e le sedi di Hinxton (l'European Bioinformatics Institute, EBI) presso Cambridge, Grenoble, Amburgo e Monterotondo vicino Roma. (Wikipedia)

Banche Dati

DDBJ: DNA Data Bank of Japan – http://www.ddbj.nig.ac.jp/

La DNA Data Bank of Japan (DDBJ) è un database biologico che raccoglie sequenze di DNA. Si trova presso l'Istituto Nazionale di Genetica (NIG) nella prefettura di Shizuoka, in Giappone. E‘ anche un membro della International Nucleotide Sequence Database Collaboration or INSDC. Scambia i propri dati con EMBL e con GenBank presso il National Center for Biotechnology Information su base giornaliera. In questo modo le tre banche dati contengono gli stessi dati in qualsiasi momento.

Banche Dati

I più importanti database pubblici includono sequenze nucleotidiche e/o proteiche:

http://www.ncbi.nlm.nih.gov/protein

Banche Dati

NCBI: National Center for Biotechnology Information - http://www.ncbi.nlm.nih.gov/

Il National Center for Biotechnology Information (NCBI), Centro Nazionale per le Informazioni di Biologia Molecolare, è una parte della National Library of Medicine (Biblioteca nazionale americana di medicina), che dipende a sua volta dall'Istituto per la salute americano. (Wikipedia)

Banche Dati

UniProt: Universal Protein Resource - http://www.ebi.ac.uk/uniprot/index.html

UniProt (Universal Protein) è il più grande database bioinformatico per le sequenze proteiche di tutti gli organismi viventi e dei virus.

Banche Dati

SWISS-PROT e PIR sono database di proteine che sono annotate manualmente. Il loro contenuto è di alta qualità rispetto a GenPept e TrEMBL, ma contengono meno entries rispetto ad essi.

Banche Dati

GenPept e TrEMBL sono database di proteine derivate dalla traduzione di sequenze codificanti provenienti dai tre principali database di nucleotidi

Banche Dati

PROSITE - http://prosite.expasy.org/ contiene pattern (motif) biologici significativi per determinare le funzioni delle proteine.

Banche Dati

KEGG - http://www.genome.jp/kegg/ definisce un repository contenente reti di interazione molecolare, composti chimici e reazioni rilevanti per i processi cellulari, più ovviamente dati genomici.

Banche Dati

Pfam - http://pfam.sanger.ac.uk/ è una raccolta di sequenze amminoacidiche (proteine) e di profili generati con Hidden Markov Model (HMM) che descrivono quasi tutte le famiglie e i domini proteici conosciuti.

Banche Dati

Esplorando NCBI: Il National Center for Biotechnology Information (NCBI) curato National Library of Medicine and National Institutes of Health è uno dei più importanti repository e risorsa per dati biologici: • Forniscono una rete di database di dati genetici, medici, informazioni biochimiche sempre crescente • Interi genomi provenienti da virus, uomo, etc sono compilati ed organizzati e cross referenziati all’interno di questa rete Ma è necessario sapere: a) che cosa stai cercando, e b) quello che stai guardando affinchè si possa ottenere informazioni utili

Banche Dati

Esplorando NCBI: Il National Center for Biotechnology Information (NCBI) curato National Library of Medicine and National Institutes of Health è uno dei più importanti repository e risorsa per dati biologici: • Forniscono una rete di database di dati genetici, medici, informazioni biochimiche sempre crescente • Interi genomi provenienti da virus, uomo, etc sono compilati ed organizzati e cross referenziati all’interno di questa rete Ma è necessario sapere: a) che cosa stai cercando, e b) quello che stai guardando affinchè si possa ottenere informazioni utili

Banche Dati

Esplorando NCBI:

Apri un browser web ed entra nella Home page di NCBI: www.ncbi.nlm.nih.gov

Banche Dati

Esplorando NCBI:

Apri un browser web ed entra nella Home page di NCBI: www.ncbi.nlm.nih.gov

Banche Dati

Esplorando NCBI:

Apri un browser web ed entra nella Home page di NCBI: www.ncbi.nlm.nih.gov http://www.ncbi.nlm.nih.gov/About/ - About the NCBI

Il primo portale per accedere ai dati in NCBI è chiamato GQuery:

Banche Dati

Esplorando NCBI:

Apri un browser web ed entra nella Home page di NCBI: www.ncbi.nlm.nih.gov http://www.ncbi.nlm.nih.gov/About/ - About the NCBI

http://www.ncbi.nlm.nih.gov/books/NBK21101/ - NCBI Handbook

Banche Dati

Esplorando NCBI:

Il primo portale per accedere ai dati in NCBI è chiamato GQuery:

Banche Dati

Esplorando NCBI:

Il primo portale per accedere ai dati in NCBI è chiamato GQuery:

Banche Dati

Esplorando NCBI:

Il primo portale per accedere ai dati in NCBI è chiamato GQuery:

Banche Dati

Esplorando NCBI:

Il primo portale per accedere ai dati in NCBI è chiamato GQuery:

..proviamo ad essere un pò meno generici: bacteria

Banche Dati

Esplorando NCBI:

Il primo portale per accedere ai dati in NCBI è chiamato GQuery:

..proviamo ad essere un pò meno generici: bacteria

Solitamente, quando viene effettuata una ricerca su questi database, abbiamo: • a disposizione una regione di DNA o proteina (o la funzione

di una proteina)

Banche Dati

Esempio:

Useremo un gene proveniente dalla Arabidopsis thaliana, che produce una proteina che rappresenta una componente strutturale del ribosoma.

L’Arabidopsis thaliana, è una pianta floreale molto diffusa nel mondo ed è particolarmente studiata per la sua “semplicità”. (circa 125 milioni di paia di nucleotidi, in soli cinque cromosomi)

La proteina prodotta da questo gene è memorizzata sotto l’accession number NP_565676

Banche Dati

Esempio:

Useremo un gene proveniente dalla Arabidopsis thaliana, che produce una proteina che rappresenta una componente strutturale del ribosoma.

L’Arabidopsis thaliana, è una pianta floreale molto diffusa nel mondo ed è particolarmente studiata per la sua “semplicità”. (circa 125 milioni di paia di nucleotidi, in soli cinque cromosomi)

La proteina prodotta da questo gene è memorizzata sotto l’accession number NP_565676

• gene keywords: e.g. structural constituent of ribosome • gene keyword AND organism: e.g. structural constituent of ribosome AND Arabidopsis thaliana • gene keyword [PROT] AND organism [ORGN]: e.g. structural constituent of ribosome [PROT] AND Arabidopsis thaliana [ORGN] • accession or gi number: e.g. NP_565676

Banche Dati

Esempio:

Useremo un gene proveniente dalla Arabidopsis thaliana, che produce una proteina che rappresenta una componente strutturale del ribosoma.

L’Arabidopsis thaliana, è una pianta floreale molto diffusa nel mondo ed è particolarmente studiata per la sua “semplicità”. (circa 125 milioni di paia di nucleotidi, in soli cinque cromosomi)

La proteina prodotta da questo gene è memorizzata sotto l’accession number NP_565676

• gene keywords: e.g. structural constituent of ribosome • gene keyword AND organism: e.g. structural constituent of ribosome AND Arabidopsis thaliana • gene keyword [PROT] AND organism [ORGN]: e.g. structural constituent of ribosome [PROT] AND Arabidopsis thaliana [ORGN] • accession or gi number: e.g. NP_565676

Sempre in maiuscolo

Banche Dati

Esempio:

Ricerce più specifiche vengono effettuate per mezzo di GenInfo Identifier (gi) number e accession number:

Accession Numbers: è un identificatore unico per una particolare sequenza memorizzata. Un accession number è assegnato ad uno specifico record; tale associazione rimarrà tale nel tempo. Cioè, un Accession Number traccia un particolare record e non cambia anche se l’informazione in quel record è cambiata su richiesta degli autori. Gli Accession Numbers sono usualmente una combinazione di lettere(a) e numeri (e.g. U12345 o AF123456) Version Numbers: segue l’accession number e indica la revision history di quell’entry a partire da 1 per poi incrementarlo ad ogni revisione. Il formato standard è Accession.Version GI Number (GenInfo Identifier): è una serie di cifre che viene assegnata consecutivamente da NCBI ad ogni sequenza memorizzata.

Banche Dati

Esempio: Quando una nuova entry viene sottomessa a GenBank gli verrà assegnato un accession number (e.g. AF000001). Poichè questa è la prima versione, l’accession number sarà completato con il version number pari a 1, quindi: AF000001.1. Allo stesso tempo alla entry viene associato un GI number (e.g. GI:1234567). Ora immaginiamo che il ricercatore che ha inizialmente sottomesso il record voglia aggiornare l’informazione. Il recordo aggiornato a questo punto avrà lo stesso Accession Number, ma avrà incrementato il numero di versione, i.e AF000001.2, mentre al nuovo record verrà assegnato un GI number completamente nuovo (i.e. GI:9876543)

In generale l’accession number restituisce sempre il record più aggiornato, mentre il GI number consente di accedere ad una particolare informazione in un istante di tempo ben definito, anche se nel frattempo sono state aggiunte ulteriori informazioni.

Banche Dati

Banche Dati

http://www.ncbi.nlm.nih.gov/Sitemap/samplerecord.html

Maggiori informazioni sulla struttura di un GenBank Flat File possono essere trovate:

Banche Dati

Il campo Locus contiene un certo numeri di dati:

Banche Dati

Locus Name: nelle entry GenBank corrisponde all’accession number preceduto dalle iniziali dell’organismo considerato Entrez Search Field: Accession Number [ACCN]

Banche Dati

Sequence Length contiene il numero di coppie di basi di nucleotidi (o di amino acidi) della sequenza memorizzata. Entrez Search Field: Sequence Length [SLEN] 1. Per recuperare record con un certo range di lunghezza, è possibile usare

l’operatore : . Esempio: 2500:2600[SLEN] 2. Per recuperare tutte le sequenze più corte di un certo numero, usiamo 2

come lower bound. Esempio: 2:100[SLEN] 3. Per recuperare tutte le sequenze più lunghe di un certo numero, è possibile

usare una serie di 9 come upper bound. Esempio: 325000:99999999[SLEN]

Banche Dati

Molecule Type: è il tipo di molecola che è stata sequenziata. Entrez Search Field: Properties [PROP]

Banche Dati

GenBank Division: indica la divisione di appartenenza a cui appartiene il record. Il GenBank database è diviso in 18 divisioni: 1. PRI - primate sequences 2. 2. ROD - rodent sequences 3. 3. MAM - other mammalian sequences 4. 4. VRT - other vertebrate sequences 5. 5. INV - invertebrate sequences 6. 6. PLN - plant, fungal, and algal sequences 7. 7. BCT - bacterial sequences 8. 8. VRL - viral sequences 9. PHG - bacteriophage sequences Entrez Search Field: Properties [PROP]

10. SYN - synthetic sequences11. UNA – un annotated sequences12. EST - EST sequences (expressed sequence tags)13. PAT - patent sequences14. STS - STS sequences (sequence tagged sites)15. GSS - GSS sequences (genome survey sequences)16. HTG - HTG sequences (high-throughput genomic sequences)17. HTC - unfinished high-throughput cDNA sequencing18. ENV - environmental sampling sequences

Banche Dati

Modification Date: indica la data di ultima modifica del record. In alcuni casi, la data di modifica potrebbe corrispondere alla data di rilascio, ma non c'è modo di dirlo guardando semplicemente il record. Se è necessario conoscere la prima data di pubblica disponibilità, è possibile inviare un messaggio a [email protected]. Entrez Search Field: Modification Date [MDAT] 1. Inserire il termine da ricercare nel formato: yyyy/mm/dd 2. Per ottenere i record modificati tra due date: 1999/07/25:1999/07/31[MDAT] 3. E’ possibile usare il campo Publication Date [PDAT] di Entrez per limitare I risultati della ricerca in funzione della data

in cui il record è stato aggiunto al sistema Entrez.

Banche Dati

Definition: indica una breve descrizione della sequenza; include informazioni sull’organismo sorgente, il nome del gene o della proteina, oppure la descrizione della funzione della sequenza (se la sequenza non è codificante). Se la sequenza ha una regione codificante, la descrizione può essere seguita dal qualificatore “complete cds”. Entrez Search Field: Title Word [TITL]

Banche Dati

Accession: è l’identificatore unico per una sequenza memorizzata. L’Accession Number è applicato all’intero record e solitamente è una combinazione di letter(a)e e numeri. L’Accession Number non cambia, anche se l’informazione nel record viene modificata su richiesta dell’autore. I record provenienti dal RefSeq database delle sequenze di riferimento ha un format diverso di Accession Number, che inizia con due lettere seguite da un underscore e da 6 o più interi: NT_123456 constructed genomic contigs NM_123456 mRNAs NP_123456 proteins NC_123456 chromosomes Entrez Search Field: Accession [ACCN]

Banche Dati

Version: se c’è qualche cambiamento nei dati della sequenza (anche una singola base), il version number sarà incrementato: U12345.1 → U12345.2, ma la porzione di accession rimarrà stabile. Entrez Search Field: use the default setting of "All Fields"

GI: GenInfo Identifier viene modificato ogni volta che una modifica effettuata sul record. Un GI diverso viene inoltre assegnato ad ogni record della proteina ottenuta dalla sequenza nucleotidica. Entrez Search Field: use the default setting of "All Fields"

Banche Dati

Features: Informazioni sui geni e prodotti genici, nonché le regioni di significato biologico riportate nella sequenza. Queste possono includere regioni della sequenza che codificano per proteine e molecole di RNA, ed altre.

Banche Dati

Source: Informazione obbligatoria in ogni record che riassume la lunghezza della sequenza, il nome scientifico dell’organismo sorgente ed il Taxon ID number.

Taxon: è un numero di identificazione univoco stabile per il taxon dell’organismo origine. Un taxon è raggruppamento di organismi reali, distinguibili morfologicamente e geneticamente da altri e riconoscibili come unità sistematica

Banche Dati

CDS: Sequenza codificante, cioè la regione della sequenza di nucleotidi che corrisponde alla sequenza di amino acidi nella proteina. Gli autori possono specificare la natura del CDS usando il qualifier "/evidence=experimental" or "/evidence=not_experimental".

Entrez Search Field: Feature Key [FKEY]

Banche Dati

Indica, in questo caso, una sequenza codificante che include anche I codoni di start e stop. Il CDS può essere di tre tipi: 1. Completo: che verrà scritto nella forma n..m. Esempio: 687..3158. 2. <: che indica parziale sul 5’ end. Esempio: <1..206 (codone start incompleto) 3. >: che indica parziale sul 3’ end. Esempio: 4821..5028> (codone stop incompleto) 4. (complement) che indica un filamento complementare

Entrez Search Field: Feature Key [FKEY]

Banche Dati

4. (complement) che indica un filamento complementare

Entrez Search Field: Feature Key [FKEY]

In questo caso, la traduzione in amino acidi è generata a partire dal complemento inverso delle basi che vanno dalla 3300 alla 4037 e leggendo la sequenza invertita complementare nella direzione 5’ 3’. Esempio: s = AGACGT ->inverto s’= TGCAGA ->complemento s = ACGTCT

Banche Dati

Indica il Numero di identificazione della sequenza della proteina.

Banche Dati

Indica il GenInfo Identifier della proteina.

Banche Dati

Indica il la sequenza tradotta corrispondente alla CDS considerata.

Banche Dati

Indica una regione di interesse identificata come gene.

Entrez Search Field: Feature Key [FKEY]