Banche Dati - di.univaq.it dati-040216.pdf · Banche Dati Modification Date: indica la data di...

Click here to load reader

  • date post

    15-Feb-2019
  • Category

    Documents

  • view

    212
  • download

    0

Embed Size (px)

Transcript of Banche Dati - di.univaq.it dati-040216.pdf · Banche Dati Modification Date: indica la data di...

Banche Dati Docente: Dr. Antinisca DI MARCO Email: [email protected]

mailto:[email protected]

Banche Dati

La biologia molecolare produce una grande mole di dati che pu essere memorizzata in database general-purpose o specialized (es. immunological):

general-purpose o primarie:

entries (o voci) di sequenze biologiche:

sequenza;

una breve descrizione;

lorganismo da cui proviene;

una lista di funzionalit strutturali e/o funzionali;

letteratura di riferimento;

Banche Dati

La biologia molecolare produce una grande mole di dati che pu essere memorizzata in database general-purpose o specialized (es. immunological):

specialized:

entries (o voci) di sequenze biologiche:

sequenza;

una breve descrizione;

lorganismo da cui proviene;

una lista di funzionalit strutturali e/o funzionali;

letteratura di riferimento;

annotazioni specifiche (expert).

Banche Dati

EMBL: European Molecular Biology Laboratory http://www.embl.org/

L'European Molecular Biology Laboratory un istituto di ricerca di biologia molecolare, sostenuto da 20 paesi europei e dall'Australia come stato membro associato. L'EMBL stato creato nel 1974 ed un'organizzazione intergovernativa di ricerca finanziata con denaro pubblico dai suoi stati membri. In EMBL la ricerca viene svolta da circa 85 gruppi indipendenti che coprono i vari campi della biologia molecolare.

Il Laboratorio attivo in cinque siti: il laboratorio principale a Heidelberg, e le sedi di Hinxton (l'European Bioinformatics Institute, EBI) presso Cambridge, Grenoble, Amburgo e Monterotondo vicino Roma. (Wikipedia)

http://www.embl.org/http://www.embl.org/http://it.wikipedia.org/wiki/European_Bioinformatics_Institutehttp://it.wikipedia.org/wiki/European_Bioinformatics_Institutehttp://it.wikipedia.org/wiki/European_Bioinformatics_Institutehttp://it.wikipedia.org/wiki/European_Bioinformatics_Institutehttp://it.wikipedia.org/wiki/European_Bioinformatics_Institutehttp://it.wikipedia.org/wiki/Cambridgehttp://it.wikipedia.org/wiki/Grenoblehttp://it.wikipedia.org/wiki/Amburgohttp://it.wikipedia.org/wiki/Monterotondo

Banche Dati

DDBJ: DNA Data Bank of Japan http://www.ddbj.nig.ac.jp/

La DNA Data Bank of Japan (DDBJ) un database biologico che raccoglie sequenze di DNA. Si trova presso l'Istituto Nazionale di Genetica (NIG) nella prefettura di Shizuoka, in Giappone. E anche un membro della International Nucleotide Sequence Database Collaboration or INSDC. Scambia i propri dati con EMBL e con GenBank presso il National Center for Biotechnology Information su base giornaliera. In questo modo le tre banche dati contengono gli stessi dati in qualsiasi momento.

http://www.ddbj.nig.ac.jp/http://www.ddbj.nig.ac.jp/

Banche Dati

I pi importanti database pubblici includono sequenze nucleotidiche e/o proteiche:

http://www.ncbi.nlm.nih.gov/protein

http://www.ncbi.nlm.nih.gov/proteinhttp://www.ncbi.nlm.nih.gov/protein

Banche Dati

NCBI: National Center for Biotechnology Information - http://www.ncbi.nlm.nih.gov/

Il National Center for Biotechnology Information (NCBI), Centro Nazionale per le Informazioni di Biologia Molecolare, una parte della National Library of Medicine (Biblioteca nazionale americana di medicina), che dipende a sua volta dall'Istituto per la salute americano. (Wikipedia)

http://www.ncbi.nlm.nih.gov/genbankhttp://www.ncbi.nlm.nih.gov/http://www.ncbi.nlm.nih.gov/http://it.wikipedia.org/wiki/National_Library_of_Medicinehttp://it.wikipedia.org/wiki/National_Institutes_of_Health

Banche Dati

UniProt: Universal Protein Resource - http://www.ebi.ac.uk/uniprot/index.html

UniProt (Universal Protein) il pi grande database bioinformatico per le sequenze proteiche di tutti gli organismi viventi e dei virus.

http://www.ebi.ac.uk/uniprot/index.htmlhttp://www.ebi.ac.uk/uniprot/index.html

Banche Dati

SWISS-PROT e PIR sono database di proteine che sono annotate manualmente. Il loro contenuto di alta qualit rispetto a GenPept e TrEMBL, ma contengono meno entries rispetto ad essi.

Banche Dati

GenPept e TrEMBL sono database di proteine derivate dalla traduzione di sequenze codificanti provenienti dai tre principali database di nucleotidi

Banche Dati

PDB - http://www.rcsb.org/pdb/home/home.do un database di strutture molecolari 3D.

http://www.rcsb.org/pdb/home/home.dohttp://www.rcsb.org/pdb/home/home.dohttp://www.rcsb.org/pdb/home/home.dohttp://www.rcsb.org/pdb/home/home.dohttp://www.rcsb.org/pdb/home/home.dohttp://www.rcsb.org/pdb/home/home.dohttp://www.rcsb.org/pdb/home/home.dohttp://www.rcsb.org/pdb/home/home.dohttp://www.rcsb.org/pdb/home/home.do

Banche Dati

PROSITE - http://prosite.expasy.org/ contiene pattern (motif) biologici significativi per determinare le funzioni delle proteine.

http://prosite.expasy.org/http://prosite.expasy.org/http://prosite.expasy.org/http://prosite.expasy.org/http://prosite.expasy.org/http://prosite.expasy.org/http://prosite.expasy.org/http://prosite.expasy.org/

Banche Dati

KEGG - http://www.genome.jp/kegg/ definisce un repository contenente reti di interazione molecolare, composti chimici e reazioni rilevanti per i processi cellulari, pi ovviamente dati genomici.

http://www.genome.jp/kegg/http://www.genome.jp/kegg/http://www.genome.jp/kegg/http://www.genome.jp/kegg/http://www.genome.jp/kegg/http://www.genome.jp/kegg/http://www.genome.jp/kegg/http://www.genome.jp/kegg/

Banche Dati

Pfam - http://pfam.sanger.ac.uk/ una raccolta di sequenze amminoacidiche (proteine) e di profili generati con Hidden Markov Model (HMM) che descrivono quasi tutte le famiglie e i domini proteici conosciuti.

http://pfam.sanger.ac.uk/http://pfam.sanger.ac.uk/http://pfam.sanger.ac.uk/http://pfam.sanger.ac.uk/http://pfam.sanger.ac.uk/http://pfam.sanger.ac.uk/http://pfam.sanger.ac.uk/http://pfam.sanger.ac.uk/http://pfam.sanger.ac.uk/http://pfam.sanger.ac.uk/

Banche Dati

Esplorando NCBI: Il National Center for Biotechnology Information (NCBI) curato National Library of Medicine and National Institutes of Health uno dei pi importanti repository e risorsa per dati biologici: Forniscono una rete di database di dati genetici, medici, informazioni biochimiche sempre crescente Interi genomi provenienti da virus, uomo, etc sono compilati ed organizzati e cross referenziati allinterno di questa rete Ma necessario sapere: a) che cosa stai cercando, e b) quello che stai guardando affinch si possa ottenere informazioni utili

https://www.nlm.nih.govhttps://www.nlm.nih.gov

Banche Dati

Esplorando NCBI: Il National Center for Biotechnology Information (NCBI) curato National Library of Medicine and National Institutes of Health uno dei pi importanti repository e risorsa per dati biologici: Forniscono una rete di database di dati genetici, medici, informazioni biochimiche sempre crescente Interi genomi provenienti da virus, uomo, etc sono compilati ed organizzati e cross referenziati allinterno di questa rete Ma necessario sapere: a) che cosa stai cercando, e b) quello che stai guardando affinch si possa ottenere informazioni utili

https://www.nlm.nih.govhttps://www.nlm.nih.gov

Banche Dati

Esplorando NCBI:

Apri un browser web ed entra nella Home page di NCBI: www.ncbi.nlm.nih.gov

http://www.ncbi.nlm.nih.gov

Banche Dati

Esplorando NCBI:

Apri un browser web ed entra nella Home page di NCBI: www.ncbi.nlm.nih.gov

http://www.ncbi.nlm.nih.gov

Banche Dati

Esplorando NCBI:

Apri un browser web ed entra nella Home page di NCBI: www.ncbi.nlm.nih.gov http://www.ncbi.nlm.nih.gov/About/ - About the NCBI

Il primo portale per accedere ai dati in NCBI chiamato GQuery:

http://www.ncbi.nlm.nih.govhttp://www.ncbi.nlm.nih.gov/About/http://www.ncbi.nlm.nih.gov/About/

Banche Dati

Esplorando NCBI:

Apri un browser web ed entra nella Home page di NCBI: www.ncbi.nlm.nih.gov http://www.ncbi.nlm.nih.gov/About/ - About the NCBI http://www.ncbi.nlm.nih.gov/books/NBK21101/ - NCBI Handbook

http://www.ncbi.nlm.nih.govhttp://www.ncbi.nlm.nih.gov/About/http://www.ncbi.nlm.nih.gov/About/http://www.ncbi.nlm.nih.gov/books/NBK21101/http://www.ncbi.nlm.nih.gov/books/NBK21101/http://www.ncbi.nlm.nih.gov/books/NBK21101/

Banche Dati

Esplorando NCBI:

Il primo portale per accedere ai dati in NCBI chiamato GQuery:

Banche Dati

Esplorando NCBI:

Il primo portale per accedere ai dati in NCBI chiamato GQuery:

Banche Dati

Esplorando NCBI:

Il primo portale per accedere ai dati in NCBI chiamato GQuery:

Banche Dati

Esplorando NCBI:

Il primo portale per accedere ai dati in NCBI chiamato GQuery:

..proviamo ad essere un p meno generici: bacteria

Banche Dati

Esplorando NCBI:

Il primo portale per accedere ai dati in NCBI chiamato GQuery:

..proviamo ad essere un p meno generici: bacteria

Solitamente, quando viene effettuata una ricerca su questi database, abbiamo: a disposizione una regione di DNA o proteina (o la funzione

di una proteina)

Banche Dati

Esempio:

Useremo un gene proveniente dalla Arabidopsis thaliana, che produce una proteina che rappresenta una componente strutturale del ribosoma.

LArabidopsis thaliana, una pianta floreale molto diffusa nel mondo ed particolarmente studiata per la sua semplicit. (circa 125 milioni di paia di nucleotidi, in soli cinque cromosomi)

La proteina prodotta da questo gene memorizzata sotto laccession number NP_565676

http://it.wikipedia.org/wiki/Arabidopsis_thalianahttp://it.wikipedia.org/wiki/Arabidopsis_thalianahttp://it.wikipedia.org/wiki/Arabidopsis_thalianahttp://it.wikipedia.org/wiki/Arabidopsis_thalianahttp://it.wikipedia.org/wiki/Arabidopsis_thaliana

Banche Dati

Esempio:

Useremo un gene proveniente dalla Arabidopsis thaliana, che produce una proteina che rappresenta una componente strutturale del ribosoma.

LArabidopsis thaliana, una pianta floreale molto diffusa nel mondo ed particolarmente studiata per la sua semplicit. (circa 125 milioni di paia di nucleotidi, in soli cinque cromosomi)

La proteina prodotta da questo gene memorizzata sotto laccession number NP_565676

gene keywords: e.g. structural constituent of ribosome gene keyword AND organism: e.g. structural constituent of ribosome AND Arabidopsis thaliana gene keyword [PROT] AND organism [ORGN]: e.g. structural constituent of ribosome [PROT] AND Arabidopsis thaliana [ORGN] accession or gi number: e.g. NP_565676

http://it.wikipedia.org/wiki/Arabidopsis_thalianahttp://it.wikipedia.org/wiki/Arabidopsis_thalianahttp://it.wikipedia.org/wiki/Arabidopsis_thalianahttp://it.wikipedia.org/wiki/Arabidopsis_thalianahttp://it.wikipedia.org/wiki/Arabidopsis_thaliana

Banche Dati

Esempio:

Useremo un gene proveniente dalla Arabidopsis thaliana, che produce una proteina che rappresenta una componente strutturale del ribosoma.

LArabidopsis thaliana, una pianta floreale molto diffusa nel mondo ed particolarmente studiata per la sua semplicit. (circa 125 milioni di paia di nucleotidi, in soli cinque cromosomi)

La proteina prodotta da questo gene memorizzata sotto laccession number NP_565676

gene keywords: e.g. structural constituent of ribosome gene keyword AND organism: e.g. structural constituent of ribosome AND Arabidopsis thaliana gene keyword [PROT] AND organism [ORGN]: e.g. structural constituent of ribosome [PROT] AND Arabidopsis thaliana [ORGN] accession or gi number: e.g. NP_565676

Sempre in maiuscolo

http://it.wikipedia.org/wiki/Arabidopsis_thalianahttp://it.wikipedia.org/wiki/Arabidopsis_thalianahttp://it.wikipedia.org/wiki/Arabidopsis_thalianahttp://it.wikipedia.org/wiki/Arabidopsis_thalianahttp://it.wikipedia.org/wiki/Arabidopsis_thaliana

Banche Dati

Esempio:

Ricerce pi specifiche vengono effettuate per mezzo di GenInfo Identifier (gi) number e accession number:

Accession Numbers: un identificatore unico per una particolare sequenza memorizzata. Un accession number assegnato ad uno specifico record; tale associazione rimarr tale nel tempo. Cio, un Accession Number traccia un particolare record e non cambia anche se linformazione in quel record cambiata su richiesta degli autori. Gli Accession Numbers sono usualmente una combinazione di lettere(a) e numeri (e.g. U12345 o AF123456) Version Numbers: segue laccession number e indica la revision history di quellentry a partire da 1 per poi incrementarlo ad ogni revisione. Il formato standard Accession.Version GI Number (GenInfo Identifier): una serie di cifre che viene assegnata consecutivamente da NCBI ad ogni sequenza memorizzata.

Banche Dati

Esempio: Quando una nuova entry viene sottomessa a GenBank gli verr assegnato un accession number (e.g. AF000001). Poich questa la prima versione, laccession number sar completato con il version number pari a 1, quindi: AF000001.1. Allo stesso tempo alla entry viene associato un GI number (e.g. GI:1234567). Ora immaginiamo che il ricercatore che ha inizialmente sottomesso il record voglia aggiornare linformazione. Il recordo aggiornato a questo punto avr lo stesso Accession Number, ma avr incrementato il numero di versione, i.e AF000001.2, mentre al nuovo record verr assegnato un GI number completamente nuovo (i.e. GI:9876543)

In generale laccession number restituisce sempre il record pi aggiornato, mentre il GI number consente di accedere ad una particolare informazione in un istante di tempo ben definito, anche se nel frattempo sono state aggiunte ulteriori informazioni.

Banche Dati

Banche Dati

http://www.ncbi.nlm.nih.gov/Sitemap/samplerecord.html

Maggiori informazioni sulla struttura di un GenBank Flat File possono essere trovate:

Banche Dati

Il campo Locus contiene un certo numeri di dati:

Banche Dati

Locus Name: nelle entry GenBank corrisponde allaccession number preceduto dalle iniziali dellorganismo considerato Entrez Search Field: Accession Number [ACCN]

Banche Dati

Sequence Length contiene il numero di coppie di basi di nucleotidi (o di amino acidi) della sequenza memorizzata. Entrez Search Field: Sequence Length [SLEN] 1. Per recuperare record con un certo range di lunghezza, possibile usare

loperatore : . Esempio: 2500:2600[SLEN] 2. Per recuperare tutte le sequenze pi corte di un certo numero, usiamo 2

come lower bound. Esempio: 2:100[SLEN] 3. Per recuperare tutte le sequenze pi lunghe di un certo numero, possibile

usare una serie di 9 come upper bound. Esempio: 325000:99999999[SLEN]

Banche Dati

Molecule Type: il tipo di molecola che stata sequenziata. Entrez Search Field: Properties [PROP]

Banche Dati

GenBank Division: indica la divisione di appartenenza a cui appartiene il record. Il GenBank database diviso in 18 divisioni: 1. PRI - primate sequences 2. 2. ROD - rodent sequences 3. 3. MAM - other mammalian sequences 4. 4. VRT - other vertebrate sequences 5. 5. INV - invertebrate sequences 6. 6. PLN - plant, fungal, and algal sequences 7. 7. BCT - bacterial sequences 8. 8. VRL - viral sequences 9. PHG - bacteriophage sequences Entrez Search Field: Properties [PROP]

10. SYN - synthetic sequences11. UNA un annotated sequences12. EST - EST sequences (expressed sequence tags)13. PAT - patent sequences14. STS - STS sequences (sequence tagged sites)15. GSS - GSS sequences (genome survey sequences)16. HTG - HTG sequences (high-throughput genomic sequences)17. HTC - unfinished high-throughput cDNA sequencing18. ENV - environmental sampling sequences

Banche Dati

Modification Date: indica la data di ultima modifica del record. In alcuni casi, la data di modifica potrebbe corrispondere alla data di rilascio, ma non c' modo di dirlo guardando semplicemente il record. Se necessario conoscere la prima data di pubblica disponibilit, possibile inviare un messaggio a [email protected] Entrez Search Field: Modification Date [MDAT] 1. Inserire il termine da ricercare nel formato: yyyy/mm/dd 2. Per ottenere i record modificati tra due date: 1999/07/25:1999/07/31[MDAT] 3. E possibile usare il campo Publication Date [PDAT] di Entrez per limitare I risultati della ricerca in funzione della data

in cui il record stato aggiunto al sistema Entrez.

mailto:[email protected]

Banche Dati

Definition: indica una breve descrizione della sequenza; include informazioni sullorganismo sorgente, il nome del gene o della proteina, oppure la descrizione della funzione della sequenza (se la sequenza non codificante). Se la sequenza ha una regione codificante, la descrizione pu essere seguita dal qualificatore complete cds. Entrez Search Field: Title Word [TITL]

Banche Dati

Accession: lidentificatore unico per una sequenza memorizzata. LAccession Number applicato allintero record e solitamente una combinazione di letter(a)e e numeri. LAccession Number non cambia, anche se linformazione nel record viene modificata su richiesta dellautore. I record provenienti dal RefSeq database delle sequenze di riferimento ha un format diverso di Accession Number, che inizia con due lettere seguite da un underscore e da 6 o pi interi: NT_123456 constructed genomic contigs NM_123456 mRNAs NP_123456 proteins NC_123456 chromosomes Entrez Search Field: Accession [ACCN]

http://www.ncbi.nlm.nih.gov/refseq/

Banche Dati

Version: se c qualche cambiamento nei dati della sequenza (anche una singola base), il version number sar incrementato: U12345.1 U12345.2, ma la porzione di accession rimarr stabile. Entrez Search Field: use the default setting of "All Fields"

GI: GenInfo Identifier viene modificato ogni volta che una modifica effettuata sul record. Un GI diverso viene inoltre assegnato ad ogni record della proteina ottenuta dalla sequenza nucleotidica. Entrez Search Field: use the default setting of "All Fields"

Banche Dati

Features: Informazioni sui geni e prodotti genici, nonch le regioni di significato biologico riportate nella sequenza. Queste possono includere regioni della sequenza che codificano per proteine e molecole di RNA, ed altre.

Banche Dati

Source: Informazione obbligatoria in ogni record che riassume la lunghezza della sequenza, il nome scientifico dellorganismo sorgente ed il Taxon ID number.

Taxon: un numero di identificazione univoco stabile per il taxon dellorganismo origine. Un taxon raggruppamento di organismi reali, distinguibili morfologicamente e geneticamente da altri e riconoscibili come unit sistematica

Banche Dati

CDS: Sequenza codificante, cio la regione della sequenza di nucleotidi che corrisponde alla sequenza di amino acidi nella proteina. Gli autori possono specificare la natura del CDS usando il qualifier "/evidence=experimental" or "/evidence=not_experimental".

Entrez Search Field: Feature Key [FKEY]

Banche Dati

Indica, in questo caso, una sequenza codificante che include anche I codoni di start e stop. Il CDS pu essere di tre tipi: 1. Completo: che verr scritto nella forma n..m. Esempio: 687..3158. 2. (codone stop incompleto) 4. (complement) che indica un filamento complementare

Entrez Search Field: Feature Key [FKEY]

Banche Dati

4. (complement) che indica un filamento complementare

Entrez Search Field: Feature Key [FKEY]

In questo caso, la traduzione in amino acidi generata a partire dal complemento inverso delle basi che vanno dalla 3300 alla 4037 e leggendo la sequenza invertita complementare nella direzione 5 3. Esempio: s = AGACGT ->inverto s= TGCAGA ->complemento s = ACGTCT

Banche Dati

Indica il Numero di identificazione della sequenza della proteina.

Banche Dati

Indica il GenInfo Identifier della proteina.

Banche Dati

Indica il la sequenza tradotta corrispondente alla CDS considerata.

Banche Dati

Indica una regione di interesse identificata come gene.

Entrez Search Field: Feature Key [FKEY]