Banche dati Parte 1 - Bioinformaticsmolsim.sci.univr.it/2014_bioinfo1/02_a_Banche_dati_NCBI.pdf ·...

Post on 15-Feb-2019

216 views 0 download

Transcript of Banche dati Parte 1 - Bioinformaticsmolsim.sci.univr.it/2014_bioinfo1/02_a_Banche_dati_NCBI.pdf ·...

Laboratorio di Bioinformatica I

Banche datiBanche datiParte 1

Dott. Sergio Marin Vargas (2014 / 2015)

Introduzione a NCBI

National Center for Biotechnology Information (NCBI)

http://www.ncbi.nlm.nih.gov/

NCBI Databases

NCBI Databases e Servizi

International Nucleotide Sequence Database Collaboration

http://www.insdc.org/

http://www.ddbj.nig.ac.jp/

Le sequenze su NCBI

http://www.ebi.ac.uk/enahttp://www.ncbi.nlm.nih.gov/genbank/

Le sequenze su NCBI (GenBank) sono

Sincronizzate con l’ENAdell’EBI (EMBL-Bank) e

con DDBJ

Cosa troviamo in NCBI

Banche dati (alcuni esempi):

• GenBank: database primario di sequenze nucleotidiche (NIH geneticsequence database - National Institutes of Health)

• RefSeq: database non ridondanti di sequenze genomiche, di trascritti e

proteiche.

• PubMed and PubMed Central: accesso alla letteratura biomedica• PubMed and PubMed Central: accesso alla letteratura biomedica

• Omin: collezione di geni umani e fenotipi genetici

Servizi (alcuni esempi):

• Entrez (Gquery): interrogazioni incrociate ai diversi databases di NCBI

• BLAST: servizio di ricerche alle banche dati di sequenze mediante algoritmo

BLAST.

• VAST: servizio di ricerche per similarità di struttura

• Software and databases for download

Esercizio 1 Gquery (Entrez)

� Aprire il browser e andare alla pagina iniziale di NCBI:

http://www.ncbi.nlm.nih.gov/

� Individuare i database in NCBI che sono stati visti nella teoria:

� Eseguire una ricerca con la parola “hiv-1” (specie)

Quanti taxa ci sono?� Quanti taxa ci sono?

� Quante sequenze nucleotidiche?

� Quante proteine?

� Di queste, quante con struttura risolta?

� Quanti geni e quanti cluster UniGene?

� Si noti il rapporto tra UniGene e EST

� Perché ci sono più record in Gene che in UniGene se Gene è più curato di UniGene (suggerimento: leggere cosa è UniGene) ?

Esercizio 1: Gquery

Esercizio 1: Risultato Gquery (Entrez)

Risultato di una ricerca NCBI

� Aprire il browser e andare alla pagina iniziale di NCBI:

http://www.ncbi.nlm.nih.gov/

� Eseguire una ricerca con la parola “beta globin” (proteina)

� Analizzare il risultato della ricerca nel database “Protein”

Risultato in Entrez di NCBI

Opzioni di

visualizzazione Nome banca dati Stringa di ricerca Opzioni di

download

Risultati trovati

(records)

NCBI: struttura del risultato di una ricerca

Filtri attivi (se

ce ne sono)

Un risultato

(record)

Filtri (con la

spunta quelli

attivi)

NCBI: struttura del risultato di una ricerca

In quali organismi

sono stati trovati

proteine “beta globin”

Altre banche

dati in NCBI

Stringa di

ricerca

dettagliata

NCBI: Ricerca avanzataRicerca avanzata

Filtri attivi

Inserimento

manuale di

stringhe di

ricerca

Costruttore di

ricerche

Ricerche

precedenti

NCBI: Ricerca avanzata

Per avere l’elenco di

Permette di specificare i campi dei record da usare per la ricerca, di combinarli con operatori logici e di combinare anche ricerche recedenti (History).

Campi da ricercare

Per avere l’elenco di

tutti i possibili valoriOperatore logico

Una ricerca precedente può essere indicata con “#n”. Così si combina con altre opzioni di ricerca o con altre ricerche (e.g. #5 AND #23)

Esercizio 2 Ricerca su NCBI

� Ripetere la ricerca per “beta globin” sul database Gene.

� Aggiungere un filtro solo per homo sapiens

� Come cambia la stringa in “search details”?

� Filtrare solo i “geni codificanti proteine”

� Eliminare l’ultimo Filtro

� Recuperare il record per HBB hemoglobin, beta

[Homo sapiens] (con ID 3043) e aprirlo

� Su quale cromosoma ci troviamo?

� Quanti riferimenti bibliografici ci sono?

� Quante interazioni sono registrate?

� Individuare l’annotazione di Gene Ontology (GO)

� Qual è il codice refseq del mRNA e proteina?

Ricerca di una sequenza nucleotidica

Molti batteri si sono evoluti acquisendo una resistenza agli antibiotici.

Un esempio è il Mycobacterium tuberculosis, agente responsabile della

tubercolosi.

La domanda che ci si pone è:

Esercizio 3 Ricerca su NCBI

Ci sono sequenze nucleotidiche nel Mycobacterium tuberculosis con

la caratteristica “Penicillin-binding”?

Passi:

1. Cercare nella banca dati Nucleotide tutte le sequenze per “Penicillin

binding” (notare le virgolette che indicano la stringa e non le due parole

singolarmente). Quanti item (record) ci sono ?

2. Cercare solo le sequenze di Mycobacterium tuberculosis.

3. Vogliamo solo sequenze non ridondanti e ben annotate (refseq). Quanti

record troviamo ?

NCBI – Estrazione di sequenze

nucleotidiche

� Vogliamo scaricare (fare download) le sequenze

nucleotidiche dei trascritti del recettore della transferrina

(TFR1) per l’uomo, una proteina coinvolta nell’assorbimento

del ferro nelle cellule (malattia emocromatosi).

� Cominciamo ricercando sul dal database Nucleotide. � Cominciamo ricercando sul dal database Nucleotide.

� Limitiamo la ricerca ad homo sapiens.

� Limitiamo la ricerca solo al database RefSeq.

� Limitiamo la ricerca solo ai trascritti (mRNA).

� In “Display Settings” selezionare “FASTA”

� In “Send” selezionare “Complete Record” e “File”

Formato FASTA x Nucleotidi

>gi|189458818|ref|NM_001128148.1| Homo sapiens transferrin receptor (TFRC), transcript variant 2, mRNAACGCACAGCCCCCCTGGGGGCCGGGGGCGGGGCCAGGCTATAAACCGCCGGTTAGGGGCCGCCATCCCCTCAGAGCGTCGGGATATCGGGTGGCGGCTCGGGACGGAGGACGCGCTAGTGTTCTTCTGTGTGGCAGTTCAGAATGATGGATCAAGCTAGATCAGCATTCTCTAACTTGTTTGGTGGAGAACCATTGTCATATACCCGGTTCAGCCTGGCTCGGCAAGTAGATGGCGATAACAGTCATGTGGAGATGAAACTTGCTGTAGATGAAGAAGAAAATGCTGACAATAACACAAAGGCCAATGTCACAAAACCAAAAAGGTGTAGTGGAAGTATCTGCTATGGGA

Intestazione Sequenza

Nucleotidica

AATGCTGACAATAACACAAAGGCCAATGTCACAAAACCAAAAAGGTGTAGTGGAAGTATCTGCTATGGGACTATTGCTGTGATCGTCTTTTTCTTGATTGGATTTATGATTGGCTACTTGGGCTATTGTAAAGGGGTAGAACCAAAAACTGAGTGTGAGAGACTGGCAGGAACCGAGTCTCCAGTGAGGGAGGAGCCAGGAGAGGACTTCCCTGCAGCACGTCGCTTATATTGGGATGACCTGAAGAGAAAGTTGTCGGAGAAACTGGACAGCACAGACTTCACCGGCACCATCAAGCTGCTGAATGAAAATTCATATGTCCCTCGTGAGGCTGGATCTCAAAAAGATGAAAATCTTGCGTTGTATGTTGAAAATCAATTTCGTGAATTTAAACTCAGCAAAGTCTGGCGTGATCAACATTTTGTTAAGATTCAGGTCAAAGACAGCGCTCAAAACTCGGTGATCATAGTTGATAAGAACGGTAGACTTGTTTACCTGGTGGAGAATCCTGGGGGTTATGTGGCGTATAGTAAGGCTGCAACAGTTACTGGTAAACTGGTCCATGCTAATTTTGGTACTAAAAAAGATTTTGAGGATTTATACACTCCTGTGAATGGATCTATAGTGATTGTCAGAGCAGGGAAAATCACCTTTGCAGAAAAGGTTGCAAATGCTGAAAGCTTAAATGCAATTGGTGTGTTGATATACATGGACCAGACTAAATTTCCCATTGTTAACGCAGAACTTTCATTCTTTGGACATGCTCATCT....

NCBI – Estrazione di sequenze

proteiche

� Vogliamo scaricare (fare download) le sequenze proteiche

del recettore della transferrina (TFR1), ma che abbiano la

struttura risolta e siano complessati (legati) a un qualsiasi

ligando.

� Cominciamo ricercando sul dal database Protein. � Cominciamo ricercando sul dal database Protein.

� Limitiamo la ricerca solo al database PDB (quelli con

struttura risolta).

� In ricerca avanzata cerchiamo per “TFR1” e “complex” in

tutti i campi

� In “Display Settings” selezionare “FASTA”

� In “Send” selezionare “Complete Record” e “File”

Formato FASTA x Proteine

>gi|48425720|pdb|1SUV|B Chain B, Structure Of Human Transferrin Receptor-transferrin Complex

LYWDDLKRKLSEKLDSTDFTSTIKLLNENSYVPREAGSQKDENLALYVENEFREFKLSKVWRDQHFVKIQ

VKDSAQNSVIIVDKNGRLVYLVENPGGYVAYSKAATVTGKLVHANFGTKKDFEDLYTPVNGSIVIVRAGK

ITFAEKVANAESLNAIGVLIYMDQTKFPIVNAELSFFGHAHLGTGDPYTPGFPSFNHTQFPPSRSSGLPN

IPVQTISRAAAEKLFGNMEGDCPSDWKTDSTCRMVTSESKNVKLTVSNVLKEIKILNIFGVIKGFVEPDH

YVVVGAQRDAWGPGAAKSGVGTALLLKLAQMFSDMVLKDGFQPSRSIIFASWSAGDFGSVGATEWLEGYL

SSLHLKAFTYINLDKAVLGTSNFKVSASPLLYTLIEKTMQNVKHPVTGQFLYQDSNWASKVEKLTLDNAA

Intestazione

SSLHLKAFTYINLDKAVLGTSNFKVSASPLLYTLIEKTMQNVKHPVTGQFLYQDSNWASKVEKLTLDNAA

FPFLAYSGIPAVSFCFCEDTDYPYLGTTMDTYKELIERIPELNKVARAAAEVAGQFVIKLTHDVELNLDY

EEYNSQLLSFVRDLNQYRADIKEMGLSLQWLYSARGDFFRATSRLTTDFGNAEKTDRFVMKKLNDRVMRV

EYHFLSPYVSPKESPFRHVFWGSGSHTLPALLENLKLRKQNNGAFNETLFRNQLALATWTIQGAANALSG

DVWDIDNEF

Sequenza Proteica

� Vogliamo cercare la sequenza nucleotidica e

amminoacidica della rodopsina (rhodopsin), il pigmento

visivo che innesca la visione nei vertebrati

� Cominciamo dal database Nucleotide. Quante sequenze ci sono per la

ricerca “rhodopsin”?

� Limitare la ricerca al database RefSeq. Quanti record ci sono?

Esercizio 4 Estrazione di sequenza

Nucleotidica

Limitare la ricerca al database RefSeq. Quanti record ci sono?

� Limitiamo la ricerca ad homo sapiens (human), usando l’opzioneadvanced search. Quante sequenze nucleotidiche trova?

� Visualizziamo l’entry “Homo sapiens chromosome 3, GRCh38 Primary Assembly”. Quante bp (base pair) ci sono nella sequenza?

� Visualizziamo l’entry “Homo sapiens rhodopsin (RHO), RefSeqGeneon chromosome 3”. Quante bp ci sono nella sequenza?

� Perche la differenza di dimensioni ?

� Ci sono malattie genetiche associate a questa entry? Di tipo solo autosomico dominante? (OMIM)

� Scaricare il fasta di solo il gene rhodopsin.

Esercizio 5 Estrazione di sequenza

amminoacidica (proteica)

� Se vogliamo adesso scaricare la sequenza amminoacidica,

della rodopsina (rhodopsin) per l’uomo su quale database

dobbiamo andare e quali filtri utilizzare ?

� Scaricare il FASTA della proteina e salvarlo in una� Scaricare il FASTA della proteina e salvarlo in una

directory locale.

� Collegarsi ad OMIM sfruttando il link sulla destra. Quanti

records si ottengono? Trovare almeno due mutazioni

puntiformi associate a retinite pigmentosa.

(Suggerimento: leggere!!!)

� Ricercare la proteina “Hemoglobin subunit beta” di Homosapiens. Filtrare solo i record con RefSeq selezionare ilrisultato con codice RefSeq NP_000509.1 (accession).

1) Individuare

• lunghezza,

• peso molecolare,

Esercizio 6 NCBI Proteins

• peso molecolare,

• il refseq del trascritto

2) Salvare localmente la sequenza FASTA della PROTEINA

3) Salvare localmente la sequenza FASTA del TRASCRITTO

4) Ci sono SNP? Cos’è un SNP?

5) Ci sono malattie mendeliane note legate a questa proteina?

6) Ci sono strutture legate a questa proteina?

• Quante risolte per NMR e quante mediante Cristallografia (X-Ray) ?

NCBI – PubMed

Stringa di ricercaOpzioni di

visualizzazione

Opzioni di

download

Risorse

correlate:

Filtri

Risultati (tipicamente articoli, ma anche review, trial clinici, ecc)

correlate:•Trend nei risultati•Ricerche simili•Articoli citati•Articoli che citano quello corrente•Ecc…

Stringa di

ricerca

dettagliata

NCBI – PubMed - Entry Rivista, anno,

titolo,

autori

Opzioni di

visualizzazione

Opzioni di

download

Risorse

correlate:•Articoli che citano quello corrente

Abstract

Tipo della pubblicazione (in

questo caso, una review)

quello corrente

•Collegamenti abanche datiche contengonoinformazioni suitemi dell’articolo

Termini MeSH (Medical Subject Headings)

Codice univoco, PubMedID

� Trovare le pubblicazioni correlate con le parole

“ethics of liver transplantation”

� Controllare in “Search Details” come viene costruita

Esercizio 7 NCBI Pubmed

Controllare in Search Details come viene costruita la “query” di ricerca nel database di Pubmed.

� Trovare gli articoli riferiti ai bimbi, bambini di 23 mesi o meno (suggerimento: utilizzare i filtri).

� Ricordarsi di pulire i filtri

� Parte A.

� Con una ricerca in Pubmed, trovare le pubblicazioni che

siano relazionate con

� “circadian rhythms” e che siano relazionate con “cortisol” o “melatonin”

Esercizio 8 NCBI Pubmed

o “melatonin”

� in Humans.

� Parte B.

� Trovare le pubblicazioni correlate con “heart surgery”

(provare con le virgolette e senza).

� Utilizzando “History” nella ricerca avanzata,

� Combinare questa ricerca con quella della parte A. Quante

pubblicazioni trovate ?

Trovare pubblicazioni specifiche, utilizzando laricerca avanzata oppure il “search box”

� Parte A:� Gli articoli pubblicati nel 2000 in The New England Journal of

Esercizio 9 NCBI Pubmed

� Gli articoli pubblicati nel 2000 in The New England Journal ofMedicine. Riferiti a “hip protector” (to prevent hip fractures)

� Parte B:� Gli articoli dove “A. M. Adelman” è il primo nome della

pubblicazione. Quanti articoli ci sono ?

� Parte C:� Cercare le pubblicazione del Volume 5, issue 4 della rivista PLoS

Pathogens. Quanti articoli sono stati pubblicati in quel fascicolo,in quale anno/mese?