Universidade Federal de Pernambuco Centro de Informática Introdução à Biologia Molecular...

GenBank

Universidade Federal de PernambucoCentro de Informática

Introdução à Biologia Molecular Computacional (IF803)

Roteiro GenBank

Introdução Entrada Submissão Atualização Acesso In the news

NCBI (Site Map) DataBases Tools Education

Metabolic Pathways

Referências Bibliográficas

2

GenBank (Introdução)

GenBank é uma base de dados de sequências genéticas do National Institute of Health (NIH). Cotem uma coleção de todas as sequências de DNA publicamente disponíveis. Em junho de 2009 possuia quase 86 bilhões de bases em quase 83 milhões de registros de sequências, o que corrobora o seu crescimento exponencial ao longo dos anos.

Faz parte da International Nucleotide Sequence DataBase Collaboration;

Troca dados com o DNA DataBank of Japan (DDBJ) e com o European Molecular Biology Laboratory (EMBL);

O GenBank é mantido através de submissões diretas de laboratórios independentes e centros de sequenciamento em larga-escala.

3

GenBank (Introdução)

4

GenBank (Entrada)

Cada entrada contem:

Descrição da sequência em questão;

Nome científico e taxonomia do organismo fonte;

Tabela de características que identifica regiões codificantes e outros sítios de significância biológica (unidades de transcrição, sítios de mutação, etc) e também contem a tradução de proteínas para regiões codificantes ;

Referências bibliográficas

5

GenBank (Entrada)

6

GenBank (Entrada)

7

GenBank (Entrada)

8

GenBank (Submissão)

É possível submeter dados ao GenBank, visto que muitas revistas científicas requerem esse tipo de procedimento para que possam publicar algum número de acesso em determinado artigo.

Existem diferentes opções de submissão: BankIt: Ferramenta de submissão pela internet;

Sequin: Software desenvolvido pelo NCBI. Os arquivos de saída devem ser enviados ao GenBank por email.

9

GenBank (Submissão) tbl2asn: Programa em linha de comando que automatiza a criação

de registros de sequências para submissão ao GenBank. (Genomas completos, sequências em lote);

Barcode Submission Tool: Ferramenta de submissão pela internet e rastreamento de dados para o Barcode of Life Projects.

10

GenBank (Atualização)

Atualizações podem ser feitas a qualquer momento pelas pessoas que submeteram algum dado. Sendo necessário o número de acesso da sequência que se deseja atualizar.

Através da opção de atualização na página do BankIt;

Por email;

Como um arquivo do Sequin.

11

GenBank (Acesso)

12

Há diversas maneiras de buscar e recuperar dados do GenBank: Busca por identificadores de sequências e comentários pode ser

feita através do Entrez Nucleotide, que é dividido em três segmentos: CoreNucleotide (conjunto principal), dbEST (rótulos de sequências expressas) e dbGSS (sequências de pesquisas de genoma);

Busca e alinhamento utilizando BLAST;

Buscar, relacionar e fazer download de sequencias usando NCBI e-utilities.

GenBank (In the news)

13

Na página principal do GenBank são disponibilizadas, também informações sobre sequências que estão sendo estudadas na atualidade, geralmente aquelas provenientes de organismos recém descobertos (vírus ou bactérias com mutações gênicas).

NCBI (Databases)

14

NCBI (Databases)

15

Literature DatabasesPubMed

PubMed é um serviço da U.S. National Library of Medicine (NLM) que inclui mais de 18 milhões de citações da MEDLINE* e outras revistas científicas relacionadas a artigos biomédicos, além disso, o PubMed inclui links para diversos artigos da área e outros recursos relacionados.

* MEDLINE é a principal base de dados de bibliografias da NLM que contem referências para artigos relacionados à ciências biológicas com concentração em biomedicina.

NCBI (Databases)

16

Literature DatabasesOMIM (Online Mendelian Inheritance in Man)

OMIM é um catálogo de genes humanos e contem informação a respeito de todas as desordens Mendelianas conhecidas. Ele foca na relação entre genótipo e fenótipo. É atualizado diariamente e também contem links para outros recursos genéticos.

1ª Versão (MIM): versão não online criada em 1960 por Dr. Victor A. McKusick como um catálogo de traços e desordens mendelianas;

2ª Versão (OMIM): versão online desenvolvida em 1985 através de uma colaboração entre duas bibliotecas (NLM e William H. Welch Medical Library at Johns Hopkins);

3ª Versão (OMIM): versão online desenvolvida em 1995 pelo National Center for Biotechnology Information (NCBI).

NCBI (Databases)

17

Literature DatabasesBooks (Bookshelf)

Books é uma coleção de livros e outros materiais relacionados a biomedicina que podem ser localizados através de uma ferramenta online de busca no website do NCBI. Também inclui livros e bases de dados produzidos pela NLM e pelo NCBI.

NCBI (Databases)

18

Literature Databases

NCBI (Databases)

19

Molecular DatabasesNucleotide Sequences

RefSeq (Reference Sequence)

RefSeq é uma rica coleção de DNA, RNA e sequências de proteínas de diversas taxas. Contem sequências de plasmídeos, organelas, vírus, archaea, bactérias e eucariotos. Cada RefSeq representa uma simples molécula de um organismo. O principal objetivo desse projeto é prover uma base de dados que represente informação sobre sequências gênicas para as espécies.

NCBI (Databases)

20


Principais características da RefSeq:

Não possui redundância;

Possui ligações explícitas entre nucleotídeos e sequências de proteínas;

Atualizações que refletem o atual conhecimento da sequência e a biologia;

Validação e consistência dos dados;

Séries distintas de acesso;

Revisão continua realizada pela equipe do NCBI.

NCBI (Databases)

21


RefSeqs

RefSeqs (RefSeq Biological Sequences) é derivado do GenBank e cada RefSeq contem síntese das informações ao contrário da RefSeq “pura”. Outra distinção entre RefSeq e RefSeqs, é que as RefSeqs podem ser acessadas sem restrições através do NCBI FTP, Entrez ou via BLAST , enquanto a RefSeq “pura” representa a consolidação de informação por um grupo particular.

NCBI (Databases)

22


dbEST (Expressed Sequence Tags Database)

dbEST é uma divisão do GenBank que contem dados e outras informações sobre sequências de DNA complementar (cDNA) ou ”Expressed Sequence Tags” de alguns organismos. Expressed Sequence Tag é uma sub-sequência pequena do cDNA transcrito. Pode ser usado na identificação de transcrições gênicas é de singular importância para a descoberta de genes e determinação de sequências gênicas.

Obs.:

O dbEST é pequeno, visto que contem sequências de DNA produzidas a partir de RNA mensageiro, por isso geralmente as sequências são produzidas em lotes.

NCBI (Databases)

23


EST é produzido através de uma sequência de RNA mensageiro (clonado). A sequência resultante desse processo possui qualidade limitada pela tecnologia atual que consegue gerar cadeias com tamanho entre 500 e 800 nucleotídeos, segundo dados do Wikipedia em maio de 2009. Após a anotação, ESTs podem ser mapeados em cromossomos utilizando mapas físicos.

NCBI (Databases)

24


ESTs podem ser acessados de diversas maneiras:

Através do NCBI FTP (em formato FASTA);

Através do sistema Entrez;

Através do BLAST;

NCBI (Databases)

25


dbSNP (Single Nucleotide Polymorphism Database

dbSNP é uma base de dados pública que contem uma vasta coleção de polimorfismos genéticos simples. Esta coleção inclui substituições de nucleotídeos single-base (SNPs) e deleções e inserções multi-base em pequena escala (DIPs). Assim como todos os bancos do sistema Entrez, o dbSNP aceita submissões . Essas estão relacionadas a variações em qualquer espécie e de qualquer parte de um determinado genoma. E também permite acesso por qualquer um dos métodos já citados.

NCBI (Databases)

26


Cada entrada da base de dados contem:

A sequência contexto do polimorfismo (os arredores da sequência);

A frequência de ocorrência do polimorfismo (populacional ou individual);

O método experimental utilizado;

Protocolos e condições usadas para analisar a variação;

NCBI (Databases)

27

Molecular DatabasesProtein Sequences

RefSeqs

Possui as mesmas características do RefSeq para sequências de nucleotídeos, porém com foco em sequências protéicas.

NCBI (Databases)

28


CDD (Conserved Domain Database)

É uma base de dados de domínios conservados de proteínas. CDD tenta agrupar domínios relacionados a um descendente comum em hierarquias familiares. O processo de busca utiliza o algoritmo BLAST. A cadeia de entrada é comparada a uma matriz de scores de posições específicas construída com informações de alinhamentos de domínios conservados. Depois é executado por padrão busca paralela usando o BLAST para busca em proteínas.

Obs.:

O resultado da busca pode depois ser utilizado pela ferramenta CDART descrita mais adiante.

NCBI (Databases)

29


Protein Clusters

Protein Clusters DB é uma coleção de sequências referências de proteínas co-relacionadas (clusters) codificadas por genomas completos. A base de dados contem clusters revisados e não revisados e provê acesso fácil a informações relevantes, publicações, domínios, estruturas, links externos e ferramentas de análise que inclui alinhamentos múltiplos, árvores filogenéticas e vizinhança genômica. Protein Clusters pode ser acessada da mesma maneira que todas as bases de dados do sistema Entrez.

NCBI (Databases)

30

Molecular DatabasesStructures

3D Domains

São domínios de estruturas compactas que podem ser identificadas automaticamente no MMDB (base de dados de estruturas tridimensionais). 3D Domains são utilizados como unidades de comparação para cálculos de estruturas vizinhas utilizando o algoritmo VAST. É importante conhecer esses domínios, visto que muitas das funções da proteína estão intimamente ligadas a sua estrutura.O NCBI possui um visualizador de estruturas 3D conhecido como Cn3D.

NCBI (Databases)

31

Molecular DatabasesGenes

UniGene (An Organized View of the Transcriptome)

É uma base de dados que contem coleções de sequências transcritas que tem alta probabilidade de terem surgido de um mesmo locus de transcrição (gene ou pseudogene expresso), além de conter informações sobre similaridades entre proteínas, expressões gênicas, reagentes para clonagem de cDNA e localização gênica. UniGene tem sido usado para seleção de reagentes para projetos de mapeamento genético e análise de expressões em larga escala.

NCBI (Databases)

32

Molecular DatabasesGene Expression

GEO (Gene Expression Omnibus)

O projeto GEO foi iniciado em 1999 devido ao aumento da demanda por repositórios públicos de dados gerados através de experimentos com microarrays. GEO tem um design flexível e aberto que permite submissões, armazenamento e recuperação de muitos tipos de coleções de dados, como por exemplo dados obtidos através de altas taxas de expressão gênica, de hibridização genômica e experimentos com anticorpos. GEO atua como um ponto central de distribuição de dados moleculares.

NCBI (Databases)

33


Registros da base de dados primária: Platform: Define a lista de elementos que podem ser

detectados e quantificados em determinado experimento (cDNA, conjuntos de oligonucleotídeos investigados,etc). Pode referenciar samples submetidos por diversos usuários.

A cada registro de plataforma é atribuído um único número de acesso (GPLxxx).

Samples: Descreve a condição sobre a qual uma amostra individual foi manuseada, as manipulações realizadas e as medidas de cada elemento derivado da amostra.

A cada registro de sample é atribuído um único número de acesso (GSMxxx).

NCBI (Databases)

34


Series: Registros de séries ligam grupos de samples relacionados e provê um ponto de foco e descrição do estudo como um todo. Também pode conter tabelas que descrevem os dados extraídos, conclusões levantadas ou análises.

A cada registro de série é atribuído um único número de acesso (GSExxx).

NCBI (Databases)

35


Registros primários sofrem um processo de tradução para: DataSet: Os curadores do GEO remontam o registro de séries

em DataSets. Um DataSet representa uma coleção de GEO samples comparáveis biologicamente e estatisticamente. Samples pertencentes a um DataSet se referem a uma única Platform, isto é, eles dividem um conjunto comum de elementos.

Gene Profile: São derivados de DataSets. Um Profile consiste de medidas de expressão para um gene individual sobre todos Samples do DataSet.

NCBI (Databases)

36


Acesso aos dados: Dados GEO podem ser acessados utilizando palavras chave através do Entrez GEO DataSet ou Entrez GEO Profiles ou ainda através do código de acesso através da homepage do GEO. Dados também podem ser baixados através de FTP e também podem ser submetidos e atualizados.

NCBI (Databases)

37


A – Descrição da coleção

B – Tabela modelo da coleção

C – Descrição da amostra biológica

D – Tabela de resultados do processo de hibridização

E – Arquivo original de dados

F – Descrição geral do experimento

NCBI (Databases)

38

Molecular DatabasesTaxonomy

Entrez Taxonomy

É uma base de dados que contem os nomes de todos os organismos que são representados nos bancos de dados genéticos com pelo menos um nucleotídeo ou sequência de proteína. É possível buscar pela estrutura taxonômica ou ainda recuperar dados de um grupo particular de organismos.

NCBI (Databases)

39

GenomesEntrez Genome

Entrez Genome

É uma base de dados que provê visualizações de uma variedade de genomas, cromossomos completos, mapas de sequências, genética integrada e mapas físicos. A base de dados é organizada em seis grupos de organismos: Archaea, Bacteria, Eukaryotae, Viruses, Viroids e Plasmids.

NCBI (Databases)

40

GenomesEntrez Genome

NCBI (Databases)

41

GenomesMap Viewer

Map Viewer

Provê uma enorme variedade de mapeamento de genomas e seqüenciamento de dados. Permite a visualização dos dados de forma hierárquica dividida de acordo com a classificação biológica dos organismos. Dessa forma, é possível recuperar genomas inteiros de determinado organismo. Além disso, exibe mapas cromossômicos e permite aproximação progressiva da região de interesse a partir da sequência de dados. Caso, múltiplos mapas estejam disponíveis para um cromossomo, o Map Viewer os exibe alinhados baseados nos nomes dos genes ou em marcadores.

NCBI (Databases)

42

GenomesMap Viewer

NCBI (Databases)

43

GenomesCancer Chromossomes

Cancer Chromossomes

Três bases de dados: NCI/NCBI SKY/M-FISH & CGH Database, a NCI Mitelman Database of Chromosome Aberrations in Cancer, e a NCI Recurrent Aberrations in Cancer, são bases de dados integradas ao sistema Entrez do NCBI como bases de dados de Cancer Chromossomes. Nessas bases é possível buscar por informação citogenética, clínica e de referências. O acesso é realizado da mesma forma que em outras bases do sistema Entrez (através de FTP, BLAST ou da própria homepage).

NCBI (Databases)

44


NCBI (Databases)

45


Exemplos de busca: 1. Quais cromossomos tem um breakpoint no grupo de

cromossomos 9q34?-> Busca por 9q34

2. Quais casos tem um ganho de 8p23?-> Busca por +8p23

3. Quais casos tem uma junção (fusão de breakpoints) entre 9q34 e 22q11?-> Busca por 9q34J22q11

4. Quais casos com 9q34 tem mama associada? -> Busca por 9q34 AND breast[site]

NCBI (Tools)

46

Entrez

Entrez

É uma poderosa ferramenta de busca que permite usuários buscarem por dados em diversas bases de dados relacionadas às ciências biológicas. O sistema é mantido pelo NCBI. Entrez permite acesso a todos os bancos de dados associados simultaneamente com uma simples string de entrada. Entrez pode recuperar sequências, estruturas e referências de maneira eficiente, além de prover visualizações de genes, proteínas e mapas de cromossomos. Livros e outros materiais literários também estão disponíveis online através do sistema Entrez.

NCBI (Tools)

47

BLAST

BLAST (Basic Local Alignment Search Tool)

É uma ferramenta para comparação de genes e proteínas em bases de dados públicas. BLAST é utilizado pelo sistema Entrez para recuperar os dados buscados.

NCBI (Tools)

48

BLAST

Funcionamento: Fragmentação da query em mers;

Encontra mers similares até um certo limiar (utiliza matriz de substituição);

Procura por algumas dessas palavras na base de dados (hits);

Estende os hits. No BLAST original não permitia gaps e estendia para ambos os lados. No BLAST atual permite gaps e utiliza uma matriz de pontos;

NCBI (Tools)

49

BLAST

Funcionamento (continuação):

Retém somente os pares com scores acima de um limiar (High Score Pairs);

Determina estatisticamente a relevância de cada resultado (se ocorre homologia ou casualidade).

NCBI (Tools)

50

CDART

CDART (Conserved Domain Architecture Retrieval Tool)

É uma ferramenta utilizada para a busca de proteínas com domínios conservados, ou seja, com arquiteturas de domínios similares. CDART utiliza resultados de domínios conservados pré-computados obtidos a partir de buscas no CDD (descrito anteriormente) para identificar rapidamente proteínas com um conjunto de domínios similares ao da cadeia de entrada. O algoritmo encontra similaridades entre proteínas através de significantes distâncias evolucionárias usando domínios ao invés da pura similaridade entre sequências.

NCBI (Tools)

51

E-Utilities

Entrez Programming Utilities

É uma ferramenta que permite o acesso aos dados do sistema Entrez fora da interface web. Sendo dessa forma, útil para recuperação de dados em outros ambientes. Usuários podem acessar o sistema Entrez via Simple Object Access Protocol (SOAP).

NCBI (Tools)

52

E-Utilities

Regras de acesso para evitar sobrecarga do sistema: Scripts de busca para mais de 100 entradas devem ser

executados nos finais de semana ou entre as 21:00 e 05:00;

Requisições de busca devem ser enviadas por email ao E-utilities;

Não deve ser realizada mais de 3 buscas por segundo;

Softwares distribuídos devem conter email do desenvolvedor e ferramenta utilizada para rastreamento do projeto em caso de problemas.

NCBI (Education)

53

Genes and Diseases

O NCBI também prove informações educacionais a ligadas as ciências biológicas. Dentre essas informações o NCBI provê uma vasta coleção de textos relacionados à determinada doença, bem como a associação dela com determinados genes. Além disso é discutido as mutações que causaram desordens genéticas, características clínicas e links externos. Os artigos podem ser visualizados online ou ainda podem ser baixados em formato PDF para posterior leitura. Até junho de 2009, mais de 80 desordens genéticas estavam contidas na coleção, que está em crescimento contínuo.

NCBI (Education)

54

Tutorials

O NCBI também dispõe de uma série de tutoriais e cursos relacionados aos recursos oferecidos no portal. Na coleção encontra-se tutoriais com informações sobre o BLAST, Entrez, PubMed, exercícios sobre o Map Viewer, estruturas de proteínas, handbook do NCBI, etc.

NCBI (Education)

55

Tutorials

Metabolic Pathways

56

Metabolic Pathways é uma série de reações químicas que ocorrem dentro de uma célula. Em cada pathway (via) uma substância química é modificada por reações químicas catalisadas por enzimas específicas. O conjunto de vias é chamado de rede metabólica. Essas vias são importantes para a manutenção da homeostase dentro de um organismo. Essas reações químicas permitem que a célula se mantenha viva, que cresça e possa se dividir.

Metabolic Pathways

57

Algumas vias metabólicas humanas: Glicose – oxidação da glucose para a obtenção de ATP;

Ciclo de Krebs- oxidação do acetil-CoA para a obtenção de energia;

Fosforilação Oxidativa – Eliminação dos elétrons liberados na oxidação da glucose e do acetil-CoA;

Via das Pentoses-Fosfato – Síntese de pentoses e obtenção de poder redutor para reações anabólicas;

Metabolic Pathways

58

Mais importantes vias metabólicas humanas (continuação): Ciclo da Uréia – Eliminação de NH4

+ sob formas menos tóxicas;

B-Oxidação dos Ácidos Gordos – Transformação de ácidos gordos em acetil-CoA;

Gluconeogenese – Síntese de glucose a partir de moléculas mais pequenas para serem posteriormente utilizadas pelo cérebro.

Metabolic Pathways

59


60

http://www.ncbi.nlm.nih.gov/Genbank/http://www.psc.edu/general/software/packages/genbank/genbank.phphttp://en.wikipedia.org/wiki/GenBankhttp://www.ncbi.nlm.nih.gov/Sitemap/index.htmlhttp://www.ncbi.nlm.nih.gov/sites/entrez?db=pubmedhttp://www.ncbi.nlm.nih.gov/sites/entrez?db=omimhttp://www.ncbi.nlm.nih.gov/sites/entrez?db=bookshttp://en.wikipedia.org/wiki/PubMedhttp://en.wikipedia.org/wiki/OMIMhttp://www.ncbi.nlm.nih.gov/books/bv.fcgi?rid=handbook.chapter.ch18http://www.ncbi.nlm.nih.gov/dbEST/http://en.wikipedia.org/wiki/Expressed_sequence_tag

http://www.ncbi.nlm.nih.gov/Genbank/

http://www.psc.edu/general/software/packages/genbank/genbank.php

http://en.wikipedia.org/wiki/GenBank

http://www.ncbi.nlm.nih.gov/Sitemap/index.html

http://www.ncbi.nlm.nih.gov/sites/entrez?db=pubmed

http://www.ncbi.nlm.nih.gov/sites/entrez?db=omim

http://www.ncbi.nlm.nih.gov/sites/entrez?db=books

http://en.wikipedia.org/wiki/PubMed

http://en.wikipedia.org/wiki/OMIM

http://www.ncbi.nlm.nih.gov/books/bv.fcgi?rid=handbook.chapter.ch18

http://www.ncbi.nlm.nih.gov/dbEST/

http://en.wikipedia.org/wiki/Expressed_sequence_tag


61

http://www.ncbi.nlm.nih.gov/books/bv.fcgi?rid=handbook.chapter.ch5http://www.ncbi.nlm.nih.gov/Structure/cdd/cdd.shtmlhttp://www.ncbi.nlm.nih.gov/sites/entrez?db=proteinclustershttp://www.ncbi.nlm.nih.gov/sites/entrez?db=domainshttp://www.ncbi.nlm.nih.gov/sites/entrez?db=unigenehttp://www.ncbi.nlm.nih.gov/geo/http://vivo.library.cornell.edu/lifesci/individual/vivo/individual4898http://www.ncbi.nlm.nih.gov/projects/geo/info/overview.htmlhttp://www.ncbi.nlm.nih.gov/Taxonomy/taxonomyhome.html/http://www.ncbi.nlm.nih.gov/Tools/index.html#tophttp://www.ncbi.nlm.nih.gov/entrez/query/static/eutils_help.htmlhttp://www.ncbi.nlm.nih.gov/books/bv.fcgi?rid=gnd&ref=sidebar

http://www.ncbi.nlm.nih.gov/books/bv.fcgi?rid=handbook.chapter.ch5

http://www.ncbi.nlm.nih.gov/Structure/cdd/cdd.shtml

http://www.ncbi.nlm.nih.gov/sites/entrez?db=proteinclusters

http://www.ncbi.nlm.nih.gov/sites/entrez?db=domains

http://www.ncbi.nlm.nih.gov/sites/entrez?db=unigene

http://www.ncbi.nlm.nih.gov/geo/

http://vivo.library.cornell.edu/lifesci/individual/vivo/individual4898

http://www.ncbi.nlm.nih.gov/projects/geo/info/overview.html

http://www.ncbi.nlm.nih.gov/Taxonomy/taxonomyhome.html/

http://www.ncbi.nlm.nih.gov/Tools/index.html

http://www.ncbi.nlm.nih.gov/entrez/query/static/eutils_help.html

http://www.ncbi.nlm.nih.gov/books/bv.fcgi?rid=gnd&ref=sidebar


62

http://www.ncbi.nlm.nih.gov/Education/index.htmlhttp://www.cin.ufpe.br/~katiag/cursos/20091/slides/Aula17_CombinatorialPatternMatching.ppthttp://www2.ufp.pt/~pedros/bq/integration.htmhttp://en.wikipedia.org/wiki/Metabolic_pathway

http://www.ncbi.nlm.nih.gov/Education/index.html

http://www.cin.ufpe.br/~katiag/cursos/20091/slides/Aula17_CombinatorialPatternMatching.ppt

http://www.cin.ufpe.br/~katiag/cursos/20091/slides/Aula17_CombinatorialPatternMatching.ppt

http://www2.ufp.pt/~pedros/bq/integration.htm

http://en.wikipedia.org/wiki/Metabolic_pathway

Universidade Federal de PernambucoCentro de Informática

Introdução à Biologia Molecular Computacional (IF803)

Paulo Ricardo da Silva Soares

Universidade Federal de Pernambuco Centro de Informática Introdução à Biologia Molecular...

Documents

Transcript of Universidade Federal de Pernambuco Centro de Informática Introdução à Biologia Molecular...