Computational analysis of bacterial RNA-Seq data: quantificação de abundância de transcrito

Computational analisys of bacterial RNA-Seqdata: quantificacao de abundancia de transcritos

Ryan McClure, Divya Balasubramanian, Yan Sun, MaksymBobrovskyy, Paul Sumby, Caroline A. Genco, Carin K.

Vanderpool e Brian Tjaden

Apresentacao: Vitor Lima Coelho

10 de outubro de 2013

Topicos

1 IntroducaoQuantificacao de abundancia de transcritosWorkflow do RockhopperAlgoritmo Basico de Quantificacao (Read alinhada com umunico transcrito)Fontes de variabilidade

2 NormalizacaoMetrica utilizada

3 Multi-reads

4 Resultados

5 Consideracoes Finais

6 Referencias

Introducao

Introducao

RNA-Seq produz de milhoes de reads mapeados sobre umareferencia

O numero de reads mapeados para um gene em particular reflete aabundancia de um transcrito em uma amostra (RISSO et al, 2011).

As quantidades de reads necessitam ser normalizadas para seremcomparadas entre diferentes genes e estimar os nıveis de expressao.

Introducao

Quantificacao de abundancia de transcritos

Quantificacao de expressao genica

Estimar a abundancia de um gene (o nıvel de expressao de umtranscrito) e suas isoformas e analisar a expressao diferencial entreas amostras.

A expressao genica e calculada pelo numero de reads mapeados nasequencia referencia de cada gene

Introducao

Workflow do Rockhopper

Workflow do Rockhopper

fonte: McClure et al, 2013.

Introducao

Algoritmo Basico de Quantificacao (Read alinhada com um unico transcrito)

Algoritmo Basico de Quantificacao (Read alinhada comum unico transcrito)

1 Alinhamento dos reads com o conjunto de sequencias detranscritos de referencia

2 Contagem do numero de reads alinhados com cada transcrito

3 Conversao da quantidade de reads em nıveis de expressaorelativa

Introducao

Fontes de variabilidade

Fontes de variabilidade

Fragmentacao de RNA durante a construcao da biblioteca

Diferentes tamanhos de transcritos

Abundancia de reads variavel produzida em cada corrida

Variacao no numero de reads mapeados entre diferentesamostras

fonte: Garber et al, 2011.

Normalizacao

Normalizacao

A estimativa de expressao genica utilizando RNA-Seq necessita quea quantidade de reads seja normalizada adequadamente.


Normalizacao

Metrica utilizada

Metrica utilizada

Estimativa da probabilidade dos reads terem sido originados apartir de um transcrito pelo numero de reads que alinham com otranscrito:

θi =ciN

(1)

ci = reads mapeadas para o transcrito iN = numero total de reads mapeadas

Normalizacao

Metrica utilizada

Metrica utilizada

RPKM (Reads Per Kilobase Per Million):

109 × ciliN

(2)

ci = reads mapeadas para o transcrito iN = numero total de reads mapeadasli = tamanho

Normalizacao

Metrica utilizada

Metrica utilizada

1 Os autores calculam o RPKM para cada condicao.

2 Em seguida, removem as expressoes nulas.

3 Desse conjunto, utilizam o quartil superior de expressoesgenicas.

Multi-reads

Multi-reads

Read que pode ser derivada a partir de multiplos transcritos:

Alguns genes possuem similaridades nas sequencias

Transcritos alternativos compartilham uma fracao significanteda sequencia

Multi-reads

Opcoes de tratamento

Ignorar

Utilizar modelos de quantificacao para isoformas, porexemplo:

Exon Intersection MethodExon Union Method


Resultados

Avaliacao da estimativa de abundancia de transcritos

Comparacao com os nıveis de expressao genica determinadospelo qRT-PCR

Comparacao feita utilizando um experimento simulado deRNA-Seq em N. gonorrheae

Efeito do conteudo de GC e analise de expressao genica

Resultados


Comparacao com os nıveis de expressao genica determinados peloqRT-PCR:

9 genes de N. gonorrheae oriundos de tres replicas biologicas

15 milhoes de reads oriundos de dados de RNA-Seq

Nıveis de expressao estimados possuem uma correlacao de0,55

Resultados


Comparacao feita utilizando um experimento simulado deRNA-Seq em N. gonorrheae

Essa simulacao permite que a abundancia dos transcritossejam conhecidas a priori.

2002 genes anotados codificadores de proteınas.

Os nıveis de expressao genica estimados tiveram umacorrelacao de 0,96 com os nıveis de expressao genicasimulados.

Resultados


Efeito do conteudo de GC e analise de expressao genica:

O conteudo de GC representa um vies para analise deexpressao genica de dados oriundos do RNA-Seq (SEMON etal, 2005).

Os autores calcularam a correlacao entre os conteudos de GCe os nıveis de expressao dos genes para cada condicaoanalisada.

Nao foram observadas correlacoes significantes (< 0.1) entreconteudos de GC e nıveis de expressao dos transcritos.

Consideracoes Finais

Consideracoes Finais

Baixa correlacao com os nıveis de expressao determinados peloqRT-PCR.

Acredita-se que esta relacionado as configuracoes do experimentode RNA-Seq:

Tamanho de reads menores (36 X 40 - 100 nt)

Baixo score (31 X 35)

Referencias

Referencias

Dewey, Colin. Notas de aula da disciplina ”Biostatistics & MedicalInformatics 776”. Disponıvelem:<http://www.biostat.wisc.edu/bmi776/syllabus.html>.Acessado em:29 set. 2013.

Garber, M. et al (2011). Computational methods for transcriptomeannotation and quantification using RNA-seq. Nature Methods,vol. 8, n. 6.

McClure, R. et al (2013). Computational analysis of bacterialRNA-Seq data. Nucleic Acids Research, vol. 41, n. 14.

Referencias

Referencias

Risso, D.; Schwartz, K.; Sherlock, G.; Dudoit, S. (2011)GC-content normalization for RNA-Seq data. BMCBioinformatics, 12:480.

Semon, M.; Mouchiroud, D.; Duret, L.(2005). Relationshipbetween gene expression and GC-content in mammals: statisticalsignificance and biological relevance. Human MolecularGenetics, vol. 14, n. 3, p.421-427.

Wang, Z.; Gerstein, M.; Snyder, M. (2009) RNA-Seq: arevolutionary tool for transcriptomics. Genetics, vol. 10, p.57-63.

Ministerio de Ciencia, Tecnologia e InovacaoLaboratorio Nacional de Computacao Cientıfica

Obrigado!!!Vitor Lima Coelho

Computational analysis of bacterial RNA-Seq data: quantificação de abundância de transcrito

Health & Medicine

Transcript of Computational analysis of bacterial RNA-Seq data: quantificação de abundância de transcrito