Computational analysis of bacterial RNA-Seq data: quantificação de abundância de transcrito

21
Computational analisys of bacterial RNA-Seq data:quantifica¸c˜ ao de abundˆ ancia de transcritos Ryan McClure, Divya Balasubramanian, Yan Sun, Maksym Bobrovskyy, Paul Sumby, Caroline A. Genco, Carin K. Vanderpool e Brian Tjaden Apresenta¸ ao: Vitor Lima Coelho 10 de outubro de 2013

Transcript of Computational analysis of bacterial RNA-Seq data: quantificação de abundância de transcrito

Page 1: Computational analysis of bacterial RNA-Seq data: quantificação de abundância de transcrito

Computational analisys of bacterial RNA-Seqdata: quantificacao de abundancia de transcritos

Ryan McClure, Divya Balasubramanian, Yan Sun, MaksymBobrovskyy, Paul Sumby, Caroline A. Genco, Carin K.

Vanderpool e Brian Tjaden

Apresentacao: Vitor Lima Coelho

10 de outubro de 2013

Page 2: Computational analysis of bacterial RNA-Seq data: quantificação de abundância de transcrito

Topicos

1 IntroducaoQuantificacao de abundancia de transcritosWorkflow do RockhopperAlgoritmo Basico de Quantificacao (Read alinhada com umunico transcrito)Fontes de variabilidade

2 NormalizacaoMetrica utilizada

3 Multi-reads

4 Resultados

5 Consideracoes Finais

6 Referencias

Page 3: Computational analysis of bacterial RNA-Seq data: quantificação de abundância de transcrito

Introducao

Introducao

RNA-Seq produz de milhoes de reads mapeados sobre umareferencia

O numero de reads mapeados para um gene em particular reflete aabundancia de um transcrito em uma amostra (RISSO et al, 2011).

As quantidades de reads necessitam ser normalizadas para seremcomparadas entre diferentes genes e estimar os nıveis de expressao.

Page 4: Computational analysis of bacterial RNA-Seq data: quantificação de abundância de transcrito

Introducao

Quantificacao de abundancia de transcritos

Quantificacao de expressao genica

Estimar a abundancia de um gene (o nıvel de expressao de umtranscrito) e suas isoformas e analisar a expressao diferencial entreas amostras.

A expressao genica e calculada pelo numero de reads mapeados nasequencia referencia de cada gene

Page 5: Computational analysis of bacterial RNA-Seq data: quantificação de abundância de transcrito

Introducao

Workflow do Rockhopper

Workflow do Rockhopper

fonte: McClure et al, 2013.

Page 6: Computational analysis of bacterial RNA-Seq data: quantificação de abundância de transcrito

Introducao

Algoritmo Basico de Quantificacao (Read alinhada com um unico transcrito)

Algoritmo Basico de Quantificacao (Read alinhada comum unico transcrito)

1 Alinhamento dos reads com o conjunto de sequencias detranscritos de referencia

2 Contagem do numero de reads alinhados com cada transcrito

3 Conversao da quantidade de reads em nıveis de expressaorelativa

Page 7: Computational analysis of bacterial RNA-Seq data: quantificação de abundância de transcrito

Introducao

Fontes de variabilidade

Fontes de variabilidade

Fragmentacao de RNA durante a construcao da biblioteca

Diferentes tamanhos de transcritos

Abundancia de reads variavel produzida em cada corrida

Variacao no numero de reads mapeados entre diferentesamostras

fonte: Garber et al, 2011.

Page 8: Computational analysis of bacterial RNA-Seq data: quantificação de abundância de transcrito

Normalizacao

Normalizacao

A estimativa de expressao genica utilizando RNA-Seq necessita quea quantidade de reads seja normalizada adequadamente.

fonte: Garber et al, 2011.

Page 9: Computational analysis of bacterial RNA-Seq data: quantificação de abundância de transcrito

Normalizacao

Metrica utilizada

Metrica utilizada

Estimativa da probabilidade dos reads terem sido originados apartir de um transcrito pelo numero de reads que alinham com otranscrito:

θi =ciN

(1)

ci = reads mapeadas para o transcrito iN = numero total de reads mapeadas

Page 10: Computational analysis of bacterial RNA-Seq data: quantificação de abundância de transcrito

Normalizacao

Metrica utilizada

Metrica utilizada

RPKM (Reads Per Kilobase Per Million):

109 × ciliN

(2)

ci = reads mapeadas para o transcrito iN = numero total de reads mapeadasli = tamanho

Page 11: Computational analysis of bacterial RNA-Seq data: quantificação de abundância de transcrito

Normalizacao

Metrica utilizada

Metrica utilizada

1 Os autores calculam o RPKM para cada condicao.

2 Em seguida, removem as expressoes nulas.

3 Desse conjunto, utilizam o quartil superior de expressoesgenicas.

Page 12: Computational analysis of bacterial RNA-Seq data: quantificação de abundância de transcrito

Multi-reads

Multi-reads

Read que pode ser derivada a partir de multiplos transcritos:

Alguns genes possuem similaridades nas sequencias

Transcritos alternativos compartilham uma fracao significanteda sequencia

Page 13: Computational analysis of bacterial RNA-Seq data: quantificação de abundância de transcrito

Multi-reads

Opcoes de tratamento

Ignorar

Utilizar modelos de quantificacao para isoformas, porexemplo:

Exon Intersection MethodExon Union Method

fonte: Garber et al, 2011.

Page 14: Computational analysis of bacterial RNA-Seq data: quantificação de abundância de transcrito

Resultados

Avaliacao da estimativa de abundancia de transcritos

Comparacao com os nıveis de expressao genica determinadospelo qRT-PCR

Comparacao feita utilizando um experimento simulado deRNA-Seq em N. gonorrheae

Efeito do conteudo de GC e analise de expressao genica

Page 15: Computational analysis of bacterial RNA-Seq data: quantificação de abundância de transcrito

Resultados

Avaliacao da estimativa de abundancia de transcritos

Comparacao com os nıveis de expressao genica determinados peloqRT-PCR:

9 genes de N. gonorrheae oriundos de tres replicas biologicas

15 milhoes de reads oriundos de dados de RNA-Seq

Nıveis de expressao estimados possuem uma correlacao de0,55

Page 16: Computational analysis of bacterial RNA-Seq data: quantificação de abundância de transcrito

Resultados

Avaliacao da estimativa de abundancia de transcritos

Comparacao feita utilizando um experimento simulado deRNA-Seq em N. gonorrheae

Essa simulacao permite que a abundancia dos transcritossejam conhecidas a priori.

2002 genes anotados codificadores de proteınas.

Os nıveis de expressao genica estimados tiveram umacorrelacao de 0,96 com os nıveis de expressao genicasimulados.

Page 17: Computational analysis of bacterial RNA-Seq data: quantificação de abundância de transcrito

Resultados

Avaliacao da estimativa de abundancia de transcritos

Efeito do conteudo de GC e analise de expressao genica:

O conteudo de GC representa um vies para analise deexpressao genica de dados oriundos do RNA-Seq (SEMON etal, 2005).

Os autores calcularam a correlacao entre os conteudos de GCe os nıveis de expressao dos genes para cada condicaoanalisada.

Nao foram observadas correlacoes significantes (< 0.1) entreconteudos de GC e nıveis de expressao dos transcritos.

Page 18: Computational analysis of bacterial RNA-Seq data: quantificação de abundância de transcrito

Consideracoes Finais

Consideracoes Finais

Baixa correlacao com os nıveis de expressao determinados peloqRT-PCR.

Acredita-se que esta relacionado as configuracoes do experimentode RNA-Seq:

Tamanho de reads menores (36 X 40 - 100 nt)

Baixo score (31 X 35)

Page 19: Computational analysis of bacterial RNA-Seq data: quantificação de abundância de transcrito

Referencias

Referencias

Dewey, Colin. Notas de aula da disciplina ”Biostatistics & MedicalInformatics 776”. Disponıvelem:<http://www.biostat.wisc.edu/bmi776/syllabus.html>.Acessado em:29 set. 2013.

Garber, M. et al (2011). Computational methods for transcriptomeannotation and quantification using RNA-seq. Nature Methods,vol. 8, n. 6.

McClure, R. et al (2013). Computational analysis of bacterialRNA-Seq data. Nucleic Acids Research, vol. 41, n. 14.

Page 20: Computational analysis of bacterial RNA-Seq data: quantificação de abundância de transcrito

Referencias

Referencias

Risso, D.; Schwartz, K.; Sherlock, G.; Dudoit, S. (2011)GC-content normalization for RNA-Seq data. BMCBioinformatics, 12:480.

Semon, M.; Mouchiroud, D.; Duret, L.(2005). Relationshipbetween gene expression and GC-content in mammals: statisticalsignificance and biological relevance. Human MolecularGenetics, vol. 14, n. 3, p.421-427.

Wang, Z.; Gerstein, M.; Snyder, M. (2009) RNA-Seq: arevolutionary tool for transcriptomics. Genetics, vol. 10, p.57-63.

Page 21: Computational analysis of bacterial RNA-Seq data: quantificação de abundância de transcrito

Ministerio de Ciencia, Tecnologia e InovacaoLaboratorio Nacional de Computacao Cientıfica

Obrigado!!!Vitor Lima Coelho