Teoria da abundância e impacto social global, por Sartaj Anand
Computational analysis of bacterial RNA-Seq data: quantificação de abundância de transcrito
-
Upload
vitor-coelho -
Category
Health & Medicine
-
view
161 -
download
0
Transcript of Computational analysis of bacterial RNA-Seq data: quantificação de abundância de transcrito
Computational analisys of bacterial RNA-Seqdata: quantificacao de abundancia de transcritos
Ryan McClure, Divya Balasubramanian, Yan Sun, MaksymBobrovskyy, Paul Sumby, Caroline A. Genco, Carin K.
Vanderpool e Brian Tjaden
Apresentacao: Vitor Lima Coelho
10 de outubro de 2013
Topicos
1 IntroducaoQuantificacao de abundancia de transcritosWorkflow do RockhopperAlgoritmo Basico de Quantificacao (Read alinhada com umunico transcrito)Fontes de variabilidade
2 NormalizacaoMetrica utilizada
3 Multi-reads
4 Resultados
5 Consideracoes Finais
6 Referencias
Introducao
Introducao
RNA-Seq produz de milhoes de reads mapeados sobre umareferencia
O numero de reads mapeados para um gene em particular reflete aabundancia de um transcrito em uma amostra (RISSO et al, 2011).
As quantidades de reads necessitam ser normalizadas para seremcomparadas entre diferentes genes e estimar os nıveis de expressao.
Introducao
Quantificacao de abundancia de transcritos
Quantificacao de expressao genica
Estimar a abundancia de um gene (o nıvel de expressao de umtranscrito) e suas isoformas e analisar a expressao diferencial entreas amostras.
A expressao genica e calculada pelo numero de reads mapeados nasequencia referencia de cada gene
Introducao
Workflow do Rockhopper
Workflow do Rockhopper
fonte: McClure et al, 2013.
Introducao
Algoritmo Basico de Quantificacao (Read alinhada com um unico transcrito)
Algoritmo Basico de Quantificacao (Read alinhada comum unico transcrito)
1 Alinhamento dos reads com o conjunto de sequencias detranscritos de referencia
2 Contagem do numero de reads alinhados com cada transcrito
3 Conversao da quantidade de reads em nıveis de expressaorelativa
Introducao
Fontes de variabilidade
Fontes de variabilidade
Fragmentacao de RNA durante a construcao da biblioteca
Diferentes tamanhos de transcritos
Abundancia de reads variavel produzida em cada corrida
Variacao no numero de reads mapeados entre diferentesamostras
fonte: Garber et al, 2011.
Normalizacao
Normalizacao
A estimativa de expressao genica utilizando RNA-Seq necessita quea quantidade de reads seja normalizada adequadamente.
fonte: Garber et al, 2011.
Normalizacao
Metrica utilizada
Metrica utilizada
Estimativa da probabilidade dos reads terem sido originados apartir de um transcrito pelo numero de reads que alinham com otranscrito:
θi =ciN
(1)
ci = reads mapeadas para o transcrito iN = numero total de reads mapeadas
Normalizacao
Metrica utilizada
Metrica utilizada
RPKM (Reads Per Kilobase Per Million):
109 × ciliN
(2)
ci = reads mapeadas para o transcrito iN = numero total de reads mapeadasli = tamanho
Normalizacao
Metrica utilizada
Metrica utilizada
1 Os autores calculam o RPKM para cada condicao.
2 Em seguida, removem as expressoes nulas.
3 Desse conjunto, utilizam o quartil superior de expressoesgenicas.
Multi-reads
Multi-reads
Read que pode ser derivada a partir de multiplos transcritos:
Alguns genes possuem similaridades nas sequencias
Transcritos alternativos compartilham uma fracao significanteda sequencia
Multi-reads
Opcoes de tratamento
Ignorar
Utilizar modelos de quantificacao para isoformas, porexemplo:
Exon Intersection MethodExon Union Method
fonte: Garber et al, 2011.
Resultados
Avaliacao da estimativa de abundancia de transcritos
Comparacao com os nıveis de expressao genica determinadospelo qRT-PCR
Comparacao feita utilizando um experimento simulado deRNA-Seq em N. gonorrheae
Efeito do conteudo de GC e analise de expressao genica
Resultados
Avaliacao da estimativa de abundancia de transcritos
Comparacao com os nıveis de expressao genica determinados peloqRT-PCR:
9 genes de N. gonorrheae oriundos de tres replicas biologicas
15 milhoes de reads oriundos de dados de RNA-Seq
Nıveis de expressao estimados possuem uma correlacao de0,55
Resultados
Avaliacao da estimativa de abundancia de transcritos
Comparacao feita utilizando um experimento simulado deRNA-Seq em N. gonorrheae
Essa simulacao permite que a abundancia dos transcritossejam conhecidas a priori.
2002 genes anotados codificadores de proteınas.
Os nıveis de expressao genica estimados tiveram umacorrelacao de 0,96 com os nıveis de expressao genicasimulados.
Resultados
Avaliacao da estimativa de abundancia de transcritos
Efeito do conteudo de GC e analise de expressao genica:
O conteudo de GC representa um vies para analise deexpressao genica de dados oriundos do RNA-Seq (SEMON etal, 2005).
Os autores calcularam a correlacao entre os conteudos de GCe os nıveis de expressao dos genes para cada condicaoanalisada.
Nao foram observadas correlacoes significantes (< 0.1) entreconteudos de GC e nıveis de expressao dos transcritos.
Consideracoes Finais
Consideracoes Finais
Baixa correlacao com os nıveis de expressao determinados peloqRT-PCR.
Acredita-se que esta relacionado as configuracoes do experimentode RNA-Seq:
Tamanho de reads menores (36 X 40 - 100 nt)
Baixo score (31 X 35)
Referencias
Referencias
Dewey, Colin. Notas de aula da disciplina ”Biostatistics & MedicalInformatics 776”. Disponıvelem:<http://www.biostat.wisc.edu/bmi776/syllabus.html>.Acessado em:29 set. 2013.
Garber, M. et al (2011). Computational methods for transcriptomeannotation and quantification using RNA-seq. Nature Methods,vol. 8, n. 6.
McClure, R. et al (2013). Computational analysis of bacterialRNA-Seq data. Nucleic Acids Research, vol. 41, n. 14.
Referencias
Referencias
Risso, D.; Schwartz, K.; Sherlock, G.; Dudoit, S. (2011)GC-content normalization for RNA-Seq data. BMCBioinformatics, 12:480.
Semon, M.; Mouchiroud, D.; Duret, L.(2005). Relationshipbetween gene expression and GC-content in mammals: statisticalsignificance and biological relevance. Human MolecularGenetics, vol. 14, n. 3, p.421-427.
Wang, Z.; Gerstein, M.; Snyder, M. (2009) RNA-Seq: arevolutionary tool for transcriptomics. Genetics, vol. 10, p.57-63.
Ministerio de Ciencia, Tecnologia e InovacaoLaboratorio Nacional de Computacao Cientıfica
Obrigado!!!Vitor Lima Coelho