Introduction to next generation sequencing Rolf Sommer Kaas.

Introduction to next generation sequencing

Rolf Sommer Kaas

National Food Institute, Technical University of Denmark

Outline

Next generation sequencing

Ion Torrent454 PacBioIllumina

Output

Data Analysis

History

MinION


Amiga 500

History

‘77‘72

Frederick

Sanger

Walter Gilbert

Alan Maxam

1980

1953

Watson & Crick

First Portable computer

IBM 5100

‘75

First Laptop

Osborne 1 (11kg)

1981

First computer 1951

1990

World Wide Web


History1990-2003

Human genome project

1998

• Random Shotgun Sequencing

• Fast

• 300 mill. $

• Hierarchical Shotgun Sequencing

• 3 billion $


History1990-2003

Human genome project

2001: Draft

2003: Complete


History

‘77‘72

Frederick

Sanger

Walter Gilbert

Alan Maxam

1980

1953

Watson & Crick

First Portable computer

IBM 5100

‘75

First Laptop

Osborne 1 (11kg)

1981

First computer 1951

1990

World Wide Web

2003

Dell Laptop


History2004

Next Generation Sequencing

454 Life Sciences: Parallelized pyrosequencing

Reduce costs 6 fold


History2004

Next Generation Sequencing

(Wetterstrand KA. DNA Sequencing Costs: Data from the NHGRI Genome Sequencing Program (GSP). Accessed 31-oct-14.)

European Nucleotide Archive (ENA)

(http://www.ebi.ac.uk/ena/about/statistics)

http://www.ebi.ac.uk/ena/about/statistics





• Roche, 454 Life Sciences (GS FLX Titanium)

• Life Technologies (Ion Torrent & Ion Proton)

• Illumina (HiSeq, MiSeq, GenomeAnalyzer)

• Pacific Biosciences (PacBio RS)

• Oxford Nanopore (MinION, PromethION, GridION)



Method outline - library

1. Fragment DNA 2. Ligate adapters

Amplification primer

Sequencing primer

Barcode 3. Amplification

4. Sequencing


Next generation sequencing technologies

Ion Torrent

Problem with homopolymers

Fast

Expensive

Long insert sizes

Low throughput

Cheapest



Illumina

Genome Analyzer HiSeq MiSeq

Short reads (~50-250 bp)

Good Accuracy

High Throughput



PacBio Expensive

Lower accuracy

Long reads (~5000 bp)



Nanopore

• Upcoming technology

• Released to select labs



Nanopore

• Up to 80,000 bp reads

• MinION: 150 mill. Bp pr 6 h. (30x coverage of E. coli)

GridION

MinIONPromethION



Machine distribution

• Illumina is the most common

• ABI SOLiD not as big as it appears


Reads

Sample

Raw reads

Output


What is sequence data?Sequence data is stored in fasta files

Fasta example:

Output

Header/ID

Sequence


Handling sequence data?Watch out!Output

Same FASTA file in Word

This should be fine…


Handling sequence data?Watch out!Output

What your data actually looks like!

Oh no! This wont work…

Take home message:

Use “pure text editors”Examples:

• Notepad (Win)

• Textedit (Mac)

• Sublime Text (all)

Save files in “txt” format.


What is the data?Fastq files

What is Fastq?Fasta + quality scores

Fastq example:@FCC0CD5ACXX:1:1101:1103:2048#ACCGT/1

ACNGTGTTTTTAGTTATTGTTTTGTTAAGTTGGGTTTTTTGTACCCAATAGCCAACAAGCCGCCTTTATGGCGGTTTTTTTGTGCCTGAAAAGTGGGCGCA

+

_BP`ccceggcegihiiighiifhihfddgfhiêfgfhhhhhegiiiiiiiihiihihggeeccdddcccacWTTâcc[ab_`]`[_b`^BBBBBBBB

@FCC0CD5ACXX:1:1101:1165:2058#ACGTT/1

ACGTTAGCAGAATCGCTTTCTGTTCGTTTTCCACCTGCGACAGACGCACCGGACCACGGTTGGCGAGATCGTCGCGCAGAATATCGGCGGCACGCTGCGAC

+

bb_eeceefeggehhdagfghhiihfghighhffhifhhcghfdhiihafgdcebaà\aaccc^V]^baccaccXaaX^bbcccaac[_X]]a[aacXT

@FCC0CD5ACXX:1:1101:1135:2082#AGCGT/1

AGCGTGACAAACATTTTATTGCGCCCGGTTTTATCCAGCTTGAATGCCTGACGAAAGAAGATGATGGTGACGACGATGGAGAGAACAATCAGCACCAGATT

+

bbbeeeeefggfgiihgiigiiiiiiiffgifgeghiiihhfefffhhhfgh_fhggdgegeaceeacbdcbcc\âa]``_^bb]bcccccbac_a^bc

@FCC0CD5ACXX:1:1101:1239:2083#AGCGT/1

AGCGTCTGACTCACACAAAAACGGTAACACAGTTATCCACAGAATCAGGGGATAAGGCCGGAAAGAACATGTGAGCAAAAAGGCAAAGCCAGGACAAAAGG

+

bbbeeeeegggggiiiiiiiiiigifhhiiighiiihhiiiiiiihiiiiiiiiiihiigcdbbdcdcccccdccccccccacccccccbcccacccccc

1 read, 4 lines

Output






+


@FCC0CD5ACXX:1:1101:1165:2058#ACGTT/1


+


@FCC0CD5ACXX:1:1101:1135:2082#AGCGT/1


+


@FCC0CD5ACXX:1:1101:1239:2083#AGCGT/1


+


Header/ID

Output






+


@FCC0CD5ACXX:1:1101:1165:2058#ACGTT/1


+


@FCC0CD5ACXX:1:1101:1135:2082#AGCGT/1


+


@FCC0CD5ACXX:1:1101:1239:2083#AGCGT/1


+


DNA sequence

Output






+


@FCC0CD5ACXX:1:1101:1165:2058#ACGTT/1


+


@FCC0CD5ACXX:1:1101:1135:2082#AGCGT/1


+


@FCC0CD5ACXX:1:1101:1239:2083#AGCGT/1


+


Name field (optional)

Output






+


@FCC0CD5ACXX:1:1101:1165:2058#ACGTT/1


+


@FCC0CD5ACXX:1:1101:1135:2082#AGCGT/1


+


@FCC0CD5ACXX:1:1101:1239:2083#AGCGT/1


+


Quality scores

Output


Paired and Single End

Single end readsInsert size (eg. 300 bp)

Paired end reads

Long Insert size (eg. 8000 bp)

Output


Splitting & clipping data



+


@FCC0CD5ACXX:1:1101:1165:2058#ACGTT/1


+


@FCC0CD5ACXX:1:1101:1135:2082#AGCGT/1


+


@FCC0CD5ACXX:1:1101:1239:2083#AGCGT/1


+


using barcodesOutput aka multiplexing

De-multiplexing is usually done by the sequencer


Data qualityOutput


Trimming data


ACNGTGTTTTTAGTTATTGTTTTGTTAAGTTGGGTTTTTTGTACCCAATAGCCAACAAGCCGCCTTTATGGCGGTTTTTTGTGCCTGAAAAGTGGGCGCA+


@FCC0CD5ACXX:1:1101:1165:2058#ACGTT/1


+

bb_eeceefeggehhdagfghhiihfghighhffhifhhcghfdhiihafgdceba`a\aaccc^V]^baccaccXaaacc[ab_`]`[_b`^BBBBBBBB

@FCC0CD5ACXX:1:1101:1135:2082#AGCGT/1


+


@FCC0CD5ACXX:1:1101:1239:2083#AGCGT/1


+


Output


Trimming data


ACNGTGTTTTTAGTTATTGTTTTGTTAAGTTGGGTTTTTTGTACCCAATAGCCAACAAGCCGCCTTTATGGCGGTTTTTTGTGCCTGAAAAGTGGGCGCA+


@FCC0CD5ACXX:1:1101:1165:2058#ACGTT/1


+

bb_eeceefeggehhdagfghhiihfghighhffhifhhcghfdhiihafgdceba`a\aaccc^V]^baccaccXaaacc[ab_`]`[_b`^BBBBBBBB

@FCC0CD5ACXX:1:1101:1135:2082#AGCGT/1


+


@FCC0CD5ACXX:1:1101:1239:2083#AGCGT/1


+


OutputData quality


Coverage & DepthOutput

Coverage: Average number of times the data is covered in the genome.

• N: Number of read

• L: Read length

• G: Genome size

Depth: Number reads that coveres a particular nucleotide in each position in

the genome.reads

site= depth

Data quality

(target or assembly)

Breadth-of-coverage:

assembly size

target sizeC =

Example:N = 5 millL = 100 bpG = 5 Mbp

C = 5*100/5 = 100X

On average, 100 reads covers each position in the genome.

________

Example:assembly = 4.9 mill

target = 5 mill

c = 4.9/5 = 0.98

________


OutputData storage & Access

International Nucleotide Sequence Database Collaboration (INSDC)

Europe

European Bioinformatics Institute (EBI)

United States

National Center for Biotechnology

Information (NCBI)

Asia

DNA Data Bank of Japan (DDBJ)

24 h


European Bioinformatics Institute (EBI)OutputData storage & Access

http://www.ebi.ac.uk/ena


Assembly

Mapping to a reference

Further analysis (eg. Gene finding)

Further analysis (eg. SNP trees)

Data Analysis

Data splitting, clipping, and

trimming

Reference

De novo


Unix DOS

Mac OS X Linux Windows

Bioinformatic tools Bioinformatic tools

CLC bio and MEGA

Geneious

Data AnalysisBioinformatic platforms



Unix…


+ Platform independent

+ Requires little computer resources

+ Can be done everywhere

- Requires patience

• http://www.genomicepidemiology.org/ :

• MLST

• Resistance genes

• SNP calling and tree creation

• Species identification

• https://main.g2.bx.psu.edu/ :

• Many NGS tools

• Steep learning curve


Web-tools to the rescue!

http://www.genomicepidemiology.org/

https://main.g2.bx.psu.edu/


Different sequencers requires different assemblers

• Depend on output and error profile

Assembler: Newbler

• 454

• Ion Torrent

Assembler: Velvet

• Illumina

• ABI Solid (color spaced)

Data AnalysisAssembly

De novo


Velvet – The unnecessarily complex assembler

• K-mer based assembler

• User needs to set K

• Longer reads equals larger K

• Everything is defined in “Kmer-space”

• Nucleotide length = Kmer_length + K-1

• Kmer_coverage = Nucleotide_coverage * (Read_length-K+1)/Read_length


De novo


Velvet assembly


De novo

Example

>NODE_1_ length_91928_cov_23.136574AGTTCATTGATAAATCTTTTTTGATTATCATCAACGAGTGCCCACACAGATTGATTGGTT

TATATTGTTAAAGAGCTTTTCCTATCGAAATCGCTTTTAAGCTCAATTCGCTAGGGCTGC

GTATATTACGCTTATTCAGTTGAGTGTCAAACGTTATTTTCTA...

K = 83

Kmer_length + K-1 = Nucleotide length

91928 + 83 – 1 = 92010

Kmer_coverage = Nucleotide_coverage * (Read_length-K+1)/Read_length

23.136574

(300 – 83 + 1) / 300

___________________ = 31.84


De novo quality check

Number of contigs

- Fewer is generally better

N50

Total size of contigs

50% of size

Data Analysis


De novo quality check

Number of contigs

- Fewer is better

N50

Total size of contigs

50% of size

Size of contig

Data Analysis


Assembly


Data Analysis


trimming

Reference

De novo


Contigs

Gene finding

Resistance

MLST

Etc.

Data AnalysisFurther data analysis


• Find genes by Open Reading Frames + Shine-Dalgarno + motifs

• Not there does not mean it is NOT there

• Not assembled

• Truncated

• “Hypothetical” & “Putative” – The curse of bioinformatics

Annotated gene – verified in the lab

“Hypothetical” or “Putative” annotations

No match to original sequence

The evil circle of BLAST similarity

Suggested annotation service:

RAST: http://rast.nmpdr.org/

Data AnalysisFurther data analysis

Genes are not just genes…


Assembly



Data Analysis


trimming

Reference

De novo



raw readsDo not match any reads

Do not match reference

Reference sequence

Data Analysis

Mappers:

BWA

Bowtie

MAQ

CGE


Assembly



Further analysis (eg. SNP trees)

Data Analysis


trimming

Reference

De novo


Thank you for listening

Questions?

Introduction to next generation sequencing Rolf Sommer Kaas.

Documents

Transcript of Introduction to next generation sequencing Rolf Sommer Kaas.