Introducing NCGR Informacs - LANL

14
Introducing NCGR Informa3cs John A. Crow, Ph.D. Vice President for Informa3cs Na3onal Center for Genome Resources [email protected]

Transcript of Introducing NCGR Informacs - LANL

Page 1: Introducing NCGR Informacs - LANL

Introducing NCGR Informa3cs 

John A. Crow, Ph.D. Vice President for Informa3cs 

Na3onal Center for Genome Resources [email protected] 

Page 2: Introducing NCGR Informacs - LANL

NCGR Informa3cs 

NCGR Research 

NCGR Sequencing Services 

Sponsored research PIs, postdocs, visi-ng scien-sts 

Academic and business partnerships Bioinforma-cs, so6ware development, IT 

NCGR scien3sts and external collabora3ons Illumina sequencing & genotyping, PacBio sequencing 

Page 3: Introducing NCGR Informacs - LANL
Page 4: Introducing NCGR Informacs - LANL

The teams 

  Compu3ng and Networks 

  SoMware Development 

  Bioinforma3cs 

 Formally established early 2011. 

Page 5: Introducing NCGR Informacs - LANL

Compu3ng and Networks 

  Administra3on of HPC assets   Database servers and administra3on   Disk arrays and long term storage   High performance internal networks 

John Utsey Forrest Black Kathy Myers 

Page 6: Introducing NCGR Informacs - LANL

SoMware Development 

  Project‐based databases and web resources   Development of internal processing pipelines   Internal LIMS   Evalua3on of new soMware technologies 

Ken Seal Alex Rice 

John Crow 

Page 7: Introducing NCGR Informacs - LANL

Basecalling Illumina sequencing  Run assessment  Final transforma3on 

LIMS 

Sequencing run postprocessing pipeline 

RDBMS  Compute  NAS 

Analysts  Client data Clients 

Infrastructure 

Page 8: Introducing NCGR Informacs - LANL

Grindstone Internal LIMS 

Page 9: Introducing NCGR Informacs - LANL

TBD 

Legume Informa8on System hYp://compara3ve‐legumes.org 

Page 10: Introducing NCGR Informacs - LANL

Bioinforma3cs 

  Project‐based data analysis and interpreta3on   Development of analysis methodologies   Experimental design 

Andrew Farmer Thiru Ramaraj Robin Kramer 

Connor Cameron 

Page 11: Introducing NCGR Informacs - LANL

Marine Microeukaryote Transcriptome Sequencing Project Whole transcriptome sequencing of 750 microeukaryotes Callum Bell (NCGR), Arvind Bhar3 (NCGR)  Ongoing: December 2010 – present 

Sample  Sequencing Assembly & annota8on  CAMERA Collaborators 

Development of improved pipeline for high throughput RNA‐Seq assembly (Robin Kramer, Connor Cameron)  

hEp://marinemicroeukaryotes.org 

Page 12: Introducing NCGR Informacs - LANL

Whole transcriptome sequencing of 25+ species of medicinal value 

Medicinal Plants Consor8um Washington State University  –  Danforth Center  –  University of Illinois, Chicago –  NCGR 

Taxus spp. – produc3on of paclitaxol (Taxol)  for an3cancer treatment (breast, ovarian, lung) Papaver somniferum – “opium poppy” Digitalis lanata – produc3on of digoxin (Lanoxin) for treatment of atrial fibrilla3on, atrial fluYer. 

Transcriptome assembly, annota3on, analysis and comple3on of biosynthesis pathways, iden3fica3on of coexpression networks 

hEp://medplants.ncgr.org 

Page 13: Introducing NCGR Informacs - LANL

Sweep over  kmer range 40 – 95 (increment of 5) 

Select top  kmer con8gs 

Resolve N‐spacers  introduced in the  scaffolding process 

GA/HiSeq Assembly (ABySS) 

Soapdenovo GapCloser 

PHRAP  CD‐HIT Final  

con8g Set CD‐HIT 

Evalua8on  and  

valida8on 

Downstream analysis 

Remove 100% redundant sequences Short read data 

Preliminary dra\ assembly 

Baseline genomic assembly 

Modifica3ons per project Incorpora3on of addi3onal sequence data (454, Sanger) Itera3ve rescaffolding Manual improvement and correc3on Phased assemblies: sequence → assemble → assess & repair → sequence →  …  

Joann Mudge, Thiru Ramaraj, Robin Kramer, Arvind Bhar3 

Realignment of read data, 

alignment of transcripts 

Gossypium arboreum genome assembly using a sequence‐based physical map (with Texas Tech University)  Alfalfa (Medicago sa-va L.) genome sequencing (with the Noble Founda3on)  Sequencing of the chocolate (Cacao) genome (with USDA and Mars, Inc.) 

Page 14: Introducing NCGR Informacs - LANL

Na8onal Center for Genome Resources Santa Fe, New Mexico USA 

hYp://ncgr.org [email protected]