A-Walk-on-the-W-Side

30
Taking a walk on the W-side: Comparing Epitopes on HIV-1 with the W-curve & TSP.  Douglas J. Cork 1,2,4 , Steven Lembark 3 , Bruce K. Brown 1,4 , Victoria R. Polonis 1,4 , Jerome Kim 1,4 , Nelson L. Michael 5 US Military HIV Research Program (MHRP)/Henry Jackson Foundation(HJF) 1 , Rockville, MD., Illinois Institute of Technology 2 Chicago, IL., Workhorse Computing 3 , Woodhaven, NY., Walter Reed Army Institute For Research 4 , Rockville, MD., Walter Reed Army Institute for Research, Washington, DC 5

description

Presentation from BioComp-2010 on applying the W-curve and TSP to generating clinically useful clades for analysis of HIV-1 immune response.

Transcript of A-Walk-on-the-W-Side

Page 1: A-Walk-on-the-W-Side

Taking a walk on the W-side:Comparing Epitopes on HIV-1

with the W-curve & TSP.

 

Douglas J. Cork1,2,4, Steven Lembark3, Bruce K. Brown1,4, Victoria R. Polonis1,4, Jerome Kim1,4, Nelson L. Michael5

US Military HIV Research Program (MHRP)/Henry Jackson Foundation(HJF)1, Rockville, MD., Illinois Institute of Technology2, Chicago, IL., Workhorse Computing3, Woodhaven, NY., Walter Reed 

Army Institute For Research4, Rockville, MD., Walter Reed Army Institute for Research, Washington, DC5

Page 2: A-Walk-on-the-W-Side

Statistically, HIV­1 is a problem.

● One of the major problems in studying HIV­1 is the apparent randomness of clinical response.● Tests using clades based on genome sequences 

show no correlation with immune response.

● Part of the answer may be clades based on smaller, clinically­specific sequences.● HIV­1 mutates 10,000 times faster than people.● Existing clades end up including too much white 

noise to correlate well with anything.

Page 3: A-Walk-on-the-W-Side

The Structure of HIV­1 

● gp120 is the primary focus for immune studies.

● gp120 and gp41 make up the envelope protein, gp160.

Page 4: A-Walk-on-the-W-Side

Standard Clades vs. Neutralization Data

● Standard clades of HIV­1 are based on phylogenetic trees of the genome.● They do not correlate well with neutralization data.● Between­ and within­clade have similar variability.● Antibody and Cell studies have low correlation for 

within­clade results.

● Lack of a correlation prevents developing any broadly neutralizing treatments.● Today we have to sequence the virus to treat it.

Page 5: A-Walk-on-the-W-Side

Example: Cross­clade neutralization shows no useful pattern in Peripheral Blood Mononuclear Cell or Pseudovirus Assay studies.● Bub

ble plot.

● No real relationship.

Page 6: A-Walk-on-the-W-Side

Neutralization Heat Map● Distribution of 

response to antibody pools lacks any correlation with the standard clades.

Page 7: A-Walk-on-the-W-Side

HIV­1 Genetics Complicate  Analysis

● Genes and proteins are normally reported with respect to a single strain, HXB2.● Hard to compare local features between strains.● Need to re­discover them for each study.

● Neutralization data are specific to gp120.● Variable regions in gp120 leave corresponding 

locations in different samples off by 10's of bases.● Antibody binding sites (epitopes) are only a few 

bases long, with a majority in the variable regions.

Page 8: A-Walk-on-the-W-Side

Another approach: W­curves

● The W­curve is based on chaos and game theory.

● It abstracts a sequence of DNA into a three­dimensional structure.● Originally designed for visualization, we have now 

adapted it for machine comparison.

● Geometric analysis of the curves allows for piecewise comparison of the sequences.

Page 9: A-Walk-on-the-W-Side

The W­curve

● Start with a square at the origin and a discrete Z­axis matching the sequence base numbers.

● Each point moves halfway towards the corner for the next base.

Page 10: A-Walk-on-the-W-Side

● All curves start at (0,0,0).

● The curve (blue) moves half way towards “C” then “G” (red lines).

Page 11: A-Walk-on-the-W-Side

Autoregression

● Converge by base 7 after a SNP at base­3.

● Convergence is quick even after large indels.

Page 12: A-Walk-on-the-W-Side

Handling Gaps

● Curves converge as SNP's do but with a phase shift.

Page 13: A-Walk-on-the-W-Side

Scoring Curves

● Approximating the distance smooths over SNP's.

● Smaller angles reduce difference, large angles add them.

Page 14: A-Walk-on-the-W-Side

Needle in a Haystack: CD4 Epitope

● The CD4 epitopes occupy only a few, widely dispersed locations on gp120.

● Locating portions of the discontinuous epitope is difficult.● Variable regions between them change the 

locations between samples.● Portions of the epitope within the variable region 

can be hidden by nearby changes.

Page 15: A-Walk-on-the-W-Side

Analyzing the 3D Structure

● The advantage to W­curves is that even small features of the gene generate unique geometry.● Features are easier to identify in 3D than the 1D 

CATG­strings.

● By first locating large­scale features, we can search for smaller ones more easily.● First align extreme points on the curves.● Then compare regions between them.● With a library of fragments, we pick the best match.

Page 16: A-Walk-on-the-W-Side

W­curve Algorithm & Serial Comparison

● Large­scale features guide the search for smaller pieces.● Conserved regions anchor search.● After aligning 'peaks' in the curves, we align smaller 

and less discriminating features.● A library of W­curve fragments finds best fit with 

multiple samples.

● Repeatable process allows examining and scoring large numbers of finer features.

Page 17: A-Walk-on-the-W-Side

W­curves of HXB2 genome and gp120

● The curve for HXB2 illustrates the most important features of W­curves.● Looking at each section of the W­curve you'll notice 

that each area is different from the others.● This is what allows us to locate small features: it is 

easier to discern them in 3D than a character string.

● This figure also highlights the location of gp120.

Page 18: A-Walk-on-the-W-Side
Page 19: A-Walk-on-the-W-Side

A detailed view of gp120

● The next slide shows the first portion of HXB2's env gene: gp120.

● Again, notice that each portion of the curve is distinct from the others. 

● The different conserved (C) and variable (V) regions are marked across the bottom of the image.

Page 20: A-Walk-on-the-W-Side
Page 21: A-Walk-on-the-W-Side

The CD4 epitope in gp120

● This is where the W­curve really becomes useful: isolating the epitope locations within gp120.

● The highlighted areas show the epitope locations with an additional 3­bases of conformational region before and after (which combines a few of the regions).

● Note that the epitope is dispersed and lives largely in the variable regions.

Page 22: A-Walk-on-the-W-Side
Page 23: A-Walk-on-the-W-Side

Clustering With the TSP

● Solutions to the Traveling Salesman Problem can be used to cluster genes.● The shortest path clusters more­similar sequences.

● The difficulty is in getting clades out of the TSP.● One approach uses dummy cities with small 

distances to all other cities.● Dummys end up in the inter­cluster regions.

● This approach has proven fast & repeatable.

Page 24: A-Walk-on-the-W-Side

Tour­0 defines the colors for others.

Page 25: A-Walk-on-the-W-Side

Clades start to break down in gp41

Page 26: A-Walk-on-the-W-Side

C5 needs more groups.

Page 27: A-Walk-on-the-W-Side

Clades break down completely in V4

Page 28: A-Walk-on-the-W-Side

Further Work on Clusters

● Detection.● Find algorithm for repeatably assigning the number 

of dummy cities.

● Comparison.● Automate detecting “similar” clusters.

● Time­series analysis.● Watch sample groups for new members.● Track evolution of drug resistance in clinical trial 

groups, individual patients.

Page 29: A-Walk-on-the-W-Side

Ongoing Research

● Our goal is to correlate neutralization outcomes.● Compare small regions near the epitopes.● Find DNA that clusters similarly to neutralization 

data.

● DNA clusters that match the Neutralization data are “clinical” clades.● Biggest issue will be deciding what “similar” is.● Probably a good application for Fuzzy Logic.

Page 30: A-Walk-on-the-W-Side

Acknowledgments

● Thanks to the authors of Brown, et al, study.

All of the work we've shown you was done on a computer. Without fieldwork and wet labs, it would be empty. Next time you sit down to crunch some numbers, stop and picture for a moment the process of acquiring it. You'll get a whole new appreciation for your work.