1 color vs 2 colors MicroArrays -...

57

Transcript of 1 color vs 2 colors MicroArrays -...

1 color vs 2 colors MicroArrays

1 color vs 2 colors MicroArrays

1 color (combimatrix)

+ Design custom+ Stripping+ Economicità

- Analisi onerosa- Sample disomogenei- Design complesso

2 colors (affymetrix)

+ Design standard+ Ibridazione

contemporanee+ Analisi standard

- Design fisso- Costo- Stripping

ArrayExpress repository

Tocopherol

ArrayExpress repository query

ArrayExpress AtlasAtlas per ArrayExpress è un database arricchito semanticamente per la meta-analisi, basato su statistiche globali su un sottoinsieme di dati di AE appositamente selezionato.

Permette di esplorare in quali condizioni un gene è espresso o quali geni sono differenzialmente espressi in una particolare condizione, tessuto, tipo di cellula, ecc.

LHCB4.1Arabidopsis thaliana

ArrayExpress Atlas

ArrayExpress Atlas

Lista di esperimenti

Fattori e livello di espressione

Sinonimi

Descrizione dell’esperimento

Collegamento ai profili di

espressione

ArrayExpress Atlas

Lista di esperimenti

Fattori e livello di espressione

Sinonimi

Descrizione dell’esperimento

Collegamento ai profili di

espressione

ArrayExpress Atlas

ArrayExpress AtlasQuante repliche

Biologiche?(sugg: non c'è

solo l'immagine...)

ArrayExpress Atlas

Lista di esperimenti

Fattori e livello di espressione

Sinonimi

Descrizione dell’esperimento

Collegamento ai profili di

espressione

ArrayExpress Atlas

ArrayExpress Atlas

ArrayExpress Atlas

ArrayExpress Atlas

ArrayExpress Atlas

ArrayExpress Atlas

ArrayExpress Atlas

ArrayExpress Atlas

ArrayExpress Atlas

ArrayExpress Atlas

ArrayExpress Atlas

Si possono fare ricerche sia per nome del gene che per descrizione.

- Nel caso di più geni, si ottiene una heat-map combinata- Si provi con "Violaxanthin de-epoxidase" (notare

autocompletamento) e Lhcb in Arabidopsis thaliana

ArrayExpress Atlas (multigeni)

Condizioni in cui vi è espressione differenziale

Condizioni di interesse (cliccabile per info

dettagliate)

d

Geni selezionatiIntensità ~= affidabilità

ArrayExpress Atlas (per condizione)

Si possono fare ricerche per condizioni (es cancer in Homo sapiens)

- In automatico i termini inerenti sono utilizzati per la ricerca

ArrayExpress Atlas (per condizione)

Espande le categorie aggiunte in automatico

ArrayExpress Atlas (per condizione)

Si possono filtrare i molti risultati con le categorie elencate a destra. Si selezioni ‘Leukemia, acute myeloid’ e (facendo di nuovo “refine”)‘Chromosomal rearrangement’ (sono un po’ più in basso)

(

ArrayExpress Atlas (per condizione)

Di fatto è una “Advanced Search” con

le condizioni che abbiamo selezionato

ArrayExpress Atlas ricerca avanzata

Si arriva qui dalla home page di Atlas cliccando

“Avanced Search”

Ora si può comporre la query aggiungendo le condizioni, direttamente e dopo aver

cliccato “Search” anche con le categorie a sinistra

ArrayExpress Atlas ricerca avanzata

Dal menu ‘Experimental factor’ , seleziona ‘disease state’. Il filtro selezionato verrà aggiunto alla voce ‘Find genes matching all the following conditions’.

Restringere la ricerca ai/al gene/i che ‘is up in’ ed al tipo ‘hepatocellular carcinoma’ nel text box a destra (auto-completamento disponibile).

Dal menu ‘Experimental factor’, seleziona ‘organism part’. Restringere ora la ricerca ai/al gene/i che sono ‘down in’ e di tipo ‘liver’ nella casella di testo.

Infine ancora dal menu ‘Experimental factor’ , seleziona ‘disease state’ e restringi la ricerca al/ai gene/i che sono ‘is down in’ e di tipo ‘normal’ .

Clicca Search

- Tra i geni trovati annotare I valori di concordanza e discordanza nell’espressione nel “pancreas”. Quale gene è sovraregolato nel pancreas?

ArrayExpress Atlas Esercizio

Find gene MAT1A on Homo sapiens

Questions:1. What types of experiment is variable MAT1A expression detected in?

2. What tissue(s) is MAT1A expressed in?

3. What are the likely functions of MAT1A?

4. What other genes share a similar expression profile with MAT1A in Experiment E-AFMX-5 click ‘more’ and do a similarity search for 5 of them.

5. If you query the Atlas for these genes are they expressed in the tissue types the same as for MAT1A?

Analisi dei dati di MicroarrayLivelli di analisi• Indentificare geni differenzialmente espressi di

interesse(fold-change)

• Cercare similarità tra gruppi di geni• Identificare relazioni tra i geni identificati • Connettere i dati a quelli di trascrittomica, proteomica,

ecc

Tipi di analisi• Statistica (t-test, correzione), clustering, GO, ecc

Tecniche di Clustering(“raggruppamento”)

Obiettivi• Scoprire strutture/andamenti nei dati• Raggruppare i geni in modo che quelli

appartenentei a un gruppo siano tra essi più simili di quanto non siano rispetto a quelli di un altro gruppo

Passo 1: decidere il tipo di clustering

Clustering Gerarchico• Singoli geni sono raggruppati in nodi a loro volta

raggruppati tra loro in base al criterio di similarità• Il processo continua finchè tutti i geni sono raggruppati

(albero gerarchico)

Flat Clustering (e.g, K-means)• Vettori di riferimento sono inizializzati casualmente• I geni sono partizionati nel vettore a essi più simile• Ogni vettore è ricalcolato come media dei geni contenuti• I passi sono ripetuti fino alla convergenza (i vettori non

cambiano per iterazioni consecutive)

Specifica il numero di cluster

Assegna i geni casualmente

Calcola la media/mediana su ciascun vettore

Mescola i geni in modo che ogni gene sia in un cluster con un profilo di espressione più simile al suo.

Ripeti fino a convergenza

Qual’è il più adatto?Confronto tra gruppi• Tipo di trattamento• Normale vs. Trattato• Mutante vs. WildType

Serie temporali• Ciclo cellulare• Risposta al dosaggio

VISUALIZATION OF OMICS DATA FOR SYSTEM BIOLOGY

Based on paper:Nils Gehlenborg et al. Nature methods 7, s56-s68

(1/March/2010)

Situation So Far

Metabolisms, signaling and gene expression regulation are key factors for understanding biological systems

Primarily used metaphor is the PATHWAY or more in general the NETWORK

Tools For Visualization

2 main categories: To explore large biological networks Assembly and curate pathways

How to cope with the huge biological amount of data?

The review will focus on visualization of proteins interactions, gene expression profiles

and metabolic profiles

Expression Profile Purpose

Profiles can concern Dna microarrays Proteins microarrays Deep sequencing (quantification of the transcripts and localization in the genome)

Mass spectrometry (quantitative protein expression profiling)

Elements with patterns directly or inversely correlated are likely to be related in the study of: genotypes, disease model, drug response, ecc.

Values must be found among thousands of multivariate noisy data.

Expression Profile Visualization

Clustering is the main technique used Scatter plot (a)

Values plotted for different variables. PCA (reduce the number of correlated variables and ease graph readability)

Profile plot (b) Helps to detect patterns in the dimension plotted

Heat map (c) Like for profile compares values, that are not overlapped, but size grows rapidly Ordering is crucial, several clustering algorithms apply (hierarchical, k, ecc.)

Expression Profile Network enrichment

Transfers to networks the knowledge from profiling Helps explaining profiles and improve network knowledge. Several representations are available

Heat map on each node Circular heat map (+ compact) Heat strips (color + height)

Heat strips (height=reliability) Profile plot High detailed node (need space)

Expression Profile Correlation networks

Each gene (protein) is a node Edges mean co-expression in the given condition

Powerful way to create clusters Allows networks enrichment, taking advantage from

existing visualization tools

Supported by few tools: BioLayout Express 3D Cytoscape

Other “omic” data sources Proteins Interactions

Data from several techniques: Two hybrid screens -based on transcription factors proximity- Protein complementation assays (fluorescence), Tandem affinity purification (complexes detection)

Networks can be built from data:

Other “omic” data sources Metabolic Interactions

Useful for the study of small molecules metabolitesData from several sources

Mass Spectrometry NMR Spectrometry

Networks can be built from data:

Future Perspectives Future will bear easier automatic network setup, and pathway

layout design. 3D interfaces and multitouch will help in data browsing and mining

The aggregation of on-line resource into organic (one?) databases is important. Standard formats (PSI-MI for proteins interactions, BioPATH for pathways and networks, SBML for biochemical reactions and expression levels, ecc.) will help in the integrations path.

The sought insight into systemic process into organelles, cells, organs and whole organism will probably be reached with the mapping of several data (imaging, structural, genomic, phylogenetic) into genomes, tridimensional tissues and whole bodies.