1 color vs 2 colors MicroArrays -...
Transcript of 1 color vs 2 colors MicroArrays -...
1 color vs 2 colors MicroArrays
1 color (combimatrix)
+ Design custom+ Stripping+ Economicità
- Analisi onerosa- Sample disomogenei- Design complesso
2 colors (affymetrix)
+ Design standard+ Ibridazione
contemporanee+ Analisi standard
- Design fisso- Costo- Stripping
ArrayExpress AtlasAtlas per ArrayExpress è un database arricchito semanticamente per la meta-analisi, basato su statistiche globali su un sottoinsieme di dati di AE appositamente selezionato.
Permette di esplorare in quali condizioni un gene è espresso o quali geni sono differenzialmente espressi in una particolare condizione, tessuto, tipo di cellula, ecc.
ArrayExpress Atlas
Lista di esperimenti
Fattori e livello di espressione
Sinonimi
Descrizione dell’esperimento
Collegamento ai profili di
espressione
ArrayExpress Atlas
Lista di esperimenti
Fattori e livello di espressione
Sinonimi
Descrizione dell’esperimento
Collegamento ai profili di
espressione
ArrayExpress Atlas
Lista di esperimenti
Fattori e livello di espressione
Sinonimi
Descrizione dell’esperimento
Collegamento ai profili di
espressione
ArrayExpress Atlas
Si possono fare ricerche sia per nome del gene che per descrizione.
- Nel caso di più geni, si ottiene una heat-map combinata- Si provi con "Violaxanthin de-epoxidase" (notare
autocompletamento) e Lhcb in Arabidopsis thaliana
ArrayExpress Atlas (multigeni)
Condizioni in cui vi è espressione differenziale
Condizioni di interesse (cliccabile per info
dettagliate)
d
Geni selezionatiIntensità ~= affidabilità
ArrayExpress Atlas (per condizione)
Si possono fare ricerche per condizioni (es cancer in Homo sapiens)
- In automatico i termini inerenti sono utilizzati per la ricerca
ArrayExpress Atlas (per condizione)
Si possono filtrare i molti risultati con le categorie elencate a destra. Si selezioni ‘Leukemia, acute myeloid’ e (facendo di nuovo “refine”)‘Chromosomal rearrangement’ (sono un po’ più in basso)
(
ArrayExpress Atlas (per condizione)
Di fatto è una “Advanced Search” con
le condizioni che abbiamo selezionato
ArrayExpress Atlas ricerca avanzata
Si arriva qui dalla home page di Atlas cliccando
“Avanced Search”
Ora si può comporre la query aggiungendo le condizioni, direttamente e dopo aver
cliccato “Search” anche con le categorie a sinistra
ArrayExpress Atlas ricerca avanzata
Dal menu ‘Experimental factor’ , seleziona ‘disease state’. Il filtro selezionato verrà aggiunto alla voce ‘Find genes matching all the following conditions’.
Restringere la ricerca ai/al gene/i che ‘is up in’ ed al tipo ‘hepatocellular carcinoma’ nel text box a destra (auto-completamento disponibile).
Dal menu ‘Experimental factor’, seleziona ‘organism part’. Restringere ora la ricerca ai/al gene/i che sono ‘down in’ e di tipo ‘liver’ nella casella di testo.
Infine ancora dal menu ‘Experimental factor’ , seleziona ‘disease state’ e restringi la ricerca al/ai gene/i che sono ‘is down in’ e di tipo ‘normal’ .
Clicca Search
- Tra i geni trovati annotare I valori di concordanza e discordanza nell’espressione nel “pancreas”. Quale gene è sovraregolato nel pancreas?
ArrayExpress Atlas Esercizio
Find gene MAT1A on Homo sapiens
Questions:1. What types of experiment is variable MAT1A expression detected in?
2. What tissue(s) is MAT1A expressed in?
3. What are the likely functions of MAT1A?
4. What other genes share a similar expression profile with MAT1A in Experiment E-AFMX-5 click ‘more’ and do a similarity search for 5 of them.
5. If you query the Atlas for these genes are they expressed in the tissue types the same as for MAT1A?
Analisi dei dati di MicroarrayLivelli di analisi• Indentificare geni differenzialmente espressi di
interesse(fold-change)
• Cercare similarità tra gruppi di geni• Identificare relazioni tra i geni identificati • Connettere i dati a quelli di trascrittomica, proteomica,
ecc
Tipi di analisi• Statistica (t-test, correzione), clustering, GO, ecc
Tecniche di Clustering(“raggruppamento”)
Obiettivi• Scoprire strutture/andamenti nei dati• Raggruppare i geni in modo che quelli
appartenentei a un gruppo siano tra essi più simili di quanto non siano rispetto a quelli di un altro gruppo
Passo 1: decidere il tipo di clustering
Clustering Gerarchico• Singoli geni sono raggruppati in nodi a loro volta
raggruppati tra loro in base al criterio di similarità• Il processo continua finchè tutti i geni sono raggruppati
(albero gerarchico)
Flat Clustering (e.g, K-means)• Vettori di riferimento sono inizializzati casualmente• I geni sono partizionati nel vettore a essi più simile• Ogni vettore è ricalcolato come media dei geni contenuti• I passi sono ripetuti fino alla convergenza (i vettori non
cambiano per iterazioni consecutive)
Specifica il numero di cluster
Assegna i geni casualmente
Calcola la media/mediana su ciascun vettore
Mescola i geni in modo che ogni gene sia in un cluster con un profilo di espressione più simile al suo.
Ripeti fino a convergenza
Qual’è il più adatto?Confronto tra gruppi• Tipo di trattamento• Normale vs. Trattato• Mutante vs. WildType
Serie temporali• Ciclo cellulare• Risposta al dosaggio
VISUALIZATION OF OMICS DATA FOR SYSTEM BIOLOGY
Based on paper:Nils Gehlenborg et al. Nature methods 7, s56-s68
(1/March/2010)
Situation So Far
Metabolisms, signaling and gene expression regulation are key factors for understanding biological systems
Primarily used metaphor is the PATHWAY or more in general the NETWORK
Tools For Visualization
2 main categories: To explore large biological networks Assembly and curate pathways
How to cope with the huge biological amount of data?
The review will focus on visualization of proteins interactions, gene expression profiles
and metabolic profiles
Expression Profile Purpose
Profiles can concern Dna microarrays Proteins microarrays Deep sequencing (quantification of the transcripts and localization in the genome)
Mass spectrometry (quantitative protein expression profiling)
Elements with patterns directly or inversely correlated are likely to be related in the study of: genotypes, disease model, drug response, ecc.
Values must be found among thousands of multivariate noisy data.
Expression Profile Visualization
Clustering is the main technique used Scatter plot (a)
Values plotted for different variables. PCA (reduce the number of correlated variables and ease graph readability)
Profile plot (b) Helps to detect patterns in the dimension plotted
Heat map (c) Like for profile compares values, that are not overlapped, but size grows rapidly Ordering is crucial, several clustering algorithms apply (hierarchical, k, ecc.)
Expression Profile Network enrichment
Transfers to networks the knowledge from profiling Helps explaining profiles and improve network knowledge. Several representations are available
Heat map on each node Circular heat map (+ compact) Heat strips (color + height)
Heat strips (height=reliability) Profile plot High detailed node (need space)
Expression Profile Correlation networks
Each gene (protein) is a node Edges mean co-expression in the given condition
Powerful way to create clusters Allows networks enrichment, taking advantage from
existing visualization tools
Supported by few tools: BioLayout Express 3D Cytoscape
Other “omic” data sources Proteins Interactions
Data from several techniques: Two hybrid screens -based on transcription factors proximity- Protein complementation assays (fluorescence), Tandem affinity purification (complexes detection)
Networks can be built from data:
Other “omic” data sources Metabolic Interactions
Useful for the study of small molecules metabolitesData from several sources
Mass Spectrometry NMR Spectrometry
Networks can be built from data:
Future Perspectives Future will bear easier automatic network setup, and pathway
layout design. 3D interfaces and multitouch will help in data browsing and mining
The aggregation of on-line resource into organic (one?) databases is important. Standard formats (PSI-MI for proteins interactions, BioPATH for pathways and networks, SBML for biochemical reactions and expression levels, ecc.) will help in the integrations path.
The sought insight into systemic process into organelles, cells, organs and whole organism will probably be reached with the mapping of several data (imaging, structural, genomic, phylogenetic) into genomes, tridimensional tissues and whole bodies.