Mise en relation de Medline avec Flybase par l ...ingold.free.fr/statique/Grenoble.pdf · sur les...
Transcript of Mise en relation de Medline avec Flybase par l ...ingold.free.fr/statique/Grenoble.pdf · sur les...
Le 28 mars 2002
Mise en relation de Medline avec Flybase par l’identification dans Medline des gènes décrits dans Flybase et application à l’extraction d’informations
sur les interactions génétiques ou moléculaires à partir de publications
Ambroise Ingold (LIPN Université Paris 13)
2
PlanPlan
MotivationsIdentification des gènes dans MedlineExtraction d’information sur les interactionsInterface de la base de donnéesPerspectives
3
La circulation de l’informationLa circulation de l’information
Publications
BdD BibliographiquesMedline
Encyclopédies en ligneFlybase
Données d’expériences
Recherche
Banque de résultats d’expériencesSwissprot, Genbank
4
Investigation dans les BdDInvestigation dans les BdDReprésentation des connaissances
Encyclopédies en ligne
Réf. rés. exp.
Indexation
GED, informatique documentaire
BdD Bibliographique
Réf. rés. exp.Réf. Biblio.
Indexation
Réf. Biblio.
Banques de résultats d’expériences
Bio-informatique
5
Medline (exemple)Medline (exemple)Regulation of scute function by extramacrochaete in vitro and in vivo.The pattern of adult sensilla in Drosophila is established by the dosage-sensitive interaction of two antagonistic groups of genes. Sensilla development is promoted by members of the achaete-scute complex and the daughterless gene whereas it is suppressed by whereas extramacrochaete (emc) and hairy. All these genes encode helix-loop-helix proteins. The products of the achaete-scute complex and daughterless interact to form heterodimers able to activate transcription. In this report, we show that (1) extra-macrochaete forms heterodimers with the achaete, scute, lethal of scute and daughterless products; (2) extramacrochaete inhibits DNA-binding of Achaete, Scute and Lethal of Scute/Daughterless heterodimers and Daughterless homodimers and (3) extramacrochaete inhibits transcription activation by heterodimers in a yeast assay system. In addition, we have studied the expression patterns of scute in wild-type and extramacrochaete mutant imaginal discs. Expression of scute RNA during imaginal development occurs in groups of cells, but high levels of protein accumulate in the nuclei of only a subset of the RNA-expressing cells. The pattern is dynamic and results in a small number of protein-containing cells that correspond to sensillum precursors. extramacrochaete loss-of-function alleles develop extra sensilla and correspondingly display a larger number of cells with scute protein. These cells appear to arise from those that in the wild type already express scute RNA; hence, extramacrochaete is a repressor of scute function whose action may take place post-transcriptionally.
MeSH Terms :•Amino Acid Sequence •Animal •Drosophila/genetics* •Drosophila/embryology •Epitope Mapping •Gene Expression •Gene Expression Regulation, Developmental* •Genes, Insect* •Helix-Loop-Helix Motifs/genetics •Immunohistochemistry •In Situ Hybridization •In Vitro •Molecular Sequence Data •Morphogenesis/genetics •Sense Organs/embryology* •Support, Non-U.S. Gov't
Gene Symbols :•da•emc •AS-C
?
6
Exemple de lien de Flybase vers MedlineExemple de lien de Flybase vers Medline
Flybase (Gène Wg) Genetic analysis demonstrates that wg is dispensable for efficient homeotic gene expression in the visceral mesoderm. (Tremml and Bienz, 1989)
MedlineTremml G, Bienz M. EMBO J 1989 Sep;8(9):2687-93An essential role of even-skipped for homeotic gene expression in the Drosophila visceral mesoderm.
7
BdD bibliographiques BdD bibliographiques vsvs BdD BdD factuellesfactuelles
BdD bibliographique– Redondantes,
non-ordonnées– À jour, détaillées– Fidèles, nuancées,
contextualisées
BdD factuelles– Organisées,
calculables– Parcellaires,
incomplètes– Simplificatrices, hors
contexte
8
Exemple de couplage Exemple de couplage factuel/textuelfactuel/textuel
Domaine d’application– Gènes– Relations entre les gènes (interaction)
Medline FlybaseIdentification des gènes
Reconnaissance des interactions BdD interactions
9
ArgumentaireArgumentaire
Pas d’indexation des gènes dans Medline (ou très incomplète)Les références bibliographiques dans Flybase sont incomplètesPas de BdD des interactions génétiques
10
RéalisationRéalisation
Système d’identification des gènesSystème d’extraction d’information sur les interactions
Première partiePremière partie
Identification des gènes
12
Identification des gènes (schéma)Identification des gènes (schéma)
Grandes étapes Medline
109 résumés 50 résumés
Dictionnaire des gènes
Flybase Confrontation Identification
Modifications•Manuelles•Automatiques Mise au point Test
13
Identification des gènes (plan)Identification des gènes (plan)
Le dictionnaire des gènes issu de FlybaseMéthode d’identification des gènesL’amélioration du dictionnaire des gènesLes résultats
14
Le dictionnaire des gènes issu de Le dictionnaire des gènes issu de FlybaseFlybase
Exemple de gène• Nom complet : wingless
• Symbole : wg
• Synonymes : Spd, spade, fg, flag, Sp, Sternopleural, Br, Bristled, int-1, Dint-1, Dm-1et l(2)wg
Terminologie• Label : la chaîne de caractère
• Gène : l’entité biologique
• Définition : la relation entre le gène et le label
15
Identification : Indexation et Identification : Indexation et interprétation des labelsinterprétation des labelsInitially, eve expression in individual stripes is established by different regulatory elements, each of which responds to nonperiodic spatial cues provided, at least in part, by the gap genes
even skipped (eve)
stripes (str)
16
Élimination des sousÉlimination des sous--chaîneschaînes
These results, along with the intermediate SOP phenotype observed in Suppressor of Hairless; Hairless double mutant imaginal discs, suggest that the two genes act antagonistically to commit imaginal disc cells stably to alternative fates.
Reconnaissance bloquée
17
Algorithme d’interprétation des Algorithme d’interprétation des labelslabels
Interprétation confirmée
Défaut de confirmationInterprétation multiple
Interprétation simple
Confirmation de l’interprétation ?
Ambiguïté du label?
Plusieurs interprétations ?
Non
Non
Oui
Oui
Oui
Non
18
Confirmation des labels ambigusConfirmation des labels ambigus
The different thoracic muscles of Drosophila are affected specifically in the mutants: stripe (sr), erect wing (ewg), vertical wings (vtw), and nonjumper (nj). We have tested the extent of this specificity by means of a genetic analysis of these loci, multiple mutant combinations, and gene dosage experiments. […] The locus stripe seems to have a polar organization where different allelic combinations show quantitative specificity in the muscle affected.
stripe (sr)
« bande »
Interprétation confirmée
19
Confirmation des labels ambigus Confirmation des labels ambigus (algorithme)(algorithme)
Confirmation de l’interprétation ?
Oui Interprétation confirmée
20
Label Label ambigüambigü non confirménon confirmé
We demonstrate that posterior stripe boundaries are established by gap protein repressors unique to each stripe: h stripe 5 is repressed by the giant (gt) protein on its posterior border and h stripe 6 is repressed by the hunchback (hb) protein on its posterior border.
stripe (sr)
« bande »
Défaut de confirmation
21
Défaut de confirmation des labels Défaut de confirmation des labels ambigus (algorithme)ambigus (algorithme)
Confirmation de l’interprétation ?NonAmbiguïté du label ? Défaut de
confirmationOui
22
Interprétation multipleInterprétation multiple
Localization of the maternally synthesized nanos (nos) RNA to the posterior pole of the Drosophila embryo provides the source for a posterior-to- anterior gradient of Nos protein. Correct spatial regulation of nos activity is essential for normal pattern formation.
Nitric oxide synthase (Nos)
nanos (nos)
Identification multiple
23
Interprétation multiple Interprétation multiple (algorithme)(algorithme)
Confirmation de l’interprétation ?
Ambiguïté du label ?
Plusieurs interprétations ?
Non
Non
Oui Interprétation multiple
24
Amélioration du dictionnaire des Amélioration du dictionnaire des gènesgènes
Nettoyage des donnéesAjout de labels, de définitions et de gènes ou objet assimilé manquantCaractérisation de l’ambiguïté des labels
25
Performance (identification des Performance (identification des gènes)gènes)
88 % des identifications sont exactes.Le programme trouve 86 % des identifications faite par l’annotateur.
26
Améliorations possiblesAméliorations possibles
1001051004610059Total
777374Divers
12132813Confusion entre entités
17183918Label ambigu
19203420Manque du dictionnaire
454726125935Variation orthographique
%T%+%-Type d’erreur
Deuxième partieDeuxième partie
Reconnaissance des interactions
28
Grandes étapes (reconnaissance Grandes étapes (reconnaissance des interactions)des interactions)
Phrases annotées manuellement
Liste d’interactionsPhrases
Phrases annotées automatiquement
Comparaison
Liste d’interactionsComparaison
29
Calcul de l’IVICalcul de l’IVI
Phrase :We conclude that Notch signallingactivity is directlyresponsible for the accumulation of basic helix-loop- helix proteins encoded by the Enhancer of split locus
0.57Moyenne0,494522locus0,36228encoded0,5112765proteins0,80108accumulation0,30103responsible0,804435directly0,556636activity0,734936signalling
SpécificitéFréquencePositifTerme
30
Extraction des interactionsExtraction des interactions
Phrase :We conclude that Notch signalling activity is directly responsible for theaccumulation of basic helix-loop- helix proteins encoded by the Enhancer of split locus
Notch Enhancer of split
31
Performance de la reconnaissance Performance de la reconnaissance des interactionsdes interactions
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
0% 20% 40% 60% 80% 100%
Rappel
Préc
isio
n
2RDG Linéaire (2RDG)
32
Comparaison 2G et Comparaison 2G et nGnG
0%
20%
40%
60%
80%
100%
0% 20% 40% 60% 80% 100%
Rappel
Préc
isio
n
nG 2G Linéaire (nG) Linéaire (2G)
Troisième partieTroisième partie
Interface de la base de données
34
Formulaire d’annotationFormulaire d’annotation(graphiques synthétiques)(graphiques synthétiques)
35
Formulaire d’annotationFormulaire d’annotation(comparaison des annotations)(comparaison des annotations)
36
Formulaire d’annotationFormulaire d’annotation(autres informations)(autres informations)
37
Conclusion (Bilan)Conclusion (Bilan)
Le couplage factuel-textuelIdentification des gènes Flybase dans Medline– Confrontation encyclopédie/texte– Méthode d’identification automatique des gènes– Étude usage
Reconnaissance interactions– Cooccurrence– Indice de pertinence– Simplicité, robustesse
38
Conclusion (perspective)Conclusion (perspective)
Autres domaines d’applicationsCouplage avec des résultats d’expériencesInterface Homme-Machine / Recherche documentaire