Mise en relation de Medline avec Flybase par l ...ingold.free.fr/statique/Grenoble.pdf · sur les...

38
Le 28 mars 2002 Mise en relation de Medline avec Flybase par l’identification dans Medline des gènes décrits dans Flybase et application à l’extraction d’informations sur les interactions génétiques ou moléculaires à partir de publications Ambroise Ingold (LIPN Université Paris 13)

Transcript of Mise en relation de Medline avec Flybase par l ...ingold.free.fr/statique/Grenoble.pdf · sur les...

Page 1: Mise en relation de Medline avec Flybase par l ...ingold.free.fr/statique/Grenoble.pdf · sur les interactions génétiques ou moléculaires à partir de publications Ambroise Ingold

Le 28 mars 2002

Mise en relation de Medline avec Flybase par l’identification dans Medline des gènes décrits dans Flybase et application à l’extraction d’informations

sur les interactions génétiques ou moléculaires à partir de publications

Ambroise Ingold (LIPN Université Paris 13)

Page 2: Mise en relation de Medline avec Flybase par l ...ingold.free.fr/statique/Grenoble.pdf · sur les interactions génétiques ou moléculaires à partir de publications Ambroise Ingold

2

PlanPlan

MotivationsIdentification des gènes dans MedlineExtraction d’information sur les interactionsInterface de la base de donnéesPerspectives

Page 3: Mise en relation de Medline avec Flybase par l ...ingold.free.fr/statique/Grenoble.pdf · sur les interactions génétiques ou moléculaires à partir de publications Ambroise Ingold

3

La circulation de l’informationLa circulation de l’information

Publications

BdD BibliographiquesMedline

Encyclopédies en ligneFlybase

Données d’expériences

Recherche

Banque de résultats d’expériencesSwissprot, Genbank

Page 4: Mise en relation de Medline avec Flybase par l ...ingold.free.fr/statique/Grenoble.pdf · sur les interactions génétiques ou moléculaires à partir de publications Ambroise Ingold

4

Investigation dans les BdDInvestigation dans les BdDReprésentation des connaissances

Encyclopédies en ligne

Réf. rés. exp.

Indexation

GED, informatique documentaire

BdD Bibliographique

Réf. rés. exp.Réf. Biblio.

Indexation

Réf. Biblio.

Banques de résultats d’expériences

Bio-informatique

Page 5: Mise en relation de Medline avec Flybase par l ...ingold.free.fr/statique/Grenoble.pdf · sur les interactions génétiques ou moléculaires à partir de publications Ambroise Ingold

5

Medline (exemple)Medline (exemple)Regulation of scute function by extramacrochaete in vitro and in vivo.The pattern of adult sensilla in Drosophila is established by the dosage-sensitive interaction of two antagonistic groups of genes. Sensilla development is promoted by members of the achaete-scute complex and the daughterless gene whereas it is suppressed by whereas extramacrochaete (emc) and hairy. All these genes encode helix-loop-helix proteins. The products of the achaete-scute complex and daughterless interact to form heterodimers able to activate transcription. In this report, we show that (1) extra-macrochaete forms heterodimers with the achaete, scute, lethal of scute and daughterless products; (2) extramacrochaete inhibits DNA-binding of Achaete, Scute and Lethal of Scute/Daughterless heterodimers and Daughterless homodimers and (3) extramacrochaete inhibits transcription activation by heterodimers in a yeast assay system. In addition, we have studied the expression patterns of scute in wild-type and extramacrochaete mutant imaginal discs. Expression of scute RNA during imaginal development occurs in groups of cells, but high levels of protein accumulate in the nuclei of only a subset of the RNA-expressing cells. The pattern is dynamic and results in a small number of protein-containing cells that correspond to sensillum precursors. extramacrochaete loss-of-function alleles develop extra sensilla and correspondingly display a larger number of cells with scute protein. These cells appear to arise from those that in the wild type already express scute RNA; hence, extramacrochaete is a repressor of scute function whose action may take place post-transcriptionally.

MeSH Terms :•Amino Acid Sequence •Animal •Drosophila/genetics* •Drosophila/embryology •Epitope Mapping •Gene Expression •Gene Expression Regulation, Developmental* •Genes, Insect* •Helix-Loop-Helix Motifs/genetics •Immunohistochemistry •In Situ Hybridization •In Vitro •Molecular Sequence Data •Morphogenesis/genetics •Sense Organs/embryology* •Support, Non-U.S. Gov't

Gene Symbols :•da•emc •AS-C

?

Page 6: Mise en relation de Medline avec Flybase par l ...ingold.free.fr/statique/Grenoble.pdf · sur les interactions génétiques ou moléculaires à partir de publications Ambroise Ingold

6

Exemple de lien de Flybase vers MedlineExemple de lien de Flybase vers Medline

Flybase (Gène Wg) Genetic analysis demonstrates that wg is dispensable for efficient homeotic gene expression in the visceral mesoderm. (Tremml and Bienz, 1989)

MedlineTremml G, Bienz M. EMBO J 1989 Sep;8(9):2687-93An essential role of even-skipped for homeotic gene expression in the Drosophila visceral mesoderm.

Page 7: Mise en relation de Medline avec Flybase par l ...ingold.free.fr/statique/Grenoble.pdf · sur les interactions génétiques ou moléculaires à partir de publications Ambroise Ingold

7

BdD bibliographiques BdD bibliographiques vsvs BdD BdD factuellesfactuelles

BdD bibliographique– Redondantes,

non-ordonnées– À jour, détaillées– Fidèles, nuancées,

contextualisées

BdD factuelles– Organisées,

calculables– Parcellaires,

incomplètes– Simplificatrices, hors

contexte

Page 8: Mise en relation de Medline avec Flybase par l ...ingold.free.fr/statique/Grenoble.pdf · sur les interactions génétiques ou moléculaires à partir de publications Ambroise Ingold

8

Exemple de couplage Exemple de couplage factuel/textuelfactuel/textuel

Domaine d’application– Gènes– Relations entre les gènes (interaction)

Medline FlybaseIdentification des gènes

Reconnaissance des interactions BdD interactions

Page 9: Mise en relation de Medline avec Flybase par l ...ingold.free.fr/statique/Grenoble.pdf · sur les interactions génétiques ou moléculaires à partir de publications Ambroise Ingold

9

ArgumentaireArgumentaire

Pas d’indexation des gènes dans Medline (ou très incomplète)Les références bibliographiques dans Flybase sont incomplètesPas de BdD des interactions génétiques

Page 10: Mise en relation de Medline avec Flybase par l ...ingold.free.fr/statique/Grenoble.pdf · sur les interactions génétiques ou moléculaires à partir de publications Ambroise Ingold

10

RéalisationRéalisation

Système d’identification des gènesSystème d’extraction d’information sur les interactions

Page 11: Mise en relation de Medline avec Flybase par l ...ingold.free.fr/statique/Grenoble.pdf · sur les interactions génétiques ou moléculaires à partir de publications Ambroise Ingold

Première partiePremière partie

Identification des gènes

Page 12: Mise en relation de Medline avec Flybase par l ...ingold.free.fr/statique/Grenoble.pdf · sur les interactions génétiques ou moléculaires à partir de publications Ambroise Ingold

12

Identification des gènes (schéma)Identification des gènes (schéma)

Grandes étapes Medline

109 résumés 50 résumés

Dictionnaire des gènes

Flybase Confrontation Identification

Modifications•Manuelles•Automatiques Mise au point Test

Page 13: Mise en relation de Medline avec Flybase par l ...ingold.free.fr/statique/Grenoble.pdf · sur les interactions génétiques ou moléculaires à partir de publications Ambroise Ingold

13

Identification des gènes (plan)Identification des gènes (plan)

Le dictionnaire des gènes issu de FlybaseMéthode d’identification des gènesL’amélioration du dictionnaire des gènesLes résultats

Page 14: Mise en relation de Medline avec Flybase par l ...ingold.free.fr/statique/Grenoble.pdf · sur les interactions génétiques ou moléculaires à partir de publications Ambroise Ingold

14

Le dictionnaire des gènes issu de Le dictionnaire des gènes issu de FlybaseFlybase

Exemple de gène• Nom complet : wingless

• Symbole : wg

• Synonymes : Spd, spade, fg, flag, Sp, Sternopleural, Br, Bristled, int-1, Dint-1, Dm-1et l(2)wg

Terminologie• Label : la chaîne de caractère

• Gène : l’entité biologique

• Définition : la relation entre le gène et le label

Page 15: Mise en relation de Medline avec Flybase par l ...ingold.free.fr/statique/Grenoble.pdf · sur les interactions génétiques ou moléculaires à partir de publications Ambroise Ingold

15

Identification : Indexation et Identification : Indexation et interprétation des labelsinterprétation des labelsInitially, eve expression in individual stripes is established by different regulatory elements, each of which responds to nonperiodic spatial cues provided, at least in part, by the gap genes

even skipped (eve)

stripes (str)

Page 16: Mise en relation de Medline avec Flybase par l ...ingold.free.fr/statique/Grenoble.pdf · sur les interactions génétiques ou moléculaires à partir de publications Ambroise Ingold

16

Élimination des sousÉlimination des sous--chaîneschaînes

These results, along with the intermediate SOP phenotype observed in Suppressor of Hairless; Hairless double mutant imaginal discs, suggest that the two genes act antagonistically to commit imaginal disc cells stably to alternative fates.

Reconnaissance bloquée

Page 17: Mise en relation de Medline avec Flybase par l ...ingold.free.fr/statique/Grenoble.pdf · sur les interactions génétiques ou moléculaires à partir de publications Ambroise Ingold

17

Algorithme d’interprétation des Algorithme d’interprétation des labelslabels

Interprétation confirmée

Défaut de confirmationInterprétation multiple

Interprétation simple

Confirmation de l’interprétation ?

Ambiguïté du label?

Plusieurs interprétations ?

Non

Non

Oui

Oui

Oui

Non

Page 18: Mise en relation de Medline avec Flybase par l ...ingold.free.fr/statique/Grenoble.pdf · sur les interactions génétiques ou moléculaires à partir de publications Ambroise Ingold

18

Confirmation des labels ambigusConfirmation des labels ambigus

The different thoracic muscles of Drosophila are affected specifically in the mutants: stripe (sr), erect wing (ewg), vertical wings (vtw), and nonjumper (nj). We have tested the extent of this specificity by means of a genetic analysis of these loci, multiple mutant combinations, and gene dosage experiments. […] The locus stripe seems to have a polar organization where different allelic combinations show quantitative specificity in the muscle affected.

stripe (sr)

« bande »

Interprétation confirmée

Page 19: Mise en relation de Medline avec Flybase par l ...ingold.free.fr/statique/Grenoble.pdf · sur les interactions génétiques ou moléculaires à partir de publications Ambroise Ingold

19

Confirmation des labels ambigus Confirmation des labels ambigus (algorithme)(algorithme)

Confirmation de l’interprétation ?

Oui Interprétation confirmée

Page 20: Mise en relation de Medline avec Flybase par l ...ingold.free.fr/statique/Grenoble.pdf · sur les interactions génétiques ou moléculaires à partir de publications Ambroise Ingold

20

Label Label ambigüambigü non confirménon confirmé

We demonstrate that posterior stripe boundaries are established by gap protein repressors unique to each stripe: h stripe 5 is repressed by the giant (gt) protein on its posterior border and h stripe 6 is repressed by the hunchback (hb) protein on its posterior border.

stripe (sr)

« bande »

Défaut de confirmation

Page 21: Mise en relation de Medline avec Flybase par l ...ingold.free.fr/statique/Grenoble.pdf · sur les interactions génétiques ou moléculaires à partir de publications Ambroise Ingold

21

Défaut de confirmation des labels Défaut de confirmation des labels ambigus (algorithme)ambigus (algorithme)

Confirmation de l’interprétation ?NonAmbiguïté du label ? Défaut de

confirmationOui

Page 22: Mise en relation de Medline avec Flybase par l ...ingold.free.fr/statique/Grenoble.pdf · sur les interactions génétiques ou moléculaires à partir de publications Ambroise Ingold

22

Interprétation multipleInterprétation multiple

Localization of the maternally synthesized nanos (nos) RNA to the posterior pole of the Drosophila embryo provides the source for a posterior-to- anterior gradient of Nos protein. Correct spatial regulation of nos activity is essential for normal pattern formation.

Nitric oxide synthase (Nos)

nanos (nos)

Identification multiple

Page 23: Mise en relation de Medline avec Flybase par l ...ingold.free.fr/statique/Grenoble.pdf · sur les interactions génétiques ou moléculaires à partir de publications Ambroise Ingold

23

Interprétation multiple Interprétation multiple (algorithme)(algorithme)

Confirmation de l’interprétation ?

Ambiguïté du label ?

Plusieurs interprétations ?

Non

Non

Oui Interprétation multiple

Page 24: Mise en relation de Medline avec Flybase par l ...ingold.free.fr/statique/Grenoble.pdf · sur les interactions génétiques ou moléculaires à partir de publications Ambroise Ingold

24

Amélioration du dictionnaire des Amélioration du dictionnaire des gènesgènes

Nettoyage des donnéesAjout de labels, de définitions et de gènes ou objet assimilé manquantCaractérisation de l’ambiguïté des labels

Page 25: Mise en relation de Medline avec Flybase par l ...ingold.free.fr/statique/Grenoble.pdf · sur les interactions génétiques ou moléculaires à partir de publications Ambroise Ingold

25

Performance (identification des Performance (identification des gènes)gènes)

88 % des identifications sont exactes.Le programme trouve 86 % des identifications faite par l’annotateur.

Page 26: Mise en relation de Medline avec Flybase par l ...ingold.free.fr/statique/Grenoble.pdf · sur les interactions génétiques ou moléculaires à partir de publications Ambroise Ingold

26

Améliorations possiblesAméliorations possibles

1001051004610059Total

777374Divers

12132813Confusion entre entités

17183918Label ambigu

19203420Manque du dictionnaire

454726125935Variation orthographique

%T%+%-Type d’erreur

Page 27: Mise en relation de Medline avec Flybase par l ...ingold.free.fr/statique/Grenoble.pdf · sur les interactions génétiques ou moléculaires à partir de publications Ambroise Ingold

Deuxième partieDeuxième partie

Reconnaissance des interactions

Page 28: Mise en relation de Medline avec Flybase par l ...ingold.free.fr/statique/Grenoble.pdf · sur les interactions génétiques ou moléculaires à partir de publications Ambroise Ingold

28

Grandes étapes (reconnaissance Grandes étapes (reconnaissance des interactions)des interactions)

Phrases annotées manuellement

Liste d’interactionsPhrases

Phrases annotées automatiquement

Comparaison

Liste d’interactionsComparaison

Page 29: Mise en relation de Medline avec Flybase par l ...ingold.free.fr/statique/Grenoble.pdf · sur les interactions génétiques ou moléculaires à partir de publications Ambroise Ingold

29

Calcul de l’IVICalcul de l’IVI

Phrase :We conclude that Notch signallingactivity is directlyresponsible for the accumulation of basic helix-loop- helix proteins encoded by the Enhancer of split locus

0.57Moyenne0,494522locus0,36228encoded0,5112765proteins0,80108accumulation0,30103responsible0,804435directly0,556636activity0,734936signalling

SpécificitéFréquencePositifTerme

Page 30: Mise en relation de Medline avec Flybase par l ...ingold.free.fr/statique/Grenoble.pdf · sur les interactions génétiques ou moléculaires à partir de publications Ambroise Ingold

30

Extraction des interactionsExtraction des interactions

Phrase :We conclude that Notch signalling activity is directly responsible for theaccumulation of basic helix-loop- helix proteins encoded by the Enhancer of split locus

Notch Enhancer of split

Page 31: Mise en relation de Medline avec Flybase par l ...ingold.free.fr/statique/Grenoble.pdf · sur les interactions génétiques ou moléculaires à partir de publications Ambroise Ingold

31

Performance de la reconnaissance Performance de la reconnaissance des interactionsdes interactions

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

0% 20% 40% 60% 80% 100%

Rappel

Préc

isio

n

2RDG Linéaire (2RDG)

Page 32: Mise en relation de Medline avec Flybase par l ...ingold.free.fr/statique/Grenoble.pdf · sur les interactions génétiques ou moléculaires à partir de publications Ambroise Ingold

32

Comparaison 2G et Comparaison 2G et nGnG

0%

20%

40%

60%

80%

100%

0% 20% 40% 60% 80% 100%

Rappel

Préc

isio

n

nG 2G Linéaire (nG) Linéaire (2G)

Page 33: Mise en relation de Medline avec Flybase par l ...ingold.free.fr/statique/Grenoble.pdf · sur les interactions génétiques ou moléculaires à partir de publications Ambroise Ingold

Troisième partieTroisième partie

Interface de la base de données

Page 34: Mise en relation de Medline avec Flybase par l ...ingold.free.fr/statique/Grenoble.pdf · sur les interactions génétiques ou moléculaires à partir de publications Ambroise Ingold

34

Formulaire d’annotationFormulaire d’annotation(graphiques synthétiques)(graphiques synthétiques)

Page 35: Mise en relation de Medline avec Flybase par l ...ingold.free.fr/statique/Grenoble.pdf · sur les interactions génétiques ou moléculaires à partir de publications Ambroise Ingold

35

Formulaire d’annotationFormulaire d’annotation(comparaison des annotations)(comparaison des annotations)

Page 36: Mise en relation de Medline avec Flybase par l ...ingold.free.fr/statique/Grenoble.pdf · sur les interactions génétiques ou moléculaires à partir de publications Ambroise Ingold

36

Formulaire d’annotationFormulaire d’annotation(autres informations)(autres informations)

Page 37: Mise en relation de Medline avec Flybase par l ...ingold.free.fr/statique/Grenoble.pdf · sur les interactions génétiques ou moléculaires à partir de publications Ambroise Ingold

37

Conclusion (Bilan)Conclusion (Bilan)

Le couplage factuel-textuelIdentification des gènes Flybase dans Medline– Confrontation encyclopédie/texte– Méthode d’identification automatique des gènes– Étude usage

Reconnaissance interactions– Cooccurrence– Indice de pertinence– Simplicité, robustesse

Page 38: Mise en relation de Medline avec Flybase par l ...ingold.free.fr/statique/Grenoble.pdf · sur les interactions génétiques ou moléculaires à partir de publications Ambroise Ingold

38

Conclusion (perspective)Conclusion (perspective)

Autres domaines d’applicationsCouplage avec des résultats d’expériencesInterface Homme-Machine / Recherche documentaire