Graphes d'annotation – une introduction Claude Barras, LIMSI-CNRS figures et exemples de Steven...
-
Upload
emile-gallet -
Category
Documents
-
view
103 -
download
0
Transcript of Graphes d'annotation – une introduction Claude Barras, LIMSI-CNRS figures et exemples de Steven...
Graphes d'annotation– une introduction
Claude Barras, LIMSI-CNRS
figures et exemples de Steven Bird et al.,Linguistic Data ConsortiumUniversity of Pennsylvania
http://www.ldc.upenn.edu/AG
12/02/2005 C. Barras - Graphes d'annotation 2
Un exemple d'interface de transcription
12/02/2005 C. Barras - Graphes d'annotation 3
<?xml version="1.0" encoding="ISO-8859-1"?><!DOCTYPE Trans SYSTEM "trans-13.dtd"><Trans scribe="cb" audio_filename="dormeur" version_date="050208"> <Topics><Topic id="to1" desc="Le Dormeur du val"/></Topics> <Speakers><Speaker id="spk1" name="Serge Reggiani"/></Speakers> <Episode> <Section type="report" topic="to1" startTime="0" endTime="74.0"> <Turn speaker="" startTime="0" endTime="7.41"> <Background type="music" level="high" time="0"/> </Turn> <Turn speaker="spk1" startTime="7.41" endTime="74.0"> <Sync time="7.41"/> C'est un trou de verdure où chante une rivière <Sync time="10.891"/> Accrochant follement aux herbes des haillons <Sync time="14.714"/> D'argent : où le soleil, de la montagne fière, <Sync time="19.138"/> Luit : c'est un petit val qui mousse de rayons. <Sync time="24.38"/> Un soldat jeune, bouche ouverte, tête nue, <Sync time="29.671"/>…
Format des données associées
12/02/2005 C. Barras - Graphes d'annotation 4
Nombreux autres environnements…
BAS Partitur www.phonetik.uni-muenchen.de/Bas/
CHILDES/CHAT childes.psy.cmu.edu
DAMSL www.cs.rochester.edu/research/cisd/resources/damsl/
GATE gate.ac.uk
LDC (TIMIT, Switchboard, SGML) www.ldc.upenn.edu
TEI, CES www.tei-c.org www.cs.vassar.edu/CES/
12/02/2005 C. Barras - Graphes d'annotation 5
Résultat, un bazar de formats et d'outils
SGMLbase dedonnées
textetabulé
12/02/2005 C. Barras - Graphes d'annotation 6
Cadre unificateurpour les annotations linguistiques
Problèmes interopérabilité adaptation des données à de nouveaux domaines de
recherche développement d'outils flexibles et génériques
Diagnostic les différents formats de données masquent des
similitudes structurelles dans toutes les annotations linguistiques
A formal framework for linguistic annotation,S. Bird & M. Liberman, ICSLP'98/SpeechCom'01
12/02/2005 C. Barras - Graphes d'annotation 7
Annotation linguistiqueappliquée à des signaux
Il faut préciser Le signal source annoté La région particulière du signal sur laquelle doit
porter l'information Le contenu de l'annotation appliquée à cette
portion du signal
Signal
Annotation
Region
12/02/2005 C. Barras - Graphes d'annotation 8
Le modèle des graphes d'annotation (AG)
Cas des signaux mono-dimensionnels région = intervalle entre deux nœuds annotation = arc étiqueté entre deux nœuds
l'arc porte des champs d'information (couples attributs/valeurs)
graphe d'annotation = une collection d'annotations
00.00
17.41
210.9
314.7
1574.0
speaker:Serge Regianni
background: music
transcription:C'est un trou de verdure…
transcription:Accrochant follement…
12/02/2005 C. Barras - Graphes d'annotation 9
Définition des graphes d'annotation
Les nœuds peuvent être ancrés dans le signal i.e. ils sont associés à un instant précis dans le signal pour d'autres cette information est inconnue ou inutile
Définition formelle graphe acyclique orienté, étiqueté,
et partiellement ou totalement ancré tout nœud est borné par le graphe entre des nœuds
ancrés
Cadre unificateur séparation du niveau physique et logique pas d'hypothèse a priori sur le sens des étiquettes
17.41
210.9
1-1 1-2 1-3W: C' W: est W: un W: trou
12/02/2005 C. Barras - Graphes d'annotation 10
Architecture à 3 couches
textetabulé
Graphesd'annotation
12/02/2005 C. Barras - Graphes d'annotation 11
Caractéristiques des AG
Pas de contrainte dans la structure des graphes chevauchements, discontinuités…
Evenements instantanés ? pas de boucle sur un nœud (graphe acyclique)
possibilité de créer 2 nœuds renvoyant au même instant
Annotations non temporelles utilisation e.g. des conventions Dublin Core
1 2 3oui je
/S
12/02/2005 C. Barras - Graphes d'annotation 12
Le cas d'un dialogue
Il existe des parties de parole superposée comment associer les transcriptions à un locuteur donnée?
Hiérarchie implicite structure du graphe
regroupe les arcs portés par les mêmes noeuds
Hiérarchie explicite classes d'équivalence
utilise un identifiant associé aux arcs
1 3 5
spk: Client; A
trans: Bonjour Monsieur; A trans: Je voudrais des informations sur …; A
2 4
trans: Bonjour Madame; B
spk: Agent; B
12/02/2005 C. Barras - Graphes d'annotation 13
AG Interchange Format
<AGSet id="dormeur" version="1.0"> <Metadata> <dc:title>Le dormeur du Val</dc:title> </Metadata> <Timeline id="T1"> <Signal id="S1" mimeClass="audio" mimeType="wav" xlink:href="dormeur.wav"/> </Timeline> <AG id="t1" type="transcription" timeline="T1"> <Anchor id="A0" offset="0.00"/> <Anchor id="A1" offset="7.41"/> <Anchor id="A2" offset="10.89"/> <Anchor id="A3" offset="14.71"/> … <Annotation id="Ann1" type="speaker" start="A1" end="A15"> <Feature name="label">Serge Reggiani</Feature> </Annotation> <Annotation id="Ann2" type="transcription" start="A1" end="A2"> <Feature name="label">C'est un trou de verdure où chante une rivière</Feature> </Annotation> <Annotation id="Ann3" type=" transcription" start="A2" end="A3"> <Feature name="label">Accrochant follement aux herbes des haillons</Feature> </Annotation> …
12/02/2005 C. Barras - Graphes d'annotation 14
code open source sur http://agtk.sourceforge.net/ code en C++, interface avec Tcl/Tk et Python plateformes Unix et Windows support de différents formats de données (xlabel, TIMIT,
Penn Treebank, Switchboard, BAS Partitur, CSV, LDC Callhome, AIF level 0)
Implémentation par le LDC
12/02/2005 C. Barras - Graphes d'annotation 15
Perspectives et bilan
Extensions généralisation à des sources non-linéaires (images,
annotations): ATLAS proposé avec le NIST traitement efficace de requêtes dans un graphe
d'annotation
Bilan sur les graphes d'annotation un cadre formel, simple et clair des librairies logicielles, pas nécessairement un format
de données spécifique permet de factoriser l'effort sur la structure de données la signification des annotations reste à la charge de
l'application