Présentation de thèse Haithem AFLI
-
Upload
haithem-afli -
Category
Science
-
view
83 -
download
1
Transcript of Présentation de thèse Haithem AFLI
IntroductionTravaux precedents
Extraction de phrases parallelesExtraction de segments paralleles
Conclusion et perspectives
La traduction automatique statistique dans uncontexte multimodal
These presentee parHaithem Afli
dirigee parLoıc Barrault & Holger Schwenk
7 juillet 2014
1/ 51 Haithem Afli La TAS dans un contexte multimodal
IntroductionTravaux precedents
Extraction de phrases parallelesExtraction de segments paralleles
Conclusion et perspectives
Le DEPART de la these
Projet DEPART
Documents Ecrits et Paroles – Reconnaissance et Traduction
Finance par la region des Pays de la Loire
Partenaires : LST/LIUM, TALN/LINA et IVC/IRCCyN
Objectifs :La resolution de problemes scientifiques et technologiquesmettant en jeu des donnees multimodales et multilingues
2/ 51 Haithem Afli La TAS dans un contexte multimodal
IntroductionTravaux precedents
Extraction de phrases parallelesExtraction de segments paralleles
Conclusion et perspectives
Axes de recherches
Axe1
Collection multimedia multilingue
Axe 2Analyse conjointe et traduction
Notre tache : traduction de documents multimodaux
Axe 3
Adaptation des methodes et donnees aux differents types dedocuments multimedia
3/ 51 Haithem Afli La TAS dans un contexte multimodal
IntroductionTravaux precedents
Extraction de phrases parallelesExtraction de segments paralleles
Conclusion et perspectives
Axes de recherches
Axe1
Collection multimedia multilingue
Axe 2Analyse conjointe et traduction
Notre tache : traduction de documents multimodaux
Axe 3
Adaptation des methodes et donnees aux differents types dedocuments multimedia
3/ 51 Haithem Afli La TAS dans un contexte multimodal
IntroductionTravaux precedents
Extraction de phrases parallelesExtraction de segments paralleles
Conclusion et perspectives
Plan
1 Introduction
2 Travaux precedents
3 Extraction de phrases paralleles
4 Extraction de segments paralleles
5 Conclusion et perspectives
4/ 51 Haithem Afli La TAS dans un contexte multimodal
IntroductionTravaux precedents
Extraction de phrases parallelesExtraction de segments paralleles
Conclusion et perspectives
Traduction automatique statistiqueCorpus paralleles et corpus comparablesConstruction du corpus multimodal comparable
Traduction automatique statistique (TAS)
Approche statistique, selon la formule suivante :
t∗ = arg maxt
P(s|t)P(t)
t∗ : meilleure traduction possible
langue source s et langue cible t
Modelisation
Modele de Langue : P(t)→ estime a l’aide de textes monolingues en langue cibleModele de Traduction : P(s|t)→ estime a l’aide de textes bilingues
Des outils tels que Moses et Joshua sont disponibles⇒ Besoin de donnees paralleles
5/ 51 Haithem Afli La TAS dans un contexte multimodal
IntroductionTravaux precedents
Extraction de phrases parallelesExtraction de segments paralleles
Conclusion et perspectives
Traduction automatique statistiqueCorpus paralleles et corpus comparablesConstruction du corpus multimodal comparable
Traduction automatique statistique (TAS)
Approche statistique, selon la formule suivante :
t∗ = arg maxt
P(s|t)P(t)
t∗ : meilleure traduction possible
langue source s et langue cible t
Modelisation
Modele de Langue : P(t)→ estime a l’aide de textes monolingues en langue cibleModele de Traduction : P(s|t)→ estime a l’aide de textes bilingues
Des outils tels que Moses et Joshua sont disponibles⇒ Besoin de donnees paralleles
5/ 51 Haithem Afli La TAS dans un contexte multimodal
IntroductionTravaux precedents
Extraction de phrases parallelesExtraction de segments paralleles
Conclusion et perspectives
Traduction automatique statistiqueCorpus paralleles et corpus comparablesConstruction du corpus multimodal comparable
Traduction automatique statistique (TAS)
Approche statistique, selon la formule suivante :
t∗ = arg maxt
P(s|t)P(t)
t∗ : meilleure traduction possible
langue source s et langue cible t
Modelisation
Modele de Langue : P(t)→ estime a l’aide de textes monolingues en langue cibleModele de Traduction : P(s|t)→ estime a l’aide de textes bilingues
Des outils tels que Moses et Joshua sont disponibles⇒ Besoin de donnees paralleles
5/ 51 Haithem Afli La TAS dans un contexte multimodal
IntroductionTravaux precedents
Extraction de phrases parallelesExtraction de segments paralleles
Conclusion et perspectives
Traduction automatique statistiqueCorpus paralleles et corpus comparablesConstruction du corpus multimodal comparable
Traduction automatique statistique (TAS)
Approche statistique, selon la formule suivante :
t∗ = arg maxt
P(s|t)P(t)
t∗ : meilleure traduction possible
langue source s et langue cible t
Modelisation
Modele de Langue : P(t)→ estime a l’aide de textes monolingues en langue cible
Modele de Traduction : P(s|t)→ estime a l’aide de textes bilingues
Des outils tels que Moses et Joshua sont disponibles⇒ Besoin de donnees paralleles
5/ 51 Haithem Afli La TAS dans un contexte multimodal
IntroductionTravaux precedents
Extraction de phrases parallelesExtraction de segments paralleles
Conclusion et perspectives
Traduction automatique statistiqueCorpus paralleles et corpus comparablesConstruction du corpus multimodal comparable
Traduction automatique statistique (TAS)
Approche statistique, selon la formule suivante :
t∗ = arg maxt
P(s|t)P(t)
t∗ : meilleure traduction possible
langue source s et langue cible t
Modelisation
Modele de Langue : P(t)→ estime a l’aide de textes monolingues en langue cibleModele de Traduction : P(s|t)→ estime a l’aide de textes bilingues
Des outils tels que Moses et Joshua sont disponibles⇒ Besoin de donnees paralleles
5/ 51 Haithem Afli La TAS dans un contexte multimodal
IntroductionTravaux precedents
Extraction de phrases parallelesExtraction de segments paralleles
Conclusion et perspectives
Traduction automatique statistiqueCorpus paralleles et corpus comparablesConstruction du corpus multimodal comparable
Traduction automatique statistique (TAS)
Approche statistique, selon la formule suivante :
t∗ = arg maxt
P(s|t)P(t)
t∗ : meilleure traduction possible
langue source s et langue cible t
Modelisation
Modele de Langue : P(t)→ estime a l’aide de textes monolingues en langue cibleModele de Traduction : P(s|t)→ estime a l’aide de textes bilingues
Des outils tels que Moses et Joshua sont disponibles⇒ Besoin de donnees paralleles
5/ 51 Haithem Afli La TAS dans un contexte multimodal
IntroductionTravaux precedents
Extraction de phrases parallelesExtraction de segments paralleles
Conclusion et perspectives
Traduction automatique statistiqueCorpus paralleles et corpus comparablesConstruction du corpus multimodal comparable
Corpus parallele : bitexte
Textes qui sont des traductions l’unde l’autre
Ressource essentielle pour la TAS
Donnees d’entraınement pour lesmodeles de traduction statistiques
Disponible en quantite limitee
languesdomaines specifiques
Couteux et long a construire
Traduction des phrases ...
⇒ Besoin d’autres solutions et sourcesPierre de Rosette
6/ 51 Haithem Afli La TAS dans un contexte multimodal
IntroductionTravaux precedents
Extraction de phrases parallelesExtraction de segments paralleles
Conclusion et perspectives
Traduction automatique statistiqueCorpus paralleles et corpus comparablesConstruction du corpus multimodal comparable
Exploitation des corpus comparables
Pas paralleles au sens strict
Contiennent les memes informationsDisponibles en grande quantite et en de nombreuses langues
Principalement a partir de sources journalistiques (newswire)AFP, Al JAZEERA, BBC ...
Projets recents : ACCURAT..
7/ 51 Haithem Afli La TAS dans un contexte multimodal
IntroductionTravaux precedents
Extraction de phrases parallelesExtraction de segments paralleles
Conclusion et perspectives
Traduction automatique statistiqueCorpus paralleles et corpus comparablesConstruction du corpus multimodal comparable
Donnees de modalites differentes
www.coursera.org/
www.
amara.org/
8/ 51 Haithem Afli La TAS dans un contexte multimodal
IntroductionTravaux precedents
Extraction de phrases parallelesExtraction de segments paralleles
Conclusion et perspectives
Traduction automatique statistiqueCorpus paralleles et corpus comparablesConstruction du corpus multimodal comparable
Objectif : exploiter des corpus comparables multimodaux
Extraction des données parallèles
Textes parallèles
Audio (L1) Textes (L2)
9/ 51 Haithem Afli La TAS dans un contexte multimodal
IntroductionTravaux precedents
Extraction de phrases parallelesExtraction de segments paralleles
Conclusion et perspectives
Traduction automatique statistiqueCorpus paralleles et corpus comparablesConstruction du corpus multimodal comparable
Definition. Un corpus multimodal comparable est une collectionde donnees de differentes modalites qui contiennent les memesinformations, mais ne sont pas des traductions exactes les unes desautres.
10/ 51 Haithem Afli La TAS dans un contexte multimodal
IntroductionTravaux precedents
Extraction de phrases parallelesExtraction de segments paralleles
Conclusion et perspectives
Traduction automatique statistiqueCorpus paralleles et corpus comparablesConstruction du corpus multimodal comparable
Problematiques
Faisabilite
Les corpus comparables multimodaux sont-ils utilisables pourextraire du texte parallele ?
Qualite
Est-il possible d’ameliorer un systeme de traduction avec lesdonnees extraites ?
Efficacite
Comment tirer parti au mieux des donnees disponibles ?
⇒ Besoin de construction de corpus multimodal (cas d’etude)
11/ 51 Haithem Afli La TAS dans un contexte multimodal
IntroductionTravaux precedents
Extraction de phrases parallelesExtraction de segments paralleles
Conclusion et perspectives
Traduction automatique statistiqueCorpus paralleles et corpus comparablesConstruction du corpus multimodal comparable
Problematiques
Faisabilite
Les corpus comparables multimodaux sont-ils utilisables pourextraire du texte parallele ?
Qualite
Est-il possible d’ameliorer un systeme de traduction avec lesdonnees extraites ?
Efficacite
Comment tirer parti au mieux des donnees disponibles ?
⇒ Besoin de construction de corpus multimodal (cas d’etude)
11/ 51 Haithem Afli La TAS dans un contexte multimodal
IntroductionTravaux precedents
Extraction de phrases parallelesExtraction de segments paralleles
Conclusion et perspectives
Traduction automatique statistiqueCorpus paralleles et corpus comparablesConstruction du corpus multimodal comparable
Problematiques
Faisabilite
Les corpus comparables multimodaux sont-ils utilisables pourextraire du texte parallele ?
Qualite
Est-il possible d’ameliorer un systeme de traduction avec lesdonnees extraites ?
Efficacite
Comment tirer parti au mieux des donnees disponibles ?
⇒ Besoin de construction de corpus multimodal (cas d’etude)
11/ 51 Haithem Afli La TAS dans un contexte multimodal
IntroductionTravaux precedents
Extraction de phrases parallelesExtraction de segments paralleles
Conclusion et perspectives
Traduction automatique statistiqueCorpus paralleles et corpus comparablesConstruction du corpus multimodal comparable
Le corpus TED-LIUM
TED : exposes scientifiques oraux en anglais disponibles avecleurs traductions en plusieurs langues, dont le francais
Traduction
Audio (en)
Texte (fr)
12/ 51 Haithem Afli La TAS dans un contexte multimodal
IntroductionTravaux precedents
Extraction de phrases parallelesExtraction de segments paralleles
Conclusion et perspectives
Traduction automatique statistiqueCorpus paralleles et corpus comparablesConstruction du corpus multimodal comparable
Le corpus TED-LIUM
Tache : exploiter des donnees de IWSLT’11→ detaillee dans [Rousseau et al., 2011]→ traduire des discours de TED de l’anglais vers le francais
utiliser la partie audio en anglais (TEDasr)
enrichir avec des textes paralleles (TEDbi)
Donnees # mots
TEDasr 1.8MTEDbi 1.9M
13/ 51 Haithem Afli La TAS dans un contexte multimodal
IntroductionTravaux precedents
Extraction de phrases parallelesExtraction de segments paralleles
Conclusion et perspectives
Traduction automatique statistiqueCorpus paralleles et corpus comparablesConstruction du corpus multimodal comparable
Le corpus bimodal Euronews
Audio comparable
Textes comparables
Transcription Transcription
Extraction des donnees sur la periode 2010 a 2012
14/ 51 Haithem Afli La TAS dans un contexte multimodal
IntroductionTravaux precedents
Extraction de phrases parallelesExtraction de segments paralleles
Conclusion et perspectives
Traduction automatique statistiqueCorpus paralleles et corpus comparablesConstruction du corpus multimodal comparable
Construction
Premiere phase :
1 telechargement de la liste des articles→ en deux langues (francais/anglais)
2 conservation de l’intersection→ la liste des articles qui ont des correspondances comparables
Deuxieme phase :
1 reperage du nom et du domaine de la video2 recuperation des videos et des textes qui correspondent3 extraction du flux audio de la video→ conversion dans le format utilise pour le systeme RAP
15/ 51 Haithem Afli La TAS dans un contexte multimodal
IntroductionTravaux precedents
Extraction de phrases parallelesExtraction de segments paralleles
Conclusion et perspectives
Traduction automatique statistiqueCorpus paralleles et corpus comparablesConstruction du corpus multimodal comparable
Le corpus Euronews-LIUM
Nombre de mots et de phrases de la transcription automatiquede la partie audio anglais
# mots # phrases
2.2 M 76 K
Quantite en termes de mots de la partie texte anglais/francais
# mots Fr # mots En
6.2 M 6.1 M
Plusieurs domaines : economie, sport, culture, Europe, stylede vie, politique et sciences.
16/ 51 Haithem Afli La TAS dans un contexte multimodal
IntroductionTravaux precedents
Extraction de phrases parallelesExtraction de segments paralleles
Conclusion et perspectives
Principales methodes existantesLa methode de traduction automatique
Plan
1 Introduction
2 Travaux precedentsPrincipales methodes existantesLa methode de traduction automatique
3 Extraction de phrases paralleles
4 Extraction de segments paralleles
5 Conclusion et perspectives
17/ 51 Haithem Afli La TAS dans un contexte multimodal
IntroductionTravaux precedents
Extraction de phrases parallelesExtraction de segments paralleles
Conclusion et perspectives
Principales methodes existantesLa methode de traduction automatique
Principales methodes existantes
Webcrawling : utilisation des URLs pour trouver desdocuments correspondants [Resnik and Smith, 2003].
Alignement : utilisation de modeles d’alignement de motspour estimer la proximite de deux documents (ou phrases) enlangue source et cible [Brown et al., 1991].
RI crosslingue : utilisation d’un lexique pour traduire lesmots source et utilisation de methodes de RI[Munteanu and Marcu, 2005].
Traduction automatique : utilisation d’un systeme de TASpour traduire les documents et utilisation de methodes de RI[AbduI-Rauf and Schwenk, 2009].
18/ 51 Haithem Afli La TAS dans un contexte multimodal
IntroductionTravaux precedents
Extraction de phrases parallelesExtraction de segments paralleles
Conclusion et perspectives
Principales methodes existantesLa methode de traduction automatique
Principales methodes existantes
Webcrawling : utilisation des URLs pour trouver desdocuments correspondants [Resnik and Smith, 2003].
Alignement : utilisation de modeles d’alignement de motspour estimer la proximite de deux documents (ou phrases) enlangue source et cible [Brown et al., 1991].
RI crosslingue : utilisation d’un lexique pour traduire lesmots source et utilisation de methodes de RI[Munteanu and Marcu, 2005].
Traduction automatique : utilisation d’un systeme de TASpour traduire les documents et utilisation de methodes de RI[AbduI-Rauf and Schwenk, 2009].
18/ 51 Haithem Afli La TAS dans un contexte multimodal
IntroductionTravaux precedents
Extraction de phrases parallelesExtraction de segments paralleles
Conclusion et perspectives
Principales methodes existantesLa methode de traduction automatique
Principales methodes existantes
Webcrawling : utilisation des URLs pour trouver desdocuments correspondants [Resnik and Smith, 2003].
Alignement : utilisation de modeles d’alignement de motspour estimer la proximite de deux documents (ou phrases) enlangue source et cible [Brown et al., 1991].
RI crosslingue : utilisation d’un lexique pour traduire lesmots source et utilisation de methodes de RI[Munteanu and Marcu, 2005].
Traduction automatique : utilisation d’un systeme de TASpour traduire les documents et utilisation de methodes de RI[AbduI-Rauf and Schwenk, 2009].
18/ 51 Haithem Afli La TAS dans un contexte multimodal
IntroductionTravaux precedents
Extraction de phrases parallelesExtraction de segments paralleles
Conclusion et perspectives
Principales methodes existantesLa methode de traduction automatique
Principales methodes existantes
Webcrawling : utilisation des URLs pour trouver desdocuments correspondants [Resnik and Smith, 2003].
Alignement : utilisation de modeles d’alignement de motspour estimer la proximite de deux documents (ou phrases) enlangue source et cible [Brown et al., 1991].
RI crosslingue : utilisation d’un lexique pour traduire lesmots source et utilisation de methodes de RI[Munteanu and Marcu, 2005].
Traduction automatique : utilisation d’un systeme de TASpour traduire les documents et utilisation de methodes de RI[AbduI-Rauf and Schwenk, 2009].
18/ 51 Haithem Afli La TAS dans un contexte multimodal
IntroductionTravaux precedents
Extraction de phrases parallelesExtraction de segments paralleles
Conclusion et perspectives
Principales methodes existantesLa methode de traduction automatique
Corpus comparable (textes) ----------
------------------------------
TAS
------------------------------------------------------------
........
...............------
------
------
-------- ----------------- ------------- -------- -------------
-------- ---------
articles d'actualités datés
articles de Gigaword (+- 5 jours)
phrases candidates
---- -------- -------- -------- ----
------
------
tail removal
Filtrage(TER,WER,TER+)
phrases parallèles
Traduction
Abdul-Rauf et Schwenk, 2009
lexique
---- -------- -------- -------- -------- -------- ----
Classifieur
---- -------- -------- -------- ----
---- -------- -------- -------- ----
........
Phrases candidates Phrases parallèlesPaires d'articles
Corpus comparable
Sélection d'articles
sélection de phrases
candidates
sélection de phrases
parallèles
Corpus parallèle
Munteanu et Marcu, 2005
19/ 51 Haithem Afli La TAS dans un contexte multimodal
IntroductionTravaux precedents
Extraction de phrases parallelesExtraction de segments paralleles
Conclusion et perspectives
Approche proposeeConditions experimentales et resultatsDiscussionAdaptation non supervisee
Plan
1 Introduction
2 Travaux precedents
3 Extraction de phrases parallelesApproche proposeeConditions experimentales et resultatsDiscussionAdaptation non supervisee
4 Extraction de segments paralleles
5 Conclusion et perspectives20/ 51 Haithem Afli La TAS dans un contexte multimodal
IntroductionTravaux precedents
Extraction de phrases parallelesExtraction de segments paralleles
Conclusion et perspectives
Approche proposeeConditions experimentales et resultatsDiscussionAdaptation non supervisee
Premiere approche proposee [Afli et al., 2012]
Etapes
1 Transcrire les donnees audio
2 Traduire ces transcriptions
3 Utiliser les traductionscomme requetes de RI
4 Utiliser le TER entrela requete et le resultat deRI comme metriquede filtrage
5 Generer le bitexte
Audio L1
Trans. L1
Trad. L2
Texte L2
RAP
TAS
RI
Textes L2
Corpus multimodal
Bitextes
Phrases L2
Filtrage
21/ 51 Haithem Afli La TAS dans un contexte multimodal
IntroductionTravaux precedents
Extraction de phrases parallelesExtraction de segments paralleles
Conclusion et perspectives
Approche proposeeConditions experimentales et resultatsDiscussionAdaptation non supervisee
Premiere approche proposee [Afli et al., 2012]
Etapes
1 Transcrire les donnees audio
2 Traduire ces transcriptions
3 Utiliser les traductionscomme requetes de RI
4 Utiliser le TER entrela requete et le resultat deRI comme metriquede filtrage
5 Generer le bitexte
Audio L1
Trans. L1
Trad. L2
Texte L2
RAP
TAS
RI
Textes L2
Corpus multimodal
Bitextes
Phrases L2
Filtrage
21/ 51 Haithem Afli La TAS dans un contexte multimodal
IntroductionTravaux precedents
Extraction de phrases parallelesExtraction de segments paralleles
Conclusion et perspectives
Approche proposeeConditions experimentales et resultatsDiscussionAdaptation non supervisee
Premiere approche proposee [Afli et al., 2012]
Etapes
1 Transcrire les donnees audio
2 Traduire ces transcriptions
3 Utiliser les traductionscomme requetes de RI
4 Utiliser le TER entrela requete et le resultat deRI comme metriquede filtrage
5 Generer le bitexte
Audio L1
Trans. L1
Trad. L2
Texte L2
RAP
TAS
RI
Textes L2
Corpus multimodal
Bitextes
Phrases L2
Filtrage
21/ 51 Haithem Afli La TAS dans un contexte multimodal
IntroductionTravaux precedents
Extraction de phrases parallelesExtraction de segments paralleles
Conclusion et perspectives
Approche proposeeConditions experimentales et resultatsDiscussionAdaptation non supervisee
Premiere approche proposee [Afli et al., 2012]
Etapes
1 Transcrire les donnees audio
2 Traduire ces transcriptions
3 Utiliser les traductionscomme requetes de RI
4 Utiliser le TER entrela requete et le resultat deRI comme metriquede filtrage
5 Generer le bitexte
Audio L1
Trans. L1
Trad. L2
Texte L2
RAP
TAS
RI
Textes L2
Corpus multimodal
Bitextes
Phrases L2
Filtrage
21/ 51 Haithem Afli La TAS dans un contexte multimodal
IntroductionTravaux precedents
Extraction de phrases parallelesExtraction de segments paralleles
Conclusion et perspectives
Approche proposeeConditions experimentales et resultatsDiscussionAdaptation non supervisee
Premiere approche proposee [Afli et al., 2012]
Etapes
1 Transcrire les donnees audio
2 Traduire ces transcriptions
3 Utiliser les traductionscomme requetes de RI
4 Utiliser le TER entrela requete et le resultat deRI comme metriquede filtrage
5 Generer le bitexte
Audio L1
Trans. L1
Trad. L2
Texte L2
RAP
TAS
RI
Textes L2
Corpus multimodal
Bitextes
Phrases L2
Filtrage
21/ 51 Haithem Afli La TAS dans un contexte multimodal
IntroductionTravaux precedents
Extraction de phrases parallelesExtraction de segments paralleles
Conclusion et perspectives
Approche proposeeConditions experimentales et resultatsDiscussionAdaptation non supervisee
Cadre experimental (1) : faisabilite
Analyse de l’impact deserreurs commises par lesdifferents modules
Exp 1 : le systeme de RAPet de TAS ne commettentaucune erreur.
Exp 2 : erreurs du systemede traduction.
Exp 3 : cas reel,enchaınement de tous lesmodules automatiques
Exp 1
Réf. de trad.Fr
Texte Fr
RI
Données génériques +% Réf. fr
22/ 51 Haithem Afli La TAS dans un contexte multimodal
IntroductionTravaux precedents
Extraction de phrases parallelesExtraction de segments paralleles
Conclusion et perspectives
Approche proposeeConditions experimentales et resultatsDiscussionAdaptation non supervisee
Cadre experimental (1) : faisabilite
Analyse de l’impact deserreurs commises par lesdifferents modules
Exp 1 : le systeme de RAPet de TAS ne commettentaucune erreur.
Exp 2 : erreurs du systemede traduction.
Exp 3 : cas reel,enchaınement de tous lesmodules automatiques
Exp 1 Exp 2
Réf. de trans.En
Trad. auto.Fr
Texte Fr
TAS
RI
Réf. de trad.Fr
Texte Fr
RI
Données génériques +% Réf. fr
22/ 51 Haithem Afli La TAS dans un contexte multimodal
IntroductionTravaux precedents
Extraction de phrases parallelesExtraction de segments paralleles
Conclusion et perspectives
Approche proposeeConditions experimentales et resultatsDiscussionAdaptation non supervisee
Cadre experimental (1) : faisabilite
Analyse de l’impact deserreurs commises par lesdifferents modules
Exp 1 : le systeme de RAPet de TAS ne commettentaucune erreur.
Exp 2 : erreurs du systemede traduction.
Exp 3 : cas reel,enchaınement de tous lesmodules automatiques
TED audio
Trans. auto.En
Trad. auto.Fr
Texte Fr
RAP
TAS
RI
Exp 1 Exp 2 Exp 3
Réf. de trans.En
Trad. auto.Fr
Texte Fr
TAS
RI
Réf. de trad.Fr
Texte Fr
RI
Données génériques +% Réf. fr
22/ 51 Haithem Afli La TAS dans un contexte multimodal
IntroductionTravaux precedents
Extraction de phrases parallelesExtraction de segments paralleles
Conclusion et perspectives
Approche proposeeConditions experimentales et resultatsDiscussionAdaptation non supervisee
Cadre experimental (2)
Analyse de l’importance du degre de similarite
→ construction artificielle de 4 corpus comparables avecdifferents degres de similarite
le cote source est toujours le memela partie cible est composee d’un grand corpus generiqueauquel est ajoute 25%, 50%, 75% et 100% des traductions dereference
23/ 51 Haithem Afli La TAS dans un contexte multimodal
IntroductionTravaux precedents
Extraction de phrases parallelesExtraction de segments paralleles
Conclusion et perspectives
Approche proposeeConditions experimentales et resultatsDiscussionAdaptation non supervisee
Cadre experimental (2)
Analyse de l’importance du degre de similarite→ construction artificielle de 4 corpus comparables avecdifferents degres de similarite
le cote source est toujours le memela partie cible est composee d’un grand corpus generiqueauquel est ajoute 25%, 50%, 75% et 100% des traductions dereference
23/ 51 Haithem Afli La TAS dans un contexte multimodal
IntroductionTravaux precedents
Extraction de phrases parallelesExtraction de segments paralleles
Conclusion et perspectives
Approche proposeeConditions experimentales et resultatsDiscussionAdaptation non supervisee
Donnees
Evaluation de l’approcheles donnees extraites sont reinjectees dans le systeme de baseles systemes sont evalues automatiquement avec BLEU
Entraınementbitextes # mots generiques
nc7 3.7M ouieparl7 56.4M oui
Corpus de developpement et de testDev # mots
devTED.en 36kdevEuronews 74k
Test # mots
tstTED.en 8.7ktstEuronews 61k
24/ 51 Haithem Afli La TAS dans un contexte multimodal
IntroductionTravaux precedents
Extraction de phrases parallelesExtraction de segments paralleles
Conclusion et perspectives
Approche proposeeConditions experimentales et resultatsDiscussionAdaptation non supervisee
Experimentation : modules
RAP : systeme 5-passes fonde sur CMU Sphinx
WER d’environ 18%
TAS : systeme a base de segment utilisant Moses
entraıne sur les donnees generiques
RI : utilisation de l’outil Lemur
indexation de toutes les donnees cibles (en francais)
25/ 51 Haithem Afli La TAS dans un contexte multimodal
IntroductionTravaux precedents
Extraction de phrases parallelesExtraction de segments paralleles
Conclusion et perspectives
Approche proposeeConditions experimentales et resultatsDiscussionAdaptation non supervisee
Exemple de deroulement : extraction
Phrase en anglais (sortie RAP) : ... you get asupercomputer because they know how to take ...
Requete en francais (sortie TAS) : ... vous obtenez unsupercomputer parce qu’ils savent comment prendre ..
Phrase trouvee (sortie RI) : ... vous prenez unsuperordinateur car ils savent comment concentrer ...
26/ 51 Haithem Afli La TAS dans un contexte multimodal
IntroductionTravaux precedents
Extraction de phrases parallelesExtraction de segments paralleles
Conclusion et perspectives
Approche proposeeConditions experimentales et resultatsDiscussionAdaptation non supervisee
Exemple de deroulement : extraction
Phrase en anglais (sortie RAP) : ... you get asupercomputer because they know how to take ...
Requete en francais (sortie TAS) : ... vous obtenez unsupercomputer parce qu’ils savent comment prendre ..
Phrase trouvee (sortie RI) : ... vous prenez unsuperordinateur car ils savent comment concentrer ...
26/ 51 Haithem Afli La TAS dans un contexte multimodal
IntroductionTravaux precedents
Extraction de phrases parallelesExtraction de segments paralleles
Conclusion et perspectives
Approche proposeeConditions experimentales et resultatsDiscussionAdaptation non supervisee
Exemple de deroulement : extraction
Phrase en anglais (sortie RAP) : ... you get asupercomputer because they know how to take ...
Requete en francais (sortie TAS) : ... vous obtenez unsupercomputer parce qu’ils savent comment prendre ..
Phrase trouvee (sortie RI) : ... vous prenez unsuperordinateur car ils savent comment concentrer ...
26/ 51 Haithem Afli La TAS dans un contexte multimodal
IntroductionTravaux precedents
Extraction de phrases parallelesExtraction de segments paralleles
Conclusion et perspectives
Approche proposeeConditions experimentales et resultatsDiscussionAdaptation non supervisee
Exemple de deroulement : extraction
Phrase en anglais (sortie RAP) : ... you get asupercomputer because they know how to take ...
Requete en francais (sortie TAS) : ... vous obtenez unsupercomputer parce qu’ils savent comment prendre ..
Phrase trouvee (sortie RI) : ... vous prenez unsuperordinateur car ils savent comment concentrer ...
26/ 51 Haithem Afli La TAS dans un contexte multimodal
IntroductionTravaux precedents
Extraction de phrases parallelesExtraction de segments paralleles
Conclusion et perspectives
Approche proposeeConditions experimentales et resultatsDiscussionAdaptation non supervisee
Exemple de deroulement : amelioration
Test audio
Sortie ASR a supercomputer has calculatedthat humans and only ...
Reference a supercomputer has calculatedthat humans have only ...
Traductions de la sortie ASR
Systeme de base un supercomputera calcule que les humains et seulement ...
Systeme adapte un superordinateura calcule que les humains et seulement ...
Reference un superordinateur a calculeque les humains n’avaient plus que ...
27/ 51 Haithem Afli La TAS dans un contexte multimodal
IntroductionTravaux precedents
Extraction de phrases parallelesExtraction de segments paralleles
Conclusion et perspectives
Approche proposeeConditions experimentales et resultatsDiscussionAdaptation non supervisee
Synthese des resultats : filtrage
22.5
23
23.5
24
24.5
0 20 40 60 80 100
scor
e BL
EU
TER threshold
Exp1Exp2Exp3
22
22.5
23
23.5
24
24.5
25
25.5
26
0 20 40 60 80 100
scor
e BL
EU
seuil TER
Exp1Exp2Exp3
Donnees generiques + 25% TEDbi
Donnees generiques + 100% TEDbi
28/ 51 Haithem Afli La TAS dans un contexte multimodal
IntroductionTravaux precedents
Extraction de phrases parallelesExtraction de segments paralleles
Conclusion et perspectives
Approche proposeeConditions experimentales et resultatsDiscussionAdaptation non supervisee
Synthese des resultats : filtrage
le choix du seuil de TER adequat depend de la nature desdonnees
le meilleur seuil pour les donnees TED est dans l’intervalle[80-90]→ le seuil de 80 est retenu pour le filtrage des resultats
⇒ ce choix est confirme par les resultats obtenus sur TestTED
29/ 51 Haithem Afli La TAS dans un contexte multimodal
IntroductionTravaux precedents
Extraction de phrases parallelesExtraction de segments paralleles
Conclusion et perspectives
Approche proposeeConditions experimentales et resultatsDiscussionAdaptation non supervisee
Synthese de resultats : enchaınement des modules
Comparaison des donnees extraites dans les differentes Exp
Experience DevTED TstTED
Systeme de base 22.93 23.96Exp1 (ref TAS) 24.14 25.14Exp2 (ref RAP) 23.90 25.15Exp3 (RAP+TAS+RI) 23.40 24.69
les phrases extraites permettent d’ameliorer le systeme de TAS→ faisabilite
moins d’impacts des erreurs de TAS→ plus en RAP
30/ 51 Haithem Afli La TAS dans un contexte multimodal
IntroductionTravaux precedents
Extraction de phrases parallelesExtraction de segments paralleles
Conclusion et perspectives
Approche proposeeConditions experimentales et resultatsDiscussionAdaptation non supervisee
Synthese de resultats : enchaınement des modules
Comparaison des donnees extraites dans les differentes Exp
Experience DevTED TstTED
Systeme de base 22.93 23.96Exp1 (ref TAS) 24.14 25.14Exp2 (ref RAP) 23.90 25.15Exp3 (RAP+TAS+RI) 23.40 24.69
les phrases extraites permettent d’ameliorer le systeme de TAS→ faisabilite
moins d’impacts des erreurs de TAS→ plus en RAP
30/ 51 Haithem Afli La TAS dans un contexte multimodal
IntroductionTravaux precedents
Extraction de phrases parallelesExtraction de segments paralleles
Conclusion et perspectives
Approche proposeeConditions experimentales et resultatsDiscussionAdaptation non supervisee
Synthese de resultats : enchaınement des modules
Comparaison des donnees extraites dans les differentes Exp
Experience DevTED TstTED
Systeme de base 22.93 23.96Exp1 (ref TAS) 24.14 25.14Exp2 (ref RAP) 23.90 25.15Exp3 (RAP+TAS+RI) 23.40 24.69
les phrases extraites permettent d’ameliorer le systeme de TAS→ faisabilite
moins d’impacts des erreurs de TAS→ plus en RAP
30/ 51 Haithem Afli La TAS dans un contexte multimodal
IntroductionTravaux precedents
Extraction de phrases parallelesExtraction de segments paralleles
Conclusion et perspectives
Approche proposeeConditions experimentales et resultatsDiscussionAdaptation non supervisee
Synthese de resultats : enchaınement des modules
Comparaison des donnees extraites dans les differentes Exp
Experience DevTED TstTED
Systeme de base 22.93 23.96Exp1 (ref TAS) 24.14 25.14Exp2 (ref RAP) 23.90 25.15Exp3 (RAP+TAS+RI) 23.40 24.69
les phrases extraites permettent d’ameliorer le systeme de TAS→ faisabilite
moins d’impacts des erreurs de TAS→ plus en RAP
30/ 51 Haithem Afli La TAS dans un contexte multimodal
IntroductionTravaux precedents
Extraction de phrases parallelesExtraction de segments paralleles
Conclusion et perspectives
Approche proposeeConditions experimentales et resultatsDiscussionAdaptation non supervisee
Synthese des resultats : degre de comparabilite
Scores BLEU pour differents degres de comparabilite
Experience DevTED TstTED # mots injectes
Systeme de base 22.93 23.96 -25% TEDbi 23.11 24.40 ∼110k50% TEDbi 23.27 24.58 ∼215k75% TEDbi 23.43 24.42 ∼293k100% TEDbi 23.40 24.69 ∼393k
TEDbi 1.9 M
meilleurs resultats avec 75% et 100%
les modules de RI et filtrage sont tres importants
quantites faibles
31/ 51 Haithem Afli La TAS dans un contexte multimodal
IntroductionTravaux precedents
Extraction de phrases parallelesExtraction de segments paralleles
Conclusion et perspectives
Approche proposeeConditions experimentales et resultatsDiscussionAdaptation non supervisee
Synthese des resultats : degre de comparabilite
Scores BLEU pour differents degres de comparabilite
Experience DevTED TstTED # mots injectes
Systeme de base 22.93 23.96 -25% TEDbi 23.11 24.40 ∼110k50% TEDbi 23.27 24.58 ∼215k75% TEDbi 23.43 24.42 ∼293k100% TEDbi 23.40 24.69 ∼393k
TEDbi 1.9 M
meilleurs resultats avec 75% et 100%
les modules de RI et filtrage sont tres importants
quantites faibles
31/ 51 Haithem Afli La TAS dans un contexte multimodal
IntroductionTravaux precedents
Extraction de phrases parallelesExtraction de segments paralleles
Conclusion et perspectives
Approche proposeeConditions experimentales et resultatsDiscussionAdaptation non supervisee
Synthese des resultats : degre de comparabilite
Scores BLEU pour differents degres de comparabilite
Experience DevTED TstTED # mots injectes
Systeme de base 22.93 23.96 -25% TEDbi 23.11 24.40 ∼110k50% TEDbi 23.27 24.58 ∼215k75% TEDbi 23.43 24.42 ∼293k100% TEDbi 23.40 24.69 ∼393k
TEDbi 1.9 M
meilleurs resultats avec 75% et 100%
les modules de RI et filtrage sont tres importants
quantites faibles
31/ 51 Haithem Afli La TAS dans un contexte multimodal
IntroductionTravaux precedents
Extraction de phrases parallelesExtraction de segments paralleles
Conclusion et perspectives
Approche proposeeConditions experimentales et resultatsDiscussionAdaptation non supervisee
Discussion
Constat
Les phrases paralleles extraites ameliorent les systemes detraduction
mais la quantite est faible
→ Comment optimiser l’exploitation des corpus pour extrairedavantage de donnees paralleles ?
Types d’erreurs
Les phrases les plus longues ont un TER eleve⇒ exclues par le filtrage meme si elles contiennent de bonnestraductions
32/ 51 Haithem Afli La TAS dans un contexte multimodal
IntroductionTravaux precedents
Extraction de phrases parallelesExtraction de segments paralleles
Conclusion et perspectives
Approche proposeeConditions experimentales et resultatsDiscussionAdaptation non supervisee
Approche legerement supervisee (unsup)
Objectif : completer les resultats de la RI
En Fr
TASEn-Fr
En Fr
2
1
En Fr
Filtragede
données
2 etapes [Schwenk, 2009] :traduction des donnees monolingues (anglais) avec le systemede basefiltrage des resultats pour eliminer les paires de phrases nondesirees
33/ 51 Haithem Afli La TAS dans un contexte multimodal
IntroductionTravaux precedents
Extraction de phrases parallelesExtraction de segments paralleles
Conclusion et perspectives
Approche proposeeConditions experimentales et resultatsDiscussionAdaptation non supervisee
Approche legerement supervisee (unsup)
Objectif : completer les resultats de la RI
En Fr
TASEn-Fr
En Fr
2
1
En Fr
Filtragede
données
2 etapes [Schwenk, 2009] :traduction des donnees monolingues (anglais) avec le systemede basefiltrage des resultats pour eliminer les paires de phrases nondesirees
33/ 51 Haithem Afli La TAS dans un contexte multimodal
IntroductionTravaux precedents
Extraction de phrases parallelesExtraction de segments paralleles
Conclusion et perspectives
Approche proposeeConditions experimentales et resultatsDiscussionAdaptation non supervisee
RI & unsup : resultats
22.5
23
23.5
24
24.5
70 75 80 85 90 95 100
Scor
e BL
EU
Seuil TER
RI + UnsupBaseline
RI
pas d’amelioration significative
⇒ Chercher d’autres solutions pour augmenter la couverture
34/ 51 Haithem Afli La TAS dans un contexte multimodal
IntroductionTravaux precedents
Extraction de phrases parallelesExtraction de segments paralleles
Conclusion et perspectives
Approche proposeeConditions experimentales et resultatsDiscussionAdaptation non supervisee
Segments paralleles
35/ 51 Haithem Afli La TAS dans un contexte multimodal
IntroductionTravaux precedents
Extraction de phrases parallelesExtraction de segments paralleles
Conclusion et perspectives
Methode PhrExtractDiscussionMethode SenExtract +LLR lex
Plan
1 Introduction
2 Travaux precedents
3 Extraction de phrases paralleles
4 Extraction de segments parallelesMethode PhrExtractDiscussionMethode SenExtract +LLR lex
5 Conclusion et perspectives
36/ 51 Haithem Afli La TAS dans un contexte multimodal
IntroductionTravaux precedents
Extraction de phrases parallelesExtraction de segments paralleles
Conclusion et perspectives
Methode PhrExtractDiscussionMethode SenExtract +LLR lex
Extraction des segments paralleles
L’approche associative : reposer sur des mesures commel’information mutuelle ou le rapport de vraisemblance
[Munteanu and Marcu, 2006][Hewavitharana and Vogel, 2011]
L’alignement : determiner le meilleur ensemble de liensd’alignement entre des groupes de mots sources et cibles dechaque paire de phrases ou documents
[Quirk et al., 2007][Riesa and Marcu, 2012].
37/ 51 Haithem Afli La TAS dans un contexte multimodal
IntroductionTravaux precedents
Extraction de phrases parallelesExtraction de segments paralleles
Conclusion et perspectives
Methode PhrExtractDiscussionMethode SenExtract +LLR lex
Methode proposee [Afli et al., 2013]
1 generer tous les segmentspossibles→ segments de 2 a 10 mots
la sortie du systeme RAP
le corpus texte de RI
2 appliquer la mememethode d’extractionutilisee dans SentExtract⇒ aligner les segmentsparalleles
Audio L1
Phrases L1
Traductions L2
Segments L2
RAP
TAS
RI
Textes L2
Corpus Comparable multimodal
DonnéesParallèles
Filtrage
Segments L1
Découpage
Segments L2
Découpage
38/ 51 Haithem Afli La TAS dans un contexte multimodal
IntroductionTravaux precedents
Extraction de phrases parallelesExtraction de segments paralleles
Conclusion et perspectives
Methode PhrExtractDiscussionMethode SenExtract +LLR lex
Methode proposee [Afli et al., 2013]
1 generer tous les segmentspossibles→ segments de 2 a 10 mots
la sortie du systeme RAPle corpus texte de RI
2 appliquer la mememethode d’extractionutilisee dans SentExtract⇒ aligner les segmentsparalleles
Audio L1
Phrases L1
Traductions L2
Segments L2
RAP
TAS
RI
Textes L2
Corpus Comparable multimodal
DonnéesParallèles
Filtrage
Segments L1
Découpage
Segments L2
Découpage
38/ 51 Haithem Afli La TAS dans un contexte multimodal
IntroductionTravaux precedents
Extraction de phrases parallelesExtraction de segments paralleles
Conclusion et perspectives
Methode PhrExtractDiscussionMethode SenExtract +LLR lex
Methode proposee [Afli et al., 2013]
1 generer tous les segmentspossibles→ segments de 2 a 10 mots
la sortie du systeme RAPle corpus texte de RI
2 appliquer la mememethode d’extractionutilisee dans SentExtract⇒ aligner les segmentsparalleles
Audio L1
Phrases L1
Traductions L2
Segments L2
RAP
TAS
RI
Textes L2
Corpus Comparable multimodal
DonnéesParallèles
Filtrage
Segments L1
Découpage
Segments L2
Découpage
38/ 51 Haithem Afli La TAS dans un contexte multimodal
IntroductionTravaux precedents
Extraction de phrases parallelesExtraction de segments paralleles
Conclusion et perspectives
Methode PhrExtractDiscussionMethode SenExtract +LLR lex
PhrExtract vs SentExtract, donnees TED
TER SentExtract PhrExtract
0 22.86 23.3910 22.97 23.3520 23.06 23.5330 22.95 23.3940 22.92 23.4550 23.26 23.5460 23.10 23.7070 23.29 23.4180 23.40 23.4090 23.39 23.18
100 23.34 23.26
Baseline 22.93
39/ 51 Haithem Afli La TAS dans un contexte multimodal
IntroductionTravaux precedents
Extraction de phrases parallelesExtraction de segments paralleles
Conclusion et perspectives
Methode PhrExtractDiscussionMethode SenExtract +LLR lex
PhrExtract vs SentExtract, donnees TED
TER SentExtract PhrExtract
0 22.86 23.3910 22.97 23.3520 23.06 23.5330 22.95 23.3940 22.92 23.4550 23.26 23.5460 23.10 23.7070 23.29 23.4180 23.40 23.4090 23.39 23.18
100 23.34 23.26
Baseline 22.93
39/ 51 Haithem Afli La TAS dans un contexte multimodal
IntroductionTravaux precedents
Extraction de phrases parallelesExtraction de segments paralleles
Conclusion et perspectives
Methode PhrExtractDiscussionMethode SenExtract +LLR lex
PhrExtract vs SentExtract, donnees TED
TER SentExtract PhrExtract
0 22.86 23.3910 22.97 23.3520 23.06 23.5330 22.95 23.3940 22.92 23.4550 23.26 23.5460 23.10 23.7070 23.29 23.4180 23.40 23.4090 23.39 23.18
100 23.34 23.26
Baseline 22.93
39/ 51 Haithem Afli La TAS dans un contexte multimodal
IntroductionTravaux precedents
Extraction de phrases parallelesExtraction de segments paralleles
Conclusion et perspectives
Methode PhrExtractDiscussionMethode SenExtract +LLR lex
Application sur les donnees Euronews
TER # mots (fr) devEuronews tstEuronews
0 90 k 29.95 27.1320 168 k 30.01 27.3330 322 k 30.04 27.5940 769 k 29.92 27.4550 1.9 M 30.03 27.2760 3.1M 29.92 27.3070 5.7M 29.83 27.1180 12.39 M 29.73 27.1090 25.7 M 29.73 26.88
100 40.3 M 29.52 26.53
Baseline 60.1M 25.19 22.12
40/ 51 Haithem Afli La TAS dans un contexte multimodal
IntroductionTravaux precedents
Extraction de phrases parallelesExtraction de segments paralleles
Conclusion et perspectives
Methode PhrExtractDiscussionMethode SenExtract +LLR lex
Application sur les donnees Euronews
TER # mots (fr) devEuronews tstEuronews
0 90 k 29.95 27.1320 168 k 30.01 27.3330 322 k 30.04 27.5940 769 k 29.92 27.4550 1.9 M 30.03 27.2760 3.1M 29.92 27.3070 5.7M 29.83 27.1180 12.39 M 29.73 27.1090 25.7 M 29.73 26.88
100 40.3 M 29.52 26.53
Baseline 60.1M 25.19 22.12
40/ 51 Haithem Afli La TAS dans un contexte multimodal
IntroductionTravaux precedents
Extraction de phrases parallelesExtraction de segments paralleles
Conclusion et perspectives
Methode PhrExtractDiscussionMethode SenExtract +LLR lex
Discussion
Amelioration des resultats
redondance
Approche actuelle de filtrage :
seuil de TER entre traduction et resultat de RI
Ecueils :
approche empirique pour determiner le seuilstatique
⇒ Utilisation de la methode LLR (Log Likelihood Ratio)[Munteanu and Marcu, 2006]
41/ 51 Haithem Afli La TAS dans un contexte multimodal
IntroductionTravaux precedents
Extraction de phrases parallelesExtraction de segments paralleles
Conclusion et perspectives
Methode PhrExtractDiscussionMethode SenExtract +LLR lex
Discussion
Amelioration des resultats
redondance
Approche actuelle de filtrage :
seuil de TER entre traduction et resultat de RI
Ecueils :
approche empirique pour determiner le seuilstatique
⇒ Utilisation de la methode LLR (Log Likelihood Ratio)[Munteanu and Marcu, 2006]
41/ 51 Haithem Afli La TAS dans un contexte multimodal
IntroductionTravaux precedents
Extraction de phrases parallelesExtraction de segments paralleles
Conclusion et perspectives
Methode PhrExtractDiscussionMethode SenExtract +LLR lex
Filtrage avec LLR
LLR :
le rapport de vraisemblance
l’independance despaires de mots qui co-occurent
LLR faible→ mots independants
LLR augmente→ mots associes
[Munteanu and Marcu, 2006]
42/ 51 Haithem Afli La TAS dans un contexte multimodal
IntroductionTravaux precedents
Extraction de phrases parallelesExtraction de segments paralleles
Conclusion et perspectives
Methode PhrExtractDiscussionMethode SenExtract +LLR lex
SenExtract +LLR lex : architecture [Afli et al., 2014]
1 utiliser le systemed’extraction des phrases,considerees quasi paralleles
2 construire le lexique LLR lexa partir des donneesd’apprentissage du TAS
3 detecter, a l’aide du lexique,les fragments paralleles dansles phrases generees
Audio L1
Phrases L1
Traductions L2
Phrases L2
RAP
TAS
Texts L2
Corpus Comparable multimodal
PhrasesQuasi-
Parallèles
RI
Corpus parallèlede base
LexiqueLLR
Génération desSegments
Lex.Extraction
Apprentissage
Segments parallèles
43/ 51 Haithem Afli La TAS dans un contexte multimodal
IntroductionTravaux precedents
Extraction de phrases parallelesExtraction de segments paralleles
Conclusion et perspectives
Methode PhrExtractDiscussionMethode SenExtract +LLR lex
SenExtract +LLR lex : architecture [Afli et al., 2014]
1 utiliser le systemed’extraction des phrases,considerees quasi paralleles
2 construire le lexique LLR lexa partir des donneesd’apprentissage du TAS
3 detecter, a l’aide du lexique,les fragments paralleles dansles phrases generees
Audio L1
Phrases L1
Traductions L2
Phrases L2
RAP
TAS
Texts L2
Corpus Comparable multimodal
PhrasesQuasi-
Parallèles
RI
Corpus parallèlede base
LexiqueLLR
Génération desSegments
Lex.Extraction
Apprentissage
Segments parallèles
43/ 51 Haithem Afli La TAS dans un contexte multimodal
IntroductionTravaux precedents
Extraction de phrases parallelesExtraction de segments paralleles
Conclusion et perspectives
Methode PhrExtractDiscussionMethode SenExtract +LLR lex
SenExtract +LLR lex : architecture [Afli et al., 2014]
1 utiliser le systemed’extraction des phrases,considerees quasi paralleles
2 construire le lexique LLR lexa partir des donneesd’apprentissage du TAS
3 detecter, a l’aide du lexique,les fragments paralleles dansles phrases generees
Audio L1
Phrases L1
Traductions L2
Phrases L2
RAP
TAS
Texts L2
Corpus Comparable multimodal
PhrasesQuasi-
Parallèles
RI
Corpus parallèlede base
LexiqueLLR
Génération desSegments
Lex.Extraction
Apprentissage
Segments parallèles
43/ 51 Haithem Afli La TAS dans un contexte multimodal
IntroductionTravaux precedents
Extraction de phrases parallelesExtraction de segments paralleles
Conclusion et perspectives
Methode PhrExtractDiscussionMethode SenExtract +LLR lex
Resultats : donnees TED
Quantites de donnees extraites
Methodes # mots (en) # mots (fr)
PhrExtract (TER 60) 321 k 322 kSenExtract +LLR lex 236 k 224 k
Scores BLEU
Systemes devTED tstTED
Baseline 22.93 23.96PhrExtract (TER 60) 23.70 24.84SenExtract +LLR lex 23.63 24.88
44/ 51 Haithem Afli La TAS dans un contexte multimodal
IntroductionTravaux precedents
Extraction de phrases parallelesExtraction de segments paralleles
Conclusion et perspectives
Methode PhrExtractDiscussionMethode SenExtract +LLR lex
Resultats : donnees TED
Quantites de donnees extraites
Methodes # mots (en) # mots (fr)
PhrExtract (TER 60) 321 k 322 kSenExtract +LLR lex 236 k 224 k
Scores BLEU
Systemes devTED tstTED
Baseline 22.93 23.96PhrExtract (TER 60) 23.70 24.84SenExtract +LLR lex 23.63 24.88
44/ 51 Haithem Afli La TAS dans un contexte multimodal
IntroductionTravaux precedents
Extraction de phrases parallelesExtraction de segments paralleles
Conclusion et perspectives
Methode PhrExtractDiscussionMethode SenExtract +LLR lex
Resultats : donnees Euronews
Quantites de donnees extraites
Methodes # mots (en) # mots (fr)
PhrExtract (TER 30) 16.6 M 13.8 MSenExtract +LLR lex 1.6 M 2.2 M
Scores BLEU
Systemes devEuronews tstEuronews
Baseline 25.19 22.12PhrExtract (TER 30) 30.04 27.59SenExtract +LLR lex 30.00 27.47
45/ 51 Haithem Afli La TAS dans un contexte multimodal
IntroductionTravaux precedents
Extraction de phrases parallelesExtraction de segments paralleles
Conclusion et perspectives
Methode PhrExtractDiscussionMethode SenExtract +LLR lex
Resultats : donnees Euronews
Quantites de donnees extraites
Methodes # mots (en) # mots (fr)
PhrExtract (TER 30) 16.6 M 13.8 MSenExtract +LLR lex 1.6 M 2.2 M
Scores BLEU
Systemes devEuronews tstEuronews
Baseline 25.19 22.12PhrExtract (TER 30) 30.04 27.59SenExtract +LLR lex 30.00 27.47
45/ 51 Haithem Afli La TAS dans un contexte multimodal
IntroductionTravaux precedents
Extraction de phrases parallelesExtraction de segments paralleles
Conclusion et perspectives
Methode PhrExtractDiscussionMethode SenExtract +LLR lex
Discussion
Methode plus efficace
resultats similaires au meilleur seuil TERmoins de quantite de donnees : plus de precision dans laselection des donnees pertinentes
Besoin de plus d’ameliorations
optimiser l’exploitation des corpus
46/ 51 Haithem Afli La TAS dans un contexte multimodal
IntroductionTravaux precedents
Extraction de phrases parallelesExtraction de segments paralleles
Conclusion et perspectives
Creation du corpus multimodalNouvelles methodesPerspectives
Plan
1 Introduction
2 Travaux precedents
3 Extraction de phrases paralleles
4 Extraction de segments paralleles
5 Conclusion et perspectivesCreation du corpus multimodalNouvelles methodesPerspectives
47/ 51 Haithem Afli La TAS dans un contexte multimodal
IntroductionTravaux precedents
Extraction de phrases parallelesExtraction de segments paralleles
Conclusion et perspectives
Creation du corpus multimodalNouvelles methodesPerspectives
Conclusion
Construction du corpus bimodal Euronews LIUM
Extraction des donnees sur la periode 2010 a 2012
Mettre a disposition a la communaute
→ corpus et bitextes extraits
Mise a jour du corpus TED LIUM
partie texte en francais correspond a TEDbi
Mettre a disposition a la communaute
→ corpus brut et bitextes extraits
48/ 51 Haithem Afli La TAS dans un contexte multimodal
IntroductionTravaux precedents
Extraction de phrases parallelesExtraction de segments paralleles
Conclusion et perspectives
Creation du corpus multimodalNouvelles methodesPerspectives
Conclusion
Extension de l’utilisation de corpus comparables a des donneesmultimodales, i.e. audio cote source et texte cote cible
Developpement des systemes d’acquisition des donneescomparables multimodales et d’extraction de textes paralleles→ totalement automatique
Extension de la methode pour extraire des segments paralleles
Amelioration du module de filtrage de nos systemes : dufiltrage TER vers le filtrage LLR
Methodes validees sur differents corpus et taches (TED etEuronews)
adaptation d’un systeme generiqueamelioration d’un systeme du domaine
49/ 51 Haithem Afli La TAS dans un contexte multimodal
IntroductionTravaux precedents
Extraction de phrases parallelesExtraction de segments paralleles
Conclusion et perspectives
Creation du corpus multimodalNouvelles methodesPerspectives
Perspectives
Ce travail ouvre la voie a l’exploitation des donnees multimodalespour la TA
Amelioration de la methode PhrExtract en changeant lasegmentation des phrases
groupes syntaxiquesconnaissances linguistiquesl’alignement en groupe de mots du systeme de TAS
Amelioration de la methode SentExtract en essayant d’autrestechniques de filtrage
Utilisation de la methode Unsup avec les phrases courtes
Application des methodes d’extraction sur d’autres domainesde specialite
50/ 51 Haithem Afli La TAS dans un contexte multimodal
IntroductionTravaux precedents
Extraction de phrases parallelesExtraction de segments paralleles
Conclusion et perspectives
Creation du corpus multimodalNouvelles methodesPerspectives
Merci pour votre attention.
UniversitéduMaineU
51/ 51 Haithem Afli La TAS dans un contexte multimodal
IntroductionTravaux precedents
Extraction de phrases parallelesExtraction de segments paralleles
Conclusion et perspectives
Creation du corpus multimodalNouvelles methodesPerspectives
AbduI-Rauf, S. and Schwenk, H. (2009).On the use of comparable corpora to improve smtperformance.In Proceedings of the 12th Conference of the EuropeanChapter of the Association for Computational Linguistics,EACL ’09, pages 16–23, Stroudsburg, PA, USA. Associationfor Computational Linguistics.
Afli, H., Barrault, L., and Schwenk, H. (2012).Parallel texts extraction from multimodal comparable corpora.In JapTAL, volume 7614 of Lecture Notes in ComputerScience, pages 40–51. Springer.
Afli, H., Barrault, L., and Schwenk, H. (2013).Multimodal comparable corpora as resources for extractingparallel data : Parallel phrases extraction.
51/ 51 Haithem Afli La TAS dans un contexte multimodal
IntroductionTravaux precedents
Extraction de phrases parallelesExtraction de segments paralleles
Conclusion et perspectives
Creation du corpus multimodalNouvelles methodesPerspectives
International Joint Conference on Natural LanguageProcessing.
Afli, H., Barrault, L., and Schwenk, H. (2014).Multimodal comparable corpora for machine translation.LREC 2014, 7th Workshop on Building and Using ComparableCorpora, Building Resources for Machine Translation Research.
Bisazza, A., Ruiz, N., and Federico, M. (2011).Fill-up versus interpolation methods for phrase-based smtadaptation.International Workshop on Spoken Language Translation 2011.
Brown, P. F., Cocke, J., Pietra, S. A. D., Pietra, V. J. D.,Jelinek, F., Lafferty, J. D., Mercer, R. L., and Roossin, P. S.(1990).A statistical approach to machine translation.
51/ 51 Haithem Afli La TAS dans un contexte multimodal
IntroductionTravaux precedents
Extraction de phrases parallelesExtraction de segments paralleles
Conclusion et perspectives
Creation du corpus multimodalNouvelles methodesPerspectives
Comput. Linguist., 16 :79–85.
Brown, P. F., Lai, J. C., and Mercer, R. L. (1991).Aligning sentences in parallel corpora.In Proceedings of the 29th annual meeting on Association forComputational Linguistics, ACL ’91, pages 169–176.
Dunning, T. (1993).Accurate methods for the statistics of surprise andcoincidence.Comput. Linguist., 19(1) :61–74.
Hewavitharana, S. and Vogel, S. (2011).Extracting parallel phrases from comparable data.In Proceedings of the 4th Workshop on Building and UsingComparable Corpora : Comparable Corpora and the Web,BUCC ’11, pages 61–68.
51/ 51 Haithem Afli La TAS dans un contexte multimodal
IntroductionTravaux precedents
Extraction de phrases parallelesExtraction de segments paralleles
Conclusion et perspectives
Creation du corpus multimodalNouvelles methodesPerspectives
Munteanu, D. S. and Marcu, D. (2005).Improving Machine Translation Performance by ExploitingNon-Parallel Corpora.Computational Linguistics, 31(4) :477–504.
Munteanu, D. S. and Marcu, D. (2006).Extracting parallel sub-sentential fragments from non-parallelcorpora.In Proceedings of the 21st International Conference onComputational Linguistics and the 44th annual meeting of theAssociation for Computational Linguistics, ACL-44, pages81–88.
Quirk, Q., Udupa, R., and Menezes, A. (2007).Generative models of noisy translations with applications toparallel fragment extraction.
51/ 51 Haithem Afli La TAS dans un contexte multimodal
IntroductionTravaux precedents
Extraction de phrases parallelesExtraction de segments paralleles
Conclusion et perspectives
Creation du corpus multimodalNouvelles methodesPerspectives
In In Proceedings of MT Summit XI, European Association forMachine Translation.
Resnik, P. and Smith, N. A. (2003).The web as a parallel corpus.Comput. Linguist., 29 :349–380.
Riesa, J. and Marcu, D. (2012).Automatic parallel fragment extraction from noisy data.In Proceedings of the 2012 Conference of the North AmericanChapter of the Association for Computational Linguistics :Human Language Technologies, NAACL HLT ’12, pages538–542.
Rousseau, A., Bougares, F., Deleglise, P., Schwenk, H., andEsteve, Y. (2011).LIUM’s systems for the IWSLT 2011 speech translation tasks.International Workshop on Spoken Language Translation 2011.
51/ 51 Haithem Afli La TAS dans un contexte multimodal
IntroductionTravaux precedents
Extraction de phrases parallelesExtraction de segments paralleles
Conclusion et perspectives
Creation du corpus multimodalNouvelles methodesPerspectives
Schwenk, H. (2009).Translation model adaptation for an arabic/french newstranslation system by lightly-supervised training.MT Summit.
51/ 51 Haithem Afli La TAS dans un contexte multimodal