Présentation de thèse Haithem AFLI

94
Introduction Travaux pr´ ec´ edents Extraction de phrases parall` eles Extraction de segments parall` eles Conclusion et perspectives La traduction automatique statistique dans un contexte multimodal Th` ese pr´ esent´ ee par Haithem Afli dirig´ ee par Lo¨ ıc Barrault & Holger Schwenk 7 juillet 2014 1/ 51 Haithem Afli La TAS dans un contexte multimodal

Transcript of Présentation de thèse Haithem AFLI

Page 1: Présentation de thèse Haithem AFLI

IntroductionTravaux precedents

Extraction de phrases parallelesExtraction de segments paralleles

Conclusion et perspectives

La traduction automatique statistique dans uncontexte multimodal

These presentee parHaithem Afli

dirigee parLoıc Barrault & Holger Schwenk

7 juillet 2014

1/ 51 Haithem Afli La TAS dans un contexte multimodal

Page 2: Présentation de thèse Haithem AFLI

IntroductionTravaux precedents

Extraction de phrases parallelesExtraction de segments paralleles

Conclusion et perspectives

Le DEPART de la these

Projet DEPART

Documents Ecrits et Paroles – Reconnaissance et Traduction

Finance par la region des Pays de la Loire

Partenaires : LST/LIUM, TALN/LINA et IVC/IRCCyN

Objectifs :La resolution de problemes scientifiques et technologiquesmettant en jeu des donnees multimodales et multilingues

2/ 51 Haithem Afli La TAS dans un contexte multimodal

Page 3: Présentation de thèse Haithem AFLI

IntroductionTravaux precedents

Extraction de phrases parallelesExtraction de segments paralleles

Conclusion et perspectives

Axes de recherches

Axe1

Collection multimedia multilingue

Axe 2Analyse conjointe et traduction

Notre tache : traduction de documents multimodaux

Axe 3

Adaptation des methodes et donnees aux differents types dedocuments multimedia

3/ 51 Haithem Afli La TAS dans un contexte multimodal

Page 4: Présentation de thèse Haithem AFLI

IntroductionTravaux precedents

Extraction de phrases parallelesExtraction de segments paralleles

Conclusion et perspectives

Axes de recherches

Axe1

Collection multimedia multilingue

Axe 2Analyse conjointe et traduction

Notre tache : traduction de documents multimodaux

Axe 3

Adaptation des methodes et donnees aux differents types dedocuments multimedia

3/ 51 Haithem Afli La TAS dans un contexte multimodal

Page 5: Présentation de thèse Haithem AFLI

IntroductionTravaux precedents

Extraction de phrases parallelesExtraction de segments paralleles

Conclusion et perspectives

Plan

1 Introduction

2 Travaux precedents

3 Extraction de phrases paralleles

4 Extraction de segments paralleles

5 Conclusion et perspectives

4/ 51 Haithem Afli La TAS dans un contexte multimodal

Page 6: Présentation de thèse Haithem AFLI

IntroductionTravaux precedents

Extraction de phrases parallelesExtraction de segments paralleles

Conclusion et perspectives

Traduction automatique statistiqueCorpus paralleles et corpus comparablesConstruction du corpus multimodal comparable

Traduction automatique statistique (TAS)

Approche statistique, selon la formule suivante :

t∗ = arg maxt

P(s|t)P(t)

t∗ : meilleure traduction possible

langue source s et langue cible t

Modelisation

Modele de Langue : P(t)→ estime a l’aide de textes monolingues en langue cibleModele de Traduction : P(s|t)→ estime a l’aide de textes bilingues

Des outils tels que Moses et Joshua sont disponibles⇒ Besoin de donnees paralleles

5/ 51 Haithem Afli La TAS dans un contexte multimodal

Page 7: Présentation de thèse Haithem AFLI

IntroductionTravaux precedents

Extraction de phrases parallelesExtraction de segments paralleles

Conclusion et perspectives

Traduction automatique statistiqueCorpus paralleles et corpus comparablesConstruction du corpus multimodal comparable

Traduction automatique statistique (TAS)

Approche statistique, selon la formule suivante :

t∗ = arg maxt

P(s|t)P(t)

t∗ : meilleure traduction possible

langue source s et langue cible t

Modelisation

Modele de Langue : P(t)→ estime a l’aide de textes monolingues en langue cibleModele de Traduction : P(s|t)→ estime a l’aide de textes bilingues

Des outils tels que Moses et Joshua sont disponibles⇒ Besoin de donnees paralleles

5/ 51 Haithem Afli La TAS dans un contexte multimodal

Page 8: Présentation de thèse Haithem AFLI

IntroductionTravaux precedents

Extraction de phrases parallelesExtraction de segments paralleles

Conclusion et perspectives

Traduction automatique statistiqueCorpus paralleles et corpus comparablesConstruction du corpus multimodal comparable

Traduction automatique statistique (TAS)

Approche statistique, selon la formule suivante :

t∗ = arg maxt

P(s|t)P(t)

t∗ : meilleure traduction possible

langue source s et langue cible t

Modelisation

Modele de Langue : P(t)→ estime a l’aide de textes monolingues en langue cibleModele de Traduction : P(s|t)→ estime a l’aide de textes bilingues

Des outils tels que Moses et Joshua sont disponibles⇒ Besoin de donnees paralleles

5/ 51 Haithem Afli La TAS dans un contexte multimodal

Page 9: Présentation de thèse Haithem AFLI

IntroductionTravaux precedents

Extraction de phrases parallelesExtraction de segments paralleles

Conclusion et perspectives

Traduction automatique statistiqueCorpus paralleles et corpus comparablesConstruction du corpus multimodal comparable

Traduction automatique statistique (TAS)

Approche statistique, selon la formule suivante :

t∗ = arg maxt

P(s|t)P(t)

t∗ : meilleure traduction possible

langue source s et langue cible t

Modelisation

Modele de Langue : P(t)→ estime a l’aide de textes monolingues en langue cible

Modele de Traduction : P(s|t)→ estime a l’aide de textes bilingues

Des outils tels que Moses et Joshua sont disponibles⇒ Besoin de donnees paralleles

5/ 51 Haithem Afli La TAS dans un contexte multimodal

Page 10: Présentation de thèse Haithem AFLI

IntroductionTravaux precedents

Extraction de phrases parallelesExtraction de segments paralleles

Conclusion et perspectives

Traduction automatique statistiqueCorpus paralleles et corpus comparablesConstruction du corpus multimodal comparable

Traduction automatique statistique (TAS)

Approche statistique, selon la formule suivante :

t∗ = arg maxt

P(s|t)P(t)

t∗ : meilleure traduction possible

langue source s et langue cible t

Modelisation

Modele de Langue : P(t)→ estime a l’aide de textes monolingues en langue cibleModele de Traduction : P(s|t)→ estime a l’aide de textes bilingues

Des outils tels que Moses et Joshua sont disponibles⇒ Besoin de donnees paralleles

5/ 51 Haithem Afli La TAS dans un contexte multimodal

Page 11: Présentation de thèse Haithem AFLI

IntroductionTravaux precedents

Extraction de phrases parallelesExtraction de segments paralleles

Conclusion et perspectives

Traduction automatique statistiqueCorpus paralleles et corpus comparablesConstruction du corpus multimodal comparable

Traduction automatique statistique (TAS)

Approche statistique, selon la formule suivante :

t∗ = arg maxt

P(s|t)P(t)

t∗ : meilleure traduction possible

langue source s et langue cible t

Modelisation

Modele de Langue : P(t)→ estime a l’aide de textes monolingues en langue cibleModele de Traduction : P(s|t)→ estime a l’aide de textes bilingues

Des outils tels que Moses et Joshua sont disponibles⇒ Besoin de donnees paralleles

5/ 51 Haithem Afli La TAS dans un contexte multimodal

Page 12: Présentation de thèse Haithem AFLI

IntroductionTravaux precedents

Extraction de phrases parallelesExtraction de segments paralleles

Conclusion et perspectives

Traduction automatique statistiqueCorpus paralleles et corpus comparablesConstruction du corpus multimodal comparable

Corpus parallele : bitexte

Textes qui sont des traductions l’unde l’autre

Ressource essentielle pour la TAS

Donnees d’entraınement pour lesmodeles de traduction statistiques

Disponible en quantite limitee

languesdomaines specifiques

Couteux et long a construire

Traduction des phrases ...

⇒ Besoin d’autres solutions et sourcesPierre de Rosette

6/ 51 Haithem Afli La TAS dans un contexte multimodal

Page 13: Présentation de thèse Haithem AFLI

IntroductionTravaux precedents

Extraction de phrases parallelesExtraction de segments paralleles

Conclusion et perspectives

Traduction automatique statistiqueCorpus paralleles et corpus comparablesConstruction du corpus multimodal comparable

Exploitation des corpus comparables

Pas paralleles au sens strict

Contiennent les memes informationsDisponibles en grande quantite et en de nombreuses langues

Principalement a partir de sources journalistiques (newswire)AFP, Al JAZEERA, BBC ...

Projets recents : ACCURAT..

7/ 51 Haithem Afli La TAS dans un contexte multimodal

Page 14: Présentation de thèse Haithem AFLI

IntroductionTravaux precedents

Extraction de phrases parallelesExtraction de segments paralleles

Conclusion et perspectives

Traduction automatique statistiqueCorpus paralleles et corpus comparablesConstruction du corpus multimodal comparable

Donnees de modalites differentes

www.coursera.org/

www.

amara.org/

8/ 51 Haithem Afli La TAS dans un contexte multimodal

Page 15: Présentation de thèse Haithem AFLI

IntroductionTravaux precedents

Extraction de phrases parallelesExtraction de segments paralleles

Conclusion et perspectives

Traduction automatique statistiqueCorpus paralleles et corpus comparablesConstruction du corpus multimodal comparable

Objectif : exploiter des corpus comparables multimodaux

Extraction des données parallèles

Textes parallèles

Audio (L1) Textes (L2)

9/ 51 Haithem Afli La TAS dans un contexte multimodal

Page 16: Présentation de thèse Haithem AFLI

IntroductionTravaux precedents

Extraction de phrases parallelesExtraction de segments paralleles

Conclusion et perspectives

Traduction automatique statistiqueCorpus paralleles et corpus comparablesConstruction du corpus multimodal comparable

Definition. Un corpus multimodal comparable est une collectionde donnees de differentes modalites qui contiennent les memesinformations, mais ne sont pas des traductions exactes les unes desautres.

10/ 51 Haithem Afli La TAS dans un contexte multimodal

Page 17: Présentation de thèse Haithem AFLI

IntroductionTravaux precedents

Extraction de phrases parallelesExtraction de segments paralleles

Conclusion et perspectives

Traduction automatique statistiqueCorpus paralleles et corpus comparablesConstruction du corpus multimodal comparable

Problematiques

Faisabilite

Les corpus comparables multimodaux sont-ils utilisables pourextraire du texte parallele ?

Qualite

Est-il possible d’ameliorer un systeme de traduction avec lesdonnees extraites ?

Efficacite

Comment tirer parti au mieux des donnees disponibles ?

⇒ Besoin de construction de corpus multimodal (cas d’etude)

11/ 51 Haithem Afli La TAS dans un contexte multimodal

Page 18: Présentation de thèse Haithem AFLI

IntroductionTravaux precedents

Extraction de phrases parallelesExtraction de segments paralleles

Conclusion et perspectives

Traduction automatique statistiqueCorpus paralleles et corpus comparablesConstruction du corpus multimodal comparable

Problematiques

Faisabilite

Les corpus comparables multimodaux sont-ils utilisables pourextraire du texte parallele ?

Qualite

Est-il possible d’ameliorer un systeme de traduction avec lesdonnees extraites ?

Efficacite

Comment tirer parti au mieux des donnees disponibles ?

⇒ Besoin de construction de corpus multimodal (cas d’etude)

11/ 51 Haithem Afli La TAS dans un contexte multimodal

Page 19: Présentation de thèse Haithem AFLI

IntroductionTravaux precedents

Extraction de phrases parallelesExtraction de segments paralleles

Conclusion et perspectives

Traduction automatique statistiqueCorpus paralleles et corpus comparablesConstruction du corpus multimodal comparable

Problematiques

Faisabilite

Les corpus comparables multimodaux sont-ils utilisables pourextraire du texte parallele ?

Qualite

Est-il possible d’ameliorer un systeme de traduction avec lesdonnees extraites ?

Efficacite

Comment tirer parti au mieux des donnees disponibles ?

⇒ Besoin de construction de corpus multimodal (cas d’etude)

11/ 51 Haithem Afli La TAS dans un contexte multimodal

Page 20: Présentation de thèse Haithem AFLI

IntroductionTravaux precedents

Extraction de phrases parallelesExtraction de segments paralleles

Conclusion et perspectives

Traduction automatique statistiqueCorpus paralleles et corpus comparablesConstruction du corpus multimodal comparable

Le corpus TED-LIUM

TED : exposes scientifiques oraux en anglais disponibles avecleurs traductions en plusieurs langues, dont le francais

Traduction

Audio (en)

Texte (fr)

12/ 51 Haithem Afli La TAS dans un contexte multimodal

Page 21: Présentation de thèse Haithem AFLI

IntroductionTravaux precedents

Extraction de phrases parallelesExtraction de segments paralleles

Conclusion et perspectives

Traduction automatique statistiqueCorpus paralleles et corpus comparablesConstruction du corpus multimodal comparable

Le corpus TED-LIUM

Tache : exploiter des donnees de IWSLT’11→ detaillee dans [Rousseau et al., 2011]→ traduire des discours de TED de l’anglais vers le francais

utiliser la partie audio en anglais (TEDasr)

enrichir avec des textes paralleles (TEDbi)

Donnees # mots

TEDasr 1.8MTEDbi 1.9M

13/ 51 Haithem Afli La TAS dans un contexte multimodal

Page 22: Présentation de thèse Haithem AFLI

IntroductionTravaux precedents

Extraction de phrases parallelesExtraction de segments paralleles

Conclusion et perspectives

Traduction automatique statistiqueCorpus paralleles et corpus comparablesConstruction du corpus multimodal comparable

Le corpus bimodal Euronews

Audio comparable

Textes comparables

Transcription Transcription

Extraction des donnees sur la periode 2010 a 2012

14/ 51 Haithem Afli La TAS dans un contexte multimodal

Page 23: Présentation de thèse Haithem AFLI

IntroductionTravaux precedents

Extraction de phrases parallelesExtraction de segments paralleles

Conclusion et perspectives

Traduction automatique statistiqueCorpus paralleles et corpus comparablesConstruction du corpus multimodal comparable

Construction

Premiere phase :

1 telechargement de la liste des articles→ en deux langues (francais/anglais)

2 conservation de l’intersection→ la liste des articles qui ont des correspondances comparables

Deuxieme phase :

1 reperage du nom et du domaine de la video2 recuperation des videos et des textes qui correspondent3 extraction du flux audio de la video→ conversion dans le format utilise pour le systeme RAP

15/ 51 Haithem Afli La TAS dans un contexte multimodal

Page 24: Présentation de thèse Haithem AFLI

IntroductionTravaux precedents

Extraction de phrases parallelesExtraction de segments paralleles

Conclusion et perspectives

Traduction automatique statistiqueCorpus paralleles et corpus comparablesConstruction du corpus multimodal comparable

Le corpus Euronews-LIUM

Nombre de mots et de phrases de la transcription automatiquede la partie audio anglais

# mots # phrases

2.2 M 76 K

Quantite en termes de mots de la partie texte anglais/francais

# mots Fr # mots En

6.2 M 6.1 M

Plusieurs domaines : economie, sport, culture, Europe, stylede vie, politique et sciences.

16/ 51 Haithem Afli La TAS dans un contexte multimodal

Page 25: Présentation de thèse Haithem AFLI

IntroductionTravaux precedents

Extraction de phrases parallelesExtraction de segments paralleles

Conclusion et perspectives

Principales methodes existantesLa methode de traduction automatique

Plan

1 Introduction

2 Travaux precedentsPrincipales methodes existantesLa methode de traduction automatique

3 Extraction de phrases paralleles

4 Extraction de segments paralleles

5 Conclusion et perspectives

17/ 51 Haithem Afli La TAS dans un contexte multimodal

Page 26: Présentation de thèse Haithem AFLI

IntroductionTravaux precedents

Extraction de phrases parallelesExtraction de segments paralleles

Conclusion et perspectives

Principales methodes existantesLa methode de traduction automatique

Principales methodes existantes

Webcrawling : utilisation des URLs pour trouver desdocuments correspondants [Resnik and Smith, 2003].

Alignement : utilisation de modeles d’alignement de motspour estimer la proximite de deux documents (ou phrases) enlangue source et cible [Brown et al., 1991].

RI crosslingue : utilisation d’un lexique pour traduire lesmots source et utilisation de methodes de RI[Munteanu and Marcu, 2005].

Traduction automatique : utilisation d’un systeme de TASpour traduire les documents et utilisation de methodes de RI[AbduI-Rauf and Schwenk, 2009].

18/ 51 Haithem Afli La TAS dans un contexte multimodal

Page 27: Présentation de thèse Haithem AFLI

IntroductionTravaux precedents

Extraction de phrases parallelesExtraction de segments paralleles

Conclusion et perspectives

Principales methodes existantesLa methode de traduction automatique

Principales methodes existantes

Webcrawling : utilisation des URLs pour trouver desdocuments correspondants [Resnik and Smith, 2003].

Alignement : utilisation de modeles d’alignement de motspour estimer la proximite de deux documents (ou phrases) enlangue source et cible [Brown et al., 1991].

RI crosslingue : utilisation d’un lexique pour traduire lesmots source et utilisation de methodes de RI[Munteanu and Marcu, 2005].

Traduction automatique : utilisation d’un systeme de TASpour traduire les documents et utilisation de methodes de RI[AbduI-Rauf and Schwenk, 2009].

18/ 51 Haithem Afli La TAS dans un contexte multimodal

Page 28: Présentation de thèse Haithem AFLI

IntroductionTravaux precedents

Extraction de phrases parallelesExtraction de segments paralleles

Conclusion et perspectives

Principales methodes existantesLa methode de traduction automatique

Principales methodes existantes

Webcrawling : utilisation des URLs pour trouver desdocuments correspondants [Resnik and Smith, 2003].

Alignement : utilisation de modeles d’alignement de motspour estimer la proximite de deux documents (ou phrases) enlangue source et cible [Brown et al., 1991].

RI crosslingue : utilisation d’un lexique pour traduire lesmots source et utilisation de methodes de RI[Munteanu and Marcu, 2005].

Traduction automatique : utilisation d’un systeme de TASpour traduire les documents et utilisation de methodes de RI[AbduI-Rauf and Schwenk, 2009].

18/ 51 Haithem Afli La TAS dans un contexte multimodal

Page 29: Présentation de thèse Haithem AFLI

IntroductionTravaux precedents

Extraction de phrases parallelesExtraction de segments paralleles

Conclusion et perspectives

Principales methodes existantesLa methode de traduction automatique

Principales methodes existantes

Webcrawling : utilisation des URLs pour trouver desdocuments correspondants [Resnik and Smith, 2003].

Alignement : utilisation de modeles d’alignement de motspour estimer la proximite de deux documents (ou phrases) enlangue source et cible [Brown et al., 1991].

RI crosslingue : utilisation d’un lexique pour traduire lesmots source et utilisation de methodes de RI[Munteanu and Marcu, 2005].

Traduction automatique : utilisation d’un systeme de TASpour traduire les documents et utilisation de methodes de RI[AbduI-Rauf and Schwenk, 2009].

18/ 51 Haithem Afli La TAS dans un contexte multimodal

Page 30: Présentation de thèse Haithem AFLI

IntroductionTravaux precedents

Extraction de phrases parallelesExtraction de segments paralleles

Conclusion et perspectives

Principales methodes existantesLa methode de traduction automatique

Corpus comparable (textes) ----------

------------------------------

TAS

------------------------------------------------------------

........

...............------

------

------

-------- ----------------- ------------- -------- -------------

-------- ---------

articles d'actualités datés

articles de Gigaword (+- 5 jours)

phrases candidates

---- -------- -------- -------- ----

------

------

tail removal

Filtrage(TER,WER,TER+)

phrases parallèles

Traduction

Abdul-Rauf et Schwenk, 2009

lexique

---- -------- -------- -------- -------- -------- ----

Classifieur

---- -------- -------- -------- ----

---- -------- -------- -------- ----

........

Phrases candidates Phrases parallèlesPaires d'articles

Corpus comparable

Sélection d'articles

sélection de phrases

candidates

sélection de phrases

parallèles

Corpus parallèle

Munteanu et Marcu, 2005

19/ 51 Haithem Afli La TAS dans un contexte multimodal

Page 31: Présentation de thèse Haithem AFLI

IntroductionTravaux precedents

Extraction de phrases parallelesExtraction de segments paralleles

Conclusion et perspectives

Approche proposeeConditions experimentales et resultatsDiscussionAdaptation non supervisee

Plan

1 Introduction

2 Travaux precedents

3 Extraction de phrases parallelesApproche proposeeConditions experimentales et resultatsDiscussionAdaptation non supervisee

4 Extraction de segments paralleles

5 Conclusion et perspectives20/ 51 Haithem Afli La TAS dans un contexte multimodal

Page 32: Présentation de thèse Haithem AFLI

IntroductionTravaux precedents

Extraction de phrases parallelesExtraction de segments paralleles

Conclusion et perspectives

Approche proposeeConditions experimentales et resultatsDiscussionAdaptation non supervisee

Premiere approche proposee [Afli et al., 2012]

Etapes

1 Transcrire les donnees audio

2 Traduire ces transcriptions

3 Utiliser les traductionscomme requetes de RI

4 Utiliser le TER entrela requete et le resultat deRI comme metriquede filtrage

5 Generer le bitexte

Audio L1

Trans. L1

Trad. L2

Texte L2

RAP

TAS

RI

Textes L2

Corpus multimodal

Bitextes

Phrases L2

Filtrage

21/ 51 Haithem Afli La TAS dans un contexte multimodal

Page 33: Présentation de thèse Haithem AFLI

IntroductionTravaux precedents

Extraction de phrases parallelesExtraction de segments paralleles

Conclusion et perspectives

Approche proposeeConditions experimentales et resultatsDiscussionAdaptation non supervisee

Premiere approche proposee [Afli et al., 2012]

Etapes

1 Transcrire les donnees audio

2 Traduire ces transcriptions

3 Utiliser les traductionscomme requetes de RI

4 Utiliser le TER entrela requete et le resultat deRI comme metriquede filtrage

5 Generer le bitexte

Audio L1

Trans. L1

Trad. L2

Texte L2

RAP

TAS

RI

Textes L2

Corpus multimodal

Bitextes

Phrases L2

Filtrage

21/ 51 Haithem Afli La TAS dans un contexte multimodal

Page 34: Présentation de thèse Haithem AFLI

IntroductionTravaux precedents

Extraction de phrases parallelesExtraction de segments paralleles

Conclusion et perspectives

Approche proposeeConditions experimentales et resultatsDiscussionAdaptation non supervisee

Premiere approche proposee [Afli et al., 2012]

Etapes

1 Transcrire les donnees audio

2 Traduire ces transcriptions

3 Utiliser les traductionscomme requetes de RI

4 Utiliser le TER entrela requete et le resultat deRI comme metriquede filtrage

5 Generer le bitexte

Audio L1

Trans. L1

Trad. L2

Texte L2

RAP

TAS

RI

Textes L2

Corpus multimodal

Bitextes

Phrases L2

Filtrage

21/ 51 Haithem Afli La TAS dans un contexte multimodal

Page 35: Présentation de thèse Haithem AFLI

IntroductionTravaux precedents

Extraction de phrases parallelesExtraction de segments paralleles

Conclusion et perspectives

Approche proposeeConditions experimentales et resultatsDiscussionAdaptation non supervisee

Premiere approche proposee [Afli et al., 2012]

Etapes

1 Transcrire les donnees audio

2 Traduire ces transcriptions

3 Utiliser les traductionscomme requetes de RI

4 Utiliser le TER entrela requete et le resultat deRI comme metriquede filtrage

5 Generer le bitexte

Audio L1

Trans. L1

Trad. L2

Texte L2

RAP

TAS

RI

Textes L2

Corpus multimodal

Bitextes

Phrases L2

Filtrage

21/ 51 Haithem Afli La TAS dans un contexte multimodal

Page 36: Présentation de thèse Haithem AFLI

IntroductionTravaux precedents

Extraction de phrases parallelesExtraction de segments paralleles

Conclusion et perspectives

Approche proposeeConditions experimentales et resultatsDiscussionAdaptation non supervisee

Premiere approche proposee [Afli et al., 2012]

Etapes

1 Transcrire les donnees audio

2 Traduire ces transcriptions

3 Utiliser les traductionscomme requetes de RI

4 Utiliser le TER entrela requete et le resultat deRI comme metriquede filtrage

5 Generer le bitexte

Audio L1

Trans. L1

Trad. L2

Texte L2

RAP

TAS

RI

Textes L2

Corpus multimodal

Bitextes

Phrases L2

Filtrage

21/ 51 Haithem Afli La TAS dans un contexte multimodal

Page 37: Présentation de thèse Haithem AFLI

IntroductionTravaux precedents

Extraction de phrases parallelesExtraction de segments paralleles

Conclusion et perspectives

Approche proposeeConditions experimentales et resultatsDiscussionAdaptation non supervisee

Cadre experimental (1) : faisabilite

Analyse de l’impact deserreurs commises par lesdifferents modules

Exp 1 : le systeme de RAPet de TAS ne commettentaucune erreur.

Exp 2 : erreurs du systemede traduction.

Exp 3 : cas reel,enchaınement de tous lesmodules automatiques

Exp 1

Réf. de trad.Fr

Texte Fr

RI

Données génériques +% Réf. fr

22/ 51 Haithem Afli La TAS dans un contexte multimodal

Page 38: Présentation de thèse Haithem AFLI

IntroductionTravaux precedents

Extraction de phrases parallelesExtraction de segments paralleles

Conclusion et perspectives

Approche proposeeConditions experimentales et resultatsDiscussionAdaptation non supervisee

Cadre experimental (1) : faisabilite

Analyse de l’impact deserreurs commises par lesdifferents modules

Exp 1 : le systeme de RAPet de TAS ne commettentaucune erreur.

Exp 2 : erreurs du systemede traduction.

Exp 3 : cas reel,enchaınement de tous lesmodules automatiques

Exp 1 Exp 2

Réf. de trans.En

Trad. auto.Fr

Texte Fr

TAS

RI

Réf. de trad.Fr

Texte Fr

RI

Données génériques +% Réf. fr

22/ 51 Haithem Afli La TAS dans un contexte multimodal

Page 39: Présentation de thèse Haithem AFLI

IntroductionTravaux precedents

Extraction de phrases parallelesExtraction de segments paralleles

Conclusion et perspectives

Approche proposeeConditions experimentales et resultatsDiscussionAdaptation non supervisee

Cadre experimental (1) : faisabilite

Analyse de l’impact deserreurs commises par lesdifferents modules

Exp 1 : le systeme de RAPet de TAS ne commettentaucune erreur.

Exp 2 : erreurs du systemede traduction.

Exp 3 : cas reel,enchaınement de tous lesmodules automatiques

TED audio

Trans. auto.En

Trad. auto.Fr

Texte Fr

RAP

TAS

RI

Exp 1 Exp 2 Exp 3

Réf. de trans.En

Trad. auto.Fr

Texte Fr

TAS

RI

Réf. de trad.Fr

Texte Fr

RI

Données génériques +% Réf. fr

22/ 51 Haithem Afli La TAS dans un contexte multimodal

Page 40: Présentation de thèse Haithem AFLI

IntroductionTravaux precedents

Extraction de phrases parallelesExtraction de segments paralleles

Conclusion et perspectives

Approche proposeeConditions experimentales et resultatsDiscussionAdaptation non supervisee

Cadre experimental (2)

Analyse de l’importance du degre de similarite

→ construction artificielle de 4 corpus comparables avecdifferents degres de similarite

le cote source est toujours le memela partie cible est composee d’un grand corpus generiqueauquel est ajoute 25%, 50%, 75% et 100% des traductions dereference

23/ 51 Haithem Afli La TAS dans un contexte multimodal

Page 41: Présentation de thèse Haithem AFLI

IntroductionTravaux precedents

Extraction de phrases parallelesExtraction de segments paralleles

Conclusion et perspectives

Approche proposeeConditions experimentales et resultatsDiscussionAdaptation non supervisee

Cadre experimental (2)

Analyse de l’importance du degre de similarite→ construction artificielle de 4 corpus comparables avecdifferents degres de similarite

le cote source est toujours le memela partie cible est composee d’un grand corpus generiqueauquel est ajoute 25%, 50%, 75% et 100% des traductions dereference

23/ 51 Haithem Afli La TAS dans un contexte multimodal

Page 42: Présentation de thèse Haithem AFLI

IntroductionTravaux precedents

Extraction de phrases parallelesExtraction de segments paralleles

Conclusion et perspectives

Approche proposeeConditions experimentales et resultatsDiscussionAdaptation non supervisee

Donnees

Evaluation de l’approcheles donnees extraites sont reinjectees dans le systeme de baseles systemes sont evalues automatiquement avec BLEU

Entraınementbitextes # mots generiques

nc7 3.7M ouieparl7 56.4M oui

Corpus de developpement et de testDev # mots

devTED.en 36kdevEuronews 74k

Test # mots

tstTED.en 8.7ktstEuronews 61k

24/ 51 Haithem Afli La TAS dans un contexte multimodal

Page 43: Présentation de thèse Haithem AFLI

IntroductionTravaux precedents

Extraction de phrases parallelesExtraction de segments paralleles

Conclusion et perspectives

Approche proposeeConditions experimentales et resultatsDiscussionAdaptation non supervisee

Experimentation : modules

RAP : systeme 5-passes fonde sur CMU Sphinx

WER d’environ 18%

TAS : systeme a base de segment utilisant Moses

entraıne sur les donnees generiques

RI : utilisation de l’outil Lemur

indexation de toutes les donnees cibles (en francais)

25/ 51 Haithem Afli La TAS dans un contexte multimodal

Page 44: Présentation de thèse Haithem AFLI

IntroductionTravaux precedents

Extraction de phrases parallelesExtraction de segments paralleles

Conclusion et perspectives

Approche proposeeConditions experimentales et resultatsDiscussionAdaptation non supervisee

Exemple de deroulement : extraction

Phrase en anglais (sortie RAP) : ... you get asupercomputer because they know how to take ...

Requete en francais (sortie TAS) : ... vous obtenez unsupercomputer parce qu’ils savent comment prendre ..

Phrase trouvee (sortie RI) : ... vous prenez unsuperordinateur car ils savent comment concentrer ...

26/ 51 Haithem Afli La TAS dans un contexte multimodal

Page 45: Présentation de thèse Haithem AFLI

IntroductionTravaux precedents

Extraction de phrases parallelesExtraction de segments paralleles

Conclusion et perspectives

Approche proposeeConditions experimentales et resultatsDiscussionAdaptation non supervisee

Exemple de deroulement : extraction

Phrase en anglais (sortie RAP) : ... you get asupercomputer because they know how to take ...

Requete en francais (sortie TAS) : ... vous obtenez unsupercomputer parce qu’ils savent comment prendre ..

Phrase trouvee (sortie RI) : ... vous prenez unsuperordinateur car ils savent comment concentrer ...

26/ 51 Haithem Afli La TAS dans un contexte multimodal

Page 46: Présentation de thèse Haithem AFLI

IntroductionTravaux precedents

Extraction de phrases parallelesExtraction de segments paralleles

Conclusion et perspectives

Approche proposeeConditions experimentales et resultatsDiscussionAdaptation non supervisee

Exemple de deroulement : extraction

Phrase en anglais (sortie RAP) : ... you get asupercomputer because they know how to take ...

Requete en francais (sortie TAS) : ... vous obtenez unsupercomputer parce qu’ils savent comment prendre ..

Phrase trouvee (sortie RI) : ... vous prenez unsuperordinateur car ils savent comment concentrer ...

26/ 51 Haithem Afli La TAS dans un contexte multimodal

Page 47: Présentation de thèse Haithem AFLI

IntroductionTravaux precedents

Extraction de phrases parallelesExtraction de segments paralleles

Conclusion et perspectives

Approche proposeeConditions experimentales et resultatsDiscussionAdaptation non supervisee

Exemple de deroulement : extraction

Phrase en anglais (sortie RAP) : ... you get asupercomputer because they know how to take ...

Requete en francais (sortie TAS) : ... vous obtenez unsupercomputer parce qu’ils savent comment prendre ..

Phrase trouvee (sortie RI) : ... vous prenez unsuperordinateur car ils savent comment concentrer ...

26/ 51 Haithem Afli La TAS dans un contexte multimodal

Page 48: Présentation de thèse Haithem AFLI

IntroductionTravaux precedents

Extraction de phrases parallelesExtraction de segments paralleles

Conclusion et perspectives

Approche proposeeConditions experimentales et resultatsDiscussionAdaptation non supervisee

Exemple de deroulement : amelioration

Test audio

Sortie ASR a supercomputer has calculatedthat humans and only ...

Reference a supercomputer has calculatedthat humans have only ...

Traductions de la sortie ASR

Systeme de base un supercomputera calcule que les humains et seulement ...

Systeme adapte un superordinateura calcule que les humains et seulement ...

Reference un superordinateur a calculeque les humains n’avaient plus que ...

27/ 51 Haithem Afli La TAS dans un contexte multimodal

Page 49: Présentation de thèse Haithem AFLI

IntroductionTravaux precedents

Extraction de phrases parallelesExtraction de segments paralleles

Conclusion et perspectives

Approche proposeeConditions experimentales et resultatsDiscussionAdaptation non supervisee

Synthese des resultats : filtrage

22.5

23

23.5

24

24.5

0 20 40 60 80 100

scor

e BL

EU

TER threshold

Exp1Exp2Exp3

22

22.5

23

23.5

24

24.5

25

25.5

26

0 20 40 60 80 100

scor

e BL

EU

seuil TER

Exp1Exp2Exp3

Donnees generiques + 25% TEDbi

Donnees generiques + 100% TEDbi

28/ 51 Haithem Afli La TAS dans un contexte multimodal

Page 50: Présentation de thèse Haithem AFLI

IntroductionTravaux precedents

Extraction de phrases parallelesExtraction de segments paralleles

Conclusion et perspectives

Approche proposeeConditions experimentales et resultatsDiscussionAdaptation non supervisee

Synthese des resultats : filtrage

le choix du seuil de TER adequat depend de la nature desdonnees

le meilleur seuil pour les donnees TED est dans l’intervalle[80-90]→ le seuil de 80 est retenu pour le filtrage des resultats

⇒ ce choix est confirme par les resultats obtenus sur TestTED

29/ 51 Haithem Afli La TAS dans un contexte multimodal

Page 51: Présentation de thèse Haithem AFLI

IntroductionTravaux precedents

Extraction de phrases parallelesExtraction de segments paralleles

Conclusion et perspectives

Approche proposeeConditions experimentales et resultatsDiscussionAdaptation non supervisee

Synthese de resultats : enchaınement des modules

Comparaison des donnees extraites dans les differentes Exp

Experience DevTED TstTED

Systeme de base 22.93 23.96Exp1 (ref TAS) 24.14 25.14Exp2 (ref RAP) 23.90 25.15Exp3 (RAP+TAS+RI) 23.40 24.69

les phrases extraites permettent d’ameliorer le systeme de TAS→ faisabilite

moins d’impacts des erreurs de TAS→ plus en RAP

30/ 51 Haithem Afli La TAS dans un contexte multimodal

Page 52: Présentation de thèse Haithem AFLI

IntroductionTravaux precedents

Extraction de phrases parallelesExtraction de segments paralleles

Conclusion et perspectives

Approche proposeeConditions experimentales et resultatsDiscussionAdaptation non supervisee

Synthese de resultats : enchaınement des modules

Comparaison des donnees extraites dans les differentes Exp

Experience DevTED TstTED

Systeme de base 22.93 23.96Exp1 (ref TAS) 24.14 25.14Exp2 (ref RAP) 23.90 25.15Exp3 (RAP+TAS+RI) 23.40 24.69

les phrases extraites permettent d’ameliorer le systeme de TAS→ faisabilite

moins d’impacts des erreurs de TAS→ plus en RAP

30/ 51 Haithem Afli La TAS dans un contexte multimodal

Page 53: Présentation de thèse Haithem AFLI

IntroductionTravaux precedents

Extraction de phrases parallelesExtraction de segments paralleles

Conclusion et perspectives

Approche proposeeConditions experimentales et resultatsDiscussionAdaptation non supervisee

Synthese de resultats : enchaınement des modules

Comparaison des donnees extraites dans les differentes Exp

Experience DevTED TstTED

Systeme de base 22.93 23.96Exp1 (ref TAS) 24.14 25.14Exp2 (ref RAP) 23.90 25.15Exp3 (RAP+TAS+RI) 23.40 24.69

les phrases extraites permettent d’ameliorer le systeme de TAS→ faisabilite

moins d’impacts des erreurs de TAS→ plus en RAP

30/ 51 Haithem Afli La TAS dans un contexte multimodal

Page 54: Présentation de thèse Haithem AFLI

IntroductionTravaux precedents

Extraction de phrases parallelesExtraction de segments paralleles

Conclusion et perspectives

Approche proposeeConditions experimentales et resultatsDiscussionAdaptation non supervisee

Synthese de resultats : enchaınement des modules

Comparaison des donnees extraites dans les differentes Exp

Experience DevTED TstTED

Systeme de base 22.93 23.96Exp1 (ref TAS) 24.14 25.14Exp2 (ref RAP) 23.90 25.15Exp3 (RAP+TAS+RI) 23.40 24.69

les phrases extraites permettent d’ameliorer le systeme de TAS→ faisabilite

moins d’impacts des erreurs de TAS→ plus en RAP

30/ 51 Haithem Afli La TAS dans un contexte multimodal

Page 55: Présentation de thèse Haithem AFLI

IntroductionTravaux precedents

Extraction de phrases parallelesExtraction de segments paralleles

Conclusion et perspectives

Approche proposeeConditions experimentales et resultatsDiscussionAdaptation non supervisee

Synthese des resultats : degre de comparabilite

Scores BLEU pour differents degres de comparabilite

Experience DevTED TstTED # mots injectes

Systeme de base 22.93 23.96 -25% TEDbi 23.11 24.40 ∼110k50% TEDbi 23.27 24.58 ∼215k75% TEDbi 23.43 24.42 ∼293k100% TEDbi 23.40 24.69 ∼393k

TEDbi 1.9 M

meilleurs resultats avec 75% et 100%

les modules de RI et filtrage sont tres importants

quantites faibles

31/ 51 Haithem Afli La TAS dans un contexte multimodal

Page 56: Présentation de thèse Haithem AFLI

IntroductionTravaux precedents

Extraction de phrases parallelesExtraction de segments paralleles

Conclusion et perspectives

Approche proposeeConditions experimentales et resultatsDiscussionAdaptation non supervisee

Synthese des resultats : degre de comparabilite

Scores BLEU pour differents degres de comparabilite

Experience DevTED TstTED # mots injectes

Systeme de base 22.93 23.96 -25% TEDbi 23.11 24.40 ∼110k50% TEDbi 23.27 24.58 ∼215k75% TEDbi 23.43 24.42 ∼293k100% TEDbi 23.40 24.69 ∼393k

TEDbi 1.9 M

meilleurs resultats avec 75% et 100%

les modules de RI et filtrage sont tres importants

quantites faibles

31/ 51 Haithem Afli La TAS dans un contexte multimodal

Page 57: Présentation de thèse Haithem AFLI

IntroductionTravaux precedents

Extraction de phrases parallelesExtraction de segments paralleles

Conclusion et perspectives

Approche proposeeConditions experimentales et resultatsDiscussionAdaptation non supervisee

Synthese des resultats : degre de comparabilite

Scores BLEU pour differents degres de comparabilite

Experience DevTED TstTED # mots injectes

Systeme de base 22.93 23.96 -25% TEDbi 23.11 24.40 ∼110k50% TEDbi 23.27 24.58 ∼215k75% TEDbi 23.43 24.42 ∼293k100% TEDbi 23.40 24.69 ∼393k

TEDbi 1.9 M

meilleurs resultats avec 75% et 100%

les modules de RI et filtrage sont tres importants

quantites faibles

31/ 51 Haithem Afli La TAS dans un contexte multimodal

Page 58: Présentation de thèse Haithem AFLI

IntroductionTravaux precedents

Extraction de phrases parallelesExtraction de segments paralleles

Conclusion et perspectives

Approche proposeeConditions experimentales et resultatsDiscussionAdaptation non supervisee

Discussion

Constat

Les phrases paralleles extraites ameliorent les systemes detraduction

mais la quantite est faible

→ Comment optimiser l’exploitation des corpus pour extrairedavantage de donnees paralleles ?

Types d’erreurs

Les phrases les plus longues ont un TER eleve⇒ exclues par le filtrage meme si elles contiennent de bonnestraductions

32/ 51 Haithem Afli La TAS dans un contexte multimodal

Page 59: Présentation de thèse Haithem AFLI

IntroductionTravaux precedents

Extraction de phrases parallelesExtraction de segments paralleles

Conclusion et perspectives

Approche proposeeConditions experimentales et resultatsDiscussionAdaptation non supervisee

Approche legerement supervisee (unsup)

Objectif : completer les resultats de la RI

En Fr

TASEn-Fr

En Fr

2

1

En Fr

Filtragede

données

2 etapes [Schwenk, 2009] :traduction des donnees monolingues (anglais) avec le systemede basefiltrage des resultats pour eliminer les paires de phrases nondesirees

33/ 51 Haithem Afli La TAS dans un contexte multimodal

Page 60: Présentation de thèse Haithem AFLI

IntroductionTravaux precedents

Extraction de phrases parallelesExtraction de segments paralleles

Conclusion et perspectives

Approche proposeeConditions experimentales et resultatsDiscussionAdaptation non supervisee

Approche legerement supervisee (unsup)

Objectif : completer les resultats de la RI

En Fr

TASEn-Fr

En Fr

2

1

En Fr

Filtragede

données

2 etapes [Schwenk, 2009] :traduction des donnees monolingues (anglais) avec le systemede basefiltrage des resultats pour eliminer les paires de phrases nondesirees

33/ 51 Haithem Afli La TAS dans un contexte multimodal

Page 61: Présentation de thèse Haithem AFLI

IntroductionTravaux precedents

Extraction de phrases parallelesExtraction de segments paralleles

Conclusion et perspectives

Approche proposeeConditions experimentales et resultatsDiscussionAdaptation non supervisee

RI & unsup : resultats

22.5

23

23.5

24

24.5

70 75 80 85 90 95 100

Scor

e BL

EU

Seuil TER

RI + UnsupBaseline

RI

pas d’amelioration significative

⇒ Chercher d’autres solutions pour augmenter la couverture

34/ 51 Haithem Afli La TAS dans un contexte multimodal

Page 62: Présentation de thèse Haithem AFLI

IntroductionTravaux precedents

Extraction de phrases parallelesExtraction de segments paralleles

Conclusion et perspectives

Approche proposeeConditions experimentales et resultatsDiscussionAdaptation non supervisee

Segments paralleles

35/ 51 Haithem Afli La TAS dans un contexte multimodal

Page 63: Présentation de thèse Haithem AFLI

IntroductionTravaux precedents

Extraction de phrases parallelesExtraction de segments paralleles

Conclusion et perspectives

Methode PhrExtractDiscussionMethode SenExtract +LLR lex

Plan

1 Introduction

2 Travaux precedents

3 Extraction de phrases paralleles

4 Extraction de segments parallelesMethode PhrExtractDiscussionMethode SenExtract +LLR lex

5 Conclusion et perspectives

36/ 51 Haithem Afli La TAS dans un contexte multimodal

Page 64: Présentation de thèse Haithem AFLI

IntroductionTravaux precedents

Extraction de phrases parallelesExtraction de segments paralleles

Conclusion et perspectives

Methode PhrExtractDiscussionMethode SenExtract +LLR lex

Extraction des segments paralleles

L’approche associative : reposer sur des mesures commel’information mutuelle ou le rapport de vraisemblance

[Munteanu and Marcu, 2006][Hewavitharana and Vogel, 2011]

L’alignement : determiner le meilleur ensemble de liensd’alignement entre des groupes de mots sources et cibles dechaque paire de phrases ou documents

[Quirk et al., 2007][Riesa and Marcu, 2012].

37/ 51 Haithem Afli La TAS dans un contexte multimodal

Page 65: Présentation de thèse Haithem AFLI

IntroductionTravaux precedents

Extraction de phrases parallelesExtraction de segments paralleles

Conclusion et perspectives

Methode PhrExtractDiscussionMethode SenExtract +LLR lex

Methode proposee [Afli et al., 2013]

1 generer tous les segmentspossibles→ segments de 2 a 10 mots

la sortie du systeme RAP

le corpus texte de RI

2 appliquer la mememethode d’extractionutilisee dans SentExtract⇒ aligner les segmentsparalleles

Audio L1

Phrases L1

Traductions L2

Segments L2

RAP

TAS

RI

Textes L2

Corpus Comparable multimodal

DonnéesParallèles

Filtrage

Segments L1

Découpage

Segments L2

Découpage

38/ 51 Haithem Afli La TAS dans un contexte multimodal

Page 66: Présentation de thèse Haithem AFLI

IntroductionTravaux precedents

Extraction de phrases parallelesExtraction de segments paralleles

Conclusion et perspectives

Methode PhrExtractDiscussionMethode SenExtract +LLR lex

Methode proposee [Afli et al., 2013]

1 generer tous les segmentspossibles→ segments de 2 a 10 mots

la sortie du systeme RAPle corpus texte de RI

2 appliquer la mememethode d’extractionutilisee dans SentExtract⇒ aligner les segmentsparalleles

Audio L1

Phrases L1

Traductions L2

Segments L2

RAP

TAS

RI

Textes L2

Corpus Comparable multimodal

DonnéesParallèles

Filtrage

Segments L1

Découpage

Segments L2

Découpage

38/ 51 Haithem Afli La TAS dans un contexte multimodal

Page 67: Présentation de thèse Haithem AFLI

IntroductionTravaux precedents

Extraction de phrases parallelesExtraction de segments paralleles

Conclusion et perspectives

Methode PhrExtractDiscussionMethode SenExtract +LLR lex

Methode proposee [Afli et al., 2013]

1 generer tous les segmentspossibles→ segments de 2 a 10 mots

la sortie du systeme RAPle corpus texte de RI

2 appliquer la mememethode d’extractionutilisee dans SentExtract⇒ aligner les segmentsparalleles

Audio L1

Phrases L1

Traductions L2

Segments L2

RAP

TAS

RI

Textes L2

Corpus Comparable multimodal

DonnéesParallèles

Filtrage

Segments L1

Découpage

Segments L2

Découpage

38/ 51 Haithem Afli La TAS dans un contexte multimodal

Page 68: Présentation de thèse Haithem AFLI

IntroductionTravaux precedents

Extraction de phrases parallelesExtraction de segments paralleles

Conclusion et perspectives

Methode PhrExtractDiscussionMethode SenExtract +LLR lex

PhrExtract vs SentExtract, donnees TED

TER SentExtract PhrExtract

0 22.86 23.3910 22.97 23.3520 23.06 23.5330 22.95 23.3940 22.92 23.4550 23.26 23.5460 23.10 23.7070 23.29 23.4180 23.40 23.4090 23.39 23.18

100 23.34 23.26

Baseline 22.93

39/ 51 Haithem Afli La TAS dans un contexte multimodal

Page 69: Présentation de thèse Haithem AFLI

IntroductionTravaux precedents

Extraction de phrases parallelesExtraction de segments paralleles

Conclusion et perspectives

Methode PhrExtractDiscussionMethode SenExtract +LLR lex

PhrExtract vs SentExtract, donnees TED

TER SentExtract PhrExtract

0 22.86 23.3910 22.97 23.3520 23.06 23.5330 22.95 23.3940 22.92 23.4550 23.26 23.5460 23.10 23.7070 23.29 23.4180 23.40 23.4090 23.39 23.18

100 23.34 23.26

Baseline 22.93

39/ 51 Haithem Afli La TAS dans un contexte multimodal

Page 70: Présentation de thèse Haithem AFLI

IntroductionTravaux precedents

Extraction de phrases parallelesExtraction de segments paralleles

Conclusion et perspectives

Methode PhrExtractDiscussionMethode SenExtract +LLR lex

PhrExtract vs SentExtract, donnees TED

TER SentExtract PhrExtract

0 22.86 23.3910 22.97 23.3520 23.06 23.5330 22.95 23.3940 22.92 23.4550 23.26 23.5460 23.10 23.7070 23.29 23.4180 23.40 23.4090 23.39 23.18

100 23.34 23.26

Baseline 22.93

39/ 51 Haithem Afli La TAS dans un contexte multimodal

Page 71: Présentation de thèse Haithem AFLI

IntroductionTravaux precedents

Extraction de phrases parallelesExtraction de segments paralleles

Conclusion et perspectives

Methode PhrExtractDiscussionMethode SenExtract +LLR lex

Application sur les donnees Euronews

TER # mots (fr) devEuronews tstEuronews

0 90 k 29.95 27.1320 168 k 30.01 27.3330 322 k 30.04 27.5940 769 k 29.92 27.4550 1.9 M 30.03 27.2760 3.1M 29.92 27.3070 5.7M 29.83 27.1180 12.39 M 29.73 27.1090 25.7 M 29.73 26.88

100 40.3 M 29.52 26.53

Baseline 60.1M 25.19 22.12

40/ 51 Haithem Afli La TAS dans un contexte multimodal

Page 72: Présentation de thèse Haithem AFLI

IntroductionTravaux precedents

Extraction de phrases parallelesExtraction de segments paralleles

Conclusion et perspectives

Methode PhrExtractDiscussionMethode SenExtract +LLR lex

Application sur les donnees Euronews

TER # mots (fr) devEuronews tstEuronews

0 90 k 29.95 27.1320 168 k 30.01 27.3330 322 k 30.04 27.5940 769 k 29.92 27.4550 1.9 M 30.03 27.2760 3.1M 29.92 27.3070 5.7M 29.83 27.1180 12.39 M 29.73 27.1090 25.7 M 29.73 26.88

100 40.3 M 29.52 26.53

Baseline 60.1M 25.19 22.12

40/ 51 Haithem Afli La TAS dans un contexte multimodal

Page 73: Présentation de thèse Haithem AFLI

IntroductionTravaux precedents

Extraction de phrases parallelesExtraction de segments paralleles

Conclusion et perspectives

Methode PhrExtractDiscussionMethode SenExtract +LLR lex

Discussion

Amelioration des resultats

redondance

Approche actuelle de filtrage :

seuil de TER entre traduction et resultat de RI

Ecueils :

approche empirique pour determiner le seuilstatique

⇒ Utilisation de la methode LLR (Log Likelihood Ratio)[Munteanu and Marcu, 2006]

41/ 51 Haithem Afli La TAS dans un contexte multimodal

Page 74: Présentation de thèse Haithem AFLI

IntroductionTravaux precedents

Extraction de phrases parallelesExtraction de segments paralleles

Conclusion et perspectives

Methode PhrExtractDiscussionMethode SenExtract +LLR lex

Discussion

Amelioration des resultats

redondance

Approche actuelle de filtrage :

seuil de TER entre traduction et resultat de RI

Ecueils :

approche empirique pour determiner le seuilstatique

⇒ Utilisation de la methode LLR (Log Likelihood Ratio)[Munteanu and Marcu, 2006]

41/ 51 Haithem Afli La TAS dans un contexte multimodal

Page 75: Présentation de thèse Haithem AFLI

IntroductionTravaux precedents

Extraction de phrases parallelesExtraction de segments paralleles

Conclusion et perspectives

Methode PhrExtractDiscussionMethode SenExtract +LLR lex

Filtrage avec LLR

LLR :

le rapport de vraisemblance

l’independance despaires de mots qui co-occurent

LLR faible→ mots independants

LLR augmente→ mots associes

[Munteanu and Marcu, 2006]

42/ 51 Haithem Afli La TAS dans un contexte multimodal

Page 76: Présentation de thèse Haithem AFLI

IntroductionTravaux precedents

Extraction de phrases parallelesExtraction de segments paralleles

Conclusion et perspectives

Methode PhrExtractDiscussionMethode SenExtract +LLR lex

SenExtract +LLR lex : architecture [Afli et al., 2014]

1 utiliser le systemed’extraction des phrases,considerees quasi paralleles

2 construire le lexique LLR lexa partir des donneesd’apprentissage du TAS

3 detecter, a l’aide du lexique,les fragments paralleles dansles phrases generees

Audio L1

Phrases L1

Traductions L2

Phrases L2

RAP

TAS

Texts L2

Corpus Comparable multimodal

PhrasesQuasi-

Parallèles

RI

Corpus parallèlede base

LexiqueLLR

Génération desSegments

Lex.Extraction

Apprentissage

Segments parallèles

43/ 51 Haithem Afli La TAS dans un contexte multimodal

Page 77: Présentation de thèse Haithem AFLI

IntroductionTravaux precedents

Extraction de phrases parallelesExtraction de segments paralleles

Conclusion et perspectives

Methode PhrExtractDiscussionMethode SenExtract +LLR lex

SenExtract +LLR lex : architecture [Afli et al., 2014]

1 utiliser le systemed’extraction des phrases,considerees quasi paralleles

2 construire le lexique LLR lexa partir des donneesd’apprentissage du TAS

3 detecter, a l’aide du lexique,les fragments paralleles dansles phrases generees

Audio L1

Phrases L1

Traductions L2

Phrases L2

RAP

TAS

Texts L2

Corpus Comparable multimodal

PhrasesQuasi-

Parallèles

RI

Corpus parallèlede base

LexiqueLLR

Génération desSegments

Lex.Extraction

Apprentissage

Segments parallèles

43/ 51 Haithem Afli La TAS dans un contexte multimodal

Page 78: Présentation de thèse Haithem AFLI

IntroductionTravaux precedents

Extraction de phrases parallelesExtraction de segments paralleles

Conclusion et perspectives

Methode PhrExtractDiscussionMethode SenExtract +LLR lex

SenExtract +LLR lex : architecture [Afli et al., 2014]

1 utiliser le systemed’extraction des phrases,considerees quasi paralleles

2 construire le lexique LLR lexa partir des donneesd’apprentissage du TAS

3 detecter, a l’aide du lexique,les fragments paralleles dansles phrases generees

Audio L1

Phrases L1

Traductions L2

Phrases L2

RAP

TAS

Texts L2

Corpus Comparable multimodal

PhrasesQuasi-

Parallèles

RI

Corpus parallèlede base

LexiqueLLR

Génération desSegments

Lex.Extraction

Apprentissage

Segments parallèles

43/ 51 Haithem Afli La TAS dans un contexte multimodal

Page 79: Présentation de thèse Haithem AFLI

IntroductionTravaux precedents

Extraction de phrases parallelesExtraction de segments paralleles

Conclusion et perspectives

Methode PhrExtractDiscussionMethode SenExtract +LLR lex

Resultats : donnees TED

Quantites de donnees extraites

Methodes # mots (en) # mots (fr)

PhrExtract (TER 60) 321 k 322 kSenExtract +LLR lex 236 k 224 k

Scores BLEU

Systemes devTED tstTED

Baseline 22.93 23.96PhrExtract (TER 60) 23.70 24.84SenExtract +LLR lex 23.63 24.88

44/ 51 Haithem Afli La TAS dans un contexte multimodal

Page 80: Présentation de thèse Haithem AFLI

IntroductionTravaux precedents

Extraction de phrases parallelesExtraction de segments paralleles

Conclusion et perspectives

Methode PhrExtractDiscussionMethode SenExtract +LLR lex

Resultats : donnees TED

Quantites de donnees extraites

Methodes # mots (en) # mots (fr)

PhrExtract (TER 60) 321 k 322 kSenExtract +LLR lex 236 k 224 k

Scores BLEU

Systemes devTED tstTED

Baseline 22.93 23.96PhrExtract (TER 60) 23.70 24.84SenExtract +LLR lex 23.63 24.88

44/ 51 Haithem Afli La TAS dans un contexte multimodal

Page 81: Présentation de thèse Haithem AFLI

IntroductionTravaux precedents

Extraction de phrases parallelesExtraction de segments paralleles

Conclusion et perspectives

Methode PhrExtractDiscussionMethode SenExtract +LLR lex

Resultats : donnees Euronews

Quantites de donnees extraites

Methodes # mots (en) # mots (fr)

PhrExtract (TER 30) 16.6 M 13.8 MSenExtract +LLR lex 1.6 M 2.2 M

Scores BLEU

Systemes devEuronews tstEuronews

Baseline 25.19 22.12PhrExtract (TER 30) 30.04 27.59SenExtract +LLR lex 30.00 27.47

45/ 51 Haithem Afli La TAS dans un contexte multimodal

Page 82: Présentation de thèse Haithem AFLI

IntroductionTravaux precedents

Extraction de phrases parallelesExtraction de segments paralleles

Conclusion et perspectives

Methode PhrExtractDiscussionMethode SenExtract +LLR lex

Resultats : donnees Euronews

Quantites de donnees extraites

Methodes # mots (en) # mots (fr)

PhrExtract (TER 30) 16.6 M 13.8 MSenExtract +LLR lex 1.6 M 2.2 M

Scores BLEU

Systemes devEuronews tstEuronews

Baseline 25.19 22.12PhrExtract (TER 30) 30.04 27.59SenExtract +LLR lex 30.00 27.47

45/ 51 Haithem Afli La TAS dans un contexte multimodal

Page 83: Présentation de thèse Haithem AFLI

IntroductionTravaux precedents

Extraction de phrases parallelesExtraction de segments paralleles

Conclusion et perspectives

Methode PhrExtractDiscussionMethode SenExtract +LLR lex

Discussion

Methode plus efficace

resultats similaires au meilleur seuil TERmoins de quantite de donnees : plus de precision dans laselection des donnees pertinentes

Besoin de plus d’ameliorations

optimiser l’exploitation des corpus

46/ 51 Haithem Afli La TAS dans un contexte multimodal

Page 84: Présentation de thèse Haithem AFLI

IntroductionTravaux precedents

Extraction de phrases parallelesExtraction de segments paralleles

Conclusion et perspectives

Creation du corpus multimodalNouvelles methodesPerspectives

Plan

1 Introduction

2 Travaux precedents

3 Extraction de phrases paralleles

4 Extraction de segments paralleles

5 Conclusion et perspectivesCreation du corpus multimodalNouvelles methodesPerspectives

47/ 51 Haithem Afli La TAS dans un contexte multimodal

Page 85: Présentation de thèse Haithem AFLI

IntroductionTravaux precedents

Extraction de phrases parallelesExtraction de segments paralleles

Conclusion et perspectives

Creation du corpus multimodalNouvelles methodesPerspectives

Conclusion

Construction du corpus bimodal Euronews LIUM

Extraction des donnees sur la periode 2010 a 2012

Mettre a disposition a la communaute

→ corpus et bitextes extraits

Mise a jour du corpus TED LIUM

partie texte en francais correspond a TEDbi

Mettre a disposition a la communaute

→ corpus brut et bitextes extraits

48/ 51 Haithem Afli La TAS dans un contexte multimodal

Page 86: Présentation de thèse Haithem AFLI

IntroductionTravaux precedents

Extraction de phrases parallelesExtraction de segments paralleles

Conclusion et perspectives

Creation du corpus multimodalNouvelles methodesPerspectives

Conclusion

Extension de l’utilisation de corpus comparables a des donneesmultimodales, i.e. audio cote source et texte cote cible

Developpement des systemes d’acquisition des donneescomparables multimodales et d’extraction de textes paralleles→ totalement automatique

Extension de la methode pour extraire des segments paralleles

Amelioration du module de filtrage de nos systemes : dufiltrage TER vers le filtrage LLR

Methodes validees sur differents corpus et taches (TED etEuronews)

adaptation d’un systeme generiqueamelioration d’un systeme du domaine

49/ 51 Haithem Afli La TAS dans un contexte multimodal

Page 87: Présentation de thèse Haithem AFLI

IntroductionTravaux precedents

Extraction de phrases parallelesExtraction de segments paralleles

Conclusion et perspectives

Creation du corpus multimodalNouvelles methodesPerspectives

Perspectives

Ce travail ouvre la voie a l’exploitation des donnees multimodalespour la TA

Amelioration de la methode PhrExtract en changeant lasegmentation des phrases

groupes syntaxiquesconnaissances linguistiquesl’alignement en groupe de mots du systeme de TAS

Amelioration de la methode SentExtract en essayant d’autrestechniques de filtrage

Utilisation de la methode Unsup avec les phrases courtes

Application des methodes d’extraction sur d’autres domainesde specialite

50/ 51 Haithem Afli La TAS dans un contexte multimodal

Page 88: Présentation de thèse Haithem AFLI

IntroductionTravaux precedents

Extraction de phrases parallelesExtraction de segments paralleles

Conclusion et perspectives

Creation du corpus multimodalNouvelles methodesPerspectives

Merci pour votre attention.

UniversitéduMaineU

51/ 51 Haithem Afli La TAS dans un contexte multimodal

Page 89: Présentation de thèse Haithem AFLI

IntroductionTravaux precedents

Extraction de phrases parallelesExtraction de segments paralleles

Conclusion et perspectives

Creation du corpus multimodalNouvelles methodesPerspectives

AbduI-Rauf, S. and Schwenk, H. (2009).On the use of comparable corpora to improve smtperformance.In Proceedings of the 12th Conference of the EuropeanChapter of the Association for Computational Linguistics,EACL ’09, pages 16–23, Stroudsburg, PA, USA. Associationfor Computational Linguistics.

Afli, H., Barrault, L., and Schwenk, H. (2012).Parallel texts extraction from multimodal comparable corpora.In JapTAL, volume 7614 of Lecture Notes in ComputerScience, pages 40–51. Springer.

Afli, H., Barrault, L., and Schwenk, H. (2013).Multimodal comparable corpora as resources for extractingparallel data : Parallel phrases extraction.

51/ 51 Haithem Afli La TAS dans un contexte multimodal

Page 90: Présentation de thèse Haithem AFLI

IntroductionTravaux precedents

Extraction de phrases parallelesExtraction de segments paralleles

Conclusion et perspectives

Creation du corpus multimodalNouvelles methodesPerspectives

International Joint Conference on Natural LanguageProcessing.

Afli, H., Barrault, L., and Schwenk, H. (2014).Multimodal comparable corpora for machine translation.LREC 2014, 7th Workshop on Building and Using ComparableCorpora, Building Resources for Machine Translation Research.

Bisazza, A., Ruiz, N., and Federico, M. (2011).Fill-up versus interpolation methods for phrase-based smtadaptation.International Workshop on Spoken Language Translation 2011.

Brown, P. F., Cocke, J., Pietra, S. A. D., Pietra, V. J. D.,Jelinek, F., Lafferty, J. D., Mercer, R. L., and Roossin, P. S.(1990).A statistical approach to machine translation.

51/ 51 Haithem Afli La TAS dans un contexte multimodal

Page 91: Présentation de thèse Haithem AFLI

IntroductionTravaux precedents

Extraction de phrases parallelesExtraction de segments paralleles

Conclusion et perspectives

Creation du corpus multimodalNouvelles methodesPerspectives

Comput. Linguist., 16 :79–85.

Brown, P. F., Lai, J. C., and Mercer, R. L. (1991).Aligning sentences in parallel corpora.In Proceedings of the 29th annual meeting on Association forComputational Linguistics, ACL ’91, pages 169–176.

Dunning, T. (1993).Accurate methods for the statistics of surprise andcoincidence.Comput. Linguist., 19(1) :61–74.

Hewavitharana, S. and Vogel, S. (2011).Extracting parallel phrases from comparable data.In Proceedings of the 4th Workshop on Building and UsingComparable Corpora : Comparable Corpora and the Web,BUCC ’11, pages 61–68.

51/ 51 Haithem Afli La TAS dans un contexte multimodal

Page 92: Présentation de thèse Haithem AFLI

IntroductionTravaux precedents

Extraction de phrases parallelesExtraction de segments paralleles

Conclusion et perspectives

Creation du corpus multimodalNouvelles methodesPerspectives

Munteanu, D. S. and Marcu, D. (2005).Improving Machine Translation Performance by ExploitingNon-Parallel Corpora.Computational Linguistics, 31(4) :477–504.

Munteanu, D. S. and Marcu, D. (2006).Extracting parallel sub-sentential fragments from non-parallelcorpora.In Proceedings of the 21st International Conference onComputational Linguistics and the 44th annual meeting of theAssociation for Computational Linguistics, ACL-44, pages81–88.

Quirk, Q., Udupa, R., and Menezes, A. (2007).Generative models of noisy translations with applications toparallel fragment extraction.

51/ 51 Haithem Afli La TAS dans un contexte multimodal

Page 93: Présentation de thèse Haithem AFLI

IntroductionTravaux precedents

Extraction de phrases parallelesExtraction de segments paralleles

Conclusion et perspectives

Creation du corpus multimodalNouvelles methodesPerspectives

In In Proceedings of MT Summit XI, European Association forMachine Translation.

Resnik, P. and Smith, N. A. (2003).The web as a parallel corpus.Comput. Linguist., 29 :349–380.

Riesa, J. and Marcu, D. (2012).Automatic parallel fragment extraction from noisy data.In Proceedings of the 2012 Conference of the North AmericanChapter of the Association for Computational Linguistics :Human Language Technologies, NAACL HLT ’12, pages538–542.

Rousseau, A., Bougares, F., Deleglise, P., Schwenk, H., andEsteve, Y. (2011).LIUM’s systems for the IWSLT 2011 speech translation tasks.International Workshop on Spoken Language Translation 2011.

51/ 51 Haithem Afli La TAS dans un contexte multimodal

Page 94: Présentation de thèse Haithem AFLI

IntroductionTravaux precedents

Extraction de phrases parallelesExtraction de segments paralleles

Conclusion et perspectives

Creation du corpus multimodalNouvelles methodesPerspectives

Schwenk, H. (2009).Translation model adaptation for an arabic/french newstranslation system by lightly-supervised training.MT Summit.

51/ 51 Haithem Afli La TAS dans un contexte multimodal