Les technologies de la langue en France et en Europe : Quelles perspectives ? J. Mariani, LIMSI-CNRS...

23
Les technologies de la langue Les technologies de la langue en France et en Europe : en France et en Europe : Quelles perspectives ? Quelles perspectives ? J. Mariani, LIMSI-CNRS J. Mariani, LIMSI-CNRS C. Peters, ISTI-CNR C. Peters, ISTI-CNR A. Waibel, Univ. Karlsruhe + CMU A. Waibel, Univ. Karlsruhe + CMU

Transcript of Les technologies de la langue en France et en Europe : Quelles perspectives ? J. Mariani, LIMSI-CNRS...

Page 1: Les technologies de la langue en France et en Europe : Quelles perspectives ? J. Mariani, LIMSI-CNRS C. Peters, ISTI-CNR A. Waibel, Univ. Karlsruhe + CMU.

Les technologies de la langueLes technologies de la langueen France et en Europe :en France et en Europe :Quelles perspectives ?Quelles perspectives ?

J. Mariani, LIMSI-CNRSJ. Mariani, LIMSI-CNRSC. Peters, ISTI-CNRC. Peters, ISTI-CNR

A. Waibel, Univ. Karlsruhe + CMUA. Waibel, Univ. Karlsruhe + CMU

Page 2: Les technologies de la langue en France et en Europe : Quelles perspectives ? J. Mariani, LIMSI-CNRS C. Peters, ISTI-CNR A. Waibel, Univ. Karlsruhe + CMU.

14 juin 2007 Journée Techno-Langue 2

PlanPlan

• La situation des programmes en France et en Europe La situation des programmes en France et en Europe (J. Mariani)(J. Mariani)

• CLEF (C. Peters)CLEF (C. Peters)• TC-Star, CHIL… (A. Waibel)TC-Star, CHIL… (A. Waibel)• Discussion généraleDiscussion générale

Page 3: Les technologies de la langue en France et en Europe : Quelles perspectives ? J. Mariani, LIMSI-CNRS C. Peters, ISTI-CNR A. Waibel, Univ. Karlsruhe + CMU.

14 juin 2007 Journée Techno-Langue 3

Courtesy NIST/ Darpa

Page 4: Les technologies de la langue en France et en Europe : Quelles perspectives ? J. Mariani, LIMSI-CNRS C. Peters, ISTI-CNR A. Waibel, Univ. Karlsruhe + CMU.

14 juin 2007 Journée Techno-Langue 4

RechercheScientifique

Amont

RechercheTechnologique

de Base(RTB)

Développementd’applications

innovantes(RRIT)

Identificationde verrous

Résultats derecherche

Technologiesnécessaires pourles applications

Technologiesvalidées

Long terme / haut risqueFort retour d’investissement Evolutionaire

Publications Evaluationquantitative

Evaluation usages.Acceptabilité

Recherche Technologique de Base

Marché

Page 5: Les technologies de la langue en France et en Europe : Quelles perspectives ? J. Mariani, LIMSI-CNRS C. Peters, ISTI-CNR A. Waibel, Univ. Karlsruhe + CMU.

14 juin 2007 Journée Techno-Langue 5

Structure de Techno-LangueStructure de Techno-Langue

Programme infrastructurel pour soutenir les TL génériques,les applications innovantes continuant d’être financées

par les RRIT (110 M€ / an)

RNRTTélécoms

RNTLLogiciel

RIAMAudiovisuel

etMultimédia

VSE

Page 6: Les technologies de la langue en France et en Europe : Quelles perspectives ? J. Mariani, LIMSI-CNRS C. Peters, ISTI-CNR A. Waibel, Univ. Karlsruhe + CMU.

14 juin 2007 Journée Techno-Langue 6

Action Techno-langueAction Techno-langue• AAction soutenue par ction soutenue par MESR, MinEFI, MCCMESR, MinEFI, MCC

– Budget 20 M€ / 7,5 M€ aides– Durée : 3 ans

• 4 4 vvolets:olets:– Ressources linguistiques– Evaluation– Standards– Veille technologique

• Mettre en place une infrastructure pérenne pour développer les Mettre en place une infrastructure pérenne pour développer les technologies de la langue en France et pour le Françaistechnologies de la langue en France et pour le Français

• Attention particulière portée à la diffusion des ressources Attention particulière portée à la diffusion des ressources linguistiques et des kits d’évaluationlinguistiques et des kits d’évaluation

Page 7: Les technologies de la langue en France et en Europe : Quelles perspectives ? J. Mariani, LIMSI-CNRS C. Peters, ISTI-CNR A. Waibel, Univ. Karlsruhe + CMU.

14 juin 2007 Journée Techno-Langue 7

ESTERESTER• Tâche: transcription et indexation d’émissions de radioTâche: transcription et indexation d’émissions de radio

– A permis de produire un corpus de taille nécessaire pour le Français• 1600 h enregistrées, 100 h transcrites (1 Mmots, 350 locuteurs)

– A permis de mesurer les performances sur différentes tâches• 13 participants (3 industriels)• Transcription, Segmentation, Identification de locuteurs• Reconnaissance d’Entités Nommées (parole / texte transcrit)• Détection et suivi de thèmes pour l’indexation : reporté

– A permis à chacun de partager ses approches à la lueur des résultats• Atelier interne final en mars 2005

– A permis de diffuser de manière pérenne les ressources produites• Distribution du Kit d’évaluation (Données de développement et de test,

logiciel de mesure des performances, résultats) (ELDA)• Données en partie utilisées dans EASY.

Page 8: Les technologies de la langue en France et en Europe : Quelles perspectives ? J. Mariani, LIMSI-CNRS C. Peters, ISTI-CNR A. Waibel, Univ. Karlsruhe + CMU.

14 juin 2007 Journée Techno-Langue 8

ESTERESTER– A veillé à établir le lien avec la recherche amont

• Atelier pour les linguistes (mai 2005)

• Présentation des données et outils disponibles, et des résultats

• Identification des verrous nécessitant des recherches fondamentales

– Comporte un lien avec le développement d’applications innovantes• Projet RNTL Audiosurf (mai 2006)

• Sinequa, Vecsys, LIMSI-CNRS, Radio France

• Moteur de recherche dans les émissions de radio

• Portail Audiosurf : http://audiosurf.org/

• ESTER 2 en préparation (financement DGA)ESTER 2 en préparation (financement DGA)– Indexation automatique : détection et suivi de thèmes

– Accents régionaux

– Emissions de télévision

– Parole spontanée (interviews, débats, plateau télé…)

Page 9: Les technologies de la langue en France et en Europe : Quelles perspectives ? J. Mariani, LIMSI-CNRS C. Peters, ISTI-CNR A. Waibel, Univ. Karlsruhe + CMU.

14 juin 2007 Journée Techno-Langue 9

Suite de Techno-LangueSuite de Techno-Langue• Programme Techno-Vision (2004-2007)Programme Techno-Vision (2004-2007)

– Géré par le MESR, budget 5 M€ / 2,2 M€ (DGA) sur 3 ans– 10 campagnes d’évaluation en traitement d’images

• Appel 2006 ARA « Masses de données & Appel 2006 ARA « Masses de données & Connaissances Ambiantes »Connaissances Ambiantes »– Géré par l’ANR– Thème 5: Traitement automatique des langues

• 3 M€ prévus pour les Technologies de la Langue• 3 projets retenus

• Pas encore d’infrastructure pérenne pour l’évaluationPas encore d’infrastructure pérenne pour l’évaluation• Rapport MCC/DGLF2 « La langue au cœur du Rapport MCC/DGLF2 « La langue au cœur du

numérique » (J. Pierre, Fév. 2006)numérique » (J. Pierre, Fév. 2006)

Page 10: Les technologies de la langue en France et en Europe : Quelles perspectives ? J. Mariani, LIMSI-CNRS C. Peters, ISTI-CNR A. Waibel, Univ. Karlsruhe + CMU.

14 juin 2007 Journée Techno-Langue 10

TL pour la globalisationTL pour la globalisation• Communication au niveau nationalCommunication au niveau national

– Programme indien sur les technologies de la langue

– TDIL : Technology Development for Indian Languages

– Une des 10 priorités nationales

– Anglais + 18 langues indiennes traitées : Assamese, Bengali, Gujrati, Hindi, Kannada, Kashmiri, Konkani, Malayalam, Manipuri, Marathi, Napali, Oriya, Punjabi, Sanskrit, Sindhi, Tamil, Telegu, Urdu.

– Traduction automatique, Synthèse et reconnaissance vocales, moteurs de recherche, OCR, correcteurs orthographiques, ressources linguistiques…

• Communication au niveau mondialCommunication au niveau mondial– Besoins de traduction:

• Toile mondiale (Cf Google: 11 langues, 25 paires de langues (10 Google)))

• Notices techniques…

Page 11: Les technologies de la langue en France et en Europe : Quelles perspectives ? J. Mariani, LIMSI-CNRS C. Peters, ISTI-CNR A. Waibel, Univ. Karlsruhe + CMU.

14 juin 2007 Journée Techno-Langue 11

TL pour une Europe multilingueTL pour une Europe multilingue• La langue, élément spécifique de la construction européenneLa langue, élément spécifique de la construction européenne

– Enjeu économique, culturel et politique (double) :• Préserver les cultures des Etats Membres (EM)

– Préférence pour les langues maternelles (Sites Web en Allemand (75%)...)

– 50% des citoyens Européens ne parlent qu’une langue– (à peine 3% des japonais parlent une langue étrangère)

• Permettre la communication entre les citoyens des Etats Membres– UE: 27 pays, 23 langues « officielles » / 506 paires de langues– 1650 traducteurs à la Commission Européenne (1,4 Mpages traduites

2005)– 30% du budget du Parlement Européen (300 M€) – 500 traducteurs

– Nécessité du multilinguisme, mais coût très important– Besoin de l’aide des Technologies de la Langue pour permettre le

multilinguisme en réduisant les coûts• Investissement trop grand pour la CE seule (# TL x # langues)Investissement trop grand pour la CE seule (# TL x # langues)• A partager avec les Etats Membres (subsidiarité)A partager avec les Etats Membres (subsidiarité)

Page 12: Les technologies de la langue en France et en Europe : Quelles perspectives ? J. Mariani, LIMSI-CNRS C. Peters, ISTI-CNR A. Waibel, Univ. Karlsruhe + CMU.

14 juin 2007 Journée Techno-Langue 12

Programme Européen en TLProgramme Européen en TL• Espace Européen de la Recherche (ERA)Espace Européen de la Recherche (ERA)

– Coordonner efforts de recherche de la CE (< 15%) et des EM (> 85%)– ERA-Net (6ème PCRD): coordonner programmes nationaux– ERA-Net+ thématiques (7ème PCRD): coordonner + financer projets communs– Article 169 (CE + EM+ industriels)

• Thèmes actuels: Aide aux personnes dépendantes, soutien aux PMEs, Métrologie, Recherche en mer Baltique…

• TL bien adaptées à l’ERATL bien adaptées à l’ERA– La CE aurait en priorité la responsabilité de veiller à asssurer :

• la coordination: gestion, standards, évaluation technologies, communication.• Le coût du développement de Technologies de la Langue génériques:

– Reconnaissance, synthèse, compréhension vocales, dialogue oral, étiquetage morphosyntaxique, analyse et génération de textes, recherche d’informations, compréhension de documents, traduction automatique...

– Chaque Etat Membre aurait en priorité à assurer une bonne couverture de sa/ses langue(s):

• Ressources Langagières (essentiel) : corpus (annnotés) (oral / écrit), lexique (avec prononciations), dictionnaires…

• Développements / adaptations TL aux spécificités de sa/ses langue(s)

Page 13: Les technologies de la langue en France et en Europe : Quelles perspectives ? J. Mariani, LIMSI-CNRS C. Peters, ISTI-CNR A. Waibel, Univ. Karlsruhe + CMU.

14 juin 2007 Journée Techno-Langue 13

Proposition ERA-Net Lang-NetProposition ERA-Net Lang-Net• Infrastructure pour le développement de technologies de la Infrastructure pour le développement de technologies de la

langue pour toutes les langues européennes.langue pour toutes les langues européennes.– Ressources (données et outils), standards, veille, évaluation

• Coordination des efforts nationaux et communautairesCoordination des efforts nationaux et communautaires– 11 pays / régions partenaires : Allemagne, France, Italie, Région du

Trentin, République Tchèque, Danemark, Norvège, Pays-Bas / Flandres-Belgique (Dutch Language Union), Espagne, Région Basque, Suède

– Contacts: Europe (Autriche Région Catalane, Finlande, Grèce, Islande, Portugal, Suisse, GB), Etats-Unis, Japon, Afrique du Sud, Israël, Canada…

– Extensible à d’autres partenaires: NEM (Slovénie, Chypre, Pologne, Hongrie, Malte, Pays Baltes Roumanie, Bulgarie…)

• Proposition déposée en maProposition déposée en marsrs 2005, non retenue 2005, non retenue

Page 14: Les technologies de la langue en France et en Europe : Quelles perspectives ? J. Mariani, LIMSI-CNRS C. Peters, ISTI-CNR A. Waibel, Univ. Karlsruhe + CMU.

14 juin 2007 Journée Techno-Langue 14

Situation à la CESituation à la CE• DG INFSO + MediaDG INFSO + Media

– Science & Technology Forum on Multilingualism (Juin 2005, Fév. 2006)

– Visite délégation Française à H. Forster & B. Smith (Septembre 2005)– Rapport TC-Star : Introduction signée par V. Reding & J. Figel

• Commissaire Education, formation, culture et mulCommissaire Education, formation, culture et multilinguisme tilinguisme (J. Figel)(J. Figel)– « Une nouvelle stratégie cadre pour le multilinguisme» (Nov. 2005)

• Site Web dans 20 langues : http://europa.eu.int/languages/ • La CE mettra en place un Groupe de Haut Niveau sur le Multilinguisme

(Nov. 2006/Sept. 2007)• La CE organisera une réunion ministérielle sur le Multilinguisme (2008)• La CE fera d’autres communications devant le Parlement et le Conseil (fin

2008)

• Nouveau CommiNouveau Commissaire pour le multilinguisme (01.2007) : ssaire pour le multilinguisme (01.2007) : Leonard OrbanLeonard Orban

Page 15: Les technologies de la langue en France et en Europe : Quelles perspectives ? J. Mariani, LIMSI-CNRS C. Peters, ISTI-CNR A. Waibel, Univ. Karlsruhe + CMU.

14 juin 2007 Journée Techno-Langue 15

Demande EuropéenneDemande Européenne• MéMémorandum pour morandum pour une une Europe numériqueEurope numérique

– Soumis par la France à la présidence finlandaise de l’UE (2006)

– «TL pour une Europe Multilingue» comme sujet de recherche spécifique

• Comité des régionsComité des régions• Utilisation officielle de 3 langues régionales espagnoles en réunion

• Bibliothèque Numérique EuropéenneBibliothèque Numérique Européenne– Dimension multilingue / interlingue, et nécessité d’avoir des outils

• Intelligence Economique (ENISA)Intelligence Economique (ENISA)– Plate-forme multilingue d’alerte et d’échange d’informations pour les

Etats Membres…

• Traduction des brevets européens (OEB)…Traduction des brevets européens (OEB)…

Page 16: Les technologies de la langue en France et en Europe : Quelles perspectives ? J. Mariani, LIMSI-CNRS C. Peters, ISTI-CNR A. Waibel, Univ. Karlsruhe + CMU.

14 juin 2007 Journée Techno-Langue 16

Place des TL dans le FP7 (2007-2013)Place des TL dans le FP7 (2007-2013)

• Evaluation dans les projets FP6Evaluation dans les projets FP6– CLEF (Cross-Language Evaluation Forum), TC-Star, CHIL, AMI…

• Programme Cooperation (TIC)Programme Cooperation (TIC)– Pilier technologique «Simulation, visualisation, interaction, mixed realities»

– Challenge 2: Cognitive systems, Interaction, Robotics• Objectif 2.1. Cognitive systems, Interaction, Robotics

– Coopération internationale : Priorité pour TL pour la langue arabe !

• ESFRI (Infrastructures de recherche)ESFRI (Infrastructures de recherche)– CLARIN : Infrastructure pour les ressources et les outils linguistiques en

appui aux Sciences Humaines et Sociales

• E-Content +E-Content +– Réseau Thématique «Ressources linguistiques pour le traitement des

langues» (SHS + TIC) (budget : 1 M€)

Page 17: Les technologies de la langue en France et en Europe : Quelles perspectives ? J. Mariani, LIMSI-CNRS C. Peters, ISTI-CNR A. Waibel, Univ. Karlsruhe + CMU.

14 juin 2007 Journée Techno-Langue 17

ConclusionsConclusions– Techno-Langue : Programme national sur les Technologies

de la Langue pour le Français• Ressources Linguistiques, Standards, Veille et Evaluation

• Difficulté pour la pérennisation

– NIST Français ou Européen ?

– DARPA Française ou Européenne ?

– Forte nécessité de Technologies de la Langue pour permettre le multilinguisme en Europe (et dans le monde)

– Peut-être le thème le plus adapté à un effort partagé entre la CE et les Etats-Membres, mais soutenu de manière insuffisante, parcellaire et non-coordonnée dans le 7ème PCRD (2007-2013)

Page 18: Les technologies de la langue en France et en Europe : Quelles perspectives ? J. Mariani, LIMSI-CNRS C. Peters, ISTI-CNR A. Waibel, Univ. Karlsruhe + CMU.

14 juin 2007 Journée Techno-Langue 18

Questions (1)Questions (1)• L’infrastructure d’évaluation est-elle suffisante ?L’infrastructure d’évaluation est-elle suffisante ?

– Quel est le bilan des campagnes d’évaluation?

– Faisons nous bien les choses ? Que devrions nous faire ?

– Comment financer les campagnes d’évaluation ?• Commission Européenne ? Etats-Membres ? Régions ?

– Jusqu’à quel degré ces initiatives peuvent-elles s’appuyer sur le volontariat ?

• Doit-il y avoir une entité permanente pour l’évaluation ? Une infrastructure ?

• Doit-elle être publique ou privée ? Faut-il financer à 100 % ? Comment ?

– Y a-t-il assez, trop ou trop peu d’initiatives sur l’évaluation en Europe sur les différents aspects des TL (TALN, IR, CHM etc) ?

• Faut-il tendre à plus de synergie?

Page 19: Les technologies de la langue en France et en Europe : Quelles perspectives ? J. Mariani, LIMSI-CNRS C. Peters, ISTI-CNR A. Waibel, Univ. Karlsruhe + CMU.

14 juin 2007 Journée Techno-Langue 19

Questions (2)Questions (2)

• L’infrastructure sur les RL est-elle suffisante ?L’infrastructure sur les RL est-elle suffisante ?– Faisons nous bien les choses ? Que devrions nous faire ?

• Cela répond-il aux besoins de la recherche ? De l’industrie ?

• Coûts ? Qualité ? Catalogue ? IPR ?

– La couverture des langues est-elle suffisante (pour le Français / pour les langues Européennes) ?

– Y a-t-il assez, trop ou trop peu d’initiatives sur les RL en Europe pour les différents aspects des TL (TALN, IR, CHM etc, SHS, TIC, Médical etc) ?

• Faut-il tendre à plus de synergie?

– Les standards sont-ils suffisamment établis ?

Page 20: Les technologies de la langue en France et en Europe : Quelles perspectives ? J. Mariani, LIMSI-CNRS C. Peters, ISTI-CNR A. Waibel, Univ. Karlsruhe + CMU.

14 juin 2007 Journée Techno-Langue 20

Questions (3)Questions (3)• L’effort de recherche est-il suffisant face à l’enjeu ?L’effort de recherche est-il suffisant face à l’enjeu ?

– Est-on suffisamment bien organisé en France ?• Financements suffisants ? Effort suffisamment continu ?

– Est-on suffisamment bien organisé en Europe ?• Financements suffisants ? Effort suffisamment continu ?

– Y a-t-il assez, trop ou trop peu de programmes sur les TL en Europe (régional (Pôles/Clusters d’excellence…), National (ANR, CNRS…), Européen (FP7 (ideas, coordination, infrastructure, mobility): IPs, STREPs, NoEs; ERA-Net+, Article 169, eContent+…)) ?

• Faut-il plus de coordination ?

– Comment peut-on réclamer des financements publics importants quand le marché apparaît relativement limité et incertain ?

– Comment assurer la participation et le soutien des industriels ? PMEs ? Grands groupes ?

Page 21: Les technologies de la langue en France et en Europe : Quelles perspectives ? J. Mariani, LIMSI-CNRS C. Peters, ISTI-CNR A. Waibel, Univ. Karlsruhe + CMU.

14 juin 2007 Journée Techno-Langue 21

QuestionsQuestions

• Is the infrastructure for LR sufficient ?Is the infrastructure for LR sufficient ?– What are we doing wrong ? What should we be doing ?

• Does it respond to the needs of research ? Of industry ?

• Cost ? Quality ? Catalogue ? IPR ?

– Is there a proper language coverage (France / Europe) ?

– Are there not enough or too many language resources initiatives in Europe on different aspects of HLT (NLP, IR, HMC etc, HSS, ICT, Medical etc) ?

• Should we be aiming at more synergy?

• Are the standards sufficiently established ?

Page 22: Les technologies de la langue en France et en Europe : Quelles perspectives ? J. Mariani, LIMSI-CNRS C. Peters, ISTI-CNR A. Waibel, Univ. Karlsruhe + CMU.

14 juin 2007 Journée Techno-Langue 22

QuestionsQuestions

• Is the infrastructure for evaluation sufficient ?Is the infrastructure for evaluation sufficient ?– What are the real achievements of our evaluation

campaigns?• What are we doing wrong ? What should we be doing ?

– How can evaluation campaigns be supported ?• European Commission ? Countries ? Regions ?

– To what extent can such initiatives rely on voluntary efforts?• Should there be a permanent evaluation entity ? infrastructure ?

• Should it be public / private ? Should it be funded 100 % ? How ?

– Are there not enough or too many evaluation initiatives in Europe on different aspects of HLT (NLP, IR, HMC etc) ?

• Should we be aiming at more synergy?

Page 23: Les technologies de la langue en France et en Europe : Quelles perspectives ? J. Mariani, LIMSI-CNRS C. Peters, ISTI-CNR A. Waibel, Univ. Karlsruhe + CMU.

14 juin 2007 Journée Techno-Langue 23

QuestionsQuestions• Is the research effort sufficient in front of the challenge ?Is the research effort sufficient in front of the challenge ?

– Are we sufficiently organized at the French level ?• Enough funding ? Enough continuity ?

– Are we sufficiently organized at the European level ?• Enough funding ? Enough continuity ?

– Are there not enough or too many programs in Europe on HLT (Regional (Poles/Clusters of excellence…), National (ANR, CNRS…), FP7 (ideas, coordination, infrastructure, mobility): IPs, STREPs, NoEs, ERA-Net+, Article 169, eContent…) ?

• Should we be aiming at more coordination ?

– How can we claim for big R&D funding when the market looks small and uncertain ?

– How can we ensure industrial participation and support ? SMEs ? Large groups ?