Un dictionnaire multilingue de collocations Amalia Todirascu LiLPA (Linguistique, Langues, Paroles)...

57
Un dictionnaire multilingue de collocations Amalia Todirascu LiLPA (Linguistique, Langues, Paroles) Université de Strasbourg [email protected]

Transcript of Un dictionnaire multilingue de collocations Amalia Todirascu LiLPA (Linguistique, Langues, Paroles)...

Page 1: Un dictionnaire multilingue de collocations Amalia Todirascu LiLPA (Linguistique, Langues, Paroles) Université de Strasbourg todiras@unistra.fr.

Un dictionnaire multilingue de collocations

Amalia TodirascuLiLPA (Linguistique, Langues,

Paroles)Université de Strasbourg

[email protected]

Page 2: Un dictionnaire multilingue de collocations Amalia Todirascu LiLPA (Linguistique, Langues, Paroles) Université de Strasbourg todiras@unistra.fr.

Plan Le projet "Collocations en contexte" Les collocations verbo-nominales Le dictionnaire L'extraction à partir des corpus

monolingues L'extraction de candidats à partir des

corpus multilingues alignés Evaluation Conclusion et perspectives

11/04/23 2

Page 3: Un dictionnaire multilingue de collocations Amalia Todirascu LiLPA (Linguistique, Langues, Paroles) Université de Strasbourg todiras@unistra.fr.

Le projet objectifs:

le développement d'un système d'extraction semi-automatique de collocations à partir des corpus

paramétrable pour plusieurs langues(français, roumain, allemand) information contextuelle

Création d'un dictionnaire multilingue des collocations Une classe spécifique de collocations

projet du réseau "Lexicologie, Terminologie, Traduction", Agence Universitaire pour la Francophonie

Université Marc Bloch de Strasbourg (UdS) Université de Stuttgart Académie Roumaine de Bucarest INSA Strasbourg

11/04/23 3

Page 4: Un dictionnaire multilingue de collocations Amalia Todirascu LiLPA (Linguistique, Langues, Paroles) Université de Strasbourg todiras@unistra.fr.

Motivation Collocations

TAL Traduction Lexicographie Apprentissage d'une langue étrangère

11/04/23 4

Page 5: Un dictionnaire multilingue de collocations Amalia Todirascu LiLPA (Linguistique, Langues, Paroles) Université de Strasbourg todiras@unistra.fr.

Motivation (II) difficultés

choix lexical a lua decizii mais make decisions donner une conférence mais pas tenir une conférence

préferences morpho-syntaxiques faire l'objet de, porter atteinte

sémantique sens non-compositionnel: faire la tête, make good any

damage aspect: entamer une disscusion pragmatique: donner/flanquer + gifle

11/04/23 5

Page 6: Un dictionnaire multilingue de collocations Amalia Todirascu LiLPA (Linguistique, Langues, Paroles) Université de Strasbourg todiras@unistra.fr.

Contexte Nombreux travaux sur les collocations

propriétés des collocations (Grossmann et Tutin, 2003) dictionnaires monolingues ou bilingues

Dico (Polguère 2000, Mel'čuk & al, 1994), LAF (Polguère, 2006)

BLF (Verlinde et al., 2003) Dictionnaire combinatoire (Zinglé 2003) Dictionnaire français-allemand (Blumenthal 2007) Dictionnaire danois (Braasch et Olsen 2000) DiCE (Alonso Ramos, 2003)

systèmes d'extraction automatique Statistiques (Quasthoff, 1998) Linguistiques (Seretan et al 2004, Seretan 2009, Tutin 2004) Hybrides (Smadja, 1991, Krenn 2000, Heid 1998)

11/04/23 6

Page 7: Un dictionnaire multilingue de collocations Amalia Todirascu LiLPA (Linguistique, Langues, Paroles) Université de Strasbourg todiras@unistra.fr.

Collocations et contextes Approche contextualiste (Halliday, 1985,

Williams, 2003) Expressions poly-lexicales, semi-figées, parfois

discontinues, ayant un comportement morpho-syntaxique et sémantique propre, imprévisible

Lua o decizie/prendre une décision mais pas *a face o decizie/*faire une décision

Faire une conférence mais pas *tenir une conférence pour s'en convaincre est une cooccurrence fréquente de il

suffit de

Trois points de vue (Gledhill, 2007): cooccurence construction expression

11/04/23 7

Page 8: Un dictionnaire multilingue de collocations Amalia Todirascu LiLPA (Linguistique, Langues, Paroles) Université de Strasbourg todiras@unistra.fr.

Méthodologie une méthode d'extraction appliquée

pour l'allemand (Heid&Ritz 2005, Ritz&Heid 2006) Les collocations sont caracterisées par le

contexte Propriétés morpho-syntaxiques

L'identification des propriétés à partir des corpus de grande taille (français, allemand, roumain)

corpus monolingues corpus multilingues

11/04/23 8

Page 9: Un dictionnaire multilingue de collocations Amalia Todirascu LiLPA (Linguistique, Langues, Paroles) Université de Strasbourg todiras@unistra.fr.

Méthodologie (II) Méthodes d'extraction

Monolingue Module statistique + filtres linguistiques Approche symbolique (allemand)

Multilingue corpus alignés

Validation manuelle des candidats Sélection des informations linguistiques

pour le dictionnaire

11/04/23 9

Page 10: Un dictionnaire multilingue de collocations Amalia Todirascu LiLPA (Linguistique, Langues, Paroles) Université de Strasbourg todiras@unistra.fr.

11/04/23 10

Page 11: Un dictionnaire multilingue de collocations Amalia Todirascu LiLPA (Linguistique, Langues, Paroles) Université de Strasbourg todiras@unistra.fr.

Les corpus Corpus multilingue, aligné: AcquisCommunautaire

(ACQ) Documents communs pour les langues étudiées (16 millions

mots/langue) : français, allemand, roumain, anglais

Étiquetage + lemmatization TreeTagger (Schmid, 1994) pour le français, l'allemand et

l'anglais Flemm (Namer, 1994) pour un étiquetage plus fin

TTL (Ion, 2007) pour le roumain

Alignement propositionnnel et lexical (partiel)

Corpus spécialisé Corpus monolingues (journaux, textes littéraires,

manuels d'utilisation)11/04/23 11

Page 12: Un dictionnaire multilingue de collocations Amalia Todirascu LiLPA (Linguistique, Langues, Paroles) Université de Strasbourg todiras@unistra.fr.

Plan Le projet "Collocations en contexte" Les collocations verbo-nominales Le dictionnaire L'extraction à partir des corpus

monolingues L'extraction de candidats à partir des

corpus multilingues alignés Evaluation Conclusion et perspectives

11/04/23 12

Page 13: Un dictionnaire multilingue de collocations Amalia Todirascu LiLPA (Linguistique, Langues, Paroles) Université de Strasbourg todiras@unistra.fr.

Les constructions Verbe-Nom Une analyse linguistique sur trois

niveaux (Gledhill, 2007) inspirée par le modèle (Halliday 1985): Structure lexico-grammaticale

propriétés spécifiques au verbe et au nom (Giry-Schneider 1987, Kearns 1989, Allerton 2002)

Fonction syntaxique Rôle sémantique

11/04/23 13

Page 14: Un dictionnaire multilingue de collocations Amalia Todirascu LiLPA (Linguistique, Langues, Paroles) Université de Strasbourg todiras@unistra.fr.

Propriétés du verbe (Gledhill, 2007)

V1 (Equivalence). faire du travail = travailler, mais faire froid n'est synonyme à

refroidir A face obiectul/'faire l'objet' = ?obiecta/'faire des objections'

V2 (Valence). Les constructions VN comportent des complements directs ou indirects

Guvernul nu face faţă situaţiei /’Le gouvernement n'est gère pas la situation’

Pierre fait peur à Jean V3 (Passivation)

Un résumé de ton livre a été fait par Jean mais pas ??La fuite a été prise

11/04/23 14

Page 15: Un dictionnaire multilingue de collocations Amalia Todirascu LiLPA (Linguistique, Langues, Paroles) Université de Strasbourg todiras@unistra.fr.

Propriétés spécifiques au nom

N1(détermination). Le déterminant est absent ou fixe prendre la fuite mais pas ?prendre une fuite a face apel/'faire appel' (le déterminant est absent)

N2 (clivage). Le nom d'une VN ne peut pas servir du focus dans une structure clivée (fr)

C’est la caisse qu’il a prise mais pas ?C’est la fuite qu’il a prise N3 (expansion). Le nom ne peut pas étre modifié par une

clause relative A luat decizia care era necesară /’ Il a pris la décision qui était

nécessaire’, mais *A făcut obiectul care era necesar / ‘a fait l’objet qui s’imposait’

N4 (conversion). La nominalisation du V n'est pas toujours possible

A luat măsuri/'il a pris des mesures' = luarea măsurilor/'la prise de mesures'

Il a fait l'hypothèse mais non *son fait de l'hypothèse11/04/23 15

Page 16: Un dictionnaire multilingue de collocations Amalia Todirascu LiLPA (Linguistique, Langues, Paroles) Université de Strasbourg todiras@unistra.fr.

Quelques propriétés morpho-syntaxiques Figement morpho-syntaxique partiel

Propriétés du nom: nombre, genre, cas Propriétés du verbe: diathèse, temps

La commission a fait appel aux experts… (fr) Absence du déterminant Complément indirect: préference pour 'à' Préférence pour le singulier

Statele membre fac faţă situaţiei…/'Les états membres font face à la situation…' (ro) l'absence du déterminant préférence pour le singulier Complément indirect : préference pour le datif

11/04/23 16

Page 17: Un dictionnaire multilingue de collocations Amalia Todirascu LiLPA (Linguistique, Langues, Paroles) Université de Strasbourg todiras@unistra.fr.

Constructions Verbe-Nom (II) Les classes (Todirascu et Gledhill, 2008)

Prédicateur complexe (1) construction Verbe+Nom qui joue le rôle de prédicat

Ex. faire l'objet, a ţine cont/'tenir compte', Gebrauch machen/'faire usage de…'

Figement morpho-syntaxique élévé Complément de portée

Prédicat+complément (2) Ex. prendre des mesures/a lua măsuri/Maβnahmen

ergreifen Variabilité morpho-syntaxique (modifieurs,

passif/actif) compositionalité

11/04/23 17

Page 18: Un dictionnaire multilingue de collocations Amalia Todirascu LiLPA (Linguistique, Langues, Paroles) Université de Strasbourg todiras@unistra.fr.

Structure lexicale Prédicat complex vs. prédicateur complexe (Gledhill

2007) le nom d'un prédicat complexe peut être passivisé

Paul fait un gateau/ Le gâteau a été fait par Paul. S P C Agent Process Range- le nom d'un predicateur complexe ne peut pas être passivisé El şi-a luat zborul/*Zborul a fost luat'il lui a pris vol-DET/Vol-DET a été pris'

S P C Ben Process Range

le complément du prédicateur complexe peut être relativisé we had a look at the screenshots... the screenshots which we had a look at were interesting.

Page 19: Un dictionnaire multilingue de collocations Amalia Todirascu LiLPA (Linguistique, Langues, Paroles) Université de Strasbourg todiras@unistra.fr.

Propriétés sémantiques Le procès est exprimé par la phrase:

Les participants: agent, affecté, bénéficiaire etc; Les non-participants: portée, temps, instrument, place…

La portée: les éléments qui précisent le procès (Halliday & Matthiessen 2004)

Jean fait un gateau. Agent(Acteur) Procès Matériel Médium(Affecté) Jean fait une

remarque. Médium(Annonceur)Procès Mental(Communicatif)

Portée L’examen fait peur aux étudiants.

Phénomène Procès Mental Portée Médium

11/04/23 19

Page 20: Un dictionnaire multilingue de collocations Amalia Todirascu LiLPA (Linguistique, Langues, Paroles) Université de Strasbourg todiras@unistra.fr.

Collocatif

Fréq. ACQ

Art

Nb Cas Classe

Collocatif Fréq RoGen

Art Nb Cas Classe

Obiectul/ ’objet-le’

3092 Déf

Sg Datif Pred Parte/ ’partie’

1571 - sg Acc (Din/’de’)

Oui

Referire/ ’référence’

1416 - sg, pl

Acc (La)

Pred înscrieri/ ’inscriptions’

422 -, déf pl Acc (La/’en’)

Non

Parte/ ’partie’

1268 - Sg Acc (din)

Pred Baza/’base-la’

362 -, déf sg Datif Non

Trimitere/’référence’

691 - Sg,pl

Acc(la) pred Loc/’lieu’ 160 -, déf Sg, pl

Datif P+C

Dovada/ ’preuve’

178 Déf

Sg Datif P+C Cursuri / ’cours’

142 -, déf pl - Non

Posibilă/ ’possible’

170 - Sg,pl

Acc/nom

P+C Faţă/’face’ 137 - sg Datif Pred

Necesară/’necessaire’

155 - Sg, pl

Acc/nom

P+C Obiectul/ ’objet’

127 -, déf, indéf

Sg, pl

Datif Pred

Faţă/’face’

150 - Sg Datif, Acc (la)

pred Precizări/’précisions’

124 -, déf, indéf

Sg, pl

Datif P+C

Collocatifs du verbe 'a face'/faire

11/04/23 20

Page 21: Un dictionnaire multilingue de collocations Amalia Todirascu LiLPA (Linguistique, Langues, Paroles) Université de Strasbourg todiras@unistra.fr.

Verbe Collocatif

Fréq. ACQ

Art. Nr Prép Collocatif

Fréq. FrGen

Art. Nr. Prép.

Faire, font, fait, fais, faisons

Objet 2378 l’ sg de Face 2578 null Sg à

Partie 871 null sg de Partie 1419 null Sg de

référence

753 null Sg à Objet 881 L’ Sg De

Usage 271 Null, un

sg de Preuve 801 null, une

Sg De

Face 204 null sg à Part 787 null Sg À, de

Appel 192 null sg à Appel 741 null Sg à

Rapport 170 Un sg à, sur Etat 665 null Sg de

Obstacle 132 null sg à Sorte 583 null Sg En…que

Etat 93 null sg de usage 458 null Sg de

Collocatifs du verbe 'faire'

11/04/23 21

Page 22: Un dictionnaire multilingue de collocations Amalia Todirascu LiLPA (Linguistique, Langues, Paroles) Université de Strasbourg todiras@unistra.fr.

D'autres classes Simples co-occurences V-N

(prédicat+complément) Nom+verbe au participe

articolul adoptat/ l’article adopté Sujet+prédicat

Le présent article ne vise que le commerce et la distribution des produits toxiques conditionnés qui sont destinés

Prédicat+complément circonstanciel La référence à cette norme figure en annexe.

11/04/23 22

Page 23: Un dictionnaire multilingue de collocations Amalia Todirascu LiLPA (Linguistique, Langues, Paroles) Université de Strasbourg todiras@unistra.fr.

Plan Le projet "Collocations en contexte" Les collocations verbo-nominales Le dictionnaire L'extraction à partir des corpus

monolingues L'extraction de candidats à partir des

corpus multilingues alignés Evaluation Conclusion et perspectives

11/04/23 23

Page 24: Un dictionnaire multilingue de collocations Amalia Todirascu LiLPA (Linguistique, Langues, Paroles) Université de Strasbourg todiras@unistra.fr.

Quels objectifs? Production de textes Compréhension de textes Utilisations possibles

Systèmes TAL (analyse et génération) Aide à la traduction Apprentissage d'une langue etrangère

11/04/23 24

Page 25: Un dictionnaire multilingue de collocations Amalia Todirascu LiLPA (Linguistique, Langues, Paroles) Université de Strasbourg todiras@unistra.fr.

Quels fonctions? rechercher les collocations dans une

langue par la base par le collocatif recherche par l'ensemble des élements

recherches des exemples d'utilisation recherches multilingues

retrouver les equivalents de traduction les propriétés morpho-syntaxiques spécifiques

11/04/23 25

Page 26: Un dictionnaire multilingue de collocations Amalia Todirascu LiLPA (Linguistique, Langues, Paroles) Université de Strasbourg todiras@unistra.fr.

Quelques propriétés Les lemmes du nom et du verbe les propriétés contextuelles :

Les propriétés du nom (détermination, nombre, cas…)

Les propriétés du verbe (actif/passif, temps, mode,…)

Les informations collocationnels prépositions la valence

les propriétés des arguments (le cas, le nombre de ces arguments)

exemples

11/04/23 26

Page 27: Un dictionnaire multilingue de collocations Amalia Todirascu LiLPA (Linguistique, Langues, Paroles) Université de Strasbourg todiras@unistra.fr.

Quels candidats? Tri manuel des listes fournies par une

extraction automatique candidats identifiés à partir des corpus

monolingues équivalents de traduction obtenus dans les 3

langues obtenus à partir des corpus alignés

Entrées trilingues classes: prédicats et prédicateurs complexes

11/04/23 27

Page 28: Un dictionnaire multilingue de collocations Amalia Todirascu LiLPA (Linguistique, Langues, Paroles) Université de Strasbourg todiras@unistra.fr.

Plan Le projet "Collocations en contexte" Les collocations verbo-nominales Le dictionnaire L'extraction à partir des corpus

monolingues L'extraction de candidats à partir des

corpus multilingues alignés Evaluation Conclusion et perspectives

11/04/23 28

Page 29: Un dictionnaire multilingue de collocations Amalia Todirascu LiLPA (Linguistique, Langues, Paroles) Université de Strasbourg todiras@unistra.fr.

L'extraction à partir des corpus monolingues Module statistique - détection des paires de

mots non adjacents (Stefanescu et al, 2006): indépendant de langue liste de candidats Verbe+Nom triée par LL et leurs

contextes Filtrage à base de patrons morpho-

syntaxiques Exclusion manuelle des certains classes

(Todirascu et Gledhill 2008) Prédicat+Sujet Prédicat+Complément Circonstaciel

11/04/23 29

Page 30: Un dictionnaire multilingue de collocations Amalia Todirascu LiLPA (Linguistique, Langues, Paroles) Université de Strasbourg todiras@unistra.fr.

avea vedere dist=2 LL=108759.176--------------------------------------------------având/vg/avea în/s/în vedere/nsrn/vedere 17786avut/vp/avea în/s/în vedere/nsrn/vedere 130aibă/v3/avea în/s/în vedere/nsrn/vedere 128avea/vn/avea în/s/în vedere/nsrn/vedere 51au/va3p/avea în/s/în vedere/nsrn/vedere41au/v3/avea în/s/în vedere/nsrn/vedere 31având/vg/avea in/nsn/in vedere/nsrn/vedere 11avea/v3/avea în/s/în vedere/nsrn/vedere 6aibă/v3/avea o/tsr/un vedere/nsrn/vedere 4avea/vn/avea o/tsr/un vedere/nsrn/vedere 1

• propriétés morpho-syntaxiques invariables • fréquences des propriétés: sg (100%), prep (în 97%), déterminant (null 99%, indéfini 1%)

11/04/23 30

Page 31: Un dictionnaire multilingue de collocations Amalia Todirascu LiLPA (Linguistique, Langues, Paroles) Université de Strasbourg todiras@unistra.fr.

contenir référence dist=2 LL=4658.77015127078 666--------------------------------------------

contiennent/Vmip3p/contenir une/da3sf/un référence/Ncfs/référence 642contenir/Vmn/contenir une/da3sf/un référence/Ncfs/référence 4contiennent/Vmip3p/contenir une/da3sf/un référence/Ncfs/référence 4contient/Vmip3s/contenir une/da3sf/un référence/Ncfs/référence 4contient/Vmip3s/contenir des/Sp+p/du/ références/Ncfp/référence 3contienne/Vmsp3s/contenir une/da3sf/un référence/Ncfs/référence 2contient/Vmip3s/contenir/ les/da3p-/le références/Ncfp/référence 2

• Variabilité morpho-syntaxique •fréquences des propriétés: sg (98%), pl (2%), prep (null), déterminant (défini 1%, indéfini 99 %)

11/04/23 31

Page 32: Un dictionnaire multilingue de collocations Amalia Todirascu LiLPA (Linguistique, Langues, Paroles) Université de Strasbourg todiras@unistra.fr.

Filtrage (I) Prédicateur complexe

Utiliser les contextes et les propriétés morpho-syntaxiques

Exemple de filtres (ro): «V NSRY *{1,3} NxOY»

NSRY = substantif défini (sg), accusatif/nominatif; NxOY = substantif défini, génitif/datif; {1,3} = entre 1 et 3 mots entre le complément

direct et indirect 98,8% des contextes Exemples: a menţine părerea/'maintenir son

opinion', a face dovada/'faire preuve de‘;

11/04/23 32

Page 33: Un dictionnaire multilingue de collocations Amalia Todirascu LiLPA (Linguistique, Langues, Paroles) Université de Strasbourg todiras@unistra.fr.

Filtrage (II) Prédicat+complément

Préférences pour une propriété (cas, nombre): plus de 85%

Testes: filtres pour le passif (fr): « Det:art Nom {2,3}* Ver:pper par»

Nom = substantif, accusatif/nominatif; Det:art = article défini, sg ou pl; {2,3} = entre 1 et 3 mots entre le nom et le verbe

Exemples: prendre des mesures, donner un avis, faire des commentaires ;

11/04/23 33

Page 34: Un dictionnaire multilingue de collocations Amalia Todirascu LiLPA (Linguistique, Langues, Paroles) Université de Strasbourg todiras@unistra.fr.

Plan Le projet "Collocations en contexte" Les collocations verbo-nominales Le dictionnaire L'extraction à partir des corpus

monolingues L'extraction de candidats à partir des

corpus multilingues alignés Evaluation Conclusion et perspectives

11/04/23 34

Page 35: Un dictionnaire multilingue de collocations Amalia Todirascu LiLPA (Linguistique, Langues, Paroles) Université de Strasbourg todiras@unistra.fr.

L'extraction multilingue (I) Corpus alignés (ACQ): fr, de, en, ro

(Ceausu et al, 2006) au niveau propositionnel Alignements bilingues: de-en, fr-en, ro-en 64352 phrases alignés 1-1

Alignement lexical partiel Anglais: langue pivot Corpus étiquétés et lemmatisés, en format

XCES

11/04/23 35

Page 36: Un dictionnaire multilingue de collocations Amalia Todirascu LiLPA (Linguistique, Langues, Paroles) Université de Strasbourg todiras@unistra.fr.

Exemple <s num="980" lang="fr">3. Un état membre concerné peut

demander à la Commission d' examiner, dans un délai de deux mois après qu' un transporteur aérien a informé le coordonnateur de son intention de faire usage de la souplesse prévue à l' article 8 paragraphe 4 , si les dispositions du présent article sont respectées.</s>

<s num="980" lang="en">3. A Member State concerned may request the Commission to investigate the application of this Article within two months of an air carrier informing the coordinator of its intention to use the flexibility provided for in Article?8 ( 4 ).</s>

<s num="980" lang="ro">( 3 ) Un stat membru interesat poate solicita Comisiei să analizeze , în decurs de două luni de la data la care transportatorul aerian a informat coordonatorul cu privire la intenţia sa de a face uz de flexibilitatea prevăzută în art. 8 alin. ( 4 ) , dacă se respectă dispoziţiile prezentului articol.</s>

11/04/23 36

Page 37: Un dictionnaire multilingue de collocations Amalia Todirascu LiLPA (Linguistique, Langues, Paroles) Université de Strasbourg todiras@unistra.fr.

L'extraction multilingue (II) les outils d'alignement lexical:

COWAL (Tufis et al, 2006) pour l'alignement ro-en Règles héuristiques

mots contenus étiquettes entités nommées position

GIZA++ (Och et Ney, 2003) pour l'alignement des corpus de-en et fr-en

Transfer des alignements lexicaux (Tufis et Koeva, 2007) : fr-ro, ro-fr, fr-de, de-fr, ro-de, de-ro

Extraction des listes d'équivalents de traduction pour chaque paire de langues (l'outil ColTrans): ro-fr, fr-ro

11/04/23 37

Page 38: Un dictionnaire multilingue de collocations Amalia Todirascu LiLPA (Linguistique, Langues, Paroles) Université de Strasbourg todiras@unistra.fr.

L'alignement lexical (I) Validation manuelle de l'alignement à

l'aide de l'éditeur MtKit (Tufis et al, 2006) un corpus de 1000 phrases pour les corpus fr-

en, de-en, ro-en; Phrases de longueur et structure variables

(20 a 100 mots); Methodologie d'alignement inspiré par le

projet Blinker (Melamed, 2000) annotation des classes ouvertes (N, Adj, V,...); bonne couverture des mots grammaticaux unités polylexicales

11/04/23 38

Page 39: Un dictionnaire multilingue de collocations Amalia Todirascu LiLPA (Linguistique, Langues, Paroles) Université de Strasbourg todiras@unistra.fr.

Erreurs d'alignement Problèmes linguistiques

Termes du domaine Structures syntaxiques différentes

<s num="750" lang="fr">tous droits d' importation pour les réactifs pour la détermination des groupes tissulaires

<s num="750" lang="ro">orice drepturi de import a reactivilor utilizaţi pentru determinarea grupelor tisulare

Ordre de constituents <s num=996>l' Observatoire doit réparer , conformément

aux principes généraux communs aux droits des états membres , les dommages…</s>

<s num=996>în concordanţă cu principiile generale comune legislaţiilor statelor membre , Centrul trebuie să compenseze orice pierdere provocată

11/04/23 39

Page 40: Un dictionnaire multilingue de collocations Amalia Todirascu LiLPA (Linguistique, Langues, Paroles) Université de Strasbourg todiras@unistra.fr.

Erreurs d'alignement (II)

Liens multiples Groupe verbal: infinitif (fr) traduit par un

subjonctif (ro) exercer | să recurgă

Groupe nominal : le determinant défini est un suffixe rajouté au nom (en roumain)

la Comission | Comisiei Aggregats (préposition+déterminant)

aux prescriptions | dispoziţiile collocations

préposition non aligné la Commission n'a pas pris de mesures raisonnables Comisia nu a luat măsurile necesare

11/04/23 40

Page 41: Un dictionnaire multilingue de collocations Amalia Todirascu LiLPA (Linguistique, Langues, Paroles) Université de Strasbourg todiras@unistra.fr.

Extraction de candidats l'outil ColTrans

les lemmes (verbe et nom) la direction de recherche fr->ro, ro-

>fr le corpus aligné au niveau lexical

résultats croisés erreurs d'alignement erreurs d'étiquetage

11/04/23 41

Page 42: Un dictionnaire multilingue de collocations Amalia Todirascu LiLPA (Linguistique, Langues, Paroles) Université de Strasbourg todiras@unistra.fr.

Plan Le projet "Collocations en contexte" Les collocations verbo-nominales Le dictionnaire L'extraction à partir des corpus

monolingues L'extraction de candidats à partir des

corpus multilingues alignés Evaluation Conclusion et perspectives

11/04/23 42

Page 43: Un dictionnaire multilingue de collocations Amalia Todirascu LiLPA (Linguistique, Langues, Paroles) Université de Strasbourg todiras@unistra.fr.

Résultats de l'extraction évaluation sur 1000 phrases

malgré les filtres, beaucoup de candidats qui sont des simples co-occurences (prédicat+complément direct, prédicat+circonstanciel)

fr environ 38% de candidats éliminés par

filtrage

ro 36,7% candidats éliminés par filtrage

11/04/23 43

Page 44: Un dictionnaire multilingue de collocations Amalia Todirascu LiLPA (Linguistique, Langues, Paroles) Université de Strasbourg todiras@unistra.fr.

Résultats de l'extraction (II) évaluer sur l'ensemble du corpus

les premiers 1000 noms les plus fréquents dans l'Acquis (fr,ro)

extraire les verbes qui co-occurent beaucoup de noms spécifiques au domaine (fr,ro)

comission/comisie, article/articol, paragraphe/paragraf, directive/directivă

pas beaucoup de candidats de la classe 1 ou 2 quelques noms

fr lieu (avoir, donner), vigueur (entrer, mettre), compte

(prendre, tenir) ro

parte (face) vigoare (intra) et măsură (lua, anula) 

11/04/23 44

Page 45: Un dictionnaire multilingue de collocations Amalia Todirascu LiLPA (Linguistique, Langues, Paroles) Université de Strasbourg todiras@unistra.fr.

Candidats (ro) Prep LL

aduce atingere - 51571,1211771531

lua considerare în 26697,2875383302

ţine cont - 26637,3033729519

pune aplicare în 12989,9639878404

veni contact în 3009,72649488981

Prédicateurs complexes (ro)

11/04/23 45

Page 46: Un dictionnaire multilingue de collocations Amalia Todirascu LiLPA (Linguistique, Langues, Paroles) Université de Strasbourg todiras@unistra.fr.

Candidats (fr) Prep, Art

LL

avoir lieu - 45860.0441745073

faire objet l' 39398.1847211485

tenir compte

- 39310.6736511725

mettre oeuvre en 22733.427464941

prendre considération en 13100.3090319577

Prédicateurs complexes (fr)

11/04/23 46

Page 47: Un dictionnaire multilingue de collocations Amalia Todirascu LiLPA (Linguistique, Langues, Paroles) Université de Strasbourg todiras@unistra.fr.

Résultats

Les 10 classes de constructions et coocurrences V-N et leurs répartition sur les 1000 premiers candidats

11/04/23 47

Page 48: Un dictionnaire multilingue de collocations Amalia Todirascu LiLPA (Linguistique, Langues, Paroles) Université de Strasbourg todiras@unistra.fr.

Extraction d'équivalents (I) Extraire les listes d'équivalents de traduction

(études des alignements fr-ro, ro-fr): Prédicateurs complexes traduits par des

prédicateurs complexes dans la langue source fait/Vmip3s/faire l'/Da3ms/le objet/Nc-s--/objet= face/Vmip3s/face

obiectul/Ncmsry/obiect dă/Vmip3s/da naştere/Ncfsrn/naştere=donnerait/Vmic3s/donner lieu/Ncms--/lieu

Prédicats+compléments équivalents dans les deux langues

émis/Vmps-sm/émettre un/Da-ms/un avis/Nc-s--/avis=emis/Vmp--sm/emite avizul/Ncmsry/aviz

11/04/23 48

Page 49: Un dictionnaire multilingue de collocations Amalia Todirascu LiLPA (Linguistique, Langues, Paroles) Université de Strasbourg todiras@unistra.fr.

Extraction d'équivalents (II)

Prédicateur complexe traduit par un verbe ou un nom

a/Vaip3s/avea reparat/Vmps-sm/repara pagubele/Ncmp--/pagubă=a/Vaip3s/avoir dédommagé/Vmps-sm/dedommager

donnent/Vmip3p/donner lieu/Nc-s--/lieu =generează/Vmip3s/genera

aducă/Vmsp3/aduce atingere/Ncfsrn/atingere= préjudice/Nc-s--/préjudice

11/04/23 49

Page 50: Un dictionnaire multilingue de collocations Amalia Todirascu LiLPA (Linguistique, Langues, Paroles) Université de Strasbourg todiras@unistra.fr.

Extraction d’équivalents (III)

Entrées multiples Plusieurs équivalents

A face referire = faire référence à, faire mention, définir, mentionner

plusieurs sens dă/Vmip3s/da naştere/Ncfsrn/naştere =

donner lieu Conflits, débats, interventions

dă/Vmip3s/da naştere/Ncfsrn/naştere=accoucher

11/04/23 50

Page 51: Un dictionnaire multilingue de collocations Amalia Todirascu LiLPA (Linguistique, Langues, Paroles) Université de Strasbourg todiras@unistra.fr.

Le dictionnaire 150 entrées/langue (en cours) entrées trilingues possibilité d'extensions vers d'autres langues

(l'anglais) informations sur la fréquence de chaque

propriété (si > 85%) possibilité de représenter les cas

d'équivalence entre collocations et unités lexicales simples

interopérabilité de données format XML, DTD définie

11/04/23 51

Page 52: Un dictionnaire multilingue de collocations Amalia Todirascu LiLPA (Linguistique, Langues, Paroles) Université de Strasbourg todiras@unistra.fr.

<?xml version="1.0" encoding="utf-8"?><collocations> <entry id="1"> <te lang="fr"> <construction>tenir compte</construction> <v_lemma>tenir</v_lemma> <v_spec> <form></form><active>oui</active> </v_spec> <prep>null</prep> <n_lemma>compte</n_lemma> <n_spec> <det freq="90%">null</det> <number freq="80%">sg</number> <modifier freq="76%">null</modifier> <case>nospec<case> </n_spec> <colloc_spec> <c_spec>

<required_args case="Acc" prep="de">OD</required_args> <lexical_head></lexical_head> <c_spec>

<colloc_type>prédicateur complexe</colloc_type> <examples>la commission a tenu compte du rapport de l'expert… </examples>

</colloc_spec> </te> <te lang="ro"></te> <te lang="de"></te> </entry></collocations>

11/04/23 52

Page 53: Un dictionnaire multilingue de collocations Amalia Todirascu LiLPA (Linguistique, Langues, Paroles) Université de Strasbourg todiras@unistra.fr.

<?xml version="1.0" encoding="utf-8"?><collocations> <entry id="1"> <te lang="ro"> <construction>lua considerare</construction> <v_lemma>lua</v_lemma> <v_spec> <form></form><active>oui</active> </v_spec> <prep>în</prep> <n_lemma>considerare</n_lemma> <n_spec> <det freq="98%">null</det> <number freq="100%">sg</number> <modifier freq="97%">null</modifier> <case>nospec<case> </n_spec> <colloc_spec> <c_spec>

<required_args case="Acc" det="déf">OD</required_args> <lexical_head></lexical_head> <c_spec>

<colloc_type>prédicateur complexe</colloc_type> <examples>comisia a luat în considerare… </examples>

</colloc_spec> </te> <te lang="fr"></te> <te lang="de"></te> </entry></collocations>

11/04/23 53

Page 54: Un dictionnaire multilingue de collocations Amalia Todirascu LiLPA (Linguistique, Langues, Paroles) Université de Strasbourg todiras@unistra.fr.

Conclusion et perspectives Identification des propriétés morpho-

syntaxiques spécifique pour chaque langue

Définition des filtres linguistiques quelques classes de collocations

validation manuelle des données extraites Utilisation de corpus alignés pour

alimenter le dictionnaire équivalents de traduction

11/04/23 54

Page 55: Un dictionnaire multilingue de collocations Amalia Todirascu LiLPA (Linguistique, Langues, Paroles) Université de Strasbourg todiras@unistra.fr.

Conclusion et perspectives (II) enrichir le dictionnaire avec d'autres entrées transformation vers le format LMF développement d'interfaces Web pour

interroger le dictionnaire utilisation du dictionnaire comme ressource

pour un système de traduction automatique factorisé fr-ro

utilisation du corpus annoté syntaxiquement pour automatiser le remplissage du dictionnaire

11/04/23 55

Page 56: Un dictionnaire multilingue de collocations Amalia Todirascu LiLPA (Linguistique, Langues, Paroles) Université de Strasbourg todiras@unistra.fr.

Réferences BRAASCH, (Anna), OLSEN (Sussi) : 2000, "Formalised Representation of

Collocations in a Danish Computational Lexicon", in Heid (U.) et al., eds. The Ninth EURALEX Congress, Proceedings, Vol. II, (Stuttgart), pp. 475-488.

CEAUSU (Alin), ŞTEFANESCU (Dan) and TUFIS (Dan) : 2006, « Acquis Communautaire Sentence Alignment using Support Vector Machines», in Proceedings of LREC 2006, (Genoa).

GROSSMANN (Francis), TUTIN (Agnès), dir. : 2003, « Les collocations: analyse et traitement», Numéro special : « Travaux et Recherches en Linguistique Appliquée ».

HAUSMANN (Franz Josef) : 2004, « Was sind eigentlich Kollokationen? », in STEYER (K), eds., Wortverbindungen – mehr oder weniger fest, pp. 309-334

HALLIDAY (Michael) : 1985, An Introduction to Functional Grammar, (London, Arnold).

HEID (Ulrich) and RITZ (Julia) : 2005, « Extracting collocations and their contexts from corpora», in Actes de Conference on Computational Lexicography and Text Research, (Budapest).

11/04/23 56

Page 57: Un dictionnaire multilingue de collocations Amalia Todirascu LiLPA (Linguistique, Langues, Paroles) Université de Strasbourg todiras@unistra.fr.

Références (II) POLGUERE (Alain) : 2006, « Structural properties of Lexical Systems: Monolingual

and Multilingual Perspectives», in Proceedings of the Workshop on Multilingual Language Resources and Interoperability (COLING/ACL 2006, Sydney), pp. 50-59.

RITZ (Julia) and HEID (Ulrich) : 2006, « Extraction tools for collocations and their morphosyntactic specificities», in Proceedings of the Linguistic Resources and Evaluation Conference, (Genova).

SERETAN (VIOLETA), NERIMA (LUKA) AND WEHRLI (ERIC) : 2004, « A tool for multi-word collocation extraction and visualization in multilingual corpora», in Proceedings of EURALEX’2004, (Lorient, France), vol. 2, pp.755-766

TUTIN (AGNÈS) : 2004, « Pour une modélisation dynamique des collocations dans les textes», in Actes du congrès EURALEX’2004, (Lorient, France), vol. 1, pp. 207-221.

TODIRASCU(AMALIA), HEID (ULRICH), ŞTEFĂNESCU (DAN), TUFIŞ(DAN), GLEDHILL(CHRISTOPHER), WELLER(MARION), ROUSSELOT (FRANÇOIS): 2008, « Vers un dictionnaire de collocations multilingue », Cahiers de linguistique, Université de Louvain

11/04/23 57