1 Informatique 3 Méthodes Empiriques en Linguistique Informatique Paola MERLO Année académique...

27
1 Informatique 3 Méthodes Empiriques en Linguistique Informatique Paola MERLO Année académique 2004-2005 Semestre d’hiver

Transcript of 1 Informatique 3 Méthodes Empiriques en Linguistique Informatique Paola MERLO Année académique...

Page 1: 1 Informatique 3 Méthodes Empiriques en Linguistique Informatique Paola MERLO Année académique 2004-2005 Semestre dhiver.

1

Informatique 3 Méthodes Empiriques en Linguistique Informatique

Paola MERLO

Année académique 2004-2005

Semestre d’hiver

Page 2: 1 Informatique 3 Méthodes Empiriques en Linguistique Informatique Paola MERLO Année académique 2004-2005 Semestre dhiver.

2

Objectifs du cours

•Apprentissage de UNIX/LINUX et

du langage de programmation Perl

•Introduction à l'utilisation d'un corpus

•Introduction aux méthodes d'apprentissage automatique et statistique en TALN

Page 3: 1 Informatique 3 Méthodes Empiriques en Linguistique Informatique Paola MERLO Année académique 2004-2005 Semestre dhiver.

3

Évaluation

Attestation

- éxecution et présentation d'un projet TALN en LINUX/Perl

Examen écrit (étudiant(e)s de licence, Lettres et Sciences)

- attestation requise avant l’examen pour se présenter à l’examen

- théorique et pratique: il faut 4 dans les deux parties pour passer

N.B. Les étudiants qui seraient intéressé-e-s à faire le mémoire avec moi doivent avoir obtenu au moins 5 à l’examen.

Page 4: 1 Informatique 3 Méthodes Empiriques en Linguistique Informatique Paola MERLO Année académique 2004-2005 Semestre dhiver.

4

Horaires

•Cours Mercredi 12-14 h

•TP Mercredi 14-16 h

Enseignants

•Cours Paola MERLO Réception Mardi 13 -14h

•TP Paola MERLO

Gabriel MUSILLO Réception Jeudi 12-13 h

Salles

•Cours L208

•TP B319

Page 5: 1 Informatique 3 Méthodes Empiriques en Linguistique Informatique Paola MERLO Année académique 2004-2005 Semestre dhiver.

5

Conditions d’admission

• Sont admis au cours les étudiants de 2e cycle en Lettres (branche A et B) et les étudiants de 2e cycle de la faculté des Sciences.

• Ceci n'est pas un cours d'introduction à la programmation.

Si vous n'avez pas de bonnes bases en programmation structurée, vous ne pouvez pas suivre ce cours.

• Les auditeurs doivent obtenir ma permission pour assister au cours.

Page 6: 1 Informatique 3 Méthodes Empiriques en Linguistique Informatique Paola MERLO Année académique 2004-2005 Semestre dhiver.

6

Supports du cours

• Transparents (sur la page web: http://www.latl.unige.ch/informatique3/index.html)

• Polycopiés (parfois)

• Vos notes

• Un choix énorme de tutoriels et cours sur le Web

Page 7: 1 Informatique 3 Méthodes Empiriques en Linguistique Informatique Paola MERLO Année académique 2004-2005 Semestre dhiver.

7

Bibliographie

Perl Larry Wall et Randal Schwartz, Programming Perl, O'Reilly Associates

Ellie Quigley, Perl by example, Prentice Hall

Jeffrey Friedl, Mastering Regular Expression, O'Reilly Associates

Approche Corpus

Benoît Habert, Adeline Nazarenko, et André Salem,

Les linguistiques de corpus, Armand Colin

Tony Mc Enery et Andrew Wilson, Corpus Lingusitics, Edinburgh Press

Méthodes empiriques et statistiques

Christopher Manning et Hinrich Schuetze, Foundations of Statistical Natural Language Processing, MIT Press

Daniel Jurafsky et James Martin, Speech and Language Processing, Prentice Hall

Page 8: 1 Informatique 3 Méthodes Empiriques en Linguistique Informatique Paola MERLO Année académique 2004-2005 Semestre dhiver.

8

Bibliographie sur le web (en francais)Cours Perl

http://www.med.univ-rennes1.fr/~poulique/cours/perl/

Cours sans exercices, avec quelques exemples. Assez clair.

http://www.cavi.univ-paris3.fr/ilpga/ilpga/tal/perl/index.htm

Avec des exercices. Niveau très basique.

http://www.ftls.org/fr/initiation/perl/

Avec quelques exercices et des exemples. Assez clair.

Documentation Perl http://www.enstimac.fr/Perl/ (en français, mais pas complet)

http://Perldoc.com (référence officielle en anglais, complète et à jour)

Cours Perl et Unix http://www.esil.univ-mrs.fr/~dgaut/Cours/sommaire-unixperl.html

Très basique. Avec des exercices.

Cours avancé Unix http://www.iie.cnam.fr/~Berthelot/Tfse/unix_trsp/unix_trsp1.html

Pas d’exercices ni d’exemples. Assez clair.

Page 9: 1 Informatique 3 Méthodes Empiriques en Linguistique Informatique Paola MERLO Année académique 2004-2005 Semestre dhiver.

9

Programme détaillé du cours

Introduction: le TALN, les approches basées sur les corpus, quelques exemples des problèmes et solutions avec ces approches.

Méthodes quantitatives: données qualitatives et quantitatives. La notion de distribution de fréquence, la distinction entre type et token, la loi de Zipf, les n-grammes.

Données textuelles: qu'est-ce qu'un corpus, corpus balisé, exemples de corpus textuels: la Penn Treebank, le British National Corpus, le NEGR@ corpus.

Page 10: 1 Informatique 3 Méthodes Empiriques en Linguistique Informatique Paola MERLO Année académique 2004-2005 Semestre dhiver.

10

Programme détaillé du cours

Perl, un langage de programmation pour les données textuelles:

Les bases: variables, structures de données, gestion du contrôle.

Les expressions rationnelles (régulières): théorie et pratique.

Les tableaux associatifs (Hash Tables).

Les données textuelles comme base pour l'évaluation: les mesures de précision, de rappel et d’exactitude.

Page 11: 1 Informatique 3 Méthodes Empiriques en Linguistique Informatique Paola MERLO Année académique 2004-2005 Semestre dhiver.

11

Programme détaillé du cours

Introduction à l'apprentissage automatique: l'approche d'apprentissage automatique aux problèmes de TALN. Les méthodes d'apprentissage symbolique: les arbres de décisions.

L'apprentissage du lexique: la classification automatique des verbes en classes sémantiques.

Page 12: 1 Informatique 3 Méthodes Empiriques en Linguistique Informatique Paola MERLO Année académique 2004-2005 Semestre dhiver.

12

Programme détaillé du cours

Introduction à la théorie des probabilités: probabilité simple et probabilité conditionnelle; le théorème de Bayes; variables aléatoires et fonctions de probabilité.

Modèle probabiliste pour L'apprentissage automatique : applications au TALN

•L'apprentissage automatique des rôles thématiques.

•Désambiguïsation des classes des verbes.

•Désambiguïsation des mots.

Page 13: 1 Informatique 3 Méthodes Empiriques en Linguistique Informatique Paola MERLO Année académique 2004-2005 Semestre dhiver.

13

Le Traitement du Langage Naturel

•Le TALN

•Les approches basées sur les corpus

•Quelques exemples de problèmes et solutions

Page 14: 1 Informatique 3 Méthodes Empiriques en Linguistique Informatique Paola MERLO Année académique 2004-2005 Semestre dhiver.

14

Le Traitement du Langage Naturel

Qu'est ce que l'analyse du langage naturel ?

L'analyse du langage naturel tente de donner à un ordinateur la faculté de comprendre des langues naturelles comme l'anglais, le français ou le japonais.

Par « comprendre », nous ne voulons pas faire croire que l'ordinateur acquiert un mode de pensée, des sensations et des connaissances humaines. Nous voulons seulement dire que l'ordinateur peut reconnaître et utiliser des informations exprimées à l'aide d'une langue naturelle.

Page 15: 1 Informatique 3 Méthodes Empiriques en Linguistique Informatique Paola MERLO Année académique 2004-2005 Semestre dhiver.

15

Applications du TALN

•L'anglais comme langage de commande -- c'est à dire l'usage d'une langue naturelle en lieu et place d'un langage artificiel comme c'est encore le cas dans les langages de commande des ordinateurs.

•Les banques de données et les environnements d'aide peuvent accepter des requêtes en anglais.

•La traduction assistée par ordinateur de documents scientifiques et techniques ou bien d'informations commerciales d'une langue naturelle vers une autre.

•La génération automatique de banques de données à partir de documents techniques, tels que des rapports de pannes ou des rapports médicaux.

Page 16: 1 Informatique 3 Méthodes Empiriques en Linguistique Informatique Paola MERLO Année académique 2004-2005 Semestre dhiver.

16

Applications du TALN

•Aide à la Rédaction

correction des textes

génération de textes

•Recherche documentaire

•Filtrage/classification d'information

•Résumé automatique, pour un seul document, pour plusieurs documents sur le même sujet

Page 17: 1 Informatique 3 Méthodes Empiriques en Linguistique Informatique Paola MERLO Année académique 2004-2005 Semestre dhiver.

17

Le Langage Naturel

•Les langages formels (programmation, mathématique) sont par définition explicites et non ambigus.

•Les langages naturels sont par contre implicites et ambigus.

Implicite

Enlevez les noyaux des cerises et mettez les sur la tarte.

Le voisin a caressé le chat; ma femme aussi.

Ambigu

La belle brise la glace.

Les experts ont analysé la croissance de la consommation.

Les experts ont dissocié la croissance de la consommation.

Page 18: 1 Informatique 3 Méthodes Empiriques en Linguistique Informatique Paola MERLO Année académique 2004-2005 Semestre dhiver.

18

Les Fonctions du Langage Naturel

•Les langages naturels ont une fonction de communication.

Concision

L'étudiant a remis sa copie au professeur qui lui a dit qu'elle aurait pu être mieux.

L'étudiant a remis la copie de l'étudiant au professeur. Le professeur a dit à l'étudiant que la copie de l'étudiant aurait pu être mieux.

Connaissances Partagées

Peux-tu descendre un avocat?

Un de ceux achetés ce matin? Des ennuis?

Oui, c'est pour midi. Mmm,passons. Alors, combien?

Page 19: 1 Informatique 3 Méthodes Empiriques en Linguistique Informatique Paola MERLO Année académique 2004-2005 Semestre dhiver.

19

Les Fonctions du Langage Naturel

•Les langages naturels ont une fonction de représentation.

Pouvoir expressif non-limité

N'importe quel niveau logique

La terre est ronde.

Tous les hommes sont des machos.

Tous ce qui est trop vite fait est bâclé.

Même incompréhensible

En suivant la logique de la polarité antagoniste, nous dirons que nous entrons dans une sorte d'état T où une mi-actualisation et une mi-potentialisation imaginaire/rationnel-réel tendent vers un équilibre dynamique.

Page 20: 1 Informatique 3 Méthodes Empiriques en Linguistique Informatique Paola MERLO Année académique 2004-2005 Semestre dhiver.

20

Les Propriétés des Applications TAL

•Deux grands contextes d'application correspondant aux deux fonctions essentielles du langage

Outils de communication application dans le domaine des interfaces

Une contrainte importante d'application est ici le traitement en temps réel

(max. 300ms/mot)

Formalisme de représentation des connaissances

Applications dans le domaine de la recherche d'information

Performance encore faibles

On compense avec la capacité de traiter de volumes importants de données

(10K documents par jour)

Page 21: 1 Informatique 3 Méthodes Empiriques en Linguistique Informatique Paola MERLO Année académique 2004-2005 Semestre dhiver.

21

Les principales contraintes imposées par les contextes d'application sont donc:

Traitement rapide

Cela nécessite des algorithmes de complexité

polynomiale.

Systèmes permettant une bonne couverture de la langue considérée

Cela nécessite des ressources linguistiques

représentatives en quantité suffisante.

Les Propriétés des Applications TAL

Page 22: 1 Informatique 3 Méthodes Empiriques en Linguistique Informatique Paola MERLO Année académique 2004-2005 Semestre dhiver.

22

L’approche à base de corpus

Les ressources linguistiques représentatives en quantité suffisante sont très difficiles et chères à construire.

On ne cherche plus à reproduire la compétence à l'aide de modèles formalisant notre compréhension du langage mais à reproduire, pour une classe d'applications TAL donnée,

la performance linguistique associée,

et ce, à l'aide de modèles automatiquement extraits de volumes importants de données textuelles caractéristiques de la classe d'application envisagée.

Page 23: 1 Informatique 3 Méthodes Empiriques en Linguistique Informatique Paola MERLO Année académique 2004-2005 Semestre dhiver.

23

L’approche à base de corpus

La validation des modèles obtenus n'est pas liée à leur capacité explicative du fonctionnement de la langue mais repose sur l'évaluation de l'amélioration des performances que permettent ces modèles pour l'application TALN envisagée

Données

textuelles

Données

textuelles

Données

textuelles

Système réalisant

l'application TAL envisagée

CORPUS TEXTUEL

Modèle

Résultats

ValidationExpert

Page 24: 1 Informatique 3 Méthodes Empiriques en Linguistique Informatique Paola MERLO Année académique 2004-2005 Semestre dhiver.

24

Exemple: Attachement du SP

Je mange la pizza avec un couteau.

Je mange la pizza avec le fromage.

Avant: modélisation des connaissances linguistiques et extra-linguistiques nécessaires à enlever l'ambiguïté.

Par exemple, sémantique du verbe et du syntagme prépositionnel (SP):

verbe d'action ou verbe d'état?

SP instrumental ou de manière? ou spécification?

Connaissance du monde: est-ce qu'on mange du couteau et on coupe avec du fromage?

Page 25: 1 Informatique 3 Méthodes Empiriques en Linguistique Informatique Paola MERLO Année académique 2004-2005 Semestre dhiver.

25

Exemple: Attachement du SP

Je mange la pizza avec un couteau.

Je mange la pizza avec le fromage.

Méthode à l'aide de corpus

P(mange, avec, couteau) vs. P(pizza, avec, couteau)

P(mange, avec, fromage) vs. P(pizza, avec, fromage)

Page 26: 1 Informatique 3 Méthodes Empiriques en Linguistique Informatique Paola MERLO Année académique 2004-2005 Semestre dhiver.

26

Avantages

•Acquisition: identification et encodage automatique des connaissances nécessaires.

•Couverture: on couvre automatiquement tous les phénomènes linguistiques dans le domaine d'application donné.

•Robustesse: on s'adapte facilement au bruit et aux données imprévues.

•Portabilité: en principe, assez facile à étendre vers une nouvelle langue.

•Évaluation: on arrive à évaluer de façon expérimentale des systèmes pratiques et des hypothèses scientifiques.

Page 27: 1 Informatique 3 Méthodes Empiriques en Linguistique Informatique Paola MERLO Année académique 2004-2005 Semestre dhiver.

27

Résumé du cours

•Le TALN tente de donner à un ordinateur la faculté de « comprendre » les langues naturelles (anglais, français, etc.)

•Ses applications sont l'interfaçage avec les grandes bases des données, la traduction automatique ou assistée, la génération automatique des documents, la recherche et le filtrage documentaire, le résumé automatique, …

•Propriétés des LN: ambiguës et implicites

•Fonctions des LN: communication et représentation

•Approche corpus:

ressources linguistiques en grande quantité

acquisition automatique de connaissances langagières

accent sur la performance et l'évaluation systématique