Approche d’apprentissage automatique pour l’annotation...

44
Approche d’apprentissage automatique pour l’annotation automatique des événements Dr. Rim Faiz IHEC de Carthage [email protected] Colloque LaLICC 27 – 28 octobre 2006

Transcript of Approche d’apprentissage automatique pour l’annotation...

Page 1: Approche d’apprentissage automatique pour l’annotation ...lalic.paris-sorbonne.fr/.../colloqueOct2006/slides/ColloqueLaLICC_Fai… · Rim.Faiz@ihec.rnu.tn Colloque LaLICC 27 –

Approche d’apprentissage automatique pour l’annotation automatique des événements

Dr. Rim Faiz

IHEC de Carthage

[email protected]

Colloque LaLICC 27 – 28 octobre 2006

Page 2: Approche d’apprentissage automatique pour l’annotation ...lalic.paris-sorbonne.fr/.../colloqueOct2006/slides/ColloqueLaLICC_Fai… · Rim.Faiz@ihec.rnu.tn Colloque LaLICC 27 –

2

Plan

� Introduction

� Quelques méthodes d’annotation

� Approche d’annotation des événements

� Etapes du processus d’annotation

� Exemples

� Perspectives

Page 3: Approche d’apprentissage automatique pour l’annotation ...lalic.paris-sorbonne.fr/.../colloqueOct2006/slides/ColloqueLaLICC_Fai… · Rim.Faiz@ihec.rnu.tn Colloque LaLICC 27 –

3

Introduction

� Prolifération des articles de Presse sur le Web

� Diversité de leurs sources (Reuters, Aljazeera, CNN,…)

� Un traitement automatique de leurs contenus devient de plus en plus nécessaire.

� Quotidiennement des milliers d’articles sont produits dans le monde entier concernant un événement donné.

� Nous proposons de développer une approche qui annote automatiquement ces articles de Presse.

Page 4: Approche d’apprentissage automatique pour l’annotation ...lalic.paris-sorbonne.fr/.../colloqueOct2006/slides/ColloqueLaLICC_Fai… · Rim.Faiz@ihec.rnu.tn Colloque LaLICC 27 –

4

Annotation� Annotation : information graphique ou textuelle

attachée à un document et le plus souvent placée dans ce même document (Desmontils et Jacquin, 2002).

� Dans notre cas, l’annotation est une description des

principaux événements que contient un article de Presse.

� Nous proposons un processus permettant d’extraire

tous les événements ensuite de les grouper avant de générer l’annotation.

Page 5: Approche d’apprentissage automatique pour l’annotation ...lalic.paris-sorbonne.fr/.../colloqueOct2006/slides/ColloqueLaLICC_Fai… · Rim.Faiz@ihec.rnu.tn Colloque LaLICC 27 –

Quelques méthodes d’annotation

Page 6: Approche d’apprentissage automatique pour l’annotation ...lalic.paris-sorbonne.fr/.../colloqueOct2006/slides/ColloqueLaLICC_Fai… · Rim.Faiz@ihec.rnu.tn Colloque LaLICC 27 –

6

Annotation pour le web sémantique

C. Roussey, S. Calabretto et J-M Pinon (2002, 2004)

� SyDoM : un outil d’annotation pour le web sémantique.

� Traiter des pages web en formats XML

� Expliciter les connaissances associées à une page web par le biais d’annotations

� Permet la recherche multilingue

Page 7: Approche d’apprentissage automatique pour l’annotation ...lalic.paris-sorbonne.fr/.../colloqueOct2006/slides/ColloqueLaLICC_Fai… · Rim.Faiz@ihec.rnu.tn Colloque LaLICC 27 –

7

Annotation sémantique de pages web

S.Tenier, A. Napoli, X. Polanco et Y.Toussaint, (2006)

� Classifier des pages concernant des équipes de recherche, afin de pouvoir déterminer par exemple qui travaille où, sur quoi et avec qui (utilisation d’une ontologie du domaine).

� Cela consiste a

1. l’identification de la structure syntaxique caractérisant l’élément pertinent dans la page web.

2. l’identification du concept le plus spécifique (en termes de subsumption) dans l’ontologie dont l’instance sera utilisée pour annoter cet élément.

Page 8: Approche d’apprentissage automatique pour l’annotation ...lalic.paris-sorbonne.fr/.../colloqueOct2006/slides/ColloqueLaLICC_Fai… · Rim.Faiz@ihec.rnu.tn Colloque LaLICC 27 –

8

Annotation automatique de documents

L. Abrouk, A. Gouaïch et C. Raïssi, (2006)

� Approche pour l’annotation des documents qui consiste à se baser sur les références citées afin de propager leurs annotations sur le document cible.

� L’approche permet d’annoter directement une

ressource sans connaissance préalable de son contenu selon un regroupement thématique

construit à partir d’un classifieur flou non supervisé.

Page 9: Approche d’apprentissage automatique pour l’annotation ...lalic.paris-sorbonne.fr/.../colloqueOct2006/slides/ColloqueLaLICC_Fai… · Rim.Faiz@ihec.rnu.tn Colloque LaLICC 27 –

9

Annotea

J. Kahan et M.-R. Koivunen (2001)

� Annotea fait partie des tentatives du Semantic

Web.

� Les annotations sont stockées sur des serveurs en tant que méta-données et présentées à l'utilisateur

par le biais d'un client capable d'interagir avec le serveur en utilisant le protocole HTTP.

Page 10: Approche d’apprentissage automatique pour l’annotation ...lalic.paris-sorbonne.fr/.../colloqueOct2006/slides/ColloqueLaLICC_Fai… · Rim.Faiz@ihec.rnu.tn Colloque LaLICC 27 –

10

Annotation et indexation discursives de textes

J.P. Desclés et al. (2005-2006)

� EXCOM/MOCXE

� Notion de points de vue (extraction, filtrage,

catégorisation d’information)

� Fouille de textes par catégorie sémantique

� Recherche d’information discursives et sémantiques

Page 11: Approche d’apprentissage automatique pour l’annotation ...lalic.paris-sorbonne.fr/.../colloqueOct2006/slides/ColloqueLaLICC_Fai… · Rim.Faiz@ihec.rnu.tn Colloque LaLICC 27 –

11

Constat

� Annotation des documents (documents web, articles scientifiques, documents multimédias, services web,…)

� Annotation des informations temporelles� La détection de dates et de marqueurs temporels� Le repérage d’événements (Event Extraction)

� Datation d’événements� Détermination de l’ordre des événements dans un

texte

Page 12: Approche d’apprentissage automatique pour l’annotation ...lalic.paris-sorbonne.fr/.../colloqueOct2006/slides/ColloqueLaLICC_Fai… · Rim.Faiz@ihec.rnu.tn Colloque LaLICC 27 –

12

Annotation de relations temporelles

P. Muller et X. Tannier (2004)

� Annotation automatique d’informations temporelles dans des textes (dépêches d’agence)

� Particulièrement les relations entre événements

introduits par les verbes dans chaque clause.

� Proposition de deux mesures d’évaluation de l’annotation : finesse et cohérence.

Page 13: Approche d’apprentissage automatique pour l’annotation ...lalic.paris-sorbonne.fr/.../colloqueOct2006/slides/ColloqueLaLICC_Fai… · Rim.Faiz@ihec.rnu.tn Colloque LaLICC 27 –

13

Constat

� Annotation des événements ?� Annotation de relations entres les événements

� Annotation sous forme de méta-données sur les événements du document (article de Presse)

� Notre approche d’annotation des événements consiste à :� Extraire les événements (phrases événementielles).

� Grouper celles qui font référence à un même événement dans un cluster.

� Déduire l’annotation sous différentes formes.

Page 14: Approche d’apprentissage automatique pour l’annotation ...lalic.paris-sorbonne.fr/.../colloqueOct2006/slides/ColloqueLaLICC_Fai… · Rim.Faiz@ihec.rnu.tn Colloque LaLICC 27 –

14

Etapes du processus d’annotation

Articles bruts

TAL

Ph1 ;

Ph2 ; …

……

Ph1 ;

Ph2 ; …

……

Ph1 ;

Ph2 ; …

……

PEV1 ;

PEv2 ; …

……

PEV1 ;

PEv2 ; …

……

PEV1 ;

PEv2 ; …

……

Classification

PEV1 ;

PEv2 ; …

……

PEV1 ;

PEv2 ; …

……

PEV1 ;

PEv2 ; …

……

PEV1 ;

PEv2 ; …

……

PEV1 ;

PEv2 ; …

……

PEV1 ;

PEv2 ; …

……

Page 15: Approche d’apprentissage automatique pour l’annotation ...lalic.paris-sorbonne.fr/.../colloqueOct2006/slides/ColloqueLaLICC_Fai… · Rim.Faiz@ihec.rnu.tn Colloque LaLICC 27 –

15

Etapes du processus d’annotation

Clustering

PEV1 ;

PEv2 ; …

……

PEV1

PEv3PEV7

PEV2

PEv4PEV6

PEV5PEv9

PEV10

PEV1 ;

PEv2 ; …

……

PEV1PEv3PEV7

PEV2PEv4PEV6

PEV5PEv9

PEV10

PEV1 ;

PEv2 ; …

……

PEV1

PEv3PEV7

PEV2

PEv4PEV6

PEV5PEv9

PEV10

PEV1 ;

PEv2 ; …

……

Description

PEV1 ;

PEv2 ; …

……

Description

PEV1 ;

PEv2 ; …

……

Description

Annotation

Keyword: Killed Location: Baghdad Time/date: 2 p.mPerson: U.S. soldier

Iraqi leader denies civil war as 50 people die.

Deserter, war, Iraq

BD

Page 16: Approche d’apprentissage automatique pour l’annotation ...lalic.paris-sorbonne.fr/.../colloqueOct2006/slides/ColloqueLaLICC_Fai… · Rim.Faiz@ihec.rnu.tn Colloque LaLICC 27 –

16

Première étape : segmentation

� Applications des techniques de TAL aux

textes pour extraire les phrases.

� Segmentation du texte en phrases (exp.

SegATex, LaLICC, G. Mourad, 2001).

� Identification des phrases en utilisation le module de Lingua::EN::Sentence de Perl.

Page 17: Approche d’apprentissage automatique pour l’annotation ...lalic.paris-sorbonne.fr/.../colloqueOct2006/slides/ColloqueLaLICC_Fai… · Rim.Faiz@ihec.rnu.tn Colloque LaLICC 27 –

17

Deuxième étape : Classification

� Un modèle de classification est construit automatiquement

en se basant sur un ensemble d’apprentissage (training set).

� Prédire si une phrase contient un événement ou non

� Comparaison des PCC (Pourcentage des Classes bien Classées) issus de différents algorithmes de classification

par arbre de décision.

� Choisir le modèle de données résultant qui dispose du plus

grand PCC .

� Le résultat de cette étape est l’ensemble des phrases référant à des événements.

Page 18: Approche d’apprentissage automatique pour l’annotation ...lalic.paris-sorbonne.fr/.../colloqueOct2006/slides/ColloqueLaLICC_Fai… · Rim.Faiz@ihec.rnu.tn Colloque LaLICC 27 –

18

Deuxième étape : Sélection des attributs

� Nous utilisons les attributs qui se rapportent aux

événements tels que définis par Naughton et al. (2006).

� Ces attributs sont les suivants :

� longueur de la phrase,

� position de la phrase dans le document,

� nombre de lettres capitales,

� nombre de caractères (stopwords),

� nombre de noms de villes (city/town),

� nombre de marques numériques dans la phrase,

� Nombre de termes calendaires.

Page 19: Approche d’apprentissage automatique pour l’annotation ...lalic.paris-sorbonne.fr/.../colloqueOct2006/slides/ColloqueLaLICC_Fai… · Rim.Faiz@ihec.rnu.tn Colloque LaLICC 27 –

19

Deuxième étape : training set

� L’ensemble de l’apprentissage (training set) est annoté par des experts.

� Pour chaque article de Presse, les événements sont

annotés comme suit :

� Les annotateurs sont amenés à assigner des étiquettes à

chaque phrase représentant un événement.

� Si une phrase se rapporte à un événement, ils lui

assignent l'étiquette «yes» sinon «no» .

Page 20: Approche d’apprentissage automatique pour l’annotation ...lalic.paris-sorbonne.fr/.../colloqueOct2006/slides/ColloqueLaLICC_Fai… · Rim.Faiz@ihec.rnu.tn Colloque LaLICC 27 –

20

Deuxième étape : Expérimentation

RandomTree : construire plusieurs arbres puis choisir celui dont le score est maximal en se basant sur la matrice de distance et la corrélation entre les données.

J48 : implémentation de C4.5 JR Quinlan (1993). � Choisir pour chaque niveau le nœud de l’arbre comme l’attribut

qui différencie mieux les instances.

� Diviser le training set en sous-groupes afin de refléter les valeurs de l’attribut du noeud choisi.

� Répéter le même traitement pour le sous groupe jusqu’àl’obtention de sous groupes homogènes (toutes les instances ou la majorité ont le même attribut de décision)

ADTree : construction d'arbres de décision étendus aux cas multi-classes et multi-labels.

Page 21: Approche d’apprentissage automatique pour l’annotation ...lalic.paris-sorbonne.fr/.../colloqueOct2006/slides/ColloqueLaLICC_Fai… · Rim.Faiz@ihec.rnu.tn Colloque LaLICC 27 –

21

RandomTreeRandomTree==========NbNumérique < 1| NbStopwords < 5| | Long < 172| | | NbCity < 1| | | | Long < 118| | | | | NbMot < 9 : no (6/0)| | | | | NbMot >= 9| | | | | | NbCapitale < 2| | | | | | | NbMot < 11| | | | | | | | Long < 56 : yes (1/0)| | | | | | | | Long >= 56 : no (1/0)| | | | | | | NbMot >= 11 : no (3/0)| | | | | | NbCapitale >= 2 : no (4/0)| | | | Long >= 118| | | | | NbStopwords < 2 : yes (1/0)| | | | | NbStopwords >= 2 : no (1/0)| | | NbCity >= 0.5| | | | NbCapitale < 1 : yes (2/0)| | | | NbCapitale >= 1 : no (4/0)| | Long >= 172 : yes (1/0)| NbStopwords >= 5 : yes (1/0)NbNumérique >= 1 : yes (10/0)

Weka 3-4

Correctly Classified Instances 23 65.7143 %

Incorrectly Classified Instances 12 34.2857 %

Kappa statistic 0.2953

Mean absolute error 0.3429

Root mean squared error 0.5855

Relative absolute error 68.8027 %

Root relative squared error 117.0862 %

Total Number of Instances 35

=== Detailed Accuracy By Class ===

TP Rate FP Rate Precision Recall F-Measure Class

0.5 0.211 0.667 0.5 0.571 yes

0.789 0.5 0.652 0.789 0.714 no

=== Confusion Matrix ===

a b <-- classified as

8 8 | a = yes

4 15 | b = no

Page 22: Approche d’apprentissage automatique pour l’annotation ...lalic.paris-sorbonne.fr/.../colloqueOct2006/slides/ColloqueLaLICC_Fai… · Rim.Faiz@ihec.rnu.tn Colloque LaLICC 27 –

22

RandomTreeNbCapitale < 7

| NbCity < 1

| | NbNumérique < 1| | | NbMot < 22

| | | | NbStopwords < 2

| | | | | NbCapitale < 2

| | | | | | NbMot < 11

| | | | | | | Position < 0.87 : no (3/0)| | | | | | | Position >= 0.87 : yes (1/0)

| | | | | | NbMot >= 11 : no (3/0)

| | | | | NbCapitale >= 2 : no (3/0)

| | | | NbStopwords >= 2 : no (5/0)

| | | NbMot >= 22| | | | Position < 0.57 : no (1/0)

| | | | Position >= 0.57 : yes (1/0)

| | NbNumérique >= 1 : yes (1/0)

| NbCity >= 0.5| | NbCalendrier < 1

| | | NbNumérique < 1

| | | | Position < 0.32 : no (2/0)

| | | | Position >= 0.32

| | | | | NbStopwords <2| | | | | | Long < 56 : yes (1/0)

| | | | | | Long >= 56 : no (2/0)

| | | | | NbStopwords >= 2 : yes (2/0)

| | | NbNumérique >= 1 : yes (2/0)

| | NbCalendrier >= 1 : yes (5/0)NbCapitale >= 7 : yes (3/0)

Weka 3-4

Correctly Classified Instances 24 68.5714 %

Incorrectly Classified Instances 11 31.4286 %

Kappa statistic 0.3636

Mean absolute error 0.3143

Root mean squared error 0.5606

Relative absolute error 63.0691 %

Root relative squared error 112.1015 %

Total Number of Instances 35

=== Detailed Accuracy By Class ===

TP Rate FP Rate Precision Recall F-Measure Class

0.625 0.263 0.667 0.625 0.645 yes

0.737 0.375 0.7 0.737 0.718 no

=== Confusion Matrix ===

a b <-- classified as

10 6 | a = yes

5 14 | b = no

Page 23: Approche d’apprentissage automatique pour l’annotation ...lalic.paris-sorbonne.fr/.../colloqueOct2006/slides/ColloqueLaLICC_Fai… · Rim.Faiz@ihec.rnu.tn Colloque LaLICC 27 –

23

J48

NbNumérique <= 0| NbCity <= 0| | Position <= 0.86: no (15.0)| | Position > 0.86: yes (2.0)| NbCity > 0| | NbCapitale <= 1: yes (2.0)| | NbCapitale > 1| | | NbCapitale <= 4: no (3.0)| | | NbCapitale > 4: yes (3.0/1.0)NbNumérique > 0: yes (10.0)

Weka 3-4

Correctly Classified Instances 25 71.4286 %

Incorrectly Classified Instances 10 28.5714 %

Kappa statistic 0.4186

Mean absolute error 0.2716

Root mean squared error 0.4859

Relative absolute error 54.4961 %

Root relative squared error 97.1658 %

Total Number of Instances 35

=== Detailed Accuracy By Class ===

TP Rate FP Rate Precision Recall F-Measure Class

0.625 0.211 0.714 0.625 0.667 yes

0.789 0.375 0.714 0.789 0.75 no

=== Confusion Matrix ===

a b <-- classified as

10 6 | a = yes

4 15 | b = no

Page 24: Approche d’apprentissage automatique pour l’annotation ...lalic.paris-sorbonne.fr/.../colloqueOct2006/slides/ColloqueLaLICC_Fai… · Rim.Faiz@ihec.rnu.tn Colloque LaLICC 27 –

24

ADTree

(1)NbNumérique < 1: 0.584

| (2)Position < 0.385: 0.964

| (2)Position >= 0.385: -0.29

| | (5)NbMot < 10: 0.586

| | (5)NbMot >= 10: -0.311

| | | (8)Long < 148: -0.396

| | | (8)Long >= 148: 0.104

(1)NbNumérique >=1: -1.668

(3)NbCity < 1: 0.381

| (4)Position < 0.885: 1.424

| (4)Position >= 0.885: -1.262

(3)NbCity >= 1: -0.543

| (6)NbStopwords < 2: 0.279

| | (7)Position < 0.615: -0.366

| | (7)Position >= 0.615: 0.543

| (6)NbStopwords >= 2: -0.47

Legend: -ve = yes, +ve = no

Weka 3-4

Correctly Classified Instances 26 74.2857 %

Incorrectly Classified Instances 9 25.7143 %

Kappa statistic 0.4741

Mean absolute error 0.2901

Root mean squared error 0.4188

Relative absolute error 58.215 %

Root relative squared error 83.7538 %

Total Number of Instances 35

=== Detailed Accuracy By Class ===

TP Rate FP Rate Precision Recall F-Measure Class

0.625 0.158 0.769 0.625 0.69 yes

0.842 0.375 0.727 0.842 0.78 no

=== Confusion Matrix ===

a b <-- classified as

10 6 | a = yes

3 16 | b = no

Page 25: Approche d’apprentissage automatique pour l’annotation ...lalic.paris-sorbonne.fr/.../colloqueOct2006/slides/ColloqueLaLICC_Fai… · Rim.Faiz@ihec.rnu.tn Colloque LaLICC 27 –

25

Troisième étape : Clustering

� Nous regroupons les phrases référant aux mêmes événements par l’application de l’algorithme ‘Hierarchical Agglomerative Clustering (HAC)’,

� HAC assigne initialement chaque objet à un cluster, puis fusionne à plusieurs reprises les clusters jusqu'à ce qu’un des critères d'arrêt soit satisfait (Manning and Schutze, 1999).

Page 26: Approche d’apprentissage automatique pour l’annotation ...lalic.paris-sorbonne.fr/.../colloqueOct2006/slides/ColloqueLaLICC_Fai… · Rim.Faiz@ihec.rnu.tn Colloque LaLICC 27 –

26

Troisième étape (suite)

� HAC utilise une mesure de similarité entre les

objets, pour notre cas, nous utilisons une mesure de similarité entre les phrases.

� Nous adoptons le critère d'arrêt qui est le seuil desimilarité qui consiste à appliquer l'algorithme HAC jusqu’à l’obtention de la similarité < seuil.

� L’application de HAC tient compte de la position

des phrases dans le document.

β

Page 27: Approche d’apprentissage automatique pour l’annotation ...lalic.paris-sorbonne.fr/.../colloqueOct2006/slides/ColloqueLaLICC_Fai… · Rim.Faiz@ihec.rnu.tn Colloque LaLICC 27 –

27

Méthodes de mesure de similarité

� Choix de deux méthodes (dans notre étude)

� Automate à états finis (Zha, 2002), (J. Carthyet al., 2006)

� TF-IDF Clustering (M. Naughton and N. Kushmerick and J. Carthy, 2006)

Page 28: Approche d’apprentissage automatique pour l’annotation ...lalic.paris-sorbonne.fr/.../colloqueOct2006/slides/ColloqueLaLICC_Fai… · Rim.Faiz@ihec.rnu.tn Colloque LaLICC 27 –

28

Automate à états finis

� En utilisant l’agorithme MDI (Thollard, Dupont et De La Higuera, 2000) nous formons un automate a état fini (FSA) des séquences, où:

� Les états correspondent aux étiquettes d'événements. � Les transitions correspondent aux phrases adjacentes

qui mentionnent la paire d'événements.

� Les paramètres de l’automate sont dégagés par apprentissage sur le document.

Page 29: Approche d’apprentissage automatique pour l’annotation ...lalic.paris-sorbonne.fr/.../colloqueOct2006/slides/ColloqueLaLICC_Fai… · Rim.Faiz@ihec.rnu.tn Colloque LaLICC 27 –

29

tf–idf

� tf–idf weight (term frequency–inverse document frequency) est utilisé en DM et RI pour évaluer le

poids d’un terme dans un corpus.

� tf exprime la fréquence d’un terme ti dans un

document

� ni la fréquence de terme ti

� Somme nk est la somme totale des termes

Page 30: Approche d’apprentissage automatique pour l’annotation ...lalic.paris-sorbonne.fr/.../colloqueOct2006/slides/ColloqueLaLICC_Fai… · Rim.Faiz@ihec.rnu.tn Colloque LaLICC 27 –

30

idf

� idf est l’importance générale du terme

avec

� |D| : nombre total des documents dans le corpus

� : nombre de documents contenant ti

Page 31: Approche d’apprentissage automatique pour l’annotation ...lalic.paris-sorbonne.fr/.../colloqueOct2006/slides/ColloqueLaLICC_Fai… · Rim.Faiz@ihec.rnu.tn Colloque LaLICC 27 –

31

TF-IDF Clustering

Soit S1, S2 deux phrases. Mesure de la similarité entre S1 et S2 comme suit :

t

1 21

1 1t t2 2

1 21 1

SIM( , ) = j jj

j jj j

s ss s

s s

=

= =+

∑ ∑Avec Sij le poids de terme tidans le cluster j

Ce poids est définie par

tf(ti,c) : fréquence du terme ti dans le cluster c

N : nombre de Cluster df(ti) : nombre de cluster contenant le terme ti

NW(t, c) = tf ( , c) × ln

df( )i

i

tt

Page 32: Approche d’apprentissage automatique pour l’annotation ...lalic.paris-sorbonne.fr/.../colloqueOct2006/slides/ColloqueLaLICC_Fai… · Rim.Faiz@ihec.rnu.tn Colloque LaLICC 27 –

32

Constat

� La première méthode (Automate à états finis) est trop paramétrable.

� La deuxième méthode est efficace mais ne tient pas compte de la position de la phrase dans le document.

� Extension de tf-idf :

� nous représentons la position d’une phrase dans un article comme suit:

� Nous utilisons une ontologie afin de tenir compte des phrases qui utilisent d’autres termes pour exprimer le même événement.

( )o r d r e p h

N p h

Page 33: Approche d’apprentissage automatique pour l’annotation ...lalic.paris-sorbonne.fr/.../colloqueOct2006/slides/ColloqueLaLICC_Fai… · Rim.Faiz@ihec.rnu.tn Colloque LaLICC 27 –

33

FSIM

t

1 21

1 1t t2 2

1 21 1

SIM(c , c ) = j jj

j jj j

ct ct

ct ct

=

= =+

∑ ∑

Nous prenons en considération dans notre fonction de la position et de la similarité entre les phrases.

n (n - 1)

2Pour n cluster nous avons Combinaison possible entre eux

= 1+2+3+ …+n

1 2 1 2 1 2FSIM(c , c ) = ×SIM( , ) + (1- ) ×cos( , )ct ct ct ctα α

Page 34: Approche d’apprentissage automatique pour l’annotation ...lalic.paris-sorbonne.fr/.../colloqueOct2006/slides/ColloqueLaLICC_Fai… · Rim.Faiz@ihec.rnu.tn Colloque LaLICC 27 –

34

ExempleIraqi leader denies civil war as 50 people die.

On a day in which at least 50 people were killed, Iraqi Prime Minister Nuri al-Maliki said he did not foresee a civil war in Iraq and that violence in his country was abating.

In Iraq, we'll never be in civil war," al-Maliki told CNN's "Late Edition" on Sunday.

One U.S. soldier was killed by gunfire in eastern Baghdad about 2 p.m.

U.S. commander wounded since 1 p.m

"This has to do with the -- with our success of the democratic -- or the political process in Iraq, and to have the security agencies to protect this process."Sen. Carl Levin, a Michigan Democrat, disagreed with al-Maliki's assessment of the state of affairs in Iraq, sayingthe country was "on the verge of civil war right now," if not already involved in one.Levin, the ranking Democrat on the Senate ArmedServices Committee, called for the United States to set a date to begin withdrawing its forces.U.S. commander wounded since 1 p.m

In Baquba, two separate shooting incidents Sunday afternoon left six dead and 15 wounded, officials said.

Two car bombings in the northern city of Kirkuk killed 10 and wounded 32, and a blast in the southern city of Basra killed five and injured 15.

Page 35: Approche d’apprentissage automatique pour l’annotation ...lalic.paris-sorbonne.fr/.../colloqueOct2006/slides/ColloqueLaLICC_Fai… · Rim.Faiz@ihec.rnu.tn Colloque LaLICC 27 –

35

Exemple (suite)C1 Iraqi leader denies civil war as 50 people die.

C2 On a day in which at least 50 people were killed, Iraqi Prime Minister Nuri al-Maliki said he did not foresee a civil war in Iraq and that violence in his country was abating.

In Iraq, we'll never be in civil war," al-Maliki told CNN's "Late Edition" on Sunday.

C3 One U.S. soldier was killed by gunfire in eastern Baghdad about 2 p.m.

C4 U.S. commander wounded since 1 p.m

"This has to do with the -- with our success of the democratic -- or the political process in Iraq, and to have the security agencies to protect this process."Sen. Carl Levin, a Michigan Democrat, disagreed with al-Maliki's assessment of the state of affairs in Iraq, sayingthe country was "on the verge of civil war right now," if not already involved in one.Levin, the ranking Democrat on the Senate ArmedServices Committee, called for the United States to set a date to begin withdrawing its forces.U.S. commander wounded since 1 p.m

C5 In Baquba, two separate shooting incidents Sunday afternoon left six dead and 15 wounded, officials said.

C6 Two car bombings in the northern city of Kirkuk killed 10 and wounded 32, and a blast in the southern city of Basra killed five and injured 15.

FSIM (C1, C2) = 1.07

FSIM (C1, C3) = 0.12

FSIM (C1, C4) = 0.1

FSIM (C1, C5) = 0.05

FSIM (C1, C6) = 0.02

FSIM (C2, C3) = 0.08

FSIM (C2, C4) = 0.1

FSIM (C2, C5) = 0.32

FSIM (C2, C6) = 0.36

FSM (C3, C4) = 0.84

FSIM (C3, C5) = 0.28

FSIM (C3, C6) = 0.23

FSIM (C4, C5) = 0.19

FSIM (C4, C6) = 0.15

FSIM (C5, C6) = 0.79

Page 36: Approche d’apprentissage automatique pour l’annotation ...lalic.paris-sorbonne.fr/.../colloqueOct2006/slides/ColloqueLaLICC_Fai… · Rim.Faiz@ihec.rnu.tn Colloque LaLICC 27 –

36

Exemple (suite)Iraqi leader denies civil war as 50 people die.

CA On a day in which at least 50 people were killed, Iraqi Prime Minister Nuri al-Maliki said he did not foresee a civil war in Iraq and that violence in his country was abating.

In Iraq, we'll never be in civil war," al-Maliki told CNN's "Late Edition" on Sunday.

C3 One U.S. soldier was killed by gunfire in eastern Baghdad about 2 p.m.

C4 U.S. commander wounded since 1 p.m

"This has to do with the -- with our success of the democratic -- or the political process in Iraq, and to have the security agencies to protect this process."Sen. Carl Levin, a Michigan Democrat, disagreed with al-Maliki's assessment of the state of affairs in Iraq, sayingthe country was "on the verge of civil war right now," if not already involved in one.Levin, the ranking Democrat on the Senate ArmedServices Committee, called for the United States to set a date to begin withdrawing its forces.U.S. commander wounded since 1 p.m

C5 In Baquba, two separate shooting incidents Sunday afternoon left six dead and 15 wounded, officials said.

C6 Two car bombings in the northern city of Kirkuk killed 10 and wounded 32, and a blast in the southern city of Basra killed five and injured 15.

FSIM (CA, C3) = 0.27

FSIM (CA, C4) = 0.21

FSIM (CA, C5) = 0.12

FSIM (CA, C3) = 0.16

FSM (C3, C4) = 0.73

FSIM (C3, C5) = 0.19

FSIM (C3, C6) = 0.11

FSIM (C4, C5) = 0.13

FSIM (C4, C6) = 0.15

FSIM (C5, C6) = 0.63

Page 37: Approche d’apprentissage automatique pour l’annotation ...lalic.paris-sorbonne.fr/.../colloqueOct2006/slides/ColloqueLaLICC_Fai… · Rim.Faiz@ihec.rnu.tn Colloque LaLICC 27 –

37

Exemple (suite)Iraqi leader denies civil war as 50 people die.

CA On a day in which at least 50 people were killed, Iraqi Prime Minister Nuri al-Maliki said he did not foresee a civil war in Iraq and that violence in his country was abating.

In Iraq, we'll never be in civil war," al-Maliki told CNN's "Late Edition" on Sunday.

CB One U.S. soldier was killed by gunfire in eastern Baghdad about 2 p.m.

U.S. commander wounded since 1 p.m

"This has to do with the -- with our success of the democratic -- or the political process in Iraq, and to have the security agencies to protect this process."Sen. Carl Levin, a Michigan Democrat, disagreed with al-Maliki's assessment of the state of affairs in Iraq, sayingthe country was "on the verge of civil war right now," if not already involved in one.Levin, the ranking Democrat on the Senate ArmedServices Committee, called for the United States to set a date to begin withdrawing its forces.U.S. commander wounded since 1 p.m

C5 In Baquba, two separate shooting incidents Sunday afternoon left six dead and 15 wounded, officials said.

C6 Two car bombings in the northern city of Kirkuk killed 10 and wounded 32, and a blast in the southern city of Basra killed five and injured 15.

FSIM (CA, CB) = 0.14

FSIM (CA, C5) = 0.07

FSIM (CA, C6) = 0.09

FSIM (CB, C5) = 0.03

FSIM (CB, C5) = 0.05

FSIM (C5, C6) = 0.56

Page 38: Approche d’apprentissage automatique pour l’annotation ...lalic.paris-sorbonne.fr/.../colloqueOct2006/slides/ColloqueLaLICC_Fai… · Rim.Faiz@ihec.rnu.tn Colloque LaLICC 27 –

38

Exemple (suite)Iraqi leader denies civil war as 50 people die.

CA On a day in which at least 50 people were killed, Iraqi Prime Minister Nuri al-Maliki said he did not foresee a civil war in Iraq and that violence in his country was abating.

In Iraq, we'll never be in civil war," al-Maliki told CNN's "Late Edition" on Sunday.

CB One U.S. soldier was killed by gunfire in eastern Baghdad about 2 p.m.

U.S. commander wounded since 1 p.m

"This has to do with the -- with our success of the democratic -- or the political process in Iraq, and to have the security agencies to protect this process."Sen. Carl Levin, a Michigan Democrat, disagreed with al-Maliki's assessment of the state of affairs in Iraq, sayingthe country was "on the verge of civil war right now," if not already involved in one.Levin, the ranking Democrat on the Senate ArmedServices Committee, called for the United States to set a date to begin withdrawing its forces.U.S. commander wounded since 1 p.m

CC In Baquba, two separate shooting incidents Sunday afternoon left six dead and 15 wounded, officials said.

Two car bombings in the northern city of Kirkuk killed 10 and wounded 32, and a blast in the southern city of Basra killed five and injured 15.

FSIM (CA, CB) = 0.11

FSIM (CA, CC) = 0.07

FSIM (CB, CC) = 0.09

Page 39: Approche d’apprentissage automatique pour l’annotation ...lalic.paris-sorbonne.fr/.../colloqueOct2006/slides/ColloqueLaLICC_Fai… · Rim.Faiz@ihec.rnu.tn Colloque LaLICC 27 –

39

Quatrième étape annotation

� En se basant sur les clusters, leurs

positions dans l’article.

� nous générons une description qui combine les événements et qui constituera l’annotation de

l’article sous trois types d’annotations :

� Phrase qui annote le cluster.

� Structurer l’annotation sous une forme standard et éventuellement stoker les événements dans des bases de données.

� Extraire les concepts qui représentent les

événements dans l’article (travaux futurs).

Page 40: Approche d’apprentissage automatique pour l’annotation ...lalic.paris-sorbonne.fr/.../colloqueOct2006/slides/ColloqueLaLICC_Fai… · Rim.Faiz@ihec.rnu.tn Colloque LaLICC 27 –

40

Quatrième étape: 1er type d’annotation

� La phrase qui annote le mieux le cluster est celle qui contient les valeurs maximales des attributs.

� Il n’y a pas beaucoup de perte d’information puisque la phrase qui annote le cluster est l’une parmi un ensemble de phrases similaires.

� Une telle annotation peut être indexée pour améliorer la recherche d’information sur de tels articles, comme elle peut servir pour un résuméautomatique.

Page 41: Approche d’apprentissage automatique pour l’annotation ...lalic.paris-sorbonne.fr/.../colloqueOct2006/slides/ColloqueLaLICC_Fai… · Rim.Faiz@ihec.rnu.tn Colloque LaLICC 27 –

41

ExempleIraqi leader denies civil war as 50 people die.

CA On a day in which at least 50 people were killed, Iraqi Prime Minister Nuri al-Maliki said he did not foresee a civil war in Iraq and that violence in his country was abating.

In Iraq, we'll never be in civil war," al-Maliki told CNN's "Late Edition" on Sunday.

CB One U.S. soldier was killed by gunfire in eastern Baghdad about 2 p.m.

U.S. commander wounded since 1 p.m

"This has to do with the -- with our success of the democratic -- or the political process in Iraq, and to have the security agencies to protect this process."Sen. Carl Levin, a Michigan Democrat, disagreed with al-Maliki's assessment of the state of affairs in Iraq, sayingthe country was "on the verge of civil war right now," if not already involved in one.Levin, the ranking Democrat on the Senate ArmedServices Committee, called for the United States to set a date to begin withdrawing its forces.U.S. commander wounded since 1 p.m

CC In Baquba, two separate shooting incidents Sunday afternoon left six dead and 15 wounded, officials said.

Two car bombings in the northern city of Kirkuk killed 10 and wounded 32, and a blast in the southern city of Basra killed five and injured 15.

Iraqi leader denies civil war as 50 people die.One U.S. soldier was killed by gunfire in eastern Baghdad about 2 p.m.In Baquba, two separate shooting incidents Sunday afternoon left six dead and 15 wounded, officials said.

Page 42: Approche d’apprentissage automatique pour l’annotation ...lalic.paris-sorbonne.fr/.../colloqueOct2006/slides/ColloqueLaLICC_Fai… · Rim.Faiz@ihec.rnu.tn Colloque LaLICC 27 –

42

Quatrième étape: 2ème type d’annotation

� Structurer l’annotation contenant les attributs suivants :

� Keyword: Killed

� Location: Eastern Baghdad

� Time/date: 2 p.m

� Person: One U.S. soldier

Page 43: Approche d’apprentissage automatique pour l’annotation ...lalic.paris-sorbonne.fr/.../colloqueOct2006/slides/ColloqueLaLICC_Fai… · Rim.Faiz@ihec.rnu.tn Colloque LaLICC 27 –

43

Exemple (2ème type d’annotation) Iraqi leader denies civil war as 50 people die.

CA On a day in which at least 50 people were killed, Iraqi Prime Minister Nuri al-Maliki said he did not foresee a civil war in Iraq and that violence in his country was abating.

In Iraq, we'll never be in civil war," al-Maliki told CNN's "Late Edition" on Sunday.

CB One U.S. soldier was killed by gunfire in eastern Baghdad about 2 p.m.

U.S. commander wounded since 1 p.m

"This has to do with the -- with our success of the democratic -- or the political process in Iraq, and to have the security agencies to protect this process."Sen. Carl Levin, a Michigan Democrat, disagreed with al-Maliki's assessment of the state of affairs in Iraq, sayingthe country was "on the verge of civil war right now," if not already involved in one.Levin, the ranking Democrat on the Senate ArmedServices Committee, called for the United States to set a date to begin withdrawing its forces.U.S. commander wounded since 1 p.m

CC In Baquba, two separate shooting incidents Sunday afternoon left six dead and 15 wounded, officials said.

Two car bombings in the northern city of Kirkuk killed 10 and wounded 32, and a blast in the southern city of Basra killed five and injured 15.

Keyword: Killed

Location: Iraq

Time/date : on a day

Person: 50 people

Keyword: Killed

Location: Eastern Baghdad

Time/date: 2 p.m

Person: One U.S. soldier

Keyword: dead and wounded

Location: Baghdad

Time/date: Sunday

Person: One U.S. soldier

Page 44: Approche d’apprentissage automatique pour l’annotation ...lalic.paris-sorbonne.fr/.../colloqueOct2006/slides/ColloqueLaLICC_Fai… · Rim.Faiz@ihec.rnu.tn Colloque LaLICC 27 –

44

Perspectives

� Autres techniques de classification pour la

deuxième phase (exp., SVM)

� Fusion des événements

� Traitement des phrases multi-événements