L'analyse des sentiments dans les forums · pour les sentiments moyens (uniquement pour DEFT’07)...

25
L’analyse des sentiments dans les forums Sigrid Maurel INFORSID 2008 - FODOP’08 Fontainebleau, 27 mai 2008 S. Maurel (CELI France) Analyse de sentiments 27/05/2008 1 / 25

Transcript of L'analyse des sentiments dans les forums · pour les sentiments moyens (uniquement pour DEFT’07)...

Page 1: L'analyse des sentiments dans les forums · pour les sentiments moyens (uniquement pour DEFT’07) calcul d’après la construction de la phrase présence de mot-clés comme par

L’analyse des sentiments dans les forums

Sigrid Maurel

INFORSID 2008 - FODOP’08

Fontainebleau, 27 mai 2008

S. Maurel (CELI France) Analyse de sentiments 27/05/2008 1 / 25

Page 2: L'analyse des sentiments dans les forums · pour les sentiments moyens (uniquement pour DEFT’07) calcul d’après la construction de la phrase présence de mot-clés comme par

Plan

1 Introduction

2 Méthode symbolique

3 Méthode statistique

4 Méthode hybride

5 Évaluation

6 Conclusion

S. Maurel (CELI France) Analyse de sentiments 27/05/2008 2 / 25

Page 3: L'analyse des sentiments dans les forums · pour les sentiments moyens (uniquement pour DEFT’07) calcul d’après la construction de la phrase présence de mot-clés comme par

Introduction

1 Introduction

2 Méthode symbolique

3 Méthode statistique

4 Méthode hybride

5 Évaluation

6 Conclusion

S. Maurel (CELI France) Analyse de sentiments 27/05/2008 3 / 25

Page 4: L'analyse des sentiments dans les forums · pour les sentiments moyens (uniquement pour DEFT’07) calcul d’après la construction de la phrase présence de mot-clés comme par

Introduction

Introduction

Contexteclassification d’opinions positifs et négatifs, présents dans destextes de différents domainescorpus : tourisme, DEFT’07, jeux vidéo et imprimantes

CELI Franceentreprise privée à Grenoble, spécialisée dans le « SentimentAnalysis » et l’« Opinion Mining » (analyse des opinions)développement de trois méthodes pour classer les textes deforums sur Internet

symboliquestatistiquehybride

S. Maurel (CELI France) Analyse de sentiments 27/05/2008 4 / 25

Page 5: L'analyse des sentiments dans les forums · pour les sentiments moyens (uniquement pour DEFT’07) calcul d’après la construction de la phrase présence de mot-clés comme par

Introduction

Difficultés

Les difficultés rencontréeslangage familier et phonétique typique sur Internet

fautes d’orthographes nombreuses, absence de ponctuation

exemple de texte du corpus du tourisme :BaLadeur, posté le 13-10-2006 à 11:23:43:Je partage l’avis d’Aston sur de nombreux points. Villandryest quelconque mais son jardin transformé en potager géantvaut le détour. Chenonceau est certainement le plus photo-génique donc le plus connu et il le mérite largement Si turecherche la monumentalité comme a Versailles, la magnifi-cence en plus, il faut absoluement voir Chambort. Enfins’il faut ne visiter qu’une ville ce sera Tours.

S. Maurel (CELI France) Analyse de sentiments 27/05/2008 5 / 25

Page 6: L'analyse des sentiments dans les forums · pour les sentiments moyens (uniquement pour DEFT’07) calcul d’après la construction de la phrase présence de mot-clés comme par

Introduction

Corpus

Les corpus utiliséssuggestions de destinations touristiques dans les différentesrégions en France et ailleurs dans le monde

les corpus de DEFT’07 : critiques de livres et films, tests de jeuxvidéo, relectures d’articles scientifiques et notes de débatsparlementaires, certains contiennent des sentiments moyens

solutions de problème pour des jeux vidéo

conseils d’achat pour des imprimantes

S. Maurel (CELI France) Analyse de sentiments 27/05/2008 6 / 25

Page 7: L'analyse des sentiments dans les forums · pour les sentiments moyens (uniquement pour DEFT’07) calcul d’après la construction de la phrase présence de mot-clés comme par

Méthode symbolique

1 Introduction

2 Méthode symbolique

3 Méthode statistique

4 Méthode hybride

5 Évaluation

6 Conclusion

S. Maurel (CELI France) Analyse de sentiments 27/05/2008 7 / 25

Page 8: L'analyse des sentiments dans les forums · pour les sentiments moyens (uniquement pour DEFT’07) calcul d’après la construction de la phrase présence de mot-clés comme par

Méthode symbolique

La méthode symbolique

analyse syntaxique du texte par un analyseur fonctionnel etrelationnel

l’analyse se fait au niveau des phrasesdécoupage du texte en phrasesanalyse des phrases, extraction d’information (sous forme derelations)

vérification pour chaque phrase si elle contient des relations desentiment

grammaire spéciale pour l’extraction des relations de sentiment(positives, négatives et moyennes (uniquement pour DEFT’07))

S. Maurel (CELI France) Analyse de sentiments 27/05/2008 8 / 25

Page 9: L'analyse des sentiments dans les forums · pour les sentiments moyens (uniquement pour DEFT’07) calcul d’après la construction de la phrase présence de mot-clés comme par

Méthode symbolique Grammaire

La grammaire des sentiments

une grammaire pour l’extraction des relations de sentiments a étédéveloppée pour le domaine du tourisme

elle a été adaptée aux corpus DEFT’07une grammaire spécifique pour chaque corpusajout de règles pour les sentiments moyenspas de grammaire pour le corpus des débats politiques

puis adaptée aux corpus des imprimantes et des jeux vidéo

modifications du lexique pour chaque corpus

S. Maurel (CELI France) Analyse de sentiments 27/05/2008 9 / 25

Page 10: L'analyse des sentiments dans les forums · pour les sentiments moyens (uniquement pour DEFT’07) calcul d’après la construction de la phrase présence de mot-clés comme par

Méthode symbolique Grammaire

Les relations syntaxiques

relations de base : modifieur d’un nom (une belle maison) ou d’unverbe (lire attentivement)

relations plus complexes : le sujet d’un verbe (Pierre fait descourses), la coréférence (la ville de Grenoble qui se trouve dansles Alpes)

relations de sentimentle sentiment et sa cause (j’aime beaucoup Grenoble)la polarité

⇒ notation : SENTIMENT_POSITIF(aimer,Grenoble)

S. Maurel (CELI France) Analyse de sentiments 27/05/2008 10 / 25

Page 11: L'analyse des sentiments dans les forums · pour les sentiments moyens (uniquement pour DEFT’07) calcul d’après la construction de la phrase présence de mot-clés comme par

Méthode symbolique Grammaire

Les relations de sentiment

pour les sentiments positifs et négatifs calcul à base de motsmarqués avec un trait spécial dans le lexique

surtout des adjectifs (magnifique, affreux) et des verbes (aimer,regretter )dans des relations de modifieur, sujet et objet

pour les sentiments moyens (uniquement pour DEFT’07) calculd’après la construction de la phrase

présence de mot-clés comme par exemple pourtant, malgré

inversion de la polarité dans le cas d’une négation(un restaurant pas cher)

S. Maurel (CELI France) Analyse de sentiments 27/05/2008 11 / 25

Page 12: L'analyse des sentiments dans les forums · pour les sentiments moyens (uniquement pour DEFT’07) calcul d’après la construction de la phrase présence de mot-clés comme par

Méthode symbolique Calcul

Calcul de l’opinion du texte

le nombre de sentiments positifs, (moyens) et négatifs est retenupour chaque phrase

à la fin du texte les sentiments sont calculés et mis en relationpour donner un sentiment global du texte entier

un indice de confiance est ajouté au sentiment global pour laméthode hybride

S. Maurel (CELI France) Analyse de sentiments 27/05/2008 12 / 25

Page 13: L'analyse des sentiments dans les forums · pour les sentiments moyens (uniquement pour DEFT’07) calcul d’après la construction de la phrase présence de mot-clés comme par

Méthode statistique

1 Introduction

2 Méthode symbolique

3 Méthode statistique

4 Méthode hybride

5 Évaluation

6 Conclusion

S. Maurel (CELI France) Analyse de sentiments 27/05/2008 13 / 25

Page 14: L'analyse des sentiments dans les forums · pour les sentiments moyens (uniquement pour DEFT’07) calcul d’après la construction de la phrase présence de mot-clés comme par

Méthode statistique

La méthode statistique

basée sur des techniques de l’apprentissage automatique

adaptation à la langue française (n-gram = 12) pour le projet dutourisme

puis utilisation sur les corpus DEFT’07, en ajoutant une méthodepour les sentiments moyens

entraînement et classification au niveau des textes entiers

S. Maurel (CELI France) Analyse de sentiments 27/05/2008 14 / 25

Page 15: L'analyse des sentiments dans les forums · pour les sentiments moyens (uniquement pour DEFT’07) calcul d’après la construction de la phrase présence de mot-clés comme par

Méthode statistique Calcul

Fonctionnement

extraction des phrases qui contiennent des sentiments à l’aide dela méthode symbolique

entraînement des modèles (un pour chaque corpus) sur lesextraits des textes

classification des nouveaux textes

calcul d’un indice de confiance pour la méthode hybride

S. Maurel (CELI France) Analyse de sentiments 27/05/2008 15 / 25

Page 16: L'analyse des sentiments dans les forums · pour les sentiments moyens (uniquement pour DEFT’07) calcul d’après la construction de la phrase présence de mot-clés comme par

Méthode statistique Calcul

Expérimentations

avec les textes du corpus aVoiraLire (critiques de films, livres, ...)

entraînement du modèle uniquement sur les premières et/oudernières phrases du texte

hypothèse : le résumé du film/livre se trouve au milieu du texte, lejugement au début ou à la fin

⇒ meilleurs résultats qu’avec les textes entiers

abandon de cette technique car difficilement reproductible surd’autres corpus

S. Maurel (CELI France) Analyse de sentiments 27/05/2008 16 / 25

Page 17: L'analyse des sentiments dans les forums · pour les sentiments moyens (uniquement pour DEFT’07) calcul d’après la construction de la phrase présence de mot-clés comme par

Méthode hybride

1 Introduction

2 Méthode symbolique

3 Méthode statistique

4 Méthode hybride

5 Évaluation

6 Conclusion

S. Maurel (CELI France) Analyse de sentiments 27/05/2008 17 / 25

Page 18: L'analyse des sentiments dans les forums · pour les sentiments moyens (uniquement pour DEFT’07) calcul d’après la construction de la phrase présence de mot-clés comme par

Méthode hybride

La méthode hybride

comparaison des résultats des deux méthodes précédentes

normalisation des indices de confiance attribués

calcul du résultat global en confrontant les indices

⇒ correction de l’apprentissage automatique (méthode statistique)possible par configuration manuelle de la grammaire (méthodesymbolique) : lexiques adaptés aux domaines en question

S. Maurel (CELI France) Analyse de sentiments 27/05/2008 18 / 25

Page 19: L'analyse des sentiments dans les forums · pour les sentiments moyens (uniquement pour DEFT’07) calcul d’après la construction de la phrase présence de mot-clés comme par

Méthode hybride Interface

Interface de SYBILLE

S. Maurel (CELI France) Analyse de sentiments 27/05/2008 19 / 25

Page 20: L'analyse des sentiments dans les forums · pour les sentiments moyens (uniquement pour DEFT’07) calcul d’après la construction de la phrase présence de mot-clés comme par

Méthode hybride Interface

Interface de SYBILLE, détail

S. Maurel (CELI France) Analyse de sentiments 27/05/2008 20 / 25

Page 21: L'analyse des sentiments dans les forums · pour les sentiments moyens (uniquement pour DEFT’07) calcul d’après la construction de la phrase présence de mot-clés comme par

Évaluation

1 Introduction

2 Méthode symbolique

3 Méthode statistique

4 Méthode hybride

5 Évaluation

6 Conclusion

S. Maurel (CELI France) Analyse de sentiments 27/05/2008 21 / 25

Page 22: L'analyse des sentiments dans les forums · pour les sentiments moyens (uniquement pour DEFT’07) calcul d’après la construction de la phrase présence de mot-clés comme par

Évaluation

Évaluation des trois méthodes

évaluation avec les corpus de DEFT’07

le F-Score varie entre 0,51 et 0,71 pour la méthode hybride

meilleurs résultats avec la méthode hybride pour les corpusjeuxvidéo et relectures d’articles

S. Maurel (CELI France) Analyse de sentiments 27/05/2008 22 / 25

Page 23: L'analyse des sentiments dans les forums · pour les sentiments moyens (uniquement pour DEFT’07) calcul d’après la construction de la phrase présence de mot-clés comme par

Conclusion

1 Introduction

2 Méthode symbolique

3 Méthode statistique

4 Méthode hybride

5 Évaluation

6 Conclusion

S. Maurel (CELI France) Analyse de sentiments 27/05/2008 23 / 25

Page 24: L'analyse des sentiments dans les forums · pour les sentiments moyens (uniquement pour DEFT’07) calcul d’après la construction de la phrase présence de mot-clés comme par

Conclusion

Conclusion

développement de grammaires de sentiment pour différentsdomaines (tourisme, jeux vidéo, imprimantes, ...)

adaptation des méthodes symbolique et statistique à chaquedomaine

combinaison des méthodes symbolique et statistique donne desrésultats plus précis que chacune des méthodes employéeséparément

⇒ possibilité de garder la robustesse de l’apprentissage automatiqueet d’orienter le résultat dans la direction souhaitée (p.e. d’uneapplication réelle)

S. Maurel (CELI France) Analyse de sentiments 27/05/2008 24 / 25

Page 25: L'analyse des sentiments dans les forums · pour les sentiments moyens (uniquement pour DEFT’07) calcul d’après la construction de la phrase présence de mot-clés comme par

Conclusion

Bibliographie

AÏT-MOKHTAR S., CHANOD J.-P. & ROUX C. (2001). A multi-inputdependency parser.

DINI L. (2002). Compréhension multilingue et extraction del’information.

DINI L. & MAZZINI G. (2002). Opinion classification throughinformation extraction.

MAUREL S., CURTONI P. & DINI L. (2007). Classificationd’opinions par méthodes symbolique, statistique et hybride. In :Actes de DEFT’07.

PANG B. & LEE L. (2004). A sentimental education: Sentimentanalysis using subjectivity summarization based on minimum cuts.

S. Maurel (CELI France) Analyse de sentiments 27/05/2008 25 / 25