Analyse Factorielle des Correspondances (AFC) Analyse des ......2 I nacti f Quot 3 Empl oye Radi o 4...

18
Analyse Factorielle des Correspondances (AFC) Analyse des Correspondances Multiples (ACM) Multiple correspondence analysis (MCA) P.M. Bousquet CERI P.M. Bousquet (CERI) Data Mining (Fouille de donn´ ees) 1 / 13

Transcript of Analyse Factorielle des Correspondances (AFC) Analyse des ......2 I nacti f Quot 3 Empl oye Radi o 4...

Page 1: Analyse Factorielle des Correspondances (AFC) Analyse des ......2 I nacti f Quot 3 Empl oye Radi o 4 I nacti f Radi o 5 Ouvr i er qual P_ TV 6 I nacti f Tel 7 Ouvr i er n- q Tel 8

Analyse Factorielle des Correspondances (AFC)Analyse des Correspondances Multiples (ACM)

Multiple correspondence analysis (MCA)

P.M. Bousquet

CERI

P.M. Bousquet (CERI) Data Mining (Fouille de donnees) 1 / 13

Page 2: Analyse Factorielle des Correspondances (AFC) Analyse des ......2 I nacti f Quot 3 Empl oye Radi o 4 I nacti f Radi o 5 Ouvr i er qual P_ TV 6 I nacti f Tel 7 Ouvr i er n- q Tel 8

Problematique

CSP multimedia

1 Ouvrier n-q Tel

2 Inactif Quot

3 Employe Radio

4 Inactif Radio

5 Ouvrier qual P_TV

6 Inactif Tel

7 Ouvrier n-q Tel

8 Agriculteur R_P_Mag

9 Prof. Cad. S. Radio

10 Agriculteur Radio

...

12385 Petit patron Quot_N

12387 Ouvrier qual Quot

12388 Inactif Tel

Q1 : quelle est votre catégorie socio-professionnelle ?Q2 : quel est votre média préféré ?

P_TV Presse TV, Quot Quotidiens régionaux,Quot_N Quotidiens nationaux,R_P_Mag Revues de presse et magazinesTel Télévision

P.M. Bousquet (CERI) Data Mining (Fouille de donnees) 2 / 13

Page 3: Analyse Factorielle des Correspondances (AFC) Analyse des ......2 I nacti f Quot 3 Empl oye Radi o 4 I nacti f Radi o 5 Ouvr i er qual P_ TV 6 I nacti f Tel 7 Ouvr i er n- q Tel 8

Problematique

CSP multimedia

1 Ouvrier n-q Tel

2 Inactif Quot

3 Employe Radio

4 Inactif Radio

5 Ouvrier qual P_TV

6 Inactif Tel

7 Ouvrier n-q Tel

8 Agriculteur R_P_Mag

9 Prof. Cad. S. Radio

10 Agriculteur Radio

...

12385 Petit patron Quot_N

12387 Ouvrier qual Quot

12388 Inactif Tel

Q1 : quelle est votre catégorie socio-professionnelle ?Q2 : quel est votre média préféré ?

P_TV Presse TV, Quot Quotidiens régionaux,Quot_N Quotidiens nationaux,R_P_Mag Revues de presse et magazinesTel Télévision

Deux variables qualitatives (non numériques)à nombre de modalités fini.

Y a t-il une relation entre ces deux variables ?

... corrélation ? Non. Variables numériques seulement.

Y a t-il une relation entre certaines modalitésde la variable 1 et certaines de la variable 2 ?

Ex. :... Ouvrier qualifié et Télévision ?... Cadre supérieur et Quotidiens nationaux ?

P.M. Bousquet (CERI) Data Mining (Fouille de donnees) 2 / 13

Page 4: Analyse Factorielle des Correspondances (AFC) Analyse des ......2 I nacti f Quot 3 Empl oye Radi o 4 I nacti f Radi o 5 Ouvr i er qual P_ TV 6 I nacti f Tel 7 Ouvr i er n- q Tel 8

Problematique

CSP multimedia

1 Ouvrier n-q Tel

2 Inactif Quot

3 Employe Radio

4 Inactif Radio

5 Ouvrier qual P_TV

6 Inactif Tel

7 Ouvrier n-q Tel

8 Agriculteur R_P_Mag

9 Prof. Cad. S. Radio

10 Agriculteur Radio

...

12385 Petit patron Quot_N

12387 Ouvrier qual Quot

12388 Inactif Tel

Q1 : quelle est votre catégorie socio-professionnelle ?Q2 : quel est votre média préféré ?

P_TV Presse TV, Quot Quotidiens régionaux,Quot_N Quotidiens nationaux,R_P_Mag Revues de presse et magazinesTel Télévision

variables

individusmodalités

Trouver des sur-effectifs significatifsd'individus simultanément - d'une modalité de la variable 1 et - d'une modalité de la variable 2

Ex. : des cadres supérieurs qui lisent lesquotidiens nationaux ...

Mais aussi :Trouver des sous-effectifs significatifsetc ....

On ne parle pas de corrélations,mais de correspondances.

P.M. Bousquet (CERI) Data Mining (Fouille de donnees) 2 / 13

Page 5: Analyse Factorielle des Correspondances (AFC) Analyse des ......2 I nacti f Quot 3 Empl oye Radi o 4 I nacti f Radi o 5 Ouvr i er qual P_ TV 6 I nacti f Tel 7 Ouvr i er n- q Tel 8

Problematique

CSP multimedia

1 Ouvrier n-q Tel

2 Inactif Quot

3 Employe Radio

4 Inactif Radio

5 Ouvrier qual P_TV

6 Inactif Tel

7 Ouvrier n-q Tel

8 Agriculteur R_P_Mag

9 Prof. Cad. S. Radio

10 Agriculteur Radio

...

12385 Petit patron Quot_N

12387 Ouvrier qual Quot

12388 Inactif Tel

Q1 : quelle est votre catégorie socio-professionnelle ?Q2 : quel est votre média préféré ?

P_TV Presse TV, Quot Quotidiens régionaux,Quot_N Quotidiens nationaux,R_P_Mag Revues de presse et magazinesTel Télévision

variables

individusmodalités

Trouver des sur-effectifs significatifsd'individus simultanément - d'une modalité de la variable 1 et - d'une modalité de la variable 2

Ex. : des cadres supérieurs qui lisent lesquotidiens nationaux ...

Mais aussi :Trouver des sous-effectifs significatifsetc ....

On ne parle pas de corrélations,mais de correspondances.

Domaines d’application ... tous mais l’AFCa été créée pour les sciences humaines ...

psychologie, anthropologie,histoire, linguistique,sociologie, communicationmarketing, ...

P.M. Bousquet (CERI) Data Mining (Fouille de donnees) 2 / 13

Page 6: Analyse Factorielle des Correspondances (AFC) Analyse des ......2 I nacti f Quot 3 Empl oye Radi o 4 I nacti f Radi o 5 Ouvr i er qual P_ TV 6 I nacti f Tel 7 Ouvr i er n- q Tel 8

Solution proposee : technique de type ACP(extraction d’axes principaux et projection ...)

P.M. Bousquet (CERI) Data Mining (Fouille de donnees) 3 / 13

ACP sur fichier passé en disjonctif ?

CSP multimedia

1 0 0 0 1 0 0 0 0 0 0 0 0 0 12 0 0 1 0 0 0 0 0 0 1 0 0 0 03 0 1 0 0 0 0 0 0 0 0 0 1 0 04 0 0 1 0 0 0 0 0 0 0 0 1 0 05 0 0 0 0 1 0 0 0 1 0 0 0 0 06 0 0 1 0 0 0 0 0 0 0 0 0 0 17 0 0 0 1 0 0 0 0 0 0 0 0 0 18 1 0 0 0 0 0 0 0 0 0 0 0 1 09 0 0 0 0 0 0 1 0 0 0 0 1 0 010 1 0 0 0 0 0 0 0 0 0 0 1 0 0(...)12387 1 0 0 0 0 0 0 0 0 0 0 1 0 012388 1 0 0 0 0 0 0 0 0 0 0 1 0 0

Agricu

lteur

Emplo

ye

Inac

tif

Ouvrie

r n-q

Ouvrie

r qua

l

Petit p

atro

n

Prof.

Cad. S

.

Prof.

inter

m

P_TV

Quot

Quot_

N

Radio

R_P_M

ag

Tel

Page 7: Analyse Factorielle des Correspondances (AFC) Analyse des ......2 I nacti f Quot 3 Empl oye Radi o 4 I nacti f Radi o 5 Ouvr i er qual P_ TV 6 I nacti f Tel 7 Ouvr i er n- q Tel 8

Solution proposee : technique de type ACP(extraction d’axes principaux et projection ...)

P.M. Bousquet (CERI) Data Mining (Fouille de donnees) 3 / 13

?

L'ACP sur disjonctifest inadaptée

à ce problème ...

Page 8: Analyse Factorielle des Correspondances (AFC) Analyse des ......2 I nacti f Quot 3 Empl oye Radi o 4 I nacti f Radi o 5 Ouvr i er qual P_ TV 6 I nacti f Tel 7 Ouvr i er n- q Tel 8

La solution AFC

P.M. Bousquet (CERI) Data Mining (Fouille de donnees) 4 / 13

P_TV Quot Quot_N Radio R_P_Mag Tel ∑Agriculteur 17 71 2 96 50 118 354Employe 306 217 57 511 172 593 1856Inactif 782 852 181 1474 642 1931 5862Ouvrier n-q 85 69 8 156 42 185 545Ouvrier qual 220 174 42 385 104 457 1382Petit patron 41 76 11 122 49 136 435Prof. Cad. S. 79 63 74 193 103 184 696Prof. interm 184 145 63 360 141 365 1258

∑ 1714 1667 438 3297 1303 3969 12388

P_TV Quot Quot_N Radio R_P_Mag Tel ∑Agriculteur 17 71 2 96 50 118 2,9%Employe 306 217 57 511 172 593 15,0%Inactif 782 852 181 1474 642 1931 47,3%Ouvrier n-q 85 69 8 156 42 185 4,4%Ouvrier qual 220 174 42 385 104 457 11,2%Petit patron 41 76 11 122 49 136 3,5%Prof. Cad. S. 79 63 74 193 103 184 5,6%Prof. interm 184 145 63 360 141 365 10,2%

∑ 13,8% 13,5% 3,5% 26,6% 10,5% 32,0% 100%

Y a t-il un sur-effectif significatif d'ouvriers qualifiés qui préférent la radio ?

367,8 (= effectif si indépendance)

J.P. Benzecri (1960) : extraction de facteurs principaux à partir du tableau de contingence

11.2 % de 26.6 % des 12388 valeurs =

Page 9: Analyse Factorielle des Correspondances (AFC) Analyse des ......2 I nacti f Quot 3 Empl oye Radi o 4 I nacti f Radi o 5 Ouvr i er qual P_ TV 6 I nacti f Tel 7 Ouvr i er n- q Tel 8

La solution AFC

Remplacer la maximisation de la variance des projetes suivant la distanceeuclidienne par la distance induite par la metrique du χ2.

On note i1 et i2 deux modalites-lignes. Alors la distance entre i1 et i2 est egale a :

d(i1, i2) =

√√√√√√∑j

(fi1,jfi1,∗− fi2,j

fi2,∗)2

f∗,j

ou

fi1,j frequence de (modalite-ligne i1 , modalite-colonne j )

fi2,j frequence de (modalite-ligne i2 , modalite-colonne j )

fi1,∗ somme des frequences de la ligne i1 (= frequence de la modalite-ligne i1)

fi2,∗ somme des frequences de la ligne i2 (= frequence de la modalite-ligne i2)

f∗,j somme des frequences de la colonne j (= frequence de lamodalite-colonne j)

P.M. Bousquet (CERI) Data Mining (Fouille de donnees) 5 / 13

Page 10: Analyse Factorielle des Correspondances (AFC) Analyse des ......2 I nacti f Quot 3 Empl oye Radi o 4 I nacti f Radi o 5 Ouvr i er qual P_ TV 6 I nacti f Tel 7 Ouvr i er n- q Tel 8

La solution AFC

L’inertie totale (... variance ...) du nuage de point est :

In.d.p. =∑i

∑j

(fij − fi∗f∗j)2

fi∗f∗j

En fait l’inertie est le quotient du χ2 par le nombre d’individus

In.d.p. =χ2

n

In.d.p. = 0 si pour tout i , j on a fij = fi∗f∗j

cas d’independance = le n.d.p. de l’AFC se retrouve concentre en un seul point

P.M. Bousquet (CERI) Data Mining (Fouille de donnees) 6 / 13

Page 11: Analyse Factorielle des Correspondances (AFC) Analyse des ......2 I nacti f Quot 3 Empl oye Radi o 4 I nacti f Radi o 5 Ouvr i er qual P_ TV 6 I nacti f Tel 7 Ouvr i er n- q Tel 8

Interpretation de l’AFC

L’AFC peut produire des vues ...

P.M. Bousquet (CERI) Data Mining (Fouille de donnees) 7 / 13

Page 12: Analyse Factorielle des Correspondances (AFC) Analyse des ......2 I nacti f Quot 3 Empl oye Radi o 4 I nacti f Radi o 5 Ouvr i er qual P_ TV 6 I nacti f Tel 7 Ouvr i er n- q Tel 8

Interpretation de l’AFC

... mais seules certaines proximites sont significatives ...

P.M. Bousquet (CERI) Data Mining (Fouille de donnees) 8 / 13

Page 13: Analyse Factorielle des Correspondances (AFC) Analyse des ......2 I nacti f Quot 3 Empl oye Radi o 4 I nacti f Radi o 5 Ouvr i er qual P_ TV 6 I nacti f Tel 7 Ouvr i er n- q Tel 8

Interpretation de l’AFC

→ necessite d’extraire les correspondances a partir d’un tableau d’interpretation ...

Tableau d'interprétation

poids rel. CTR inertie axe 1 CTR COS2 QLT axe 2 CTR COS2 QLT

Agriculteur 2,86 15,29 1,41 5,7 0,22 0,22 -3,65 38 0,78 1

Employe 14,98 1,28 0,13 0,3 0,03 0,03 1,12 18,9 0,97 1

Inactif 47,32 0,23 0,28 3,6 0,49 0,49 -0,39 7,3 0,51 1

Ouvrier n-q 4,4 2,25 1 4,4 0,61 0,61 1,12 5,5 0,39 1

Ouvrier qual 11,16 1,56 0,37 1,5 0,16 0,16 1,19 15,9 0,84 1

Petit patron 3,51 3,18 0,58 1,2 0,19 0,19 -1,69 10 0,81 1

Prof. Cad. S. 5,62 13,86 -3,65 75 0,98 0,98 -0,72 2,9 0,02 1

Prof. interm 10,15 0,97 -0,91 8,3 0,91 0,91 0,38 1,5 0,09 1

poids rel. CTR inertie axe 1 CTR COS2 QLT axe 2 CTR COS2 QLT

P_TV 13,84 3,63 0,08 0,1 0 0 1,9 50,1 1 1

Quot 13,46 2,52 0,92 11,5 0,5 0,5 -1,29 22,4 0,5 1

Quot_N 3,54 21,1 -4,59 74,6 1 1 -0,07 0 0 1

Radio 26,61 0,08 -0,13 0,4 0,31 0,31 0,26 1,8 0,69 1

R_P_Mag 10,52 3,08 -0,81 6,8 0,34 0,34 -1,56 25,6 0,66 1

Tel 32,04 0,21 0,45 6,6 1 1 0,02 0 0 1

P.M. Bousquet (CERI) Data Mining (Fouille de donnees) 9 / 13

Page 14: Analyse Factorielle des Correspondances (AFC) Analyse des ......2 I nacti f Quot 3 Empl oye Radi o 4 I nacti f Radi o 5 Ouvr i er qual P_ TV 6 I nacti f Tel 7 Ouvr i er n- q Tel 8

ACM : l’analyse des correspondances multiples

P.M. Bousquet (CERI) Data Mining (Fouille de donnees) 10 / 13

ACM : meme demarche que l’AFC, mais avec plus de deux variables.

Banque )(CRM)

Page 15: Analyse Factorielle des Correspondances (AFC) Analyse des ......2 I nacti f Quot 3 Empl oye Radi o 4 I nacti f Radi o 5 Ouvr i er qual P_ TV 6 I nacti f Tel 7 Ouvr i er n- q Tel 8

ACM : l’analyse des correspondances multiples

P.M. Bousquet (CERI) Data Mining (Fouille de donnees) 10 / 13

ACM : meme demarche que l’AFC, mais avec plus de deux variables.

Difficulte d’interpretation : trop grand nombre de modalites → nivellementdes contributions ... rien de significatif.

Utilisation : l’ACM produit des “coordonnees” des modalites .. mais aussi desindividus.C’est donc une technique de numerisation d’une population caracterisee pardes variables categorielles.

Page 16: Analyse Factorielle des Correspondances (AFC) Analyse des ......2 I nacti f Quot 3 Empl oye Radi o 4 I nacti f Radi o 5 Ouvr i er qual P_ TV 6 I nacti f Tel 7 Ouvr i er n- q Tel 8

ACM

Vue des modalites des variables ...

−1.0 −0.5 0.0 0.5 1.0 1.5 2.0

−2.

0−

1.5

−1.

0−

0.5

0.0

0.5

1.0

Axe 1 − 8 %

Axe

2

6 %

csp.agric

csp.artis

csp.cadsu

csp.emplo

csp.etudi

csp.inact

csp.inter csp.ouvri

csp.retra

duree.d24duree.d48duree.d812 duree.dm2

duree.dp12

oppo.non_oppo

oppo.oppo

age.ai25

age.ai35

age.ai45

age.ai55

age.ai75

sexe.fem

sexe.hominterdit.int

interdit.non_int

cableue.CB

cableue.non_CB

assurvi.assurviassurvi.non_assurvi

soldevu.n1

soldevu.n2

soldevu.p1soldevu.p2

soldevu.p3

soldevu.p4

eparlog.epar

eparlog.non_epar

credhab.credhab

credhab.non_credhab

credcon.fai

credcon.for

credcon.nul

P.M. Bousquet (CERI) Data Mining (Fouille de donnees) 11 / 13

Page 17: Analyse Factorielle des Correspondances (AFC) Analyse des ......2 I nacti f Quot 3 Empl oye Radi o 4 I nacti f Radi o 5 Ouvr i er qual P_ TV 6 I nacti f Tel 7 Ouvr i er n- q Tel 8

ACM

... mais aussi vue des individus dans l’espace des axes factoriels.

−1.0 −0.5 0.0 0.5 1.0

−1.

0−

0.5

0.0

0.5

1.0

Axis1

Axi

s2

P.M. Bousquet (CERI) Data Mining (Fouille de donnees) 12 / 13

Page 18: Analyse Factorielle des Correspondances (AFC) Analyse des ......2 I nacti f Quot 3 Empl oye Radi o 4 I nacti f Radi o 5 Ouvr i er qual P_ TV 6 I nacti f Tel 7 Ouvr i er n- q Tel 8

ACM

Mieux que le passage en disjonctif ? Oui : plus precis car tient compte desfrequences des modalites dans la population globale, et elimine les variabilitesresiduelles.

Et ensuite ?

Classification (clustering) de la population sur les coordonnees factorielles

Machine learning, ...

etc...

P.M. Bousquet (CERI) Data Mining (Fouille de donnees) 13 / 13