Uvođenje automatizacije u poslovne procese radi povećanja ...
Analyse Factorielle des Correspondances (AFC) Analyse des ......2 I nacti f Quot 3 Empl oye Radi o 4...
Transcript of Analyse Factorielle des Correspondances (AFC) Analyse des ......2 I nacti f Quot 3 Empl oye Radi o 4...
Analyse Factorielle des Correspondances (AFC)Analyse des Correspondances Multiples (ACM)
Multiple correspondence analysis (MCA)
P.M. Bousquet
CERI
P.M. Bousquet (CERI) Data Mining (Fouille de donnees) 1 / 13
Problematique
CSP multimedia
1 Ouvrier n-q Tel
2 Inactif Quot
3 Employe Radio
4 Inactif Radio
5 Ouvrier qual P_TV
6 Inactif Tel
7 Ouvrier n-q Tel
8 Agriculteur R_P_Mag
9 Prof. Cad. S. Radio
10 Agriculteur Radio
...
12385 Petit patron Quot_N
12387 Ouvrier qual Quot
12388 Inactif Tel
Q1 : quelle est votre catégorie socio-professionnelle ?Q2 : quel est votre média préféré ?
P_TV Presse TV, Quot Quotidiens régionaux,Quot_N Quotidiens nationaux,R_P_Mag Revues de presse et magazinesTel Télévision
P.M. Bousquet (CERI) Data Mining (Fouille de donnees) 2 / 13
Problematique
CSP multimedia
1 Ouvrier n-q Tel
2 Inactif Quot
3 Employe Radio
4 Inactif Radio
5 Ouvrier qual P_TV
6 Inactif Tel
7 Ouvrier n-q Tel
8 Agriculteur R_P_Mag
9 Prof. Cad. S. Radio
10 Agriculteur Radio
...
12385 Petit patron Quot_N
12387 Ouvrier qual Quot
12388 Inactif Tel
Q1 : quelle est votre catégorie socio-professionnelle ?Q2 : quel est votre média préféré ?
P_TV Presse TV, Quot Quotidiens régionaux,Quot_N Quotidiens nationaux,R_P_Mag Revues de presse et magazinesTel Télévision
Deux variables qualitatives (non numériques)à nombre de modalités fini.
Y a t-il une relation entre ces deux variables ?
... corrélation ? Non. Variables numériques seulement.
Y a t-il une relation entre certaines modalitésde la variable 1 et certaines de la variable 2 ?
Ex. :... Ouvrier qualifié et Télévision ?... Cadre supérieur et Quotidiens nationaux ?
P.M. Bousquet (CERI) Data Mining (Fouille de donnees) 2 / 13
Problematique
CSP multimedia
1 Ouvrier n-q Tel
2 Inactif Quot
3 Employe Radio
4 Inactif Radio
5 Ouvrier qual P_TV
6 Inactif Tel
7 Ouvrier n-q Tel
8 Agriculteur R_P_Mag
9 Prof. Cad. S. Radio
10 Agriculteur Radio
...
12385 Petit patron Quot_N
12387 Ouvrier qual Quot
12388 Inactif Tel
Q1 : quelle est votre catégorie socio-professionnelle ?Q2 : quel est votre média préféré ?
P_TV Presse TV, Quot Quotidiens régionaux,Quot_N Quotidiens nationaux,R_P_Mag Revues de presse et magazinesTel Télévision
variables
individusmodalités
Trouver des sur-effectifs significatifsd'individus simultanément - d'une modalité de la variable 1 et - d'une modalité de la variable 2
Ex. : des cadres supérieurs qui lisent lesquotidiens nationaux ...
Mais aussi :Trouver des sous-effectifs significatifsetc ....
On ne parle pas de corrélations,mais de correspondances.
P.M. Bousquet (CERI) Data Mining (Fouille de donnees) 2 / 13
Problematique
CSP multimedia
1 Ouvrier n-q Tel
2 Inactif Quot
3 Employe Radio
4 Inactif Radio
5 Ouvrier qual P_TV
6 Inactif Tel
7 Ouvrier n-q Tel
8 Agriculteur R_P_Mag
9 Prof. Cad. S. Radio
10 Agriculteur Radio
...
12385 Petit patron Quot_N
12387 Ouvrier qual Quot
12388 Inactif Tel
Q1 : quelle est votre catégorie socio-professionnelle ?Q2 : quel est votre média préféré ?
P_TV Presse TV, Quot Quotidiens régionaux,Quot_N Quotidiens nationaux,R_P_Mag Revues de presse et magazinesTel Télévision
variables
individusmodalités
Trouver des sur-effectifs significatifsd'individus simultanément - d'une modalité de la variable 1 et - d'une modalité de la variable 2
Ex. : des cadres supérieurs qui lisent lesquotidiens nationaux ...
Mais aussi :Trouver des sous-effectifs significatifsetc ....
On ne parle pas de corrélations,mais de correspondances.
Domaines d’application ... tous mais l’AFCa été créée pour les sciences humaines ...
psychologie, anthropologie,histoire, linguistique,sociologie, communicationmarketing, ...
P.M. Bousquet (CERI) Data Mining (Fouille de donnees) 2 / 13
Solution proposee : technique de type ACP(extraction d’axes principaux et projection ...)
P.M. Bousquet (CERI) Data Mining (Fouille de donnees) 3 / 13
ACP sur fichier passé en disjonctif ?
CSP multimedia
1 0 0 0 1 0 0 0 0 0 0 0 0 0 12 0 0 1 0 0 0 0 0 0 1 0 0 0 03 0 1 0 0 0 0 0 0 0 0 0 1 0 04 0 0 1 0 0 0 0 0 0 0 0 1 0 05 0 0 0 0 1 0 0 0 1 0 0 0 0 06 0 0 1 0 0 0 0 0 0 0 0 0 0 17 0 0 0 1 0 0 0 0 0 0 0 0 0 18 1 0 0 0 0 0 0 0 0 0 0 0 1 09 0 0 0 0 0 0 1 0 0 0 0 1 0 010 1 0 0 0 0 0 0 0 0 0 0 1 0 0(...)12387 1 0 0 0 0 0 0 0 0 0 0 1 0 012388 1 0 0 0 0 0 0 0 0 0 0 1 0 0
Agricu
lteur
Emplo
ye
Inac
tif
Ouvrie
r n-q
Ouvrie
r qua
l
Petit p
atro
n
Prof.
Cad. S
.
Prof.
inter
m
P_TV
Quot
Quot_
N
Radio
R_P_M
ag
Tel
Solution proposee : technique de type ACP(extraction d’axes principaux et projection ...)
P.M. Bousquet (CERI) Data Mining (Fouille de donnees) 3 / 13
?
L'ACP sur disjonctifest inadaptée
à ce problème ...
La solution AFC
P.M. Bousquet (CERI) Data Mining (Fouille de donnees) 4 / 13
P_TV Quot Quot_N Radio R_P_Mag Tel ∑Agriculteur 17 71 2 96 50 118 354Employe 306 217 57 511 172 593 1856Inactif 782 852 181 1474 642 1931 5862Ouvrier n-q 85 69 8 156 42 185 545Ouvrier qual 220 174 42 385 104 457 1382Petit patron 41 76 11 122 49 136 435Prof. Cad. S. 79 63 74 193 103 184 696Prof. interm 184 145 63 360 141 365 1258
∑ 1714 1667 438 3297 1303 3969 12388
P_TV Quot Quot_N Radio R_P_Mag Tel ∑Agriculteur 17 71 2 96 50 118 2,9%Employe 306 217 57 511 172 593 15,0%Inactif 782 852 181 1474 642 1931 47,3%Ouvrier n-q 85 69 8 156 42 185 4,4%Ouvrier qual 220 174 42 385 104 457 11,2%Petit patron 41 76 11 122 49 136 3,5%Prof. Cad. S. 79 63 74 193 103 184 5,6%Prof. interm 184 145 63 360 141 365 10,2%
∑ 13,8% 13,5% 3,5% 26,6% 10,5% 32,0% 100%
Y a t-il un sur-effectif significatif d'ouvriers qualifiés qui préférent la radio ?
367,8 (= effectif si indépendance)
J.P. Benzecri (1960) : extraction de facteurs principaux à partir du tableau de contingence
11.2 % de 26.6 % des 12388 valeurs =
La solution AFC
Remplacer la maximisation de la variance des projetes suivant la distanceeuclidienne par la distance induite par la metrique du χ2.
On note i1 et i2 deux modalites-lignes. Alors la distance entre i1 et i2 est egale a :
d(i1, i2) =
√√√√√√∑j
(fi1,jfi1,∗− fi2,j
fi2,∗)2
f∗,j
ou
fi1,j frequence de (modalite-ligne i1 , modalite-colonne j )
fi2,j frequence de (modalite-ligne i2 , modalite-colonne j )
fi1,∗ somme des frequences de la ligne i1 (= frequence de la modalite-ligne i1)
fi2,∗ somme des frequences de la ligne i2 (= frequence de la modalite-ligne i2)
f∗,j somme des frequences de la colonne j (= frequence de lamodalite-colonne j)
P.M. Bousquet (CERI) Data Mining (Fouille de donnees) 5 / 13
La solution AFC
L’inertie totale (... variance ...) du nuage de point est :
In.d.p. =∑i
∑j
(fij − fi∗f∗j)2
fi∗f∗j
En fait l’inertie est le quotient du χ2 par le nombre d’individus
In.d.p. =χ2
n
In.d.p. = 0 si pour tout i , j on a fij = fi∗f∗j
cas d’independance = le n.d.p. de l’AFC se retrouve concentre en un seul point
P.M. Bousquet (CERI) Data Mining (Fouille de donnees) 6 / 13
Interpretation de l’AFC
L’AFC peut produire des vues ...
P.M. Bousquet (CERI) Data Mining (Fouille de donnees) 7 / 13
Interpretation de l’AFC
... mais seules certaines proximites sont significatives ...
P.M. Bousquet (CERI) Data Mining (Fouille de donnees) 8 / 13
Interpretation de l’AFC
→ necessite d’extraire les correspondances a partir d’un tableau d’interpretation ...
Tableau d'interprétation
poids rel. CTR inertie axe 1 CTR COS2 QLT axe 2 CTR COS2 QLT
Agriculteur 2,86 15,29 1,41 5,7 0,22 0,22 -3,65 38 0,78 1
Employe 14,98 1,28 0,13 0,3 0,03 0,03 1,12 18,9 0,97 1
Inactif 47,32 0,23 0,28 3,6 0,49 0,49 -0,39 7,3 0,51 1
Ouvrier n-q 4,4 2,25 1 4,4 0,61 0,61 1,12 5,5 0,39 1
Ouvrier qual 11,16 1,56 0,37 1,5 0,16 0,16 1,19 15,9 0,84 1
Petit patron 3,51 3,18 0,58 1,2 0,19 0,19 -1,69 10 0,81 1
Prof. Cad. S. 5,62 13,86 -3,65 75 0,98 0,98 -0,72 2,9 0,02 1
Prof. interm 10,15 0,97 -0,91 8,3 0,91 0,91 0,38 1,5 0,09 1
poids rel. CTR inertie axe 1 CTR COS2 QLT axe 2 CTR COS2 QLT
P_TV 13,84 3,63 0,08 0,1 0 0 1,9 50,1 1 1
Quot 13,46 2,52 0,92 11,5 0,5 0,5 -1,29 22,4 0,5 1
Quot_N 3,54 21,1 -4,59 74,6 1 1 -0,07 0 0 1
Radio 26,61 0,08 -0,13 0,4 0,31 0,31 0,26 1,8 0,69 1
R_P_Mag 10,52 3,08 -0,81 6,8 0,34 0,34 -1,56 25,6 0,66 1
Tel 32,04 0,21 0,45 6,6 1 1 0,02 0 0 1
P.M. Bousquet (CERI) Data Mining (Fouille de donnees) 9 / 13
ACM : l’analyse des correspondances multiples
P.M. Bousquet (CERI) Data Mining (Fouille de donnees) 10 / 13
ACM : meme demarche que l’AFC, mais avec plus de deux variables.
Banque )(CRM)
ACM : l’analyse des correspondances multiples
P.M. Bousquet (CERI) Data Mining (Fouille de donnees) 10 / 13
ACM : meme demarche que l’AFC, mais avec plus de deux variables.
Difficulte d’interpretation : trop grand nombre de modalites → nivellementdes contributions ... rien de significatif.
Utilisation : l’ACM produit des “coordonnees” des modalites .. mais aussi desindividus.C’est donc une technique de numerisation d’une population caracterisee pardes variables categorielles.
ACM
Vue des modalites des variables ...
−1.0 −0.5 0.0 0.5 1.0 1.5 2.0
−2.
0−
1.5
−1.
0−
0.5
0.0
0.5
1.0
Axe 1 − 8 %
Axe
2
−
6 %
csp.agric
csp.artis
csp.cadsu
csp.emplo
csp.etudi
csp.inact
csp.inter csp.ouvri
csp.retra
duree.d24duree.d48duree.d812 duree.dm2
duree.dp12
oppo.non_oppo
oppo.oppo
age.ai25
age.ai35
age.ai45
age.ai55
age.ai75
sexe.fem
sexe.hominterdit.int
interdit.non_int
cableue.CB
cableue.non_CB
assurvi.assurviassurvi.non_assurvi
soldevu.n1
soldevu.n2
soldevu.p1soldevu.p2
soldevu.p3
soldevu.p4
eparlog.epar
eparlog.non_epar
credhab.credhab
credhab.non_credhab
credcon.fai
credcon.for
credcon.nul
P.M. Bousquet (CERI) Data Mining (Fouille de donnees) 11 / 13
ACM
... mais aussi vue des individus dans l’espace des axes factoriels.
−1.0 −0.5 0.0 0.5 1.0
−1.
0−
0.5
0.0
0.5
1.0
Axis1
Axi
s2
P.M. Bousquet (CERI) Data Mining (Fouille de donnees) 12 / 13
ACM
Mieux que le passage en disjonctif ? Oui : plus precis car tient compte desfrequences des modalites dans la population globale, et elimine les variabilitesresiduelles.
Et ensuite ?
Classification (clustering) de la population sur les coordonnees factorielles
Machine learning, ...
etc...
P.M. Bousquet (CERI) Data Mining (Fouille de donnees) 13 / 13