Georges Sauvet (CREAP Cartaihac, CNRS, Toulouse ) L ANALYSE STATISTIQUE DES DONNEES.
-
Upload
louise-louis -
Category
Documents
-
view
107 -
download
3
Transcript of Georges Sauvet (CREAP Cartaihac, CNRS, Toulouse ) L ANALYSE STATISTIQUE DES DONNEES.
![Page 1: Georges Sauvet (CREAP Cartaihac, CNRS, Toulouse ) L ANALYSE STATISTIQUE DES DONNEES.](https://reader033.fdocuments.in/reader033/viewer/2022051614/551d9d9f497959293b8cdc83/html5/thumbnails/1.jpg)
Georges Sauvet (CREAP Cartaihac, CNRS, Toulouse)Georges Sauvet (CREAP Cartaihac, CNRS, Toulouse)
L’ANALYSE STATISTIQUE DES DONNEES
![Page 2: Georges Sauvet (CREAP Cartaihac, CNRS, Toulouse ) L ANALYSE STATISTIQUE DES DONNEES.](https://reader033.fdocuments.in/reader033/viewer/2022051614/551d9d9f497959293b8cdc83/html5/thumbnails/2.jpg)
Données brutesDonnées brutes
Les attributs (ou propriétés) qui définissent les objets peuvent être :
• des variables qualitatives (discrètes)
• des variables quantitatives (continues)
• un mélange des deux
objet attribut A attribut B attribut C …
1 A1 B3 C2 …
2 A3 B2 C1 …
3 A4 B2 C1 …
4 A2 B1 C2 …
5 A1 B2 C1 …
6 A4 B3 C1 …
… … … … …
N … … … …
![Page 3: Georges Sauvet (CREAP Cartaihac, CNRS, Toulouse ) L ANALYSE STATISTIQUE DES DONNEES.](https://reader033.fdocuments.in/reader033/viewer/2022051614/551d9d9f497959293b8cdc83/html5/thumbnails/3.jpg)
Codage: des données brutes au tableau disjonctif complet Codage: des données brutes
au tableau disjonctif complet
Sexe Residence Habitat
Jane female country owner
Robert male country owner
John male suburb leaseholder
Edward male town leaseholder
Martin male suburb hotel
Mary female town leaseholder
Gerard male suburb subtenant
Lea female town subtenant
Elisabeth female town subtenant
Tableau attributs-valeurs(« multi-valued context »)
NB: cette opération est implémentée dans Semana
S1 S2 R1 R2 R3 H1 H2 H3 H4
Jane 0 1 0 0 1 1 0 0 0
Robert 1 0 0 0 1 1 0 0 0
John 1 0 0 1 0 0 1 0 0
Edward 1 0 1 0 0 0 1 0 0
Martin 1 0 0 1 0 0 0 1 0
Mary 0 1 1 0 0 0 1 0 0
Gerard 1 0 0 1 0 0 0 0 1
Lea 0 1 1 0 0 0 0 0 1
Elisabeth 0 1 1 0 0 0 0 0 1
Tableau disjonctif complet(« one-valued context » = formal context)
Rough Set AnalysisFormal Concept Analysis
Correspondance Factor Analysis
![Page 4: Georges Sauvet (CREAP Cartaihac, CNRS, Toulouse ) L ANALYSE STATISTIQUE DES DONNEES.](https://reader033.fdocuments.in/reader033/viewer/2022051614/551d9d9f497959293b8cdc83/html5/thumbnails/4.jpg)
Codage: du tableau disjonctif complet au tableau de Burt
Codage: du tableau disjonctif complet au tableau de Burt
S1 S2 R1 R2 R3 H1 H2 H3 H4
Jane 0 1 0 0 1 1 0 0 0
Robert 1 0 0 0 1 1 0 0 0
John 1 0 0 1 0 0 1 0 0
Edward 1 0 1 0 0 0 1 0 0
Martin 1 0 0 1 0 0 0 1 0
Mary 0 1 1 0 0 0 0 1 0
Gerard 1 0 0 1 0 0 1 0 0
Lea 0 1 1 0 0 0 0 0 1
Elisabeth 0 1 1 0 0 0 0 0 1
Tableau disjonctif complet
Les relations entre attributs sont renforcées
S1 S2 R1 R2 R3 H1 H2 H3 H4
S1 5 0 1 3 1 1 2 1 1
S2 0 4 3 0 1 1 1 0 2
R1 1 3 4 0 0 0 2 0 2
R2 3 0 0 3 0 0 1 1 1
R3 1 1 0 1 2 2 0 0 0
H1 1 1 0 0 2 2 0 0 0
H2 2 1 2 1 0 0 3 0 0
H3 1 0 0 1 0 0 0 1 0
H4 1 2 2 1 0 0 0 0 3
Table de Burt(co-occurrence des variables)
NB: cette opération est implémentée dans Semana
L’information relative aux individus est perdue
![Page 5: Georges Sauvet (CREAP Cartaihac, CNRS, Toulouse ) L ANALYSE STATISTIQUE DES DONNEES.](https://reader033.fdocuments.in/reader033/viewer/2022051614/551d9d9f497959293b8cdc83/html5/thumbnails/5.jpg)
DiscrétisationDiscrétisation
0
20
40
60
80
100
20 25 30 35 40 45 50 55 60
fraction Ni/Nt (%)
variable X
Courbe cumulative Ni/Nt = f(Xi)
Modalité 1 (Xi<31.5) : « petit »
Modalité 2 (31.5≤Xi<37.5) : « moyen »
Modalité 3 (Xi≥37.5) : « grand »
1/3
2/3
Exemple d’une partition en 3 classes d’effectifs égaux
![Page 6: Georges Sauvet (CREAP Cartaihac, CNRS, Toulouse ) L ANALYSE STATISTIQUE DES DONNEES.](https://reader033.fdocuments.in/reader033/viewer/2022051614/551d9d9f497959293b8cdc83/html5/thumbnails/6.jpg)
DiscrétisationDiscrétisation
21 sacs de couchage caractérisés par trois variables quantitatives (température, poids et prix) et un attribut nominal (matériau synthétique ou natural)
(d’après S. Prediger ,Symbolic objects in
FCA, 1997)
Discrétisation de la température (4 mod.): {+7, +3} => T1 {0, -3} => T2 {-7, -10} => T3 {-15} => T4
Discrétisation du poids (5 modalités): ≤ 1000 => W1 {1000-1400} => W2 {1400-1700} => W3 {1700-2000} => W4 ≥ 2000 => W5
Discrétisation du prix (3 modalités): ≤ 250 => cheap {250-400} => notexp ≥ 400 => expensive
d’après Susanne Prediger (1997). Symbolic objects in Formal concept Analysis, Vancouver
![Page 7: Georges Sauvet (CREAP Cartaihac, CNRS, Toulouse ) L ANALYSE STATISTIQUE DES DONNEES.](https://reader033.fdocuments.in/reader033/viewer/2022051614/551d9d9f497959293b8cdc83/html5/thumbnails/7.jpg)
Discrétisation et « logical scaling »Discrétisation et « logical scaling »
Poids discrétisé in 5 modalitésTempérature minimale discrétisée en 4 modalités
Prix discrétisé in 3 modalités
Discrétisation de la température: {+7, +3} => T1 {0, -3} => T2 {-7, -10} => T3 {-15} => T4Discrétisation du poids: ≤ 1000 => W1 {1000-1400} => W2 {1400-1700} => W3 {1700-2000} => W4 ≥ 2000 => W5Discrétisation du prix: ≤ 250 => cheap {250-400} => notexp ≥ 400 => expensive
Etape 1: discrétisation des variables quantitatives température, poids et prix
![Page 8: Georges Sauvet (CREAP Cartaihac, CNRS, Toulouse ) L ANALYSE STATISTIQUE DES DONNEES.](https://reader033.fdocuments.in/reader033/viewer/2022051614/551d9d9f497959293b8cdc83/html5/thumbnails/8.jpg)
Discrétisation et « logical scaling »Discrétisation et « logical scaling »
Etalement des 4 modalités de température
Étalement des 5 modalités de poids Étalement des 3
modalités de prix
Etape 2: transformation du « multi-valued context » (AV) en « one-valued context » (FCA)
![Page 9: Georges Sauvet (CREAP Cartaihac, CNRS, Toulouse ) L ANALYSE STATISTIQUE DES DONNEES.](https://reader033.fdocuments.in/reader033/viewer/2022051614/551d9d9f497959293b8cdc83/html5/thumbnails/9.jpg)
Discrétisation et « logical scaling »Discrétisation et « logical scaling »
Etalement des 4 modalités de température
Étalement des 5 modalités de poids Étalement des 3
modalités de prix
Etape 3 : Logical scaling
{T1 and W1} or {T2 and (W1 or W2)} or {T3 and (W1 or W2 or W3)} or {T4 and (W1 or W2 or W3 or W4)} => good
{T1 and (W1 or W2)} or {T2 and (W1 or W2 or W3)} or {T3 and (W1 or W2 or W3 or W4)} or {T4} => acceptable
{T1 and (W3 or W4 or W5)} or {T2 and (W4 or W5)} or {T3 and W5} => bad
![Page 10: Georges Sauvet (CREAP Cartaihac, CNRS, Toulouse ) L ANALYSE STATISTIQUE DES DONNEES.](https://reader033.fdocuments.in/reader033/viewer/2022051614/551d9d9f497959293b8cdc83/html5/thumbnails/10.jpg)
Discrétisation et « logical scaling »Discrétisation et « logical scaling »
3 attributs qualitatifs remplacent 9 modalités de 2 variables quantitatives (température et poids)
![Page 11: Georges Sauvet (CREAP Cartaihac, CNRS, Toulouse ) L ANALYSE STATISTIQUE DES DONNEES.](https://reader033.fdocuments.in/reader033/viewer/2022051614/551d9d9f497959293b8cdc83/html5/thumbnails/11.jpg)
Les techniques de l’Analyse Statistique des Données
Les techniques de l’Analyse Statistique des Données
• Classification Ascendante Hiérarchique (CAH)
• une combinaison des deux: CAH sur l’AFC
• L’Analyse Factorielle des Correspondances (AFC)
NB: ces opérations sont implémentées dans Semana (STAT 3)
Programmes Fortran de l’équipe du Professeur J.-P. Benzécri (Université Paris-VI)adaptés en langage Transcript de Revolution®
![Page 12: Georges Sauvet (CREAP Cartaihac, CNRS, Toulouse ) L ANALYSE STATISTIQUE DES DONNEES.](https://reader033.fdocuments.in/reader033/viewer/2022051614/551d9d9f497959293b8cdc83/html5/thumbnails/12.jpg)
Classification Ascendante Hiérarchique (CAH)Classification Ascendante Hiérarchique (CAH)
Objet de la CAH : agréger successivement les éléments d’une table de contingence (ou d’une table de Burt) en classes en utilisant une mesure de la distance entre classes et d’un critère d’agrégation.
(3) (2) (1) (5) (4)
• Distance enclidienne (métrique du 2)
• critère d’agrégation : moment centré d’ordre 2 d’une partition maximum
Les élements qui ont des profils voisins s’agrègent très tôt. Ils forment des classes (ou « clusters ») utiles pour l’interprétation.
![Page 13: Georges Sauvet (CREAP Cartaihac, CNRS, Toulouse ) L ANALYSE STATISTIQUE DES DONNEES.](https://reader033.fdocuments.in/reader033/viewer/2022051614/551d9d9f497959293b8cdc83/html5/thumbnails/13.jpg)
Analyse Factorielle des Correspondances (AFC)Analyse Factorielle des Correspondances (AFC)
y
x
• • •••••• •
• • •••• •••
• • ••••••
•• • •
•••••
•
•• •••• •••• •••••• •
• •••••
• •••
y = ax + b
Deux dimensions (deux variables x,y)
régression linéaire,
mesure du2
z
x
y
• • •••••• •
• • •••• •••
• • •••• •••• • •
••• •••
•• •••• •••• •••••• •
• •••••
• •••
Trois dimensions (3 variables x,y,z)Projections dans les plans [x,y], [x,z] et [y,z] => vues déformées (difficiles à interpréter)
F1
F2
F3
AFC => changements d’axesF1, F2, F3 : axes d’inertie du nuages de points
projections sur les plans [F1,F2], [F1,F3], etc.
![Page 14: Georges Sauvet (CREAP Cartaihac, CNRS, Toulouse ) L ANALYSE STATISTIQUE DES DONNEES.](https://reader033.fdocuments.in/reader033/viewer/2022051614/551d9d9f497959293b8cdc83/html5/thumbnails/14.jpg)
Analyse Factorielle des Correspondances (AFC)exemple: le champ sémantique des couleurs
Analyse Factorielle des Correspondances (AFC)exemple: le champ sémantique des couleurs
BLE ROU JAU BLA GRI ROS MAR VIO NOI ORA VER Acide ACI 0 0 12 0 0 0 0 0 0 1 1 Agressif AGR 0 3 0 0 0 0 0 1 0 1 0 Angoissant ANG 0 4 1 0 0 0 0 1 2 0 0 Asiatique ASI 0 0 3 0 0 0 0 0 0 0 0 Attirant ATT 1 0 4 0 0 0 0 0 4 4 0 Automnal AUT 0 0 0 0 0 0 4 0 0 0 0 Bête BET 0 0 0 1 3 5 0 0 0 0 0 Brûlant BRT 0 4 0 0 0 0 0 0 0 0 0 Brûlé BRE 0 0 0 0 0 0 0 0 0 8 0 Brumeux BRM 0 0 0 0 7 0 2 0 1 0 0 Calme CAL 12 0 0 0 0 3 4 0 0 1 8 Céleste CEL 17 0 1 6 0 0 0 0 0 0 0 Champêtre CHP 0 0 0 0 0 0 0 0 0 1 9 Chaud CHA 0 3 1 0 0 0 6 1 0 6 0 Clair CLA 0 0 0 2 5 0 4 0 0 0 3 Coloré COL 0 1 0 0 0 0 0 2 1 3 0 Comique COM 0 0 0 0 0 0 0 0 0 2 1 Cru CRU 0 2 2 0 0 0 0 0 0 0 0 Décoratif DEC 0 0 0 1 1 0 0 2 0 3 0 Discret DIS 0 0 0 0 0 0 1 3 0 0 0 Doux DOU 1 0 0 6 2 2 1 3 0 2 0 Dur DUR 0 0 0 0 0 0 3 2 0 0 2 Dynamique DY N 0 1 0 0 0 0 0 0 0 7 0 Ecclesiastique ECC 0 0 3 0 0 0 0 11 0 0 0 Eclatant ECL 0 2 7 1 0 0 0 1 0 0 0 Enervant ENE 0 2 0 0 0 1 0 0 0 0 0 Enfantin ENF 0 0 1 0 3 13 0 0 0 0 5 Ensoleillé ENS 0 0 7 0 0 0 0 0 0 0 0 Equilibré EQU 6 0 0 0 0 0 3 0 0 0 0 Etendu ETE 3 0 1 0 0 0 0 1 0 0 0 Féminin FEM 0 0 0 0 0 0 0 0 0 3 0 Flamboyant FLA 0 6 1 0 0 0 0 0 0 2 0 Fleuri FLE 0 0 1 0 0 3 0 0 0 0 0 Fragile FRg 0 0 0 0 0 6 0 0 0 0 2 Franc FRA 2 2 0 1 0 0 0 0 0 0 8 Froid FRO 2 0 0 3 2 0 1 0 0 0 5 Fruité FRU 0 1 0 0 0 0 0 0 0 15 0 Glacé GLA 0 0 0 0 0 0 6 0 0 0 0 Harmonieux HAR 0 1 0 0 0 0 3 0 0 0 0 Hivernal HIV 0 0 0 0 2 0 2 0 0 0 0 Immaculé IMM 0 0 0 9 0 0 0 0 0 0 0 Joyeux JOY 1 1 1 0 0 1 0 1 0 4 1 Juteux JUT 0 0 0 0 0 0 0 0 0 7 0 Laid LAI 0 0 1 0 0 1 3 1 0 0 1 Léger LEG 2 0 1 0 0 4 0 0 0 1 0 Limpide LIM 4 0 0 4 0 0 0 0 0 0 0 Lisse LIS 0 0 0 2 5 0 2 0 0 0 0 Lointain LOI 5 0 0 0 0 0 0 0 0 0 0 Lumineux LUM 3 1 22 0 0 0 0 0 0 8 1 Malade MAL 0 2 1 0 0 0 0 0 0 0 0 Masculin MAS 0 0 0 0 0 0 6 0 0 0 0 ------- ----------------------------------------------
11 couleurs décrites par 89 adjectifs
![Page 15: Georges Sauvet (CREAP Cartaihac, CNRS, Toulouse ) L ANALYSE STATISTIQUE DES DONNEES.](https://reader033.fdocuments.in/reader033/viewer/2022051614/551d9d9f497959293b8cdc83/html5/thumbnails/15.jpg)
Analyse Factorielle des Correspondances (AFC)exemple: le champ sémantique des couleurs
Analyse Factorielle des Correspondances (AFC)exemple: le champ sémantique des couleurs
11 couleurs décrites par 89 adjectifs
F1
F2
ROUGE
ORANGE
BLEU
VERT
ROSE
NOIR
GRIS
MARRON
BLANC
silencieux
sévère profondreligieux sobre sinistre
mystérieuxtristevieux
discret mortrafffiné brumeux
sombrelissehivernalvide sale
immaculéneigeux
purautomnalglacémasculin
dur
douxparfumé
VIOLET
bête
propre
limpidepâle
laid
clair
froid
enfantin
naturelléger
franc calme
champêtreprintanier
reposant
patriotiquevivant
sucré
romantique
harmonieux
sournois
sonore
ensoleillé
acide
JAUNE
brûlantrévolutionnairepassionnésanguin
dynamiquefruitéfémininjuteux
agressifviolent
maladifvif
cru
rond
comique
énervant
chaud
angoissant
décoratif
attirant
éclatant
joyeuxlumineux
Avantages de l’AFC : • Les objets et les propriétés sont représentés sur le même graphe• leurs relations sont significatives
![Page 16: Georges Sauvet (CREAP Cartaihac, CNRS, Toulouse ) L ANALYSE STATISTIQUE DES DONNEES.](https://reader033.fdocuments.in/reader033/viewer/2022051614/551d9d9f497959293b8cdc83/html5/thumbnails/16.jpg)
Analyse Factorielle des Correspondances (AFC)exemple: le champ sémantique des couleurs
Analyse Factorielle des Correspondances (AFC)exemple: le champ sémantique des couleurs
F1
F2
ROUGE
ORANGE
BLEU
VERT
ROSE
NOIR
GRIS
MARRON
BLANC
silencieux
sévère profondreligieux sobre sinistre
mystérieuxtristevieux
discret mortrafffiné brumeux
sombrelissehivernalvide sale
immaculéneigeux
purautomnalglacémasculin
dur
douxparfumé
VIOLET
bête
propre
limpidepâle
laid
clair
froid
enfantin
naturelléger
franc calme
champêtreprintanier
reposant
patriotiquevivant
sucré
romatique
harmonieux
sournois
sonore
ensoleillé
acide
JAUNE
brûlantrévolutionnairepassionnésanguin
dynamiquefruitéfémininjuteux
agressifviolent
maladifvif
cru
rond
comique
énervant
chaud
angoissant
décoratif
attirant
éclatant
class 158
class 118 class 153joyeuxlumineux
class 156
class 163
class 159
class 161
11 couleurs décrites par 89 adjectifs
![Page 17: Georges Sauvet (CREAP Cartaihac, CNRS, Toulouse ) L ANALYSE STATISTIQUE DES DONNEES.](https://reader033.fdocuments.in/reader033/viewer/2022051614/551d9d9f497959293b8cdc83/html5/thumbnails/17.jpg)
Trois exemples typiques de structures
mises en évidence par AFC
Trois exemples typiques de structures
mises en évidence par AFC
• Dichotomie (deux classes opposées)
• Hiérarchies (structures arborescentes)
• Sériation (classes ordonnées)
![Page 18: Georges Sauvet (CREAP Cartaihac, CNRS, Toulouse ) L ANALYSE STATISTIQUE DES DONNEES.](https://reader033.fdocuments.in/reader033/viewer/2022051614/551d9d9f497959293b8cdc83/html5/thumbnails/18.jpg)
AFC : exemple 1 - DichotomieAFC : exemple 1 - Dichotomie
+--------------------------------------------+-----------------------------------------+--20A | | 00| | | 00| | | 00| Ob1 | | 00| Ob4D | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | G B Ob2| 00| Ob7 | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00+--------------------------------------------+-----------------------------------------+--00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | C | 00| Ob3 | 00| | Ob5 | 00| | | 00| | | 00| F E | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| Ob6 | | 00+--------------------------------------------+-----------------------------------------+
Axe 1
Axe 2
TABLEAU INITIAL A B C D E F GOb1 2 1 0 2 0 1 2Ob2 0 2 2 2 0 0 2Ob3 0 0 5 1 4 2 3Ob4 2 2 1 5 1 0 5Ob5 0 2 4 0 4 2 2Ob6 0 0 2 0 2 2 0Ob7 2 2 3 5 2 1 7
![Page 19: Georges Sauvet (CREAP Cartaihac, CNRS, Toulouse ) L ANALYSE STATISTIQUE DES DONNEES.](https://reader033.fdocuments.in/reader033/viewer/2022051614/551d9d9f497959293b8cdc83/html5/thumbnails/19.jpg)
+--------------------------------------------+-----------------------------------------+--20A | | 00| | | 00| | | 00| Ob1 | | 00| Ob4D | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | G B Ob2| 00| Ob7 | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00+--------------------------------------------+-----------------------------------------+--00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | C | 00| Ob3 | 00| | Ob5 | 00| | | 00| | | 00| F E | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| Ob6 | | 00+--------------------------------------------+-----------------------------------------+
Axe 1
Axe 2
AFC : exemple 1 - DichotomieAFC : exemple 1 - Dichotomie
TABLEAU INITIAL A B C D E F GOb1 2 1 0 2 0 1 2Ob2 0 2 2 2 0 0 2Ob3 0 0 5 1 4 2 3Ob4 2 2 1 5 1 0 5Ob5 0 2 4 0 4 2 2Ob6 0 0 2 0 2 2 0Ob7 2 2 3 5 2 1 7
REPRESENTATION DE LA CLASSIFICATION HIERARCHIQUE 1 2 3 4 5 6 7 8 9 10 +------+-------+-------+-------+-------+-------+-------+-------+-------+-------+Ob1 --------*--*------------------------------------------------------------------**Ob4 --*-----* * *Ob7 --* * *Ob2 -----------* *Ob3 ----*--*----------------------------------------------------------------------*Ob5 ----* * Ob6 -------*
REPRESENTATION DE LA CLASSIFICATION HIERARCHIQUE 1 2 3 4 5 6 7 8 9 10 +------+-------+-------+-------+-------+-------+-------+-------+-------+-------+A ------*----*------------------------------------------------------------------**D --*---* * *G --* * *B -----------* *C ----*----*--------------------------------------------------------------------*E ----* * F ---------*
Classification (AHC) sur les coordonnées:
![Page 20: Georges Sauvet (CREAP Cartaihac, CNRS, Toulouse ) L ANALYSE STATISTIQUE DES DONNEES.](https://reader033.fdocuments.in/reader033/viewer/2022051614/551d9d9f497959293b8cdc83/html5/thumbnails/20.jpg)
REPRESENTATION DE LA CLASSIFICATION HIERARCHIQUE 1 2 3 4 5 6 7 8 9 10 +------+-------+-------+-------+-------+-------+-------+-------+-------+-------+Ob1 --------*--*------------------------------------------------------------------**Ob4 --*-----* * * Ob7 --* * * Ob2 -----------* * Ob3 ----*--*----------------------------------------------------------------------* Ob5 ----* * Ob6 -------*
1 2 3 4 5 6 7 8 9 10 +------+-------+-------+-------+-------+-------+-------+-------+-------+-------+A ------*----*------------------------------------------------------------------**D --*---* * * G --* * * B -----------* * C ----*----*--------------------------------------------------------------------* E ----* * F ---------*
+--------------------------------------------+-----------------------------------------+--20A | | 00| | | 00| | | 00| Ob1 | | 00| Ob4D | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | G B Ob2| 00| Ob7 | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00+--------------------------------------------+-----------------------------------------+--00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | C | 00| Ob3 | 00| | Ob5 | 00| | | 00| | | 00| F E | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| Ob6 | | 00+--------------------------------------------+-----------------------------------------+
Axe 1
Axe 2
AFC : exemple 1 - DichotomieAFC : exemple 1 - Dichotomie
Les objets 1, 4, 7, 2 appartiennent à une classe caractérisée par les propriétés A, B, D, G
Les objets 3, 5, 6 appartiennent à une classe caractérisée par les propriétés C, E, F
Les deux classes sont clairement opposées
TABLEAU INITIAL A B C D E F GOb1 2 1 0 2 0 1 2Ob2 0 2 2 2 0 0 2Ob3 0 0 5 1 4 2 3Ob4 2 2 1 5 1 0 5Ob5 0 2 4 0 4 2 2Ob6 0 0 2 0 2 2 0Ob7 2 2 3 5 2 1 7
![Page 21: Georges Sauvet (CREAP Cartaihac, CNRS, Toulouse ) L ANALYSE STATISTIQUE DES DONNEES.](https://reader033.fdocuments.in/reader033/viewer/2022051614/551d9d9f497959293b8cdc83/html5/thumbnails/21.jpg)
AFC : exemple 2 - HiérarchiesAFC : exemple 2 - Hiérarchies
TABLEAU INITIAL A B C D E F G ob1 1 1 0 1 0 0 0 ob2 1 1 0 0 1 0 0 ob3 1 0 1 0 0 1 0 ob4 1 0 1 0 0 0 1
+-----------------------------------------+-----------------------------------------E- +--10| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | ob2 | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00+-----ob3---------------------------------A-----------------------------------------B--+--40F ob4 | | 10G | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | ob1 | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | D | 00+-----------------------------------------+--------------------------------------------+--00
+-----------------------------------------+--------------------------------------------+--20G | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| ob4 | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00+-----------------------------------------A-----------------------------------ob1---B--+--40C | ob2 D | 10| | E | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| ob3 | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00F | | 00+-----------------------------------------+--------------------------------------------+--00
AB
D
ob3ob4
E
FCG
ABDE
C
F
G
ob2
ob1
ob1ob2
ob4
ob3
Axe 1
Axe 2
Axe 1
Axe 3
![Page 22: Georges Sauvet (CREAP Cartaihac, CNRS, Toulouse ) L ANALYSE STATISTIQUE DES DONNEES.](https://reader033.fdocuments.in/reader033/viewer/2022051614/551d9d9f497959293b8cdc83/html5/thumbnails/22.jpg)
AFC : exemple 2 - HiérarchiesAFC : exemple 2 - Hiérarchies
TABLEAU INITIAL A B C D E F G ob1 1 1 0 1 0 0 0 ob2 1 1 0 0 1 0 0 ob3 1 0 1 0 0 1 0 ob4 1 0 1 0 0 0 1
FJ 4 2 2 1 1 1 1
Axe 1 (50%)
Axe 2 (25%)
Axe 3 (25%)
o1 o2o3
o4
C
A
BD EF
G
A
B
D E F G
C
A, attribut commun à tous les objets, a le poids le plus fort. Il est au centre du nuage et la racine de l’arbre.
![Page 23: Georges Sauvet (CREAP Cartaihac, CNRS, Toulouse ) L ANALYSE STATISTIQUE DES DONNEES.](https://reader033.fdocuments.in/reader033/viewer/2022051614/551d9d9f497959293b8cdc83/html5/thumbnails/23.jpg)
PROJECTION DANS LE PLAN FACTORIEL [1,2]| Horizontal: Axe #2 (Inertie: 21.82%) ——— Vertical: Axe #1 (Inertie: 57.96%)| Largeur: 1.802072; Hauteur: 2.543553; Nombre de points : 14+--------------------------------+--------------------------------------------o1 ---F +--10| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| A | o6 | 00| | | 00| | | 00| | | 00| | | 00| | | 10O2 | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00o4 | | 00| E | | 00| | | 00| | | 00| | | 00| | | 00+--------------------------------+-----------------------------------------------------+--00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| o5 | | 00| | | 00| D | | 00| | | 00| o8 | | 00| | | 00| | | 00| | | 00| | | 00| | B | 00| | o3 | 00| | | 00| | C | 00| | o7 | 00+--------------------------------+-----------------------------------------------------+--00
AFC : exemple 3 - SériationAFC : exemple 3 - Sériation
TABLEAU INITIAL A B C D E Fo1 1 0 0 0 0 1o2 1 0 0 0 1 0o3 0 1 1 1 0 0o4 1 0 0 1 1 0o5 0 1 0 0 1 0o6 1 0 0 0 1 1o7 0 1 1 0 0 0o8 0 1 1 1 1 0
Forme parabolique:« Effet Guttman »(sériation)
![Page 24: Georges Sauvet (CREAP Cartaihac, CNRS, Toulouse ) L ANALYSE STATISTIQUE DES DONNEES.](https://reader033.fdocuments.in/reader033/viewer/2022051614/551d9d9f497959293b8cdc83/html5/thumbnails/24.jpg)
AFC : exemple 3 - SériationAFC : exemple 3 - Sériation
REPRESENTATION DE LA CLASSIFICATION HIERARCHIQUE 1 2 3 4 5 6 7 8 9 10 +------+-------+-------+-------+-------+-------+-------+-------+-------+-------+o1 -----*------------------------*-----------------------------------------------**o6 -----* * * o2 ------*-----------------------* * o4 ------* * o3 ---*------*------*------------------------------------------------------------* o8 ---* * * o7 ----------* * o5 -----------------*
REPRESENTATION DE LA CLASSIFICATION HIERARCHIQUE 1 2 3 4 5 6 7 8 9 10 +------+-------+-------+-------+-------+-------+-------+-------+-------+-------+A ------*-----------------------------------------------------------------------**F ------* * B ----------*------------------------------------*------------------------------* D ----------* * C ------------------------------*----------------* E ------------------------------*
Classification Ascendante Hiérarchique sur les coordonnées factorielles
![Page 25: Georges Sauvet (CREAP Cartaihac, CNRS, Toulouse ) L ANALYSE STATISTIQUE DES DONNEES.](https://reader033.fdocuments.in/reader033/viewer/2022051614/551d9d9f497959293b8cdc83/html5/thumbnails/25.jpg)
AFC : exemple 3 - SériationAFC : exemple 3 - Sériation
PROJECTION DANS LE PLAN FACTORIEL [1,2]| Horizontal: Axe #2 (Inertie: 21.82%) ——— Vertical: Axe #1 (Inertie: 57.96%)| Largeur: 1.802072; Hauteur: 2.543553; Nombre de points : 14+--------------------------------+--------------------------------------------o1 ---F +--10| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| A | o6 | 00| | | 00| | | 00| | | 00| | | 00| | | 10O2 | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00o4 | | 00| E | | 00| | | 00| | | 00| | | 00| | | 00+--------------------------------+-----------------------------------------------------+--00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| o5 | | 00| | | 00| D | | 00| | | 00| o8 | | 00| | | 00| | | 00| | | 00| | | 00| | B | 00| | o3 | 00| | | 00| | C | 00| | o7 | 00+--------------------------------+-----------------------------------------------------+--00
• Les objets o1 et o6 sont liés aux propriétés F et A.• Les objets o2 et o4 sont liés à la propriété E• Les objets o8, o5, o3 et o7 sont liés aux propriétés D, B, C
F A E D B C
o1 1 1 0 0 0 0
o6 1 1 1 0 0 0
o2 0 1 1 0 0 0
o4 0 1 1 1 0 0
o5 0 0 1 0 1 1
o8 0 0 1 1 1 1
o3 0 0 0 1 1 1
o7 0 0 0 0 1 1
CAH sur AFC
![Page 26: Georges Sauvet (CREAP Cartaihac, CNRS, Toulouse ) L ANALYSE STATISTIQUE DES DONNEES.](https://reader033.fdocuments.in/reader033/viewer/2022051614/551d9d9f497959293b8cdc83/html5/thumbnails/26.jpg)
Analyse Factorielle (AFC)et
Analyse en Concepts Formels (FCA)(concerne uniquement les “one-valued contexts”)
Analyse Factorielle (AFC)et
Analyse en Concepts Formels (FCA)(concerne uniquement les “one-valued contexts”)
Un concept formel est une paire (A,B)où A est un ensemble d’objets (extent)et B un ensemble d’attributs (intent)
Toutes les propriétés
Tous les objets
Chaque nœud est un concept formel
C1 {},{female,juvenile,adult,male}C2 {man},{adult,male}C3 {boy},{juvenile,male}C4 {boy,man},{male}C5 {woman},{female,adult}C6 {woman,man},{adult}C7 {girl},{female,juvenile}C8 {girl,boy},{juvenile}C9 {girl,woman},{female}C10 {girl,woman,boy,man},{}
Ces concepts forment une structure hiérarchique que l’on peut représenter par un treillis de Galois.
![Page 27: Georges Sauvet (CREAP Cartaihac, CNRS, Toulouse ) L ANALYSE STATISTIQUE DES DONNEES.](https://reader033.fdocuments.in/reader033/viewer/2022051614/551d9d9f497959293b8cdc83/html5/thumbnails/27.jpg)
FCA et AFCFCA et AFC
Formal Concept Analysis Analyse Factorielle des Correspondances
Lecture de bas en haut: • a girl is a female juvenile,• a woman is a female adult, etc.
![Page 28: Georges Sauvet (CREAP Cartaihac, CNRS, Toulouse ) L ANALYSE STATISTIQUE DES DONNEES.](https://reader033.fdocuments.in/reader033/viewer/2022051614/551d9d9f497959293b8cdc83/html5/thumbnails/28.jpg)
FCA et AFCFCA et AFC
+-----------------------------------------female-------------------------------------------+| | || | || | || | || | || GIRL | WOMAN || | || | || | || | || | || | || | || | || | || | || | || | || | || | || | || | |+-----------------------------------------+---------------------------------------adult+juvenile | || | || | || | || | || | || | || | || | || | || | || | || | || | || | || | || BOY | MAN || | || | || | || | || | || male |+-----------------------------------------+--------------------------------------------+
Formal Concept Analysis
Lecture de haut en bas: • “female” characterizes girls and women,• “juvenile” characterizes girls and boys, etc.
L’axe 1 définit une propriété « sexe » (male vs female),
Analyse Factorielle des Correspondances
Axe 1
Axe 2
L’axe 2 définit une propriété « âge » (juvenile vs adult).
Lecture de bas en haut: • a girl is a female juvenile,• a woman is a female adult, etc.
![Page 29: Georges Sauvet (CREAP Cartaihac, CNRS, Toulouse ) L ANALYSE STATISTIQUE DES DONNEES.](https://reader033.fdocuments.in/reader033/viewer/2022051614/551d9d9f497959293b8cdc83/html5/thumbnails/29.jpg)
+-----------------------------------------female-------------------------------------------+| | || | || | || | || | || GIRL | WOMAN || | || | || | || | || | || | || | || | || | || | || | || | || | || | || | || | |+-----------------------------------------+---------------------------------------adult+juvenile | || | || | || | || | || | || | || | || | || | || | || | || | || | || | || | || BOY | MAN || | || | || | || | || | || male |+-----------------------------------------+--------------------------------------------+
Axe 1
Axe 2
FCA et AFCFCA et AFC
Formal Concept Analysis Analyse Factorielle des Correspondances
D’après les proximités spatiales :
• a girl is female and juvenile,• a woman is female and adult, etc
• female characterizes girls and women,
• juvenile characterizes girls and boys, etc
Lecture de haut en bas: • “female” characterizes girls and women,• “juvenile” characterizes girls and boys, etc.
Lecture de bas en haut: • a girl is a female juvenile,• a woman is a female adult, etc.
![Page 30: Georges Sauvet (CREAP Cartaihac, CNRS, Toulouse ) L ANALYSE STATISTIQUE DES DONNEES.](https://reader033.fdocuments.in/reader033/viewer/2022051614/551d9d9f497959293b8cdc83/html5/thumbnails/30.jpg)
FCA et AFCFCA et AFC
Axe 1 (50%)
Axe 2 (25%)
Axe 3 (25%)
o1 o2o3
o4
C
A
BD EF
G
A
B
D E F G
C
TABLEAU INITIAL A B C D E F G ob1 1 1 0 1 0 0 0 ob2 1 1 0 0 1 0 0 ob3 1 0 1 0 0 1 0 ob4 1 0 1 0 0 0 1
Treillis de Galois