Céline Frambourg - Zhao Xin Wu et Jean-Paul Minh Truong - Axel Van Leeuw Présentent l'algorithme

30
08/12/2002 08/12/2002 ChARM ChARM 1 Jean-Paul Minh Truong - Axel Van Jean-Paul Minh Truong - Axel Van Leeuw Leeuw Présentent Présentent l'algorithme l'algorithme ChARM ChARM (Close Association Rules (Close Association Rules Mining) Mining) Références: Références: ChARM : An efficient Algorithm for Closed Association Rule ChARM : An efficient Algorithm for Closed Association Rule Mining Mining ZAKI, M. j., Hsiao C.-J., 1999 ZAKI, M. j., Hsiao C.-J., 1999 Les entrepôts de données et l’analyse de données, GODIN, Les entrepôts de données et l’analyse de données, GODIN,

description

Céline Frambourg - Zhao Xin Wu et Jean-Paul Minh Truong - Axel Van Leeuw Présentent l'algorithme. ChARM (Close Association Rules Mining) Références: ChARM : An efficient Algorithm for Closed Association Rule Mining ZAKI, M. j., Hsiao C.-J., 1999 - PowerPoint PPT Presentation

Transcript of Céline Frambourg - Zhao Xin Wu et Jean-Paul Minh Truong - Axel Van Leeuw Présentent l'algorithme

Page 1: Céline Frambourg - Zhao Xin Wu et Jean-Paul Minh Truong - Axel Van Leeuw Présentent l'algorithme

08/12/200208/12/2002 ChARMChARM 11

Céline Frambourg - Zhao Xin WuCéline Frambourg - Zhao Xin Wuetet

Jean-Paul Minh Truong - Axel Van LeeuwJean-Paul Minh Truong - Axel Van Leeuw

Présentent l'algorithme Présentent l'algorithme

ChARMChARM(Close Association Rules Mining)(Close Association Rules Mining)

Références: Références: ChARM : An efficient Algorithm for Closed Association Rule MiningChARM : An efficient Algorithm for Closed Association Rule Mining

ZAKI, M. j., Hsiao C.-J., 1999ZAKI, M. j., Hsiao C.-J., 1999Les entrepôts de données et l’analyse de données, GODIN, R., 2002Les entrepôts de données et l’analyse de données, GODIN, R., 2002

Page 2: Céline Frambourg - Zhao Xin Wu et Jean-Paul Minh Truong - Axel Van Leeuw Présentent l'algorithme

2208/12/200208/12/2002 ChARMChARM

L'extraction de règles d'associations L'extraction de règles d'associations s'effectue en deux étapes:s'effectue en deux étapes:

Trouver l'ensemble de tous les itemsets Trouver l'ensemble de tous les itemsets fréquentsfréquents

Tester et extraire toutes les règles ayant Tester et extraire toutes les règles ayant une confiance élevée parmi ces itemsets.une confiance élevée parmi ces itemsets.

Page 3: Céline Frambourg - Zhao Xin Wu et Jean-Paul Minh Truong - Axel Van Leeuw Présentent l'algorithme

3308/12/200208/12/2002 ChARMChARM

Avantages de ChARMAvantages de ChARM

Il n'est pas nécessaire d'extraire tous les Il n'est pas nécessaire d'extraire tous les itemsets fréquentsitemsets fréquents, mais seulement , mais seulement l'ensemble des l'ensemble des itemsets fermés frequentsitemsets fermés frequents

Il n'est pas nécessaire d'extraire l'ensemble Il n'est pas nécessaire d'extraire l'ensemble de toutes les règles possiblesde toutes les règles possibles

Page 4: Céline Frambourg - Zhao Xin Wu et Jean-Paul Minh Truong - Axel Van Leeuw Présentent l'algorithme

4408/12/200208/12/2002 ChARMChARM

Particularités de ChARMParticularités de ChARM

Charm explore à la fois l'espace des Charm explore à la fois l'espace des itemsetsitemsets et celui des et celui des tidsetstidsets..

ChARM utilise les opérations d’union sur ChARM utilise les opérations d’union sur les itemsets et d’intersection sur les tidsetsles itemsets et d’intersection sur les tidsets

ChARM élague :ChARM élague : Les itemsets non fréquentsLes itemsets non fréquents Les itemsets non fermés.Les itemsets non fermés.

Page 5: Céline Frambourg - Zhao Xin Wu et Jean-Paul Minh Truong - Axel Van Leeuw Présentent l'algorithme

5508/12/200208/12/2002 ChARMChARM

Quelques rappels et notionsQuelques rappels et notions

Soit Soit II={1,2,…,m}={1,2,…,m} un ensemble d’ un ensemble d’itemsetsitemsets

Soit Soit TT={1,2,…,n}={1,2,…,n} un ensemble de un ensemble de tidsetstidsets ou d'identificateurs de transactions.ou d'identificateurs de transactions.

L’entrée d’une base de donnée est une L’entrée d’une base de donnée est une relation binaire : relation binaire : δ δ I x T I x T

Page 6: Céline Frambourg - Zhao Xin Wu et Jean-Paul Minh Truong - Axel Van Leeuw Présentent l'algorithme

6608/12/200208/12/2002 ChARMChARM

Une règle d'association est une Une règle d'association est une expression de la forme : expression de la forme :

La confiance d’une règle est :La confiance d’une règle est :

21 XX p

)(

)(

1

21

XXXp

Page 7: Céline Frambourg - Zhao Xin Wu et Jean-Paul Minh Truong - Axel Van Leeuw Présentent l'algorithme

7708/12/200208/12/2002 ChARMChARM

Treillis de GaloisTreillis de Galois

Un treillis un ensemble ordonné non vide Un treillis un ensemble ordonné non vide (P, (P, )) dans lequel chaque couple dans lequel chaque couple d’éléments x,y d’éléments x,y P admet un supremum P admet un supremum (join) (x (join) (x vv y) et un infimum (meet) (x y) et un infimum (meet) (x y) y)

Un treillis est complet si tous les sous-Un treillis est complet si tous les sous-ensemble Sensemble SP admettent un supremum et P admettent un supremum et un infimumun infimum

Page 8: Céline Frambourg - Zhao Xin Wu et Jean-Paul Minh Truong - Axel Van Leeuw Présentent l'algorithme

8808/12/200208/12/2002 ChARMChARM

Connexion(s) de GaloisConnexion(s) de GaloisContexte d’extraction C= (I,T, Contexte d’extraction C= (I,T, ))

Soit XSoit XI et YI et YT alors:T alors:t: I t: I T, t(X)={y T, t(X)={yT | T | xxX, xX, xy}y}i: T i: T I, i(Y)={x I, i(Y)={xI | I | yyY, xY, xy}y}

Où :Où :t(X) est l'ensemble de toutes t(X) est l'ensemble de toutes les transactions (tidset) les transactions (tidset) contenant l'itemset Xcontenant l'itemset X i(Y) est l'itemset qui est contenu i(Y) est l'itemset qui est contenu dans toutes les transactions dans toutes les transactions dans Y.dans Y.

Page 9: Céline Frambourg - Zhao Xin Wu et Jean-Paul Minh Truong - Axel Van Leeuw Présentent l'algorithme

9908/12/200208/12/2002 ChARMChARM

ThéorèmesThéorèmes

La règle La règle

est équivalente à la règle est équivalente à la règle

où q=poù q=p

Pour tout itemset X, son support est égal Pour tout itemset X, son support est égal au support de sa fermetureau support de sa fermeture

)()(21 XcXc it

q

it

21 XX p

Page 10: Céline Frambourg - Zhao Xin Wu et Jean-Paul Minh Truong - Axel Van Leeuw Présentent l'algorithme

101008/12/200208/12/2002 ChARMChARM

Propriétés de base pour les Propriétés de base pour les couples itemsets-tidsetscouples itemsets-tidsets

Soit XSoit X11 et X et X22 deux itemsets tels que X deux itemsets tels que X11≤X≤X22

qui implique que qui implique que σσ((XX11)≤)≤σσ((XX22).).

ChARM construit l’arbre des itemsets ChARM construit l’arbre des itemsets fermés fréquents en suivant quatre fermés fréquents en suivant quatre propriétés.propriétés.

Page 11: Céline Frambourg - Zhao Xin Wu et Jean-Paul Minh Truong - Axel Van Leeuw Présentent l'algorithme

111108/12/200208/12/2002 ChARMChARM

Première propriétéPremière propriété

Si t(XSi t(X11)=t(X)=t(X22) alors ) alors

t(Xt(X11XX22)=t(X)=t(X11))t(Xt(X22)=t(X)=t(X11)=t(X)=t(X22). Dans ce ). Dans ce

cas, on remplace toutes les occurrences de cas, on remplace toutes les occurrences de XX11 par X par X11XX22 et on enlève X et on enlève X22 de toutes les de toutes les

considérations ultérieures. En effet, sa considérations ultérieures. En effet, sa fermeture est la même que la fermeture de fermeture est la même que la fermeture de XX11XX22..

Page 12: Céline Frambourg - Zhao Xin Wu et Jean-Paul Minh Truong - Axel Van Leeuw Présentent l'algorithme

121208/12/200208/12/2002 ChARMChARM

Deuxième propriétéDeuxième propriété

Si t(XSi t(X11))t(Xt(X22) alors ) alors

t(Xt(X11XX22)=t(X)=t(X11))t(Xt(X22)=t(X)=t(X11)≠t(X)≠t(X22). Dans ce ). Dans ce

cas, on remplace toutes les occurrences de cas, on remplace toutes les occurrences de XX11 par X par X11XX22 mais on ne peut pas enlever mais on ne peut pas enlever

XX22 de toutes considérations ultérieures de toutes considérations ultérieures

parce que t(Xparce que t(X11)≠t(X)≠t(X22).).

Page 13: Céline Frambourg - Zhao Xin Wu et Jean-Paul Minh Truong - Axel Van Leeuw Présentent l'algorithme

131308/12/200208/12/2002 ChARMChARM

Troisième propriétéTroisième propriété

Si t(XSi t(X11))t(Xt(X22) alors ) alors

t(Xt(X11XX22)=t(X)=t(X11))t(Xt(X22)=t(X)=t(X22)≠t(X)≠t(X11). Dans ce ). Dans ce

cas, on remplace toutes les occurrences de cas, on remplace toutes les occurrences de XX22 par X par X11XX22 mais on ne peut pas enlever mais on ne peut pas enlever

XX11 de toutes considérations ultérieures de toutes considérations ultérieures

parce que t(Xparce que t(X22)≠t(X)≠t(X11).).

Page 14: Céline Frambourg - Zhao Xin Wu et Jean-Paul Minh Truong - Axel Van Leeuw Présentent l'algorithme

141408/12/200208/12/2002 ChARMChARM

Quatrième propriétéQuatrième propriété

Si t(XSi t(X11)≠t(X)≠t(X22) alors ) alors

t(Xt(X11XX22)=t(X)=t(X11))t(Xt(X22)≠t(X)≠t(X11)≠t(X)≠t(X22). Dans ce ). Dans ce

cas, on ne peut rien éliminer parce qu’à la cas, on ne peut rien éliminer parce qu’à la fois Xfois X11 et X et X22 ont une fermeture différentes. ont une fermeture différentes.

Par contre, on ajoute le nœud XPar contre, on ajoute le nœud X11XX22 avec avec

son tidset associé qui est :son tidset associé qui est :

t(Xt(X11XX22)=t(X)=t(X11))t(Xt(X22))

Page 15: Céline Frambourg - Zhao Xin Wu et Jean-Paul Minh Truong - Axel Van Leeuw Présentent l'algorithme

151508/12/200208/12/2002 ChARMChARM

Contexte d’extractionContexte d’extraction

Page 16: Céline Frambourg - Zhao Xin Wu et Jean-Paul Minh Truong - Axel Van Leeuw Présentent l'algorithme

161608/12/200208/12/2002 ChARMChARM

Pseudo code de l’algorithmePseudo code de l’algorithme

Page 17: Céline Frambourg - Zhao Xin Wu et Jean-Paul Minh Truong - Axel Van Leeuw Présentent l'algorithme

171708/12/200208/12/2002 ChARMChARM

Construction de l’arbre des Construction de l’arbre des itemsets fermés fréquentsitemsets fermés fréquents

Ax1345 Dx2456 Tx1356 Wx12345 Cx123456

{}x123456

On commence par mettre les 1-itemsets ainsi que

leurs tidsets associés.

Page 18: Céline Frambourg - Zhao Xin Wu et Jean-Paul Minh Truong - Axel Van Leeuw Présentent l'algorithme

181808/12/200208/12/2002 ChARMChARM

Construction de l’arbre des Construction de l’arbre des itemsets fermés fréquentsitemsets fermés fréquents

ADx45

Ax1345 Dx2456 Tx1356 Wx12345 Cx123456

{}x123456

t(A) ≠ t(D) =>On utilise la propriété 4

Page 19: Céline Frambourg - Zhao Xin Wu et Jean-Paul Minh Truong - Axel Van Leeuw Présentent l'algorithme

191908/12/200208/12/2002 ChARMChARM

Construction de l’arbre des Construction de l’arbre des itemsets fermés fréquentsitemsets fermés fréquents

ADx45

Ax1345 Dx2456 Tx1356 Wx12345 Cx123456

{}x123456

AD n’est pas un itemset fréquent donc ChARM l’élague

Page 20: Céline Frambourg - Zhao Xin Wu et Jean-Paul Minh Truong - Axel Van Leeuw Présentent l'algorithme

202008/12/200208/12/2002 ChARMChARM

Construction de l’arbre des Construction de l’arbre des itemsets fermés fréquentsitemsets fermés fréquents

Ax1345 Dx2456 Tx1356 Wx12345 Cx123456

ATx135

{}x123456

t(A) ≠ t(T) =>On utilise la propriété 4

Page 21: Céline Frambourg - Zhao Xin Wu et Jean-Paul Minh Truong - Axel Van Leeuw Présentent l'algorithme

212108/12/200208/12/2002 ChARMChARM

Construction de l’arbre des Construction de l’arbre des itemsets fermés fréquentsitemsets fermés fréquents

AWx1345 Dx2456 Tx1356 Wx12345 Cx123456

ATWx135

{}x123456

t(A) t(W) =>On utilise la propriété 2

Page 22: Céline Frambourg - Zhao Xin Wu et Jean-Paul Minh Truong - Axel Van Leeuw Présentent l'algorithme

222208/12/200208/12/2002 ChARMChARM

Construction de l’arbre des Construction de l’arbre des itemsets fermés fréquentsitemsets fermés fréquents

ACWx1345 Dx2456 Tx1356 Wx12345 Cx123456

ACTWx135

{}x123456

t(A) t(C) =>On utilise la propriété 2

Page 23: Céline Frambourg - Zhao Xin Wu et Jean-Paul Minh Truong - Axel Van Leeuw Présentent l'algorithme

232308/12/200208/12/2002 ChARMChARM

Construction de l’arbre des Construction de l’arbre des itemsets fermés fréquentsitemsets fermés fréquents

DTx56

ACWx1345 Dx2456 Tx1356 Wx12345 Cx123456

ACTWx135

{}x123456

t(D) ≠ t(T) =>On utilise la propriété 4

Page 24: Céline Frambourg - Zhao Xin Wu et Jean-Paul Minh Truong - Axel Van Leeuw Présentent l'algorithme

242408/12/200208/12/2002 ChARMChARM

Construction de l’arbre des Construction de l’arbre des itemsets fermés fréquentsitemsets fermés fréquents

DTx56

ACWx1345 Dx2456 Tx1356 Wx12345 Cx123456

ACTWx135

{}x123456

DT n’est pas un itemset fréquent donc ChARM l’élague

Page 25: Céline Frambourg - Zhao Xin Wu et Jean-Paul Minh Truong - Axel Van Leeuw Présentent l'algorithme

252508/12/200208/12/2002 ChARMChARM

Construction de l’arbre des Construction de l’arbre des itemsets fermés fréquentsitemsets fermés fréquents

ACWx1345 Dx2456 Tx1356 Wx12345 Cx123456

ACTWx135 DWx245

{}x123456

t(D) ≠ t(W) =>On utilise la propriété 4

Page 26: Céline Frambourg - Zhao Xin Wu et Jean-Paul Minh Truong - Axel Van Leeuw Présentent l'algorithme

262608/12/200208/12/2002 ChARMChARM

Construction de l’arbre des Construction de l’arbre des itemsets fermés fréquentsitemsets fermés fréquents

ACWx1345 CDx2456 Tx1356 Wx12345 Cx123456

ACTWx135 CDWx245

{}x123456

t(D) t(C) =>On utilise la propriété 2

Page 27: Céline Frambourg - Zhao Xin Wu et Jean-Paul Minh Truong - Axel Van Leeuw Présentent l'algorithme

272708/12/200208/12/2002 ChARMChARM

Construction de l’arbre des Construction de l’arbre des itemsets fermés fréquentsitemsets fermés fréquents

ACWx1345 CDx2456 Tx1356 Wx12345 Cx123456

ACTWx135 CDWx245

{}x123456

TWx135

t(T) ≠ t(W) =>On utilise la propriété 4

Page 28: Céline Frambourg - Zhao Xin Wu et Jean-Paul Minh Truong - Axel Van Leeuw Présentent l'algorithme

282808/12/200208/12/2002 ChARMChARM

Construction de l’arbre des Construction de l’arbre des itemsets fermés fréquentsitemsets fermés fréquents

ACWx1345 CDx2456 Tx1356 Wx12345 Cx123456

ACTWx135 CDWx245

{}x123456

TWx135

TW ⊆ ACTW et σ(TW) = σ(ACTW)

donc ChARM l’élague

Page 29: Céline Frambourg - Zhao Xin Wu et Jean-Paul Minh Truong - Axel Van Leeuw Présentent l'algorithme

292908/12/200208/12/2002 ChARMChARM

Construction de l’arbre des Construction de l’arbre des itemsets fermés fréquentsitemsets fermés fréquents

ACWx1345 Dx2456 CTx1356 Wx12345 Cx123456

ACTWx135 DWx245

{}x123456

t(T) t(C) =>On utilise la propriété 2

Page 30: Céline Frambourg - Zhao Xin Wu et Jean-Paul Minh Truong - Axel Van Leeuw Présentent l'algorithme

303008/12/200208/12/2002 ChARMChARM

Construction de l’arbre des Construction de l’arbre des itemsets fermés fréquentsitemsets fermés fréquents

ACWx1345 Dx2456 CTx1356 CWx12345 Cx123456

ACTWx135 DWx245

{}x123456

t(W) t(C) =>On utilise la propriété 2