داده کاوی کارا برای زیر درخت های مکرر بیشینه Efficient Data...
-
Upload
maris-lambert -
Category
Documents
-
view
60 -
download
7
description
Transcript of داده کاوی کارا برای زیر درخت های مکرر بیشینه Efficient Data...
داده کاوی کارا برای زیر درخت های مکرر بیشینه
Efficient Data Mining for Maximal Frequent Subtrees
استاد راهنما : دکتر رهگذرسبحان موسوی نژاد
89 تابستان
مراجع
Proceedings of 3rd IEEE International Conference on Data Mining (ICDM), pages 379{386, 2003.
فهرست مطالب
مقدمه•مفاهیم اولیه •بیان مسئله•Path Joinالگوریتم •نتایج تجربی•نتیجه گیری•مراجع•
مقدمه
کاوشAssociation Rules( و رشته ها Sequence مسائل یک : )بعدی
کاوش زیر درخت و گراف : مسائل دو بعدی
کاربرد درخت کاوی
Web Usage Mining
Bio informatics
نقطه آغاز این کار
Traversal و Usage و یافتن الگوهای Websites های Logبررسی
مسائل : بوده Usage ها برای Sequenceتحقیقات قبلی کثرا به دنبال رشته ها و
اند.Web!را به صورت تکبعدی نگریسته اند Web ذاتا ساختار سلسله مراتبی Hierarchal.و یا گرافی دارد
ها.Access Sessionکار ما : یافتن الگوها با استفاده از Tree Structure ها Access Sessionساختار
و Induced و زیر درخت ها نامرتبدرخت ها در اینجا Maximal.هستند
مفاهیم اولیه
Root Pathمسیر ریشه ای نمایش هر مسیر ریشه ای توسط برچسب آخرین نود در
مسیر
Root Subtreeزیر درخت ریشه ای (F,B,D,E)
)ادامه(مفاهیم اولیه
Embedded(درونی)
Induced(منتج)
Item Set Representation For Root Subtree
Itemsetنمایش هر زیر درخت به عنوان یک
باشند : نمایش یکتاInducedاگر الگو ها
<A,C,E> :
Maximal Subtree
یک زیر درخت مکرر، بیشینه است اگر زیر درختی از •یک زیر درخت مکرر دیگری نباشد
بیان مسئله
Unweighted Support
freqD(s) = ∑ TєD freq T (S) ( freqT(s) =0,1)
supD(s)= freqD(s) / |D|
Weighted Support
SUPD(s) = ∑ FREQT(S) / ∑ TєD |T| FREQT(S) = 0 , n (n : if accurse n time )
The Frequent Subtree mining Problem
، با تعریف Dدر یک پایگاه داده از درختان همچون •
، هدف یافتن تمام زیر Smin یا sminآستانه ای همچون درخت های مکرر بیشینه.
فرضیات :•درخت ها نامرتب–برچسب ها : قابل تکرار –برچسب فرزندان یک نود : یکتا– باشد.Unweighted و یا Weighted می تواند Supمقدار –
یک نکته !
چرا ما به دنبال درخت های نامرتب هستیم ؟
تحلیWل و بررسWی حWال در رفتWار وقWتی هسWتید، مسWئله Web Pageدر یWک کWاربر
کWه اسWت صWفحاتی یWافتن نظWر مWورد تWرتیب نWه نمWوده؛ بازدیWد آنهWا از کWاربر
آنها!
ایده آغازین
ها Maximal Frequent Pathیافتن تمامی Infrequentحذف تمامی نودهای
Maximal Frequentادغام آنها جهت دستیابی به Subtree ها
Maximal Frequent Path 1- Freq Itemset
K- Freq Itemset ها Freq Itemset- 1 تا از Kادغام
Path Joinالگوریتم
Outline
.I اسکن اولیه پایگاه داده برای شناساییFreq 1-Itemset
.II اسکن ثانویه جهتPrune کردن نودهای غیر مکرر و FST-Forestساختن ساختار داده
.III یافتن تمامMaximal Frequent Root Path
.IV ادغام اینRoot Path ها و ساختن Maximal Freq Root Subtrees
FST - Forest
Forest treesBasic Node Structure
FST – Forest (cont)
برای هر درخت، ایندکس بر اساس ریشه آن درخت •می باشد.
FP-Growthشباهت این ساختار با • تنها در برگ ها : صرفه جویی در Tree Idsذخیره •
حافظهذخیره درخت ها به صورت رشته •بازسازی سریعتر درخت ها در حافظه•
گام اول : حذف نودهای غیر مکررInfrequent Nodes Elimination
After Pruning
ادغام درخت های با ریشه مشترک
برخی نکات
، ممکن است درختانی با ریشه Pruningتوجه : پس از فرآیند جدید حاصل گردند.
ها به صورت مرتب Tree ids Listپس از اتمام این مرحله، .FST Forestخواهند بود : ساختار
برای هر رشته ی درختی در پایگاه داده، زمان ساختن درخت متناظر در حافظه : به صورت خطی و متناسب با طول رشته.
.O(n)، زمان DFSمشخص کردن نودهای مکرر : الگوریتم .O(n)، زمان DFSزمان مورد نیاز برای ادغام : الگوریتم
زمان کلی الزم جهت ساختن کل جنگل : خطی متناسب با تعداد درختان.
تنها در برگ ها.Tree Idsاستفاده بهینه از حافظه اصلی : ذخیره
یافتن مسیرهای ریشه ایRoot Paths
مسیر های مکرر ریشه ای: مسیرهای مکرر بیشینه•
هدف: شمردن تمام مسیر های ریشه ای، چه مکرر و •چه غیر مکرر.
ادغام: مسیری که ریشه ای نیست؛ برچسب شروع آن –ریشه یک درخت دیگر است؛ ادغام این مسیر با آن درخت.
درج کردن: برای مسیر بیشینه غیر ریشه ای، درختی جدید –اضافه می شود.
)ادامه(یافتن مسیرهای ریشه ای
Merge پس از مرحله Pruningگام
DFSحذف نودهای غیر مکرر، اجرای الگوریتم • نودهای حذف شده با اولین جد حذف Tree Idsادغام •
نشده آنها.
After Pruning
گام آخر
Maximal Frequent Root Pathحاال تمام مسیر ها •هستند.
Aprioriحاال با توجه به الگوریتم •Level Wiseبه صورت – Itemset(-K-1 های مکرر از روی )K-Itemsetپیدا کردن –
های مکرر. ها.Itemset-2شروع از –
ها و الگوریتم Itemsetبحث بر سر Apriori
(آیتم ست :k-1برای دو تا ) •
و
k آیتم ست
تولید خواهد شد اگر :
و تمامی زیر مجموعه های آن مکرر باشند.
Maximizingگام
تا اینجا تمامی زیر درخت های مکرر یافته شده اند
حاال باید به دنبال زیر درخت های مکرر بیشینه بود.
Local Maximizing بیشینه سازی محلی برای هر درخت، زیر درخت های آن میباید بیشینه باشند.
Global Maximizingبیشینه سازی کلی در حالت کلی، در بین تمام درخت های جنگل، زیر درخت های
کاوش شده میباید بیشینه باشند.
؟ Maximizingچرا
در اختیار داشتن یک دید کلی از کل وب سایت.
نتایج تجربی
زمان اجرا
زمان اجرا
تعداد زیر درخت های کاندید
استفاده از حافظه
نتیجه گیری
نوعی جدید از درخت کاوی در این مقاله معرفی شد الگوریتمPath Join برای یافتن Maximal Frequent
Subtree.ها ارائه شد استفاده الگوریتم از ساختمان داده فشردهFST
Forest استفاده از روش تولید زیر درخت های کاندید به
صورت محلی.کاهش تعداد زیر درخت های کاندید
مراجع
1. Y. Xiao and J.F. Yao. Efficient data mining for maximal frequent subtrees. Proceedings of 3rd IEEE International Conference on Data Mining (ICDM) , 2003.
2. M. J. Zaki. Efficiently mining frequent trees in a forest. In Proceedings of the 8th ACM SIGKDD Int’l Conference on Knowledge Discovery and Data Mining, Edmonton, Canada, jul 2002.
)ادامه(مراجع
3. J. Han, J. Pei, and Y. Yin. Mining frequent patterns without candidate generation. In Proceedings of the ACM SIGMOD Conference, 2000.
4. R. Agrawal and R. Srikant. Fast algorithms for mining association rules in large databases. In Proceedings of the Twentieth International Conference on Very Large Databases, pages 487–499, Santiago, Chile, 1994.
سوالی که نیست؟!؟!
با تشکر از توجه شما
سبحان موسوی نژاد
89 تابستان