Finding Association Rules in Linked Data

پیدا کردن قوانین همبستگی در داده های پیوندی

رضا رمضانیدکتر اساتید راهنما:

محمدحسین سراییدکتر محمدعلی نعمت بخش

Finding Association Rules in Linked Data

1391/شهریور/20

ج3ات نک8م و3 الذین3 او8توالع6لم د3ر3 ا م6 نو8 ی3رفع8 الله3 الذین3 آم3

دفاعیه پایان نامه کارشناسی ارشد

دانشکده مهندسیبرق و کامپیوتر

رضا رمضانی – کاوش قوانین همبستگی از داده های پیوندی

سرفصل مطالب

2

ضرورت انجام پژوهش•هدف از انجام پروژه•مفاهیم اولیه•روش های موجود•مشکالت و چالش ها•ساختمان داده های مورد استفاده•روش پیشنهادی در کاوش داده های وب معنایی•روش پیشنهادی در کاوش داده های پیوندی•داده های مورد استفاده•نتایج ارزیابی•جمع بندی•کارهای آینده•


ضرورت انجام پژوهش

3

حجم زیاد داده های موجود

تکنیک های داده کاوی

نیاز به استخراج دانش از داده ها

منابع داده ای مورد استفاده

...پایگاه داده هاوبفایل های مسطحخوشه بندیقوانین همبستگیطبقه بندی

وب معنایی )وب داده(وب سنتی )وب اسناد(

کاوش قوانین همبستگی از داده های وب معنایی

تست و نتايجکاوش از داده هاي پيونديکاوش از داده های وب معنایيکارهاي مشابهمفاهيم اوليه


هدف انجام پژوهش

4

داده های وب معنایی

نمایش داده های وب معنایی

...منابع داده مسطحبانک های اطالعاتی رابطه ای

اتصال چندین منبع داده وب معنایی به یکدیگر )داده های پیوندی(تک منبع داده

کاوش قوانین همبستگی از داده های پیوندی

، مرورگر های وب معنایی، عامل های کاربردیHTMLصفحات

ذخیره داده های وب معنایی



قوانین همبستگی

تعیین احتمال رخداد یک حالت، بعد از رخ دادن یک یا چند حالت دیگر•ساده ترین حالت: آنالیز سبد خرید•

%(78 کره نیز می خرند )کسانی که نان و پنیر می خرند –مبنای کار•

تراکنش: چند حالت )عنصر( که با یکدیگر رخ می دهند.–شماره تراکنش•عناصر تراکنش•

پارامتر ها•درجه پشتیبانی–درجه اطمینان–

بخش های قانون•مقدم - نتیجه–

Aprioriالگوریتم •مبنایی ترین روش کاوش قوانین همبستگی–دو فاز: تولید مجموعه عناصر بزرگ و تولید قوانین همبستگی–شناسایی عناصر بزرگ بر اساس تراکنش ها–

تست و نتايجکاوش از داده هاي پيونديکاوش از داده های وب معنایيکارهاي مشابهمفاهيم اوليه 5


Aprioriمثال از الگوریتم

6

TID Items100 1 3 4200 2 3 5300 1 2 3 5400 2 5

Database D itemset sup.{1} 2{2} 3{3} 3{4} 1{5} 3

itemset sup.{1} 2{2} 3{3} 3{5} 3

Scan D

C1L1

itemset{1 2}{1 3}{1 5}{2 3}{2 5}{3 5}

itemset sup{1 2} 1{1 3} 2{1 5} 1{2 3} 2{2 5} 3{3 5} 2

itemset sup{1 3} 2{2 3} 2{2 5} 3{3 5} 2

L2

C2 C2

Scan D

C3 L3itemset{2 3 5}

Scan D itemset sup{2 3 5} 2


وب معنایی

ذخیره داده به همراه توصیف داده ها•داده ها: ذخیره داده در گرامر های مختلف و به صورت سه تایی–توصیف داده ها: آنتولوژی–

داده های وب معنایی•سه تایی )فاعل، گزاره، مفعول(–علی احمد را می شناسد.–

علی: فاعل•شناختن: گزاره•احمد: مفعول•

زبان استخراج داده ها–•SPARQL

قابلیت نمایش داده ها در قالب گراف–

7

pd:cygri

Richard Cyganiak

dbpedia:Berlin

foaf:name

foaf:based_near

foaf:Personrdf:type

pd:cygri = http://richard.cyganiak.de/foaf.rdf#cygri


dbpedia:Berlin = http://dbpedia.org/resource/Berlin


داده های پیوندی


وب صnفحات اتصnاالت سنتی

لینک های بدون نوع–

وب صnفحات اتصnاالت معنایی

داده های پیوندی–لینک های نوع دار–

• - گnزاره – فاعnل مفعول


مثال از داده های وب معنایی

9

.می شناسندرا دکتر نعمت بخش درس می خوانند دانشگاه صنعتی اصفهانکسانی که در


چالش اصلی: عدم وجود تراکنش در داده های وب معنایی


1 )Victoria Nebot و Rafael Berlanga

•Finding association rules in semantic web dataتوصیف•

نگاه به داده ها در قالب گراف–ایجاد تراکنش به کمک یک الگوی کاوش که کاربر وارد می کند.–استفاده از الگوریتم های داده کاوی سنتی––Q = (Target Concept,Context Concept,Features)

•Target Concept ود؟Sتخراج شSد اسSیزی بایSه چSه چSط بSات مرتبSه اطالعSد کSان می کنSبی :)بیمار - پزشک(

•Context Concept( بیانگر معیار ساخت تراکنش است :TID)•Features.بیانگر عناصری است که در یک تراکنش قرار می گیرند :

تمرکز اصلی روش–ساخت تراکنش از روی داده ها و سپس استفاده از یک روش سنتی•



1 )Victoria Nebot و Rafael Berlanga)ادامه(


𝑄=(𝑃𝑎𝑡𝑖𝑒𝑛𝑡 ,𝑅𝑒𝑝𝑜𝑟𝑡 , {𝐷𝑖𝑠𝑒𝑎𝑠𝑒 ,𝐷𝑟𝑢𝑔 ,𝑅𝑒𝑝𝑜𝑟𝑡⊓∃𝑑𝑎𝑚𝑎𝑔𝑒𝐼𝑛𝑑𝑒𝑥 })



12

𝑄=(𝑃𝑎𝑡𝑖𝑒𝑛𝑡 ,𝑅𝑒𝑝𝑜𝑟𝑡 , {𝐷𝑖𝑠𝑒𝑎𝑠𝑒 ,𝐷𝑟𝑢𝑔 ,𝑅𝑒𝑝𝑜𝑟𝑡⊓∃𝑑𝑎𝑚𝑎𝑔𝑒𝐼𝑛𝑑𝑒𝑥 })CREATE MINING MODEL <Dataset Path>{

?patient RESOURCE TARGET?drug RESOURCE?jadi LITERAL?disease RESOURCE PREDICT?report RESOURCE CONTEXT}WHERE{?patient rdf:type Patient.?drug rdf:type Drug.?disease rdf:type Disease.?report rdf:type Report.?report damageIndex ?jadi.}




13

TID Subject Aggregation Path Object Feature1 PTN_XY21 (VISIT1,RHEX1) Malformation Disease1 PTN_XY21 (VISIT1,RHEX1) RHEX1 ReportdamageIndex2 PTN_XY21 (VISIT1,TREAT1) Methotrexate Drug3 PTN_XY21 (VISIT2,RHEX2) Malformation Disease3 PTN_XY21 (VISIT2,RHEX2) RHEX2 ReportdamageIndex3 PTN_XY21 (VISIT2,RHEX2) Bad rotation Disease4 PTN_XY21 (VISIT2,TREAT2) Methotrexate Drug4 PTN_XY21 (VISIT2,TREAT2) Corticosteroids Drug

TID Object1 {Malformation, RHEX1}2 {Methotrexate}3 {Malformation, RHEX2, Bad rotation}4 {Methotrexate, Corticosteroids}


داده های استخراجی به همراه مسیرهای تجمعی

داده های استخراجی به همراه مسیرهای تجمعی اصالح شده

تراکنش های استخراج شده

Subject Aggregation Path Object FeaturePTN_XY21 (VISIT1,RHEX1,ULTRA1) Malformation DiseasePTN_XY21 (VISIT1,RHEX1) RHEX1 ReportdamageIndexPTN_XY21 (VISIT1,TREAT1,DT1) Methotrexate DrugPTN_XY21 (VISIT2,RHEX2,ULTRA2) Malformation DiseasePTN_XY21 (VISIT2,RHEX2) RHEX2 ReportdamageIndexPTN_XY21 (VISIT2,RHEX2,ULTRA3) Bad rotation DiseasePTN_XY21 (VISIT2,TREAT2,DT2) Methotrexate DrugPTN_XY21 (VISIT2,TREAT2,DT3) Corticosteroids Drug… … … …


2 )Ziawasch Abedjan و Felix Naumann

•Context and Target Configurations for Mining RDF Dataتوصیف•

سه تایی: فاعل، گزاره و مفعول–(محتویاستفاده از یکی از این مقادیر به عنوان شماره شناسایی تراکنش )•(هدفاستفاده از یکی دیگر از مقادیر به عنوان عناصر تراکنش )•حذف مقدار باقیمانده سوم•

ساخت تراکنش بر اساس دو مقدار از سه مقدار ممکن–استفاده از الگوریتم های سنتی–

14

محتوی

هدف مورد کاربرد

1 فاعل گزاره

کشف شbما

2 فاعل مفSعول

آنالیز سبد

3 گزاره فاعل

خوشه بندی

4 گزاره مفSعول

کشف محدوده

5 مفSSعول

فاعل

بنSSSدی خوشSSSه موضوعی

6 مفSSعول

گزاره

انطباق شbماتست و نتايجکاوش از داده هاي پيونديکاوش از داده های وب معنایيکارهاي مشابهمفاهيم اوليه


3 )Venkata Narasimha et al

•LiDDM: A Data Mining System for Linked Dataکاوش داده های پیوندی•

استخراج داده از چندین منبع داده–SPARQLاستخراج به کمک زبان •شناسایی نقطه پایانی و ساختار منابع داده•

ادغام داده های استخراج شده–استفاده از الگوریتم های سنتی–

طبقه بندی•خوشه بندی•کاوش قوانین همبستگی•



16


( کاوش گراف4

17

List of Items TidA,B,E T001B,D T002B,C T003

A,B,D T004A,C T005B,C T006A,B T007

A,B,C,E T008A,B,C T009



( کاوش درخت5

18

List of Items Tida,d,e T001

b,a,f,g,h T002b,a,d,f T003b,a,c T004

a,d,g,k T005b,d,g,c,i T006b,d,g,r,j T007



مشکالت و چالش ها در برخورد با داده های وب معنایی

عدم وجود تعریف دقیق از تراکنش•تعریف تراکنش بر اساس الگو هایی خاص–کاوش قوانین همبستگی بدون در نظر گرفتن تراکنش–

وجود روابط نوع دار بین موجودیت ها•هر عنصر، متشکل از یک موجودیت به همراه یک رابطه است.–

ساختار ناهمگن داده ها•وجود صفات مختلف به ازاء موجودیت های یکسان–استفاده از ساختار لیست پیوندی–

دخالت شدید کاربر در فرآیند کاوش•آگاهی کاربر از ساختار منابع داده و زبان های استخراج داده–



جریان کاری الگوریتم ارائه شده

مراحل اصلی•فراهم سازی داده های مورد نیاز به صورت سه تایی–پیش پردازش–پردازش و تولید قانون–استفاده از قوانین تولیدی–


سه تایی

منبع داده کامل

بخشی از یک منبع

داده(SPARQL)

اتصال چندین منبع

داده(Linked Data)

گسسته سازیداده ها

حذف موجودیت های

نامکرر

استخراج مجموعه عنصر

2بزرگ با طول

ساخت تمام مجموعه عناصر

بزرگ

تولید قوانین همبستگی

تبدیل داده ها بهمقادیر عددی

قوانین همبستگی

پیش پردازش

پردازش

MinConf, MinSup


مثال از داده های وب معنایی

21




ساختمان داده ها

22

Entity IDRelation ID

Relation ID

… …

Input

Entities

Relations

Source Entities List

Source Entities ListIs Large


Relation IDNode ID

Item عنصر :

Item 1 Item 2 Item n…

Itemset مجموعه عنصر :

ConfidenceItemItem 1 Item 2 Item n…

بخش مقدم بخش نتیجه

, , Support

Rule قانون :

NodeInfo اطالعات موجودیت ها )مفعول( :


دانشگاه صنعتی اصفهان

درس خواندن

کسانی که با رابطه درس خواندن با دانشگاه صنعتی اصفهان در ارتباط اند.


SWAprioriمراحل کار الگوریتم

پیش پردازش•خواندن سه تایی ها )فاعل، گزاره، مفعول(–گسسته سازی مقادیر مفعول–NodeInfoپر کردن ساختمان داده –حذف موجودیت های نامکرر–تبدیل مقادیر ثابت به کد های عددی–

پردازش•NodeInfoمقایسه دو به دوی نمونه های –مقایسه این دو نمونه به ازاء روابط ورودی مختلف–(Source Entities Listاشتراک گیری از دو لیست موجودیت های مبدا )–تولید مجموعه عناصر با طول دو–تولید مجموعه عناصر بزرگتر–تولید قوانین همبستگی با یک عنصر در بخش نتیجه–



روند کاری الگوریتم

24

مفعول گزارهفاعل

سرایی اسSSSSSSSSSSتاد راهنما

رضا

نعمت بخش اسSSSSSSSSSSتاد راهنما

رضا

مجرد وضSSSSSSعیت ازدواج

رضا

دانشSSگاه صSSنعتی اصفهان

دانشجو در رضا

نعمت بخش می شناسد رضا

نیما می شناسد رضا

نوید می شناسد رضا

فوق لیسانس تحصیالت رضا

پالهنگ اسSSSSSSSSSSتاد راهنما

نوید

مجرد وضSSSSSSعیت ازدواج

نوید


دانشجو در نوید

فوق لیسانس تحصیالت نوید

نعمت بخش می شناسد نوید

رضا دوست با نوید

نیما دوست با نوید

... ... ...


گروه بندی بر اساس فاعل

گروه بندی بر اساس مفعول

رضا

نوید

نیما

نعمت بخش

می شناسد

می شناسد

می شناسد

استاد راهنما

فاعل گزاره مفعول

اسSSSSSSSتاد رضاراهنما سرایی

ایوب اسSSSSSSSتاد راهنما سرایی

نعمت بخش دوست با سرایی

اسSSSSSSSتاد رضاراهنما نعمت بخش

رضا می شناسد نعمت بخش

نوید می شناسد نعمت بخش

نیما می شناسد نعمت بخش

سرایی تدریس در


پالهنگ تدریس در


دانشSSSSجو رضادر


نوید دانشSSSSجو در


ایوب دانشSSSSجو در


... ... ...


روند کاری الگوریتم )ادامه(

25

سرایی


، ایوبرضا

نعمت بخش


رضا

می شناسد، نوید، رضا

نیما

دوست با نعمت بخش

مفعول گزاره فاعل ها


دانشجو در

، نوید، رضاایوب

تدریس در، سراییپالهنگ

فاعل گزاره مفعول

اسSSSSSSSتاد رضاراهنما سرایی

ایوب اسSSSSSSSتاد راهنما سرایی

نعمت بخش دوست با سرایی

اسSSSSSSSتاد رضاراهنما نعمت بخش

رضا می شناسد نعمت بخش

نوید می شناسد نعمت بخش

نیما می شناسد نعمت بخش

سرایی تدریس در


پالهنگ تدریس در


دانشSSSSجو رضادر


نوید دانشSSSSجو در


ایوب دانشSSSSجو در


... ... ...

عنصر اولنعمت بخشمی شناسد

دانشجو دردانشگاه صنعتی

اصفهان

، نوید، رضانیما

، نویدرضا


عنصر دوم

,2-Itemset نعمت بخششناختن دانشجو دردانشگاه صنعتی

اصفهان


اشتراک گیری


روند کاری الگوریتم )ادامه(

26

نعمت بخششناختن, دانشجو دردانشگاه صنعتی

اصفهان

نعمت بخششناختن, استاد راهنما

سرایی

، رضانوید


شناختن,نعمت بخش


سرایی , دانشجو دردانشگاه صنعتی

اصفهان، رضانوید

شناختن,نعمت بخش


سرایی دانشجو دردانشگاه صنعتی

اصفهان

شناختن,نعمت بخش دانشجو در



سرایی


سرایی , دانشجو دردانشگاه صنعتی

اصفهانشناختن

نعمت بخش


2-Itemset

3-Itemset

، رضااشتراک گیرینوید

Association Rules


SWAprioriشبه کد الگوریتم

27

1. Algorithm 1. Mining association rules from semantic web data2. SWApriori(DS, MinSup, MinConf)3. Input:4. DS: Dataset that consists triples (Subject, Predicate, and Object)5. MinSup: Minimum support6. MinConf: Minimum confidence7. Output:8. AllFIs: Large itemsets9. Rules: Association rules10. Variables:11. FIs, Candidates: List of Itemsets12. IS, IS1, IS2, IS3: Itemset (multiple items)13. NodeInfoList: List of NodeInfo14. Begin15. Traverse triples and discretize objects16. Delete triples which their subject, predicate or object has frequency less than MinSup17. Convert input dataset's data to numerical values18. Store converted data into NodeInfo instances19. NodeInfoList = NodeInfo instances

ورودی ها و خروجی ها

متغیر های مورد استفاده

پیش پردازش


)ادامه(SWAprioriشبه کد الگوریتم

28

2تولید مجموعه عناصر مکرر با طول

تولید مجموعه عناصر بزرگتر

تولید قوانین همبستگی

20. FIs = AllFIs = Generate2LargeItemSets(NodeInfoList, MinSup)21. L = 122. Do23. L = L + 124. Candidates = null;25. FIs = null;26. For each IS1, IS2 in FIs27. If IS1[1..L-1].EntityID = IS2[1..L-1].EntityID and28. IS1[1..L-1].RelationID = IS2[1..L-1].RelationID Then29. IS3 = CombineAndSort(IS1,IS2)30. Candidates = Candidates IS3

31. End If32. End For33. For each IS in Candidates34. If Support(IS) MinSup AND all subsets of IS are large Then35. FIs = FIs IS36. AllFIs = AllFIs FIs37. While (FIs.Lenght 0)38. Rules = GenerateRules(AllFIs, MinConf)39. Return AllFIs, Rules40. End


Generate2LargeItemsetشبه کد الگوریتم

29

1. Algorithm 2. Generating 2-Large itemsets from NodeInfo instances2. Generate2LargeItemSets(NodeInfoList, MinSup)3. Input:4. NodeInfoList: List of NodeInfo instances5. MinSup: Minimum support6. Output:7. LIS: List of Itemsets with two in length8. Variables:9. Node1, Node2: NodeInfo10. IS1, IS2: Itemset //entities that refer to an entity by special relation11. R1, R2: Value corresponds to RelationID //refers to predicates12. Item1, Item2: Item13. Begin14. For each Node1, Node2 in NodeInfoList15. For each R1 in Node1.Relations16. For each R2 in Node2.Relations17. IS1 = R1.SourceEntitiesList18. IS2 = R2.SourceEntitiesList19. IntersectionCount = IntersectCount(IS1, IS2)20. If IntersectionCount MinSup Then21. LIS = LIS {(Node1.EntityID + R1), (Node2.EntityID + R2)}22. End If23. End For24. End For25. End For26. Return IS27. End


GenerateRulesشبه کد الگوریتم

30

1. Algorithm 3. Generating association rules based on large itemsets2. GenerateRules(AllFIs, MinConf)3. Input:4. AllFIs: All frequent itemsets5. MinConf: Minimum confidence6. Output:7. Rules: Association rules8. Variables:9. IS: Itemset10. Itm: Item11. Consequent: Item that appears in rule consequent part12. Antecedent: List of Items that appears in rule antecedent part13. Begin14. For each IS in AllFIs15. For each Itm in IS16. Consequent = Itm17. Antecedent = IS – Consequent18. Confidence = Support(IS) Support(Antecedent)19. If Confidence MinConf Then20. Rules = Rules (Antecedent, Consequent)21. End If22. End For23. End For24. Return Rules25. End


31

Linked DataLOD Project


اتصال منابع داده ای وب معنایی

32

S, P, OS, P, OS, P, OS, P, OS, P, OS, P, O



DS1 DS2

DS3DS1/Iran owl:Population xsd:int 75,000,000

DS1/Iran ont:Border DS1/Afghanistan

DS1/Iran ont:West DS2/Iraq

DS1/Iran owl:sameAs DS2/Iran

DS1/Iran owl:sameAs DS3/Xr.36O77z

ont:West

owl:sameAs

owl:sameAs


اتصال منابع داده ای پیوندی به یکدیگر و ساخت روش پیشنهادی:یک منبع داده واحد جدید


چالش های کار با داده های پیوندی

زیاد بودن حجم داده های پیوندی•کدام منابع داده؟–کدام بخش از منابع داده؟–

کلی بودن محتویات منابع داده ای•تعیین یک دامنه خاص–

آنتولوژی های متفاوت•نگاشت آنتولوژی–

داده های تکراری•اعتبارسنجی داده ها–

عدم دسترسی به داده های یک منبع داده•نام گذاری نامفهوم–عدم وجود نقطه پایانی–عدم دسترسی به اصل منبع داده–



روش های استخراج داده و اتصال چندین منبع داده

اتصال کامل چندین منبع داده•داده های به درد نخور–

SPARQLاستخراج داده با دستورات •نیاز به آشنایی با ساختار منبع داده و آنتولوژی–

HTMLپیمایشگر خودکار •در نظر نگرفتن آنتولوژی–

پیمایشگر خودکار منابع داده•عدم دسترسی به برخی منابع داده–

نقطه شروع جمع آوری اطالعات؟•منبع داده با بیشترین اتصال به خارج–

نحوه اتصال منابع داده•owl:sameAsاستفاده از گزاره –



داده های مورد استفاده

دامنه مورد استفاده•کشور ها–

منابع داده مورد استفاده••DBPedia

منبع داده کلی–بسیار معروف–Wikipediaمعنایی شده –

•Factbookمختص اطالعات کشور ها–

•Freebaseمنبع داده کلی–معروفیت کمتر–



DBPediaمنبع داده

قبل از گسسته سازی اطالعات•47969تعداد سه تایی: –241تعداد فاعل متمایز: –697تعداد گزاره متمایز: –25071تعداد مفعول متمایز: –199.04تعداد گزاره به ازاء هر فاعل به طور میانگین: –1.91تعداد گزاره به ازاء هر مفعول به طور میانگین: –

بعد از گسسته سازی اطالعات و حذف اطالعات نامکرر•18480تعداد سه تایی: –238تعداد فاعل متمایز: –205تعداد گزاره متمایز: –1330تعداد مفعول متمایز: –77.64تعداد گزاره به ازاء هر فاعل به طور میانگین: –13.89تعداد گزاره به ازاء هر مفعول به طور میانگین: –



Factbookمنبع داده

قبل از گسسته سازی اطالعات•71984تعداد سه تایی: –1510تعداد فاعل متمایز: –193تعداد گزاره متمایز: –24527تعداد مفعول متمایز: –47.67تعداد گزاره به ازاء هر فاعل به طور میانگین: –2.93تعداد گزاره به ازاء هر مفعول به طور میانگین: –




Freebaseمنبع داده

قبل از گسسته سازی اطالعات•55224تعداد سه تایی: –234تعداد فاعل متمایز: –215تعداد گزاره متمایز: –44864تعداد مفعول متمایز: –236تعداد گزاره به ازاء هر فاعل به طور میانگین: –1.23تعداد گزاره به ازاء هر مفعول به طور میانگین: –




نحوه استخراج و ادغام داده های پیوندی

نقطه شروع عملیات استخراج•–DBPedia

DBPediaاستخراج از •SPARQLدستورات –ورود آدرس مستقیم موجودیت–

Factbookاستخراج از •استخراج تمام داده های منبع داده–

Freebaseاستخراج از •ورود آدرس غیر مستقیم موجودیت–


SELECT * { ?Subject rdf:type <http://dbpedia.org/ontology/Country> . ?Subject ?Predicate ?Object}ORDER BY ?Subject

http://dbpedia.org/resource/[CountryName]

SELECT ?Subject ?Predicate ?ObjectWHERE{ ?Subject ?Predicate ?Object}ORDER BY ?Subject

http://rdf.freebase.com/ns/m.03shphttp://rdf.freebase.com/rdf/en/[CountryName]


ادغام سه منبع داده

اولویت اعتبار سنجی•–Factbook–DBPedia–Freebase

اطالعnات • حnذف و اطالعnات سnازی گسسnته از بعnد آمnاری اطالعnات نامکرر

40275تعداد سه تایی: –256تعداد فاعل متمایز: –402تعداد گزاره متمایز: –3145تعداد مفعول متمایز: –157.32تعداد گزاره به ازاء هر فاعل به طور میانگین: –12.80تعداد گزاره به ازاء هر مفعول به طور میانگین: –



(Factbookارزیابی منبع داده وب معنایی )

41

درجه پشتیبانی

تعداد موجودیت بزرگ

Large-2 تعدادItemset

تعداد عنصر بزرگ و مکرر

تعداد قانون تولید شده

میانگین درجه اطمینان

0.50 56 1.015 920.155 5.905.419 0.9570.51 52 958 498.632 3.015.158 0.9560.52 51 902 302.757 1.758.843 0.9560.53 51 863 216.894 1.227.220 0.9560.54 48 818 130.981 710.741 0.9560.55 48 781 93.862 495.016 0.9560.56 48 732 56.754 286.190 0.9550.57 47 702 40.608 198.685 0.9550.58 44 656 24.509 114.557 0.9550.59 42 611 17.577 79.613 0.9550.60 40 559 10.535 45.294 0.9550.62 40 441 4.605 18.239 0.9550.64 39 334 1.942 6.940 0.9530.66 36 219 845 2.789 0.9520.68 32 134 369 1.089 0.9490.70 29 77 154 415 0.9480.72 25 46 75 185 0.9450.74 18 19 22 47 0.9270.76 9 10 10 18 0.9120.78 9 5 5 10 0.9220.80 8 3 3 6 0.9320.82 5 0 0 0 NaN



(Factbookبرخی قوانین استخراج شده )

42

قانون درجه اطمینان


%100 کاهش میزان بدهی خارجیافزایش نرخ ثابت سرمایه گذاری 36.2%%92 کاهش نرخ تبادالت اقتصادیکاهش نرخ ثابت سرمایه گذاری 47.2%

%77 کاهش بیکاریافزایش نرخ تبادالت اقتصادی 36.4%%75 کاهش نرخ تبادالت اقتصادیافزایش تورم 46.5%

%74 کاهش نرخ بیکاریافزایش امید به زندگی 32%%93 افزایش جمعیت با سوادافزایش امید به زندگی 32.4%

%76 کاهش تولید برقافزایش جمعیت زیر خط فقر 51.9%%72 کاهش نرخ بیکاریافزایش جمعیت با سواد 42.7%

%70 کاهش نرخ بیکاریکاهش نرخ تورم 32%%90 کاهش واردات نفتکاهش هزینه های نظامی 52.7%

%72 کاهش واردات نفتکاهش نرخ تورم 34.9%%70 کاهش تقریبی نرخ رشد محصوالت صنعتیکاهش ذخایر نفتی 36.2%

%86 کاهش نرخ بیکاریکاهش واردات 39.5%%93 کاهش وارداتافزایش جمعیت با سواد 31.2%

%82 سال18 سن شرکت در انتخابات: نوع دولت: جمهوری 31.8%%88 کاهش واردات کاهش بیکاری وکاهش تورم 38.3%

کSاهش افSزایش نSرخ ثSابت سSرمایه گSذاری وکاهش نSرخ تبSادالت اقتصSادی بدهی های خارجی

97% 34.5%

کSاهش قSدرت کSاهش بSدهی های خSارجی وکاهش نSرخ تبSادالت اقتصSادی خرید مردم

90% 51.1%

کSاهش نSرخ کSاهش بSدهی های خSارجی وافSزایش تقریSبی نSرخ بیکSاری تبادالت اقتصادی

88% 33.6%تست و نتايجکاوش از داده هاي پيونديکاوش از داده های وب معنایيکارهاي مشابهمفاهيم اوليه


ارزیابی منبع داده های پیوندی

43


تعداد موجودیت

بزرگ

تعداد2-Large

Itemset

تعداد عنصربزرگ و مکرر

تعداد قانونولید شدهت

میانگین درجه اطمینان

0.51 67 1.438 1.204.597 8.102.307 0.9640.52 66 1.379 779.338 5.056.758 0.9630.53 61 1.289 408.104 2.505.137 0.9620.54 60 1.212 267.837 1.586.866 0.9620.55 60 1.121 144.492 810.198 0.9610.56 59 1.049 96.403 520.717 0.9600.57 56 967 52.749 268.342 0.9590.58 54 901 35.562 174.193 0.9590.59 51 805 19.983 92.551 0.9580.6 51 729 13.633 60.596 0.9570.65 43 298 1.313 4.477 0.9530.7 34 74 137 356 0.9470.75 12 13 14 29 0.9270.8 5 1 1 2 0.9260.85 3 0 0 0 NaN0.9 0 0 0 0 NaN



میزان استفاده از پیوند بین منابع

استفاده از تک منبع•–57%

استفاده از پیوند بین منابع•–43%

44

ردیف

Freebase FactBook DBPedia تعداد قانون تولیدی

1 0

2 89

3 2.914.201

4 1.749.827

5 67

6 563

7 134.218

8 257.793



برخی قوانین تولید شده

•DBPedia"کاهش راحتی زندگی مردم"، "کاهش بارندگی" و "افزایش راحتی زندگی مردم"–

•Factbook"افزایش جمعیت باسواد"، "کاهش تولید برق" و "افزایش تبادالت اقتصادی"–

•Freebaseتولیnدات – "افnزایش و داخلی" تولیnدات "کnاهش ایnدز"، بnه مبتالیnان تعnداد "کnاهش

داخلی"

45

قانوندرجnnnnه

اطمینان

درجnnnه پشnتیبا

نی

Freebase

FactBook

DBPedia

کSاهش تعSداد افSزایش جمعیت بSا سSواد مبتالیان به ایدز

73% 47.4%

داخلی تولیSدات راحSتی کاهش کSاهش زندگی مردم

78% 41.6%

%76 کاهش تولید برقکاهش بارندگی 45.4%

افزایش وافزایش تولیدات داخلی تبادالت اقتصادی

باالرفتن راحتی زندگی مردم 80% 35.6

%



جمع بندی

چالش ها در داده های وب معنایی•ساختار داده ناهمگن–عدم وجود تعریف دقیق از تراکنش–وجود رابطه بین موجودیت ها–دخالت کاربر در فرآیند کاوش–

گام های استخراج قانون از داده های وب معنایی•فراهم نمودن منبع داده–گسسته سازی اطالعات–حذف داده های نامکرر و پرت–تبدیل مقادیر رشته ای به مقادیر عددی–2استخراج مجموعه عناصر بزرگ با طول –استخراج مجموعه عناصر بزرگتر–استخراج قوانین همبستگی از مجموعه عناصر بزرگتر–تبدیل مقادیر عددی به مقادیر شته ای معادل–

46


جمع بندی )ادامه(

چالش ها در داده های پیوندی•زیاد بودن حجم داده های پیوندی–کلی بودن محتویات منابع داده ای–آنتولوژی های متفاوت–داده های تکراری–عدم دسترسی به داده های یک منبع داده–

گام های استخراج قانون از داده های پیوندی•تعیین دامنه مورد بحث–شناسایی منبع داده هایی که در مورد آن دامنه اطالعات دارند.–استخراج داده ها از منابع داده–نگاشت و انطباق آنتولوژی–حذف داده های تکراری–ادغام داده ها در یک منبع داده واحد–اسnتفاده از الگnوریتم معnرفی شnده در کnاوش قnوانین همبسnتگی از داده هnای –

وب معنایی

47


کارهای آینده

48

منظnور • بnه معنnایی وب داده ای منnابع بnرای یکپارچnه واسnط های توسnعه دسترسی راحت به داده ها

پیمnایش • بnه تعnیین دامنnه خnاص، خnودش اقnدام از الگnوریتمی کnه پس توسnعه منابع داده ای نموده و داده های مرتبط را استخراج نماید.

در نظnر گnرفتن شnرایط و معیار هnایی کnه الگnوریتم بnر اسnاس آن بتوانnد قnوانین •مفید را از قوانین بدیهی جدا نماید.

دریافت الگو از کاربر و نمایش قوانینی که با آن الگو مطابقت کنند.•

در قوانیnنی کnه تولیnد شnد، هnر عنصnر از قnانون، یnک رابطnه و یnک موجnودیت دارد. •چنnدین هnر عنصnر در کnه بسnازد قوانیnنی کnه داد ارائnه الگnوریتمی می تnوان

رابطه موجود باشد. مثال قانون زیر را در نظر بگیرید:

افرادی که زندگی می کنند در شهری که نزدیک به روستایی خوش آب و هوا است سالمت جسمانی خوبی دارند.

می تnوان از دانش هnای موجnود در آنتولnوژی بnه منظnور فیلnتر نمnودن قnوانین •همبستگی استفاده نمود.

می تnوان بnه کمnک مجموعnه عناصnر تولیnد شnده، بnه خوشnه بنnدی موجودیت هnا •پرداخت.

می تnوان بnا کمnک اطالعnات آنتولnوژی، ارتبnاط سلسnله مراتnبی بین موجودیت هnا •را پnدر موجnودیت فرزنnد، موجودیت هnای جnای بnه داده هnا، در و کnرد پیnدا را گذاشnت تnا بnدین وسnیله درجnه پشnتیبانی موجودیت هnا افnزایش یافتnه و در نتیجnه

تعداد قوانین تولیدی کاهش یابد.


مراجع

49

[1] T. C. Corporation, Introduction to Data Mining and Knowledge Discovery

[2] T. I. R.Agrawal, A.N.Swami, "Mining association rules between sets of items in large databases," SIGMOD, pp. 207-216, 1993.

[3] R. B. V.Nebot, "Finding association rules in semantic web data.," Knowledge-Based Systems, pp. 51-62, 2012.

[4] J. W. Seifert, Data Mining: An Overview, December 2004.

[5] D. J. HAND, Data Mining: Statistics and More?, December 2002.

[6] S. L. Eamonn Keogh, Chotirat Ann Ratanamahatana Towards Parameter-Free Data Mining, September 2005.

[7] R. S. R.Agrawal, "Fast algorithms for mining association rules," presented at the In Proceeding of 20th international conference in large databases, 1994.

[8] A. Ale-Ahmad. (2006). Introduction to Semantic Web.

[9] F. V. H. Grigoris Antoniou, A Semantic Web Primer, 2004.

[10] T. Gruber, "Toward principles for the design of ontologies used for knowledge sharing," Human–Computer Studies, pp. 907-928, 1995.

[11] W. K. N. Zehua Liu, Ee-Peng Lim, Feifei Li, "Towards Building Logical Views of Websites," Data & Knowledge Engineering, vol. 49, pp. 197-222, 2004.

[12] K. H. Veltman, "Challenges for a Semantic Web," presented at the Proceedings of the International Workshop on the Semantic Web 2002, 2002.

[13] T. M. Haibo Yu, Makoto Amamiya, "An architecture for personal semantic web information retrieval system," presented at the WWW '05 Special interest tracks and posters of the 14th international conference on World Wide Web, 2005.


مراجع

50

[14] F. V. H. D.Fensel, I.Horrocks, D.L.McGuinness, P.F.Patel-Schneider, "OIL: An Ontology Infrastructure for the Semantic Web," IEEE Intelligent Systems, vol. 18, 2001.

[15] W3C. (2009-10-27). OWL 2 Web Ontology Language Document Overview, http://www.w3.org/TR/owl2-overview/.

[16] J. Rapoza. (2006). SPARQL Will Make the Web Shine, http://www.eweek.com/c/a/Application-Development/SPARQL-Will-Make-the-Web-Shine.

[17] J. L. C.Bizer, G.Kobilarov, S.Auer, C.Becker, R.Cyganiak, S.Hellmann, "DBpedia - A crystallization point for theWeb of Data," Web Semantics, pp. 154-165, 2009.

[18] T. H. C.Bizer, T.Berners-Lee, "Linked data - the story so far," International Journal on Semantic Web and Information Systems, pp. 1-22, 2009.

[19] Linked Open Data Project, http://linkeddata.org/.

[20] N. G.-P. J.M.Benitez, F.Herrera, "Special issue on "New Trends in Data Mining" NTDM," Knowledge-Based Systems, pp. 1-2, 2012.

[21] H. W. J.Zhang, Y.Sun, "Discovering Associations among Semantic Links.IEEE," presented at the International Conference on Web Information Systems and Mining, 2009.

[22] Y. S. S.Bloehdorn, "Kernel methods for mining instance data in ontologies," ISWC/ASWC, LNCS, pp. 58-71, 2007.

[23] C. d. A. N.Fanizzi, F.Esposito, "Metric-based stochastic conceptual," Information Systems, pp. 792-806, 2009.

[24] L.Getoor, "Link mining: a new data mining challenge," presented at the SIGKDD Explorations, 2003.

[25] A. H. G.Stumme, B.Berendt, "Semantic web mining: state of the art and future directions," Sci. Services Agents World Wide Web 4, pp. 124-143, 2006.


مراجع

51

[26] N.Lavraˇc, "Using Ontologies in Semantic Data Mining with SEGS and g-SEGS," presented at the Slovenian Ministry of Higher Education, Science and Technology.

[27] L. D. R. S.Muggleton, "Inductive logic programming: theory and methods," J.Log. Program, pp. 629-679, 1994.

[28] K. Z. X.Liu, W.Pedrycz, "An improved association rules mining method," Expert Systems, pp. 1362-1374, 2012.

[29] J. M. V. V.Pachón Álvarez, "An evolutionary algorithm to discover quantitative association rules from huge databases without the need for an a priori discretization," Expert Systems with Applications, pp. 585-593, 2012.

[30] e. a. D. Kontokostas, "Internationalization of Linked Data: The case of the Greek DBpedia edition," Web Semantics: Sci.Serv. Agents World Wide Web, 2012.

[31] F. N. Z.Abedjan, "Context and Target Configurations for Mining RDF Data," presented at the ACM, 2011.

[32] M. J. K.J.Kochut, "SPARQLeR: Extended Sparql for Semantic Association Discovery," presented at the ESWC2007, 2007.

[33] R. I. V.Narasimha, O.P.Vyas, "LiDDM: A Data Mining System for Linked Data," presented at the LDOW2011, Hyderabad, India, 2009.

[34] G. K. M.Kuramochi, "Frequent Subgraph Discovery," presented at the International Conference on Data Mining (ICDM), 2001.

[35] V. T. Vivek Tiwari, S.Gupta, R.Tiwari, "Association Rule Mining: A Graph Based Approach for Mining Frequent Itemsets," presented at the International Conference on Networking and Information Technology, 2010.

[36] S. N. Y.Chi, R.R. Muntz, J.N.Kok, "Frequent Subtree Mining - An Overview," Fundamenta Informations, 2001.

[37] A. H. T. T.Jiang, "Mining RDF Metadata for Generalized Association Rules: Knowledge Discovery in the Semantic Web Era," presented at the WWW2006, 2006.


مراجع

52

[38] J. h. G.Gosta, "Fast Algorithms for Frequent Itemset Mining Using FP-Trees," presented at the IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING, 2005.

[39] M. S. Yannis Kalfoglou, "Ontology mapping: the state of the art," The Knowledge Engineering Review, 2003.

[40] I.-Y. S. Namyoun Choi, Hyoil Han, "A Survey on Ontology Mapping," presented at the ACM SIGMOD, 2006.

[41] DBPedia. Community. (2012). http://dbpedia.org.

[42] H. B. Raymond Kosala, "Web mining research: a survey," presented at the ACM SIGKDD, 2000.

[43] K. S. Reddy, "Understanding the scope of web usage mining & applications of web data usage patterns," presented at the Computing, Communication and Applications (ICCCA), 2012.

[44] B. Liu, Web Data Mining: Exploring Hyperlinks, Contents, and Usage Data (Data-Centric Systems and Applications), 2011.

[45] K. W. B.C.M.Fung, M.Ester, "Hierarchical document clustering using frequent itemsets," presented at the 2003, Proceedings of the Third SIAM International Conference on Data Mining, SIAM, 2003.


مقاالت استخراج شده

53

R.Ramezani, M.H.Saraee, M.A.Nematbakhsh. “A New approach to mining

Association Rules from Semantic Web data”. Submitted to International Journal

of Semantic Web and Information Systems (IJSWIS)


54


55 Email: [email protected]

Thanks for Your Regard

Finding Association Rules in Linked Data

Education

Transcript of Finding Association Rules in Linked Data