structure attribute computation of similarities between nodes of a graph with application in...

35
1 ﺩﺍﻧﺸﮕﺎﻩ ﺍﺻﻔﻬﺎﻥ ﺩﺍﻧﺸﮑﺪﻩ ﻓﻨﻲ ﻭ ﻣﻬﻨﺪﺳﻲ ﮔﺮﻭﻩ ﮐﺎﻣﭙﻴﻮﺗﺮ ﻣﺤﺎﺳﺒﻪ ﻣﻴﺰﺍﻥ ﺷﺒﺎﻫﺖ ﺳﺎﺧﺘﺎﺭﯼ/ ﺧﺼﻮﺻﻴﺘﻲ ﺑﻴﻦ ﻧﻮﺩﻫﺎﯼ ﮔﺮﺍﻑRDF ﻭ ﺍﺳﺘﻔﺎﺩﻩ ﺍﺯ ﺁﻥ ﺑﺮﺍﯼ ﺧﻮﺷﻪ ﺑﻨﺪﯼ ﺩﺭ ﺩﺍﺩﻩ ﻫﺎﯼ ﭘﻴﻮﻧﺪﯼStructure/Attribute Computation of Similarities Between Nodes of a RDF Graph with Application to Linked Data Clustering ﺍﺳﺘﺎﺩ ﺭﺍﻫﻨﻤﺎ: ﺩﮐﺘﺮ ﻣﺤﻤﺪﻋﻠﯽ ﻧﻌﻤﺖ ﺑﺨﺶ ﻣﺤﻘﻖ: ﻫﺎﺩﻱ ﺧﺴﺮﻭﻱ ﻓﺎﺭﺳﺎﻧﯽ1390/9/27

Upload: khosravi82

Post on 28-Nov-2014

420 views

Category:

Documents


4 download

DESCRIPTION

يافتن ميزان شباهت در يک گراف جهت دار دارای خصوصيت /مقدار

TRANSCRIPT

Page 1: Structure attribute computation of similarities  between nodes of a graph with application in clustering

1

دانشگاه اصفهاندانشکده فني و مهندسي

گروه کامپيوتر

خصوصيتي بين/محاسبه ميزان شباهت ساختاریو استفاده از آن برای RDFنودهای گراف

خوشه بندی در داده های پيوندی

Structure/Attribute Computation of SimilaritiesBetween Nodes of a RDF Graph withApplication to Linked Data Clustering

:استاد راهنمادکتر محمدعلی نعمت بخش

:محققهادي خسروي فارسانی

1390/9/27

Page 2: Structure attribute computation of similarities  between nodes of a graph with application in clustering

2

فهرست مطالب

مقدمه ای بر داده های پيوندی•

مساله کلی پروپوزال •

طرح زير مساله•

تاريخچه کارهای انجام شده•

متد پيشنهادی•

مجموعه داده ساخته شده•

روش ارزيابی•

نتايج ارزيابی•

خوشھ بندی در داده ھای پیوندی1390/9/27

Page 3: Structure attribute computation of similarities  between nodes of a graph with application in clustering

3

فهرست مطالب

مقدمه ای بر داده های پيوندی•

مساله کلی پروپوزال •

طرح زير مساله•

تاريخچه کارهای انجام شده•

متد پيشنهادی•

مجموعه داده ساخته شده•

روش ارزيابی•

نتايج ارزيابی•

خوشھ بندی در داده ھای پیوندی1390/9/27

Page 4: Structure attribute computation of similarities  between nodes of a graph with application in clustering

4

)Linked Data Principles(اصول داده های پيوندی برای شناسايي منابع در وب URIاستفاده از •برای دسترسی به اين نامها استفاده شود HTTPاز پروتکل •نشان داده شود RDFرا می کند، تمامی اطالعات مفيد به فرمت URIهنگامی که يک فرد، درخواست يک •ها انواع مختلف لينک داشته باشند به صورتی که افراد قادر باشند URIالزم است به ديگر RDFعبارتهای •

.اطالعات بيشتری در مورد آن موجوديت کسب کنند

خوشھ بندی در داده ھای پیوندی1390/9/27

Page 5: Structure attribute computation of similarities  between nodes of a graph with application in clustering

5

)مثال(تعريف منابع با استفاده از اصول داده های پيوندی http://dbpedia.org/page/Nigel_Clough

خوشھ بندی در داده ھای پیوندی1390/9/27

Page 6: Structure attribute computation of similarities  between nodes of a graph with application in clustering

6

در حال حاضر : داده های پيوندی •

1390/9/271390/7/26

Page 7: Structure attribute computation of similarities  between nodes of a graph with application in clustering

7

فهرست مطالب

مقدمه ای بر داده های پيوندی•

مساله کلی پروپوزال •

طرح زير مساله•

تاريخچه کارهای انجام شده•

متد پيشنهادی•

مجموعه داده ساخته شده•

روش ارزيابی•

نتايج ارزيابی•

خوشھ بندی در داده ھای پیوندی1390/9/27

Page 8: Structure attribute computation of similarities  between nodes of a graph with application in clustering

8

مساله پايان نامه .رتبه بندی منابع در وب مبتنی بر داده به چه شکلی انجام شود•

:ايده•خوشه بندی منابع و سپس اعمال الگوريتم های رتبه بندی در هر خوشه•

در هر کدام از خوشه ها نودهای بسيار مشابه قرار گرفته می شوند•برای مثال يک کالستر برای حوزه ورزش ساخته شود، کالستر ديگری برای حوزه آکادميک •

...تشکيل شود و لينک های از يک کالستر مثال کالستر ورزشی به کالستر آکادميک حذف می شوند چرا که •

کمی دارد لينک يک فرد آکادميک به يک فرد ورزش ارزش

برای رتبه بندی نودها استفاده شود PageRankدر درون هر کالستر، الگوريتم •افزايش دقت•کاهش اندازه گراف و در نتيجه کاهش هزينه محاسبه رتبه نودها •

خوشھ بندی در داده ھای پیوندی1390/9/27

Page 9: Structure attribute computation of similarities  between nodes of a graph with application in clustering

9

زير مسايل پايان نامه

فازهای پروژه•PageRankرتبه بندی نودها در الگوريتم پايه • datasetرتبه بندی مجموعه داده ها و موجوديت در هر •بدون در نظر گرفتن خصوصيات و مقادير خصوصيات -خوشه بندی با در نظر گرفتن نودها و لينکها •با در نظر گرفتن خصوصيات و مقادير خصوصيات–خوشه بندی با در نظر گرفتن نودها و لينکها •رتبه بندی نودها در هر کالستر و مقايسه با روش پايه•

:اين ارائه•با در نظر گرفتن خصوصيات و مقادير خصوصيات–خوشه بندی با در نظر گرفتن نودها و لينکها •

:زير مساله•خوشه بندی منابع •

نياز به داشتن الگوريتمی توانا جهت يافتن ميزان تشابه دو ايتم•

خوشھ بندی در داده ھای پیوندی1390/9/27

Page 10: Structure attribute computation of similarities  between nodes of a graph with application in clustering

10

مثال برای خوشه بندی در وب مبتنی بر داده

خوشھ بندی در داده ھای پیوندی1390/9/27

همه نودها از مجموعه داده دی بی پديا استخراج شده است•wikiPagewikilinkتنها يک نوع از لينک ها در نظر گرفته شده است •با گذاشتن پيشوند دی بی پديا و يا ويکی پديا به ابتدای اين نودها می توان آن نود را در وب بررسی کرد•تعداد زيادی از لينک های اين نودها برای . الزم به ذکر است که اين گراف بخش کوچکی از گراف دی بی پديا است•

.سادگی خذف شده است

Page 11: Structure attribute computation of similarities  between nodes of a graph with application in clustering

11

فهرست مطالب

مقدمه ای بر داده های پيوندی•

مساله کلی پروپوزال •

طرح زير مساله•

تاريخچه کارهای انجام شده•

متد پيشنهادی•

مجموعه داده ساخته شده•

روش ارزيابی•

نتايج ارزيابی•

خوشھ بندی در داده ھای پیوندی1390/9/27

Page 12: Structure attribute computation of similarities  between nodes of a graph with application in clustering

12

روشهای محاسبه ميزان شباهتبه سه دسته کلی تقسيم بندی می شوند•

روشهای ساختاری•که تنها از ساختار لينک مابين نودها برای رتبه بندی استفاده می کند••SimRank, BipartiteRank, PRank

روشهای مبتنی بر خصوصيات و مقدار آنها•.که از خصوصيات و مقادير آنها برای رتبه بندی استفاده می کند•.هستند Jaccardمعموال بر اساس محاسبه شباهت •

روشهای ترکيبی•.که از هر دو روش قبلی برای محاسبه ميزان شباهت نودها استفاده می کند•

خوشھ بندی در داده ھای پیوندی1390/9/27

Page 13: Structure attribute computation of similarities  between nodes of a graph with application in clustering

13

SimRankروش ساختاری دو نود مشابه هستند اگر نودهای ورودی•

آن دو نود مشابه باشند

خوشھ بندی در داده ھای پیوندی1390/9/27

Page 14: Structure attribute computation of similarities  between nodes of a graph with application in clustering

14

Bipartiteروش ساختاری دو نود مشابه هستند اگر نودهای خروجی•

آن دو نود مشابه باشند

خوشھ بندی در داده ھای پیوندی1390/9/27

Page 15: Structure attribute computation of similarities  between nodes of a graph with application in clustering

15

PRank روش ساختاریدو نود مشابه هستند اگر نودهای خروجی•

و ورودی آن دو نود مشابه باشند

خوشھ بندی در داده ھای پیوندی1390/9/27

Page 16: Structure attribute computation of similarities  between nodes of a graph with application in clustering

16

Jaccardروش مبتنی بر مقدار باشند- دو نود مشابه هستند اگر دارای تعداد بيشتری خصوصيت••N برابر تعداد کل خصوصيات موجود در گراف

خوشھ بندی در داده ھای پیوندی1390/9/27

Page 17: Structure attribute computation of similarities  between nodes of a graph with application in clustering

17

روش ترکيبیمقدار در نظر گرفته می شود-ميزان شباهت دو نود به صورت ضريبی از شباهت ساختاری و شباهت خصوصيت•

مقدار در گراف ساختار-روش ديگر تبديل شباهت خصوصيت•

مقدار آنها از حد آستانه بيشتر باشد نودي ايجاد مي شود که به هر دوی -دو نود که شباهت خصوصيت•آنها اشاره می کند و بدين ترتيب آنها در گراف ساختاری به همديگر نزديکتر می شوند

.پيچيدگی آن بسيار زياد خواهد شد•

خوشھ بندی در داده ھای پیوندی1390/9/27

Page 18: Structure attribute computation of similarities  between nodes of a graph with application in clustering

18

فهرست مطالب

مقدمه ای بر داده های پيوندی•

مساله کلی پروپوزال •

طرح زير مساله•

تاريخچه کارهای انجام شده•

متد پيشنهادی•

مجموعه داده ساخته شده•

روش ارزيابی•

نتايج ارزيابی•

خوشھ بندی در داده ھای پیوندی1390/9/27

Page 19: Structure attribute computation of similarities  between nodes of a graph with application in clustering

19

راه حل پيشنهادی

ميزان شباهت دو نود در يک گراف جهت دار به موارد زير وابسته است•

خوشھ بندی در داده ھای پیوندی1390/9/27

Page 20: Structure attribute computation of similarities  between nodes of a graph with application in clustering

20

محاسبه ميزان شباهت کالسترها

خوشھ بندی در داده ھای پیوندی1390/9/27

Page 21: Structure attribute computation of similarities  between nodes of a graph with application in clustering

21

محاسبه ميزان شباهت کالسترها

خوشھ بندی در داده ھای پیوندی1390/9/27

Page 22: Structure attribute computation of similarities  between nodes of a graph with application in clustering

22

خوشه بندی مبتنی بر مدل پيشنهادی راه حل پيشنهادیايجاد خوشه های دو منبعی 1.

ادغام دو خوشه با باالترين ميزان شباهت 2.

توقف خوشه بندی در صورت رسيدن به مقدار آستانه3.

خوشھ بندی در داده ھای پیوندی1390/9/27

Page 23: Structure attribute computation of similarities  between nodes of a graph with application in clustering

23

خوشه بندی مبتنی بر مدل پيشنهادی راه حل پيشنهادیبرای ايجاد خوشه های دو منبعی، از توابع مجموع، ماکزيمم، تعداد، مينيمم و ميانگين می توان استفاده نمود .

در پياده سازی صورت گرفته، از تابع مجموع برای محاسبه ميزان شباهت بين دو نود استفاده شده است.

فرمول زير برای ترکيب دو کالستر در مرحله دوم خوشه بندی استفاده شده است.

خوشھ بندی در داده ھای پیوندی1390/9/27

Page 24: Structure attribute computation of similarities  between nodes of a graph with application in clustering

24

فهرست مطالب

مقدمه ای بر داده های پيوندی•

مساله کلی پروپوزال •

طرح زير مساله•

تاريخچه کارهای انجام شده•

متد پيشنهادی•

مجموعه داده ساخته شده•

روش ارزيابی•

نتايج ارزيابی•

خوشھ بندی در داده ھای پیوندی1390/9/27

Page 25: Structure attribute computation of similarities  between nodes of a graph with application in clustering

25

مجموعه داده ساخته شده ميليون 1.6که در حال حاضر بالغ بر . از مجموعه داده دی بی پديا برای خوشه بندی منابع استفاده شده است•

موجوديت داردکه اين افراد توسط لينک . هزار از منابع دی بی پديا، افراد را توصيف می کنند 360بالغ بر •

Wikipageredirect به همديگر اشاره می کنند.

.به آنتولوژی زبانی وردنت لينک داشته اند Wordnetمنابع توسط لينک •

.هزار عدد از آنها حاوی مقدار برای اين لينک هستند 120از کل منابع افراد موجود در دی بی پديا تنها •

.کالس دسته بندی شده اند 30افراد در دی بی پديا، به •

هدف از خوشه بندی، توليد همين کالسها بدون در نظر گرفتن لينک وردنت•

بعد از فيلترينگ مجموعه داده ای استاندارد ساخته شده که نسخه ای از آن در وب برای استفاده های بعدی •.انتشار داده شده است

خوشھ بندی در داده ھای پیوندی1390/9/27

Page 26: Structure attribute computation of similarities  between nodes of a graph with application in clustering

26

توزيع کالس افراد در وردنت

خوشھ بندی در داده ھای پیوندی1390/9/27

Page 27: Structure attribute computation of similarities  between nodes of a graph with application in clustering

27

) ادامه(مجموعه داده ساخته شده •

خوشھ بندی در داده ھای پیوندی1390/9/27

Page 28: Structure attribute computation of similarities  between nodes of a graph with application in clustering

28

فهرست مطالب

مقدمه ای بر داده های پيوندی•

مساله کلی پروپوزال •

طرح زير مساله•

تاريخچه کارهای انجام شده•

متد پيشنهادی•

مجموعه داده ساخته شده•

روش ارزيابی•

نتايج ارزيابی•

خوشھ بندی در داده ھای پیوندی1390/9/27

Page 29: Structure attribute computation of similarities  between nodes of a graph with application in clustering

29

متدهای ارزيابی:آنتروپي•

عددی است که نشان دهنده اين است که عضوهای يک کالستر به يک کالس تنها تعلق دارند•

:دقت•.درصدی از يک کالستر است که شامل اشياء از يک کالس مشخص باشد•

بازيابی•عددي است که نشان دهنده اين است که اعضاي يک کالس، در يک کالستر با همديگر واقع می شوند•

•F-Measure•

خوشھ بندی در داده ھای پیوندی1390/9/27

Page 30: Structure attribute computation of similarities  between nodes of a graph with application in clustering

30

فهرست مطالب

مقدمه ای بر داده های پيوندی•

مساله کلی پروپوزال •

طرح زير مساله•

تاريخچه کارهای انجام شده•

متد پيشنهادی•

مجموعه داده ساخته شده•

روش ارزيابی•

نتايج ارزيابی•

خوشھ بندی در داده ھای پیوندی1390/9/27

Page 31: Structure attribute computation of similarities  between nodes of a graph with application in clustering

31

مقايسه متد پيشنهادی با روشهای قبلینتايج•

خوشھ بندی در داده ھای پیوندی1390/9/27

Page 32: Structure attribute computation of similarities  between nodes of a graph with application in clustering

32

مقايسه متد پيشنهادی با روشهای قبلینتايج•

خوشھ بندی در داده ھای پیوندی1390/9/27

Page 33: Structure attribute computation of similarities  between nodes of a graph with application in clustering

33

نتايج به صورت گراف•

خوشھ بندی در داده ھای پیوندی1390/9/27

Page 34: Structure attribute computation of similarities  between nodes of a graph with application in clustering

34

نتيجه گيری و کارهای آينده

روشي برای يافتن ميزان شباهت منابع در وب مبتنی بر داده ارائه شده است •

اعمال متد پيشنهادی بر روی گراف شبکه های اجتماعی•

ارائه يک متد عمومی دارای قابليت سفارشی شدن برای هر حوزه خاص•

استفاده از اين روش برای محاسبه رتبه بندی نودها در گراف داده های پيوندی•

خوشھ بندی در داده ھای پیوندی1390/9/27

Page 35: Structure attribute computation of similarities  between nodes of a graph with application in clustering

35

با تشکر از حسن توجه شما

خوشھ بندی در داده ھای پیوندی1390/9/27