structure attribute computation of similarities between nodes of a graph with application in...
DESCRIPTION
يافتن ميزان شباهت در يک گراف جهت دار دارای خصوصيت /مقدارTRANSCRIPT
1
دانشگاه اصفهاندانشکده فني و مهندسي
گروه کامپيوتر
خصوصيتي بين/محاسبه ميزان شباهت ساختاریو استفاده از آن برای RDFنودهای گراف
خوشه بندی در داده های پيوندی
Structure/Attribute Computation of SimilaritiesBetween Nodes of a RDF Graph withApplication to Linked Data Clustering
:استاد راهنمادکتر محمدعلی نعمت بخش
:محققهادي خسروي فارسانی
1390/9/27
2
فهرست مطالب
مقدمه ای بر داده های پيوندی•
مساله کلی پروپوزال •
طرح زير مساله•
تاريخچه کارهای انجام شده•
متد پيشنهادی•
مجموعه داده ساخته شده•
روش ارزيابی•
نتايج ارزيابی•
خوشھ بندی در داده ھای پیوندی1390/9/27
3
فهرست مطالب
مقدمه ای بر داده های پيوندی•
مساله کلی پروپوزال •
طرح زير مساله•
تاريخچه کارهای انجام شده•
متد پيشنهادی•
مجموعه داده ساخته شده•
روش ارزيابی•
نتايج ارزيابی•
خوشھ بندی در داده ھای پیوندی1390/9/27
4
)Linked Data Principles(اصول داده های پيوندی برای شناسايي منابع در وب URIاستفاده از •برای دسترسی به اين نامها استفاده شود HTTPاز پروتکل •نشان داده شود RDFرا می کند، تمامی اطالعات مفيد به فرمت URIهنگامی که يک فرد، درخواست يک •ها انواع مختلف لينک داشته باشند به صورتی که افراد قادر باشند URIالزم است به ديگر RDFعبارتهای •
.اطالعات بيشتری در مورد آن موجوديت کسب کنند
خوشھ بندی در داده ھای پیوندی1390/9/27
5
)مثال(تعريف منابع با استفاده از اصول داده های پيوندی http://dbpedia.org/page/Nigel_Clough
خوشھ بندی در داده ھای پیوندی1390/9/27
6
در حال حاضر : داده های پيوندی •
1390/9/271390/7/26
7
فهرست مطالب
مقدمه ای بر داده های پيوندی•
مساله کلی پروپوزال •
طرح زير مساله•
تاريخچه کارهای انجام شده•
متد پيشنهادی•
مجموعه داده ساخته شده•
روش ارزيابی•
نتايج ارزيابی•
خوشھ بندی در داده ھای پیوندی1390/9/27
8
مساله پايان نامه .رتبه بندی منابع در وب مبتنی بر داده به چه شکلی انجام شود•
:ايده•خوشه بندی منابع و سپس اعمال الگوريتم های رتبه بندی در هر خوشه•
در هر کدام از خوشه ها نودهای بسيار مشابه قرار گرفته می شوند•برای مثال يک کالستر برای حوزه ورزش ساخته شود، کالستر ديگری برای حوزه آکادميک •
...تشکيل شود و لينک های از يک کالستر مثال کالستر ورزشی به کالستر آکادميک حذف می شوند چرا که •
کمی دارد لينک يک فرد آکادميک به يک فرد ورزش ارزش
برای رتبه بندی نودها استفاده شود PageRankدر درون هر کالستر، الگوريتم •افزايش دقت•کاهش اندازه گراف و در نتيجه کاهش هزينه محاسبه رتبه نودها •
خوشھ بندی در داده ھای پیوندی1390/9/27
9
زير مسايل پايان نامه
فازهای پروژه•PageRankرتبه بندی نودها در الگوريتم پايه • datasetرتبه بندی مجموعه داده ها و موجوديت در هر •بدون در نظر گرفتن خصوصيات و مقادير خصوصيات -خوشه بندی با در نظر گرفتن نودها و لينکها •با در نظر گرفتن خصوصيات و مقادير خصوصيات–خوشه بندی با در نظر گرفتن نودها و لينکها •رتبه بندی نودها در هر کالستر و مقايسه با روش پايه•
:اين ارائه•با در نظر گرفتن خصوصيات و مقادير خصوصيات–خوشه بندی با در نظر گرفتن نودها و لينکها •
:زير مساله•خوشه بندی منابع •
نياز به داشتن الگوريتمی توانا جهت يافتن ميزان تشابه دو ايتم•
•
خوشھ بندی در داده ھای پیوندی1390/9/27
10
مثال برای خوشه بندی در وب مبتنی بر داده
خوشھ بندی در داده ھای پیوندی1390/9/27
همه نودها از مجموعه داده دی بی پديا استخراج شده است•wikiPagewikilinkتنها يک نوع از لينک ها در نظر گرفته شده است •با گذاشتن پيشوند دی بی پديا و يا ويکی پديا به ابتدای اين نودها می توان آن نود را در وب بررسی کرد•تعداد زيادی از لينک های اين نودها برای . الزم به ذکر است که اين گراف بخش کوچکی از گراف دی بی پديا است•
.سادگی خذف شده است
11
فهرست مطالب
مقدمه ای بر داده های پيوندی•
مساله کلی پروپوزال •
طرح زير مساله•
تاريخچه کارهای انجام شده•
متد پيشنهادی•
مجموعه داده ساخته شده•
روش ارزيابی•
نتايج ارزيابی•
خوشھ بندی در داده ھای پیوندی1390/9/27
12
روشهای محاسبه ميزان شباهتبه سه دسته کلی تقسيم بندی می شوند•
روشهای ساختاری•که تنها از ساختار لينک مابين نودها برای رتبه بندی استفاده می کند••SimRank, BipartiteRank, PRank
روشهای مبتنی بر خصوصيات و مقدار آنها•.که از خصوصيات و مقادير آنها برای رتبه بندی استفاده می کند•.هستند Jaccardمعموال بر اساس محاسبه شباهت •
روشهای ترکيبی•.که از هر دو روش قبلی برای محاسبه ميزان شباهت نودها استفاده می کند•
خوشھ بندی در داده ھای پیوندی1390/9/27
13
SimRankروش ساختاری دو نود مشابه هستند اگر نودهای ورودی•
آن دو نود مشابه باشند
خوشھ بندی در داده ھای پیوندی1390/9/27
14
Bipartiteروش ساختاری دو نود مشابه هستند اگر نودهای خروجی•
آن دو نود مشابه باشند
خوشھ بندی در داده ھای پیوندی1390/9/27
15
PRank روش ساختاریدو نود مشابه هستند اگر نودهای خروجی•
و ورودی آن دو نود مشابه باشند
خوشھ بندی در داده ھای پیوندی1390/9/27
16
Jaccardروش مبتنی بر مقدار باشند- دو نود مشابه هستند اگر دارای تعداد بيشتری خصوصيت••N برابر تعداد کل خصوصيات موجود در گراف
خوشھ بندی در داده ھای پیوندی1390/9/27
17
روش ترکيبیمقدار در نظر گرفته می شود-ميزان شباهت دو نود به صورت ضريبی از شباهت ساختاری و شباهت خصوصيت•
مقدار در گراف ساختار-روش ديگر تبديل شباهت خصوصيت•
مقدار آنها از حد آستانه بيشتر باشد نودي ايجاد مي شود که به هر دوی -دو نود که شباهت خصوصيت•آنها اشاره می کند و بدين ترتيب آنها در گراف ساختاری به همديگر نزديکتر می شوند
.پيچيدگی آن بسيار زياد خواهد شد•
خوشھ بندی در داده ھای پیوندی1390/9/27
18
فهرست مطالب
مقدمه ای بر داده های پيوندی•
مساله کلی پروپوزال •
طرح زير مساله•
تاريخچه کارهای انجام شده•
متد پيشنهادی•
مجموعه داده ساخته شده•
روش ارزيابی•
نتايج ارزيابی•
خوشھ بندی در داده ھای پیوندی1390/9/27
19
راه حل پيشنهادی
ميزان شباهت دو نود در يک گراف جهت دار به موارد زير وابسته است•
خوشھ بندی در داده ھای پیوندی1390/9/27
20
محاسبه ميزان شباهت کالسترها
خوشھ بندی در داده ھای پیوندی1390/9/27
21
محاسبه ميزان شباهت کالسترها
خوشھ بندی در داده ھای پیوندی1390/9/27
22
خوشه بندی مبتنی بر مدل پيشنهادی راه حل پيشنهادیايجاد خوشه های دو منبعی 1.
ادغام دو خوشه با باالترين ميزان شباهت 2.
توقف خوشه بندی در صورت رسيدن به مقدار آستانه3.
خوشھ بندی در داده ھای پیوندی1390/9/27
23
خوشه بندی مبتنی بر مدل پيشنهادی راه حل پيشنهادیبرای ايجاد خوشه های دو منبعی، از توابع مجموع، ماکزيمم، تعداد، مينيمم و ميانگين می توان استفاده نمود .
در پياده سازی صورت گرفته، از تابع مجموع برای محاسبه ميزان شباهت بين دو نود استفاده شده است.
فرمول زير برای ترکيب دو کالستر در مرحله دوم خوشه بندی استفاده شده است.
خوشھ بندی در داده ھای پیوندی1390/9/27
24
فهرست مطالب
مقدمه ای بر داده های پيوندی•
مساله کلی پروپوزال •
طرح زير مساله•
تاريخچه کارهای انجام شده•
متد پيشنهادی•
مجموعه داده ساخته شده•
روش ارزيابی•
نتايج ارزيابی•
خوشھ بندی در داده ھای پیوندی1390/9/27
25
مجموعه داده ساخته شده ميليون 1.6که در حال حاضر بالغ بر . از مجموعه داده دی بی پديا برای خوشه بندی منابع استفاده شده است•
موجوديت داردکه اين افراد توسط لينک . هزار از منابع دی بی پديا، افراد را توصيف می کنند 360بالغ بر •
Wikipageredirect به همديگر اشاره می کنند.
.به آنتولوژی زبانی وردنت لينک داشته اند Wordnetمنابع توسط لينک •
.هزار عدد از آنها حاوی مقدار برای اين لينک هستند 120از کل منابع افراد موجود در دی بی پديا تنها •
.کالس دسته بندی شده اند 30افراد در دی بی پديا، به •
هدف از خوشه بندی، توليد همين کالسها بدون در نظر گرفتن لينک وردنت•
بعد از فيلترينگ مجموعه داده ای استاندارد ساخته شده که نسخه ای از آن در وب برای استفاده های بعدی •.انتشار داده شده است
خوشھ بندی در داده ھای پیوندی1390/9/27
26
توزيع کالس افراد در وردنت
خوشھ بندی در داده ھای پیوندی1390/9/27
27
) ادامه(مجموعه داده ساخته شده •
خوشھ بندی در داده ھای پیوندی1390/9/27
28
فهرست مطالب
مقدمه ای بر داده های پيوندی•
مساله کلی پروپوزال •
طرح زير مساله•
تاريخچه کارهای انجام شده•
متد پيشنهادی•
مجموعه داده ساخته شده•
روش ارزيابی•
نتايج ارزيابی•
خوشھ بندی در داده ھای پیوندی1390/9/27
29
متدهای ارزيابی:آنتروپي•
عددی است که نشان دهنده اين است که عضوهای يک کالستر به يک کالس تنها تعلق دارند•
:دقت•.درصدی از يک کالستر است که شامل اشياء از يک کالس مشخص باشد•
بازيابی•عددي است که نشان دهنده اين است که اعضاي يک کالس، در يک کالستر با همديگر واقع می شوند•
•F-Measure•
خوشھ بندی در داده ھای پیوندی1390/9/27
30
فهرست مطالب
مقدمه ای بر داده های پيوندی•
مساله کلی پروپوزال •
طرح زير مساله•
تاريخچه کارهای انجام شده•
متد پيشنهادی•
مجموعه داده ساخته شده•
روش ارزيابی•
نتايج ارزيابی•
خوشھ بندی در داده ھای پیوندی1390/9/27
31
مقايسه متد پيشنهادی با روشهای قبلینتايج•
خوشھ بندی در داده ھای پیوندی1390/9/27
32
مقايسه متد پيشنهادی با روشهای قبلینتايج•
خوشھ بندی در داده ھای پیوندی1390/9/27
33
نتايج به صورت گراف•
خوشھ بندی در داده ھای پیوندی1390/9/27
34
نتيجه گيری و کارهای آينده
روشي برای يافتن ميزان شباهت منابع در وب مبتنی بر داده ارائه شده است •
اعمال متد پيشنهادی بر روی گراف شبکه های اجتماعی•
ارائه يک متد عمومی دارای قابليت سفارشی شدن برای هر حوزه خاص•
استفاده از اين روش برای محاسبه رتبه بندی نودها در گراف داده های پيوندی•
خوشھ بندی در داده ھای پیوندی1390/9/27
35
با تشکر از حسن توجه شما
خوشھ بندی در داده ھای پیوندی1390/9/27