structure attribute computation of similarities between nodes of a graph with application in...

1

دانشگاه اصفهاندانشکده فني و مهندسي

گروه کامپيوتر

خصوصيتي بين/محاسبه ميزان شباهت ساختاریو استفاده از آن برای RDFنودهای گراف

خوشه بندی در داده های پيوندی

Structure/Attribute Computation of SimilaritiesBetween Nodes of a RDF Graph withApplication to Linked Data Clustering

:استاد راهنمادکتر محمدعلی نعمت بخش

:محققهادي خسروي فارسانی

1390/9/27

2

فهرست مطالب

مقدمه ای بر داده های پيوندی•

مساله کلی پروپوزال •

طرح زير مساله•

تاريخچه کارهای انجام شده•

متد پيشنهادی•

مجموعه داده ساخته شده•

روش ارزيابی•

نتايج ارزيابی•

خوشھ بندی در داده ھای پیوندی1390/9/27

3











4

)Linked Data Principles(اصول داده های پيوندی برای شناسايي منابع در وب URIاستفاده از •برای دسترسی به اين نامها استفاده شود HTTPاز پروتکل •نشان داده شود RDFرا می کند، تمامی اطالعات مفيد به فرمت URIهنگامی که يک فرد، درخواست يک •ها انواع مختلف لينک داشته باشند به صورتی که افراد قادر باشند URIالزم است به ديگر RDFعبارتهای •

.اطالعات بيشتری در مورد آن موجوديت کسب کنند


5

)مثال(تعريف منابع با استفاده از اصول داده های پيوندی http://dbpedia.org/page/Nigel_Clough


6

در حال حاضر : داده های پيوندی •

1390/9/271390/7/26

7











8

مساله پايان نامه .رتبه بندی منابع در وب مبتنی بر داده به چه شکلی انجام شود•

:ايده•خوشه بندی منابع و سپس اعمال الگوريتم های رتبه بندی در هر خوشه•

در هر کدام از خوشه ها نودهای بسيار مشابه قرار گرفته می شوند•برای مثال يک کالستر برای حوزه ورزش ساخته شود، کالستر ديگری برای حوزه آکادميک •

...تشکيل شود و لينک های از يک کالستر مثال کالستر ورزشی به کالستر آکادميک حذف می شوند چرا که •

کمی دارد لينک يک فرد آکادميک به يک فرد ورزش ارزش

برای رتبه بندی نودها استفاده شود PageRankدر درون هر کالستر، الگوريتم •افزايش دقت•کاهش اندازه گراف و در نتيجه کاهش هزينه محاسبه رتبه نودها •


9

زير مسايل پايان نامه

فازهای پروژه•PageRankرتبه بندی نودها در الگوريتم پايه • datasetرتبه بندی مجموعه داده ها و موجوديت در هر •بدون در نظر گرفتن خصوصيات و مقادير خصوصيات -خوشه بندی با در نظر گرفتن نودها و لينکها •با در نظر گرفتن خصوصيات و مقادير خصوصيات–خوشه بندی با در نظر گرفتن نودها و لينکها •رتبه بندی نودها در هر کالستر و مقايسه با روش پايه•

:اين ارائه•با در نظر گرفتن خصوصيات و مقادير خصوصيات–خوشه بندی با در نظر گرفتن نودها و لينکها •

:زير مساله•خوشه بندی منابع •

نياز به داشتن الگوريتمی توانا جهت يافتن ميزان تشابه دو ايتم•

•


10

مثال برای خوشه بندی در وب مبتنی بر داده


همه نودها از مجموعه داده دی بی پديا استخراج شده است•wikiPagewikilinkتنها يک نوع از لينک ها در نظر گرفته شده است •با گذاشتن پيشوند دی بی پديا و يا ويکی پديا به ابتدای اين نودها می توان آن نود را در وب بررسی کرد•تعداد زيادی از لينک های اين نودها برای . الزم به ذکر است که اين گراف بخش کوچکی از گراف دی بی پديا است•

.سادگی خذف شده است

11











12

روشهای محاسبه ميزان شباهتبه سه دسته کلی تقسيم بندی می شوند•

روشهای ساختاری•که تنها از ساختار لينک مابين نودها برای رتبه بندی استفاده می کند••SimRank, BipartiteRank, PRank

روشهای مبتنی بر خصوصيات و مقدار آنها•.که از خصوصيات و مقادير آنها برای رتبه بندی استفاده می کند•.هستند Jaccardمعموال بر اساس محاسبه شباهت •

روشهای ترکيبی•.که از هر دو روش قبلی برای محاسبه ميزان شباهت نودها استفاده می کند•


13

SimRankروش ساختاری دو نود مشابه هستند اگر نودهای ورودی•

آن دو نود مشابه باشند


14

Bipartiteروش ساختاری دو نود مشابه هستند اگر نودهای خروجی•

آن دو نود مشابه باشند


15

PRank روش ساختاریدو نود مشابه هستند اگر نودهای خروجی•

و ورودی آن دو نود مشابه باشند


16

Jaccardروش مبتنی بر مقدار باشند- دو نود مشابه هستند اگر دارای تعداد بيشتری خصوصيت••N برابر تعداد کل خصوصيات موجود در گراف


17

روش ترکيبیمقدار در نظر گرفته می شود-ميزان شباهت دو نود به صورت ضريبی از شباهت ساختاری و شباهت خصوصيت•

مقدار در گراف ساختار-روش ديگر تبديل شباهت خصوصيت•

مقدار آنها از حد آستانه بيشتر باشد نودي ايجاد مي شود که به هر دوی -دو نود که شباهت خصوصيت•آنها اشاره می کند و بدين ترتيب آنها در گراف ساختاری به همديگر نزديکتر می شوند

.پيچيدگی آن بسيار زياد خواهد شد•


18











19

راه حل پيشنهادی

ميزان شباهت دو نود در يک گراف جهت دار به موارد زير وابسته است•


20

محاسبه ميزان شباهت کالسترها


21

محاسبه ميزان شباهت کالسترها


22

خوشه بندی مبتنی بر مدل پيشنهادی راه حل پيشنهادیايجاد خوشه های دو منبعی 1.

ادغام دو خوشه با باالترين ميزان شباهت 2.

توقف خوشه بندی در صورت رسيدن به مقدار آستانه3.


23

خوشه بندی مبتنی بر مدل پيشنهادی راه حل پيشنهادیبرای ايجاد خوشه های دو منبعی، از توابع مجموع، ماکزيمم، تعداد، مينيمم و ميانگين می توان استفاده نمود .

در پياده سازی صورت گرفته، از تابع مجموع برای محاسبه ميزان شباهت بين دو نود استفاده شده است.

فرمول زير برای ترکيب دو کالستر در مرحله دوم خوشه بندی استفاده شده است.


24











25

مجموعه داده ساخته شده ميليون 1.6که در حال حاضر بالغ بر . از مجموعه داده دی بی پديا برای خوشه بندی منابع استفاده شده است•

موجوديت داردکه اين افراد توسط لينک . هزار از منابع دی بی پديا، افراد را توصيف می کنند 360بالغ بر •

Wikipageredirect به همديگر اشاره می کنند.

.به آنتولوژی زبانی وردنت لينک داشته اند Wordnetمنابع توسط لينک •

.هزار عدد از آنها حاوی مقدار برای اين لينک هستند 120از کل منابع افراد موجود در دی بی پديا تنها •

.کالس دسته بندی شده اند 30افراد در دی بی پديا، به •

هدف از خوشه بندی، توليد همين کالسها بدون در نظر گرفتن لينک وردنت•

بعد از فيلترينگ مجموعه داده ای استاندارد ساخته شده که نسخه ای از آن در وب برای استفاده های بعدی •.انتشار داده شده است


26

توزيع کالس افراد در وردنت


27

) ادامه(مجموعه داده ساخته شده •


28











29

متدهای ارزيابی:آنتروپي•

عددی است که نشان دهنده اين است که عضوهای يک کالستر به يک کالس تنها تعلق دارند•

:دقت•.درصدی از يک کالستر است که شامل اشياء از يک کالس مشخص باشد•

بازيابی•عددي است که نشان دهنده اين است که اعضاي يک کالس، در يک کالستر با همديگر واقع می شوند•

•F-Measure•


30











31

مقايسه متد پيشنهادی با روشهای قبلینتايج•


32

مقايسه متد پيشنهادی با روشهای قبلینتايج•


33

نتايج به صورت گراف•


34

نتيجه گيری و کارهای آينده

روشي برای يافتن ميزان شباهت منابع در وب مبتنی بر داده ارائه شده است •

اعمال متد پيشنهادی بر روی گراف شبکه های اجتماعی•

ارائه يک متد عمومی دارای قابليت سفارشی شدن برای هر حوزه خاص•

استفاده از اين روش برای محاسبه رتبه بندی نودها در گراف داده های پيوندی•


35

با تشکر از حسن توجه شما


structure attribute computation of similarities between nodes of a graph with application in...

Documents