;9:; · 背景介紹 動機與目的 ... 協同式 推薦...
TRANSCRIPT
中央研究院數位典藏資源網 ◦ 中央研究院數位典藏計畫的入口網站 ◦ 整合超過一百個網站與資料庫的內容 ◦ 收集超過一百萬筆的metadata,並持續增加中 ◦ 提供相關內容推薦的機制
2012
DADHIC
以文章分類、內容性相關的推薦精準度不足 ◦ 有些文章屬於多個類別 ◦ 有些文章不屬於任何類別 ◦ 有些文章與太多內容相關
使用者不易了解推薦內容的相關性 ◦ 使用者須看完整篇文章才能了解是否相關 ◦ 使用者無法了解與本文相關的概念有哪些
2012
DADHIC
提供好的推薦機制 ◦ 改善推薦的精準度,讓系統推薦的內容更貼切使用者的需求 ◦ 讓使用者以圖形化的方式,更直覺地了解網站中相關的內容 ◦ 讓使用者能看到更多相關的內容,增加使用的時間 ◦ 讓使用者有良好的使用經驗,增加未來使用的意願
2012
DADHIC
內容式推薦 ◦ 使用者個人在網站的停留時間、操作 ◦ 文章的閱覽次、點擊次 ◦ 文章內容相關 例:「梯狀福壽螺」、「福壽螺」
協同式推薦 ◦ 透過行為相似的使用者評分,來推薦使用者感興趣的項目 ◦ 缺點 若自己是第一個評分的使用者,則無從參考(Cold Start) 文章太多,被評分的文件數量有限(Sparsity)
2012
DADHIC
Item Representation ◦ 依照文章內容作解析
個人化 ◦ User Profiles 使用者與系統的互動 精準度隨著時間提升 數典網站沒辦法留住使用者這麼久
◦ Learning Model 透過使用者回饋滿意或不滿意 缺點:造成使用者困擾
2012
DADHIC
簡介 ◦ 最早由Apriori所提出 ◦ 從大型資料庫找熱門商品之間的關係 例:尿布與啤酒
應用 ◦ 以一篇文章當作一筆交易 ◦ 以關鍵字當作商品 ◦ 建立關鍵字彼此之間的關係
2012
DADHIC
知識(Knowledge)是加值過的資料(Data)與資訊(Information),地圖是知識內容的視覺化與圖表化呈現模式。 換言之,知識地圖(Knowledge Map)即是有價值資訊的圖表化呈現結果。
2012
DADHIC
分團 ◦ 針對一個Graph=(Vertex,Edge),找出一組
Vertex={1…n}是所有頂點的集合。Edge={1…n}是所有邊的集合。
Clique ◦ 一個Sub-Graph,其所有 端點彼此兩兩完全相連。
2012
DADHIC
聯合目錄字典檔 ◦ 由人力挑選、建置而成 ◦ 約十萬字
數典資料 ◦ 符合Dublin Core格式 ◦ 針對Description、Coverage、Subject、Title 進行關聯法則 ◦ 若關鍵字出現在這些元素中, 代表這篇文章與這個關鍵字有相關
2012
DADHIC
對每個關鍵字建立相關資訊 以「數位典藏」為例 ◦ TF(詞頻):
「數位典藏」出現的次數除以該文件的總詞語數 ◦ DF(文件頻率):
有多少份文件出現過「數位典藏」一詞, ◦ 跨分類頻率:「數位典藏」出現在幾個主題之中
2012
DADHIC
用FP-Growth找出關聯項目(Frequent-Pattern) ◦ Confidence通過一定門檻的項目 ◦ 例:警察、罰鍰
平行化 ◦ 事先取得所有關鍵字的DF ◦ 對關鍵字排序 ◦ 將文件分散給多部機器
2012
DADHIC
依照關聯規則所找到的關聯項目 依照Confidence的高低 建立不同Confidence的關鍵詞組
把關鍵字的關係建成Knowledge Map
利用分團問題,找出Maximum Clique。 每個Clique內的元素就是關鍵詞組
2012
DADHIC
查詢 ◦ 以詞組作為Query的單位 Confidence層級越高,則Score越高 詞組元素越多,則Score越高
◦ 最終的Ranking受到Clique大小以及Confidence層級影響
2012
DADHIC
在少許的情況下,會形成類似蜘蛛網或是太陽發散的圖形,應避免這種圖形出現
使用者行為分析(User Log) ◦ 使用者對於現行推薦結果的滿意度 問卷方式 群眾外包(crowdsourcing) ◦ 關聯式推薦是否產生更多點擊、增加使用者停留時間
2012
DADHIC