;9:; · 背景介紹動機與目的 ... 協同式推薦...

詹翰良元智大學資訊工程學系李祐陞中央研究院資訊創新科技中心王祥安中央研究院資訊創新科技中心

2012

DADHIC

背景介紹動機與目的相關研究實驗步驟未來方向

2012

DADHIC

中央研究院數位典藏資源網 ◦ 中央研究院數位典藏計畫的入口網站 ◦ 整合超過一百個網站與資料庫的內容 ◦ 收集超過一百萬筆的metadata，並持續增加中 ◦ 提供相關內容推薦的機制

2012

DADHIC

http://digiarch.sinica.edu.tw/index.jsp�

依文章類別作推薦 ◦ 文章已依照魚類、貝類等十七個類別主題做分類 ◦ 挑選相同分類的文章推薦給使用者

依內容相關性作推薦 ◦ 依特徵選取重要關鍵字 ◦ 進行文件相似比對

2012

DADHIC

以文章分類、內容性相關的推薦精準度不足 ◦ 有些文章屬於多個類別 ◦ 有些文章不屬於任何類別 ◦ 有些文章與太多內容相關

使用者不易了解推薦內容的相關性 ◦ 使用者須看完整篇文章才能了解是否相關 ◦ 使用者無法了解與本文相關的概念有哪些

2012

DADHIC

提供好的推薦機制 ◦ 改善推薦的精準度，讓系統推薦的內容更貼切使用者的需求 ◦ 讓使用者以圖形化的方式，更直覺地了解網站中相關的內容 ◦ 讓使用者能看到更多相關的內容，增加使用的時間 ◦ 讓使用者有良好的使用經驗，增加未來使用的意願

2012

DADHIC

以概念詞組的方式做搜尋，調整文章的Ranking

將文章內容的關聯性，以較直覺的圖形化方式呈現

2012

DADHIC

內容式推薦 ◦ 使用者個人在網站的停留時間、操作 ◦ 文章的閱覽次、點擊次 ◦ 文章內容相關例：「梯狀福壽螺」、「福壽螺」

協同式推薦 ◦ 透過行為相似的使用者評分，來推薦使用者感興趣的項目 ◦ 缺點若自己是第一個評分的使用者，則無從參考(Cold Start) 文章太多，被評分的文件數量有限(Sparsity)

2012

DADHIC

Item Representation ◦ 依照文章內容作解析

個人化 ◦ User Profiles 使用者與系統的互動精準度隨著時間提升數典網站沒辦法留住使用者這麼久

◦ Learning Model 透過使用者回饋滿意或不滿意缺點：造成使用者困擾

2012

DADHIC

簡介 ◦ 最早由Apriori所提出 ◦ 從大型資料庫找熱門商品之間的關係例：尿布與啤酒

應用 ◦ 以一篇文章當作一筆交易 ◦ 以關鍵字當作商品 ◦ 建立關鍵字彼此之間的關係

2012

DADHIC

演算法 ◦ FP-Growth vs Apriori 優點建立樹狀結構與檢索效率較好不會產生過多組合

缺點占用較多記憶體

2012

DADHIC

知識（Knowledge）是加值過的資料（Data）與資訊（Information），地圖是知識內容的視覺化與圖表化呈現模式。換言之，知識地圖（Knowledge Map）即是有價值資訊的圖表化呈現結果。

2012

DADHIC

邊 ◦ 由Association Rule所建立關鍵字彼此的關係

點 ◦ 各個關鍵字名稱

將關鍵字彼此的關係繪製成圖形

2012

DADHIC

詞組 ◦ 足以代表一個概念，由多個關鍵字所組成

如何透過 Knowledge Map 建立詞組？

2012

DADHIC

分團 ◦ 針對一個Graph=(Vertex,Edge)，找出一組

Vertex={1…n}是所有頂點的集合。Edge={1…n}是所有邊的集合。

Clique ◦ 一個Sub-Graph，其所有端點彼此兩兩完全相連。

2012

DADHIC

Maximal Clique ◦ 不被其他Clique所包含的Clique

Maximum Clique ◦ 擁有最多頂點數的Clique 2012

DADHIC

透過詞組的建立，可以把原始的複雜圖化為多個小群組，而這每個群組就是我們的詞組。 2012

DADHIC

建立關鍵字資訊

解析文章關鍵字

建立關聯規則

平行化建立關鍵詞組

以詞組做搜尋

2012

DADHIC

聯合目錄字典檔 ◦ 由人力挑選、建置而成 ◦ 約十萬字

數典資料 ◦ 符合Dublin Core格式 ◦ 針對Description、Coverage、Subject、Title 進行關聯法則 ◦ 若關鍵字出現在這些元素中，代表這篇文章與這個關鍵字有相關

2012

DADHIC

對每個關鍵字建立相關資訊以「數位典藏」為例 ◦ TF(詞頻)：

「數位典藏」出現的次數除以該文件的總詞語數 ◦ DF(文件頻率)：

有多少份文件出現過「數位典藏」一詞， ◦ 跨分類頻率：「數位典藏」出現在幾個主題之中

2012

DADHIC

2012

DADHIC

擷取每篇文章的關鍵字依照關鍵字的DF降冪排列 2012

DADHIC

用FP-Growth找出關聯項目(Frequent-Pattern) ◦ Confidence通過一定門檻的項目 ◦ 例：警察、罰鍰

平行化 ◦ 事先取得所有關鍵字的DF ◦ 對關鍵字排序 ◦ 將文件分散給多部機器

2012

DADHIC

平行化工具 ◦ Gearman vs Hadoop 設定簡單撰寫結構較簡單跨平台，包含Java、C、PHP、Python

2012

DADHIC

依照關聯規則所找到的關聯項目依照Confidence的高低建立不同Confidence的關鍵詞組

把關鍵字的關係建成Knowledge Map

利用分團問題，找出Maximum Clique。每個Clique內的元素就是關鍵詞組

2012

DADHIC

詞組示意圖

2012

DADHIC

查詢 ◦ 以詞組作為Query的單位 Confidence層級越高，則Score越高詞組元素越多，則Score越高

◦ 最終的Ranking受到Clique大小以及Confidence層級影響

2012

DADHIC

對於沒有特定主題或是太多主題的文章，效果較差

可透過Knowledge Map看出文章大意

2012

DADHIC

以視覺化呈現 vs 條列式呈現 ◦ 視覺化呈現的優點將文章概念濃縮成圖形化方式，快速理解閱讀文章前即可了解文章大意

2012

DADHIC

2012

DADHIC

改善關鍵字挑選 ◦ 字典檔的維護 ◦ 長辭優先篩選例如：中國、現代史→中國現代史

關聯規則加強 ◦ 加入語句的概念來挑選每個主題的關鍵字 ◦ 詞間距離混合計算

2012

DADHIC

在少許的情況下，會形成類似蜘蛛網或是太陽發散的圖形，應避免這種圖形出現

使用者行為分析(User Log) ◦ 使用者對於現行推薦結果的滿意度問卷方式群眾外包(crowdsourcing) ◦ 關聯式推薦是否產生更多點擊、增加使用者停留時間

2012

DADHIC

感謝您的聆聽 2012

DADHIC

;9:; · 背景介紹 動機與目的 ... 協同式 推薦...

Documents

;9:; · 背景介紹動機與目的 ... 協同式推薦...