進捗報告2007-09-11

22
進捗報告 2007-09-11 乾口研M2 氏久達博

Upload: ujihisa

Post on 06-May-2015

1.142 views

Category:

Technology


3 download

TRANSCRIPT

Page 1: 進捗報告2007-09-11

進捗報告2007-09-11

乾口研M2 氏久達博

Page 2: 進捗報告2007-09-11

研究目的

•ファジィ-ラフ集合理論に基づく属性の縮約を用いて、同じトピックの複数の文章に共通する重要な部分を抽出する

Page 3: 進捗報告2007-09-11

ラフ集合理論•情報表 (U, A)•対象集合 U•属性集合 A = C∪D•属性値集合 Va•a: U -> Va

•条件属性 C•決定属性 D

Page 4: 進捗報告2007-09-11

縮約•冗長な条件属性集合を除いて、目的に応じた情報を残すこと

•上近似を保存する•下近似を保存する•境界領域を保存する•全ての同値類を保存する

Page 5: 進捗報告2007-09-11

•ノード: 対象U•エッジ: 識別不能関係

Page 6: 進捗報告2007-09-11

ファジィ-ラフ集合理論•Uに対するファジィ類似関係S•Sのメンバシップ関数μS(x, y)•ファジィ同値類[x]Sのメンバシップ関数

•ファジィ同値類Fの3つの公理µ[x]S (y) = µS(x, y)

!x, µF (x) = 1,

µF (x) " µS(x, y) # µF (y), µF (x) " µF (y) # µS(x, y)

Page 7: 進捗報告2007-09-11

ファジィ下近似

•ファジィ同値類Fに対するファジィP-下近似 (P: 条件属性)

•対象xに対するファジィP-下近似µPX(F ) = inf

xmax{1! µF (x), µX(x)}

µPX(x) = supF!U/P

min(µF (x), µPX(F )

)

Page 8: 進捗報告2007-09-11

ファジィ-ラフ縮約

•R. Jensen, Q. Shenらが提案•属性間の依存度を示す測度γを定義し、γの値を保つよう属性集合を縮約していく

Page 9: 進捗報告2007-09-11

•ファジィ-正領域 (Q: 決定属性)

•ファジィ-従属関数

この値を保つ、極小なPが縮約

•QUICKREDUCTという高速アルゴリズムが存在する

µPOSP (Q)(x) = supX!U/Q

µPX(x)

!P (Q) =!

x!U µPOSP (Q)(x)|U |

Page 10: 進捗報告2007-09-11

TF-IDF•文章中の特徴的な単語を抽出するための指針

•tf: 対象文章中の対象単語の出現頻度•N: 全文章数•df: 対象単語を含む文章数

tf ! logN

df

Page 11: 進捗報告2007-09-11

例17.3578680810203 Google4.74493212836325 ソリューション4.74493212836325 English4.05178494780330 言語3.64631983969514 人材...(snip)...0.894784526653191 ニュース0.863368330419813 全体0.51809838309507 掲載0.394654192003949 20070.25629575863111 ログイン

http://www.google.com/の単語を形態素解析して作成。全文章数は230全単語数は13390

Page 12: 進捗報告2007-09-11

縮約の応用例

•[3]ではU = {文章}, A = {単語}として、文章を分類するための特徴的な単語を抽出するために縮約を使用

•縮約を用いることで、文章分類のために冗長な単語を除去している

Page 13: 進捗報告2007-09-11

縮約の応用

•本研究ではU = {単語}, A = {文章}として、必要な情報(特徴語)を十分に含んだ文章を得るために縮約を使用

•縮約を用いることで、サマリ作成のために冗長な文章を除去している

Page 14: 進捗報告2007-09-11

要約作成1.複数の文章をパラグラフごとに切り出す

2.各パラグラフを構成する単語のTF-IDF値を計算する

3.情報表を作成する

4.ファジィ-ラフ集合に基づく縮約を求める

Page 15: 進捗報告2007-09-11

文章群

全文章

特徴語抽出

情報表

縮約

Page 16: 進捗報告2007-09-11

情報表Object p1 p2 p3 p4

apple 53.0 19.0 0 0

bear 40.0 0 12.0 8.0

car 0 10.0 0 0

dish 0 0 4.0 5.0

Page 17: 進捗報告2007-09-11

• 条件属性 = 決定属性• µS(x, y) =

1|A|

!

a!A

min(a(x), a(y))max(a(x), a(y))

!P (A) =!

x!U µPOSP (A)(x)|U |

=!

x!U supX!U/A µPX(x)|U |

=!

x!U supX!U/A supF!U/P min"µF (x), µPX(F )

#

|U |

=!

x!U supX!U/A, F!U/P min (µF (x), infx max{1! µF (x), µX(x)})|U |

Page 18: 進捗報告2007-09-11

•Googleで「ラフ集合」で検索して見つかったうち5件のページが対象

•各ページごとに、TF-IDF値の高い順に10個の単語のみ抽出

Page 19: 進捗報告2007-09-11

23.368 5.193 5.193 18.175 0.000 データ 0.000 9.587 0.000 0.000 0.000 木 8.201 4.101 16.402 0.000 0.000 表現 0.000 12.360 0.000 0.000 0.000 慶應義塾大学 86.384 0.000 55.895 0.000 45.733 感性 96.547 0.000 0.000 0.000 0.000 ul 127.259 26.330 8.777 39.494 57.047 ラフ 0.000 0.000 0.000 0.000 24.720 部会 4.101 0.000 12.302 0.000 0.000 研究室 131.648 26.330 8.777 43.883 57.047 集合 201.336 0.000 0.000 0.000 0.000 font-size 66.058 0.000 0.000 0.000 15.244 応用 0.000 0.000 0.000 0.000 16.461 知能 5.926 3.951 9.877 5.926 0.000 こと 105.853 0.000 0.000 0.000 0.000 margin 0.000 0.000 0.000 0.000 15.244 学会 35.410 0.000 3.541 0.000 21.246 工学 13.712 4.571 0.000 18.282 0.000 手法 4.234 16.936 0.000 0.000 0.000 特徴 9.553 0.000 12.737 0.000 0.000 対象 0.000 0.000 0.000 24.720 0.000 Chu 0.000 10.974 0.000 0.000 5.487 学部 121.419 0.000 0.000 0.000 0.000 0 186.955 0.000 0.000 0.000 0.000 td

16.461 0.000 0.000 0.000 21.947 ファジィ 0.000 0.000 0.000 50.202 0.000 ネットワーク 0.000 0.000 0.000 0.000 13.712 講演 9.141 0.000 0.000 0.000 18.282 ワーク 0.000 0.000 0.000 19.175 0.000 正確 0.000 30.900 0.000 0.000 0.000 ヴァイオリン 21.981 0.000 9.769 12.212 12.212 研究 5.487 0.000 27.434 0.000 0.000 概念 0.000 0.000 28.762 0.000 0.000 私たち 118.917 0.000 0.000 0.000 0.000 color 206.248 0.000 0.000 0.000 0.000 table 0.000 0.000 0.000 43.260 0.000 探知 289.640 0.000 0.000 0.000 0.000 em 606.885 0.000 0.000 0.000 0.000 px 0.000 0.000 0.000 21.947 0.000 氏 13.712 13.712 0.000 0.000 0.000 著者 4.571 18.282 0.000 0.000 0.000 抽出 19.175 0.000 14.381 0.000 0.000 解析 0.000 0.000 0.000 19.935 0.000 システム 0.000 0.000 0.000 67.980 0.000 侵入 0.000 18.540 0.000 0.000 0.000 JSAI 0.000 30.900 0.000 0.000 0.000 演奏者 0.000 0.000 30.900 0.000 0.000 粒度

Page 20: 進捗報告2007-09-11

今後の課題

•文章のパラグラフ単位への切出し(現在は暫定的に、文章単位)

•適切なμS(x, y)の設定•ファジィ縮約の実装

Page 21: 進捗報告2007-09-11

参考文献(1) Fuzzy-rough attribute reduction with application to web categorization

Richard Jensen, Qiang Shen, 2004

(2) Fuzzy-Rough Sets for Descriptive Dimensionality ReductionRichard Jensen, Qiang Shen, 2002

(3) Webpage Classification with ACO-Enhanced Fuzzy-Rough Feature SelectionRichard Jensen and Qiang Shen, 2006

(4) A rough set model with ontologies for discovering maximal association rules in document collectionsYaxin Bi, Terry Anderson, Sally McClean, 2003

(5) 文章頻度と節長を利用した図書概要縮約方式小峰ほか, 2004

(6) Semantics-Preserving Dimensionality Reduction: Rough and Fuzzy-Rough-Based ApproachesRichard Jensen and Qiang Shen, 2004

Page 22: 進捗報告2007-09-11