web2 - yutaka matsuo's homepageweb2.0時代の個人とコラボレーション 松尾豊...

33
1 1 Web2.0時代の個人とコラボレーション 松尾 豊 産業技術総合研究所/GBRC社会ネットワーク研究所/ スタンフォード大学 2 Web2.0と個人 OReillyの定義 プラットフォームとしてのWeb、データが重要、リッチなユーザ体 験、集合知の利用、他者の存在 SNS, ブログ, SB, Wikipedia, コラボレーション ユーザ同士の関係性 背景にあるユーザのネットワーク 社会学:社会ネットワーク分析

Upload: others

Post on 26-Jun-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Web2 - Yutaka Matsuo's HomepageWeb2.0時代の個人とコラボレーション 松尾豊 産業技術総合研究所/GBRC社会ネットワーク研究所/ スタンフォード大学

1

1

Web2.0時代の個人とコラボレーション

松尾 豊産業技術総合研究所/GBRC社会ネットワーク研究所/

スタンフォード大学

2

Web2.0と個人

ه O’Reillyの定義ه プラットフォームとしてのWeb、データが重要、リッチなユーザ体

験、集合知の利用、…

ه 他者の存在ه SNS, ブログ, SB, Wikipedia, …ه コラボレーション

ه ユーザ同士の関係性ه 背景にあるユーザのネットワーク

ه 社会学:社会ネットワーク分析

Page 2: Web2 - Yutaka Matsuo's HomepageWeb2.0時代の個人とコラボレーション 松尾豊 産業技術総合研究所/GBRC社会ネットワーク研究所/ スタンフォード大学

2

3

社会ネットワーク分析ه 社会学、経済学:1930年代~

ه 1927年ホーソン実験

ى ホーソン工場:作業環境と作業能率との関係

ى 現場の参加意識の高揚で、生産性が改善。インフォーマル人間関係が重要

ه 人の関係性を観察し、ネットワークとして描き分析する

ه 組織内や地域の人の関係性、企業間の関係、産業の連関等

クリーク

中心的(central)• 次数中心性• 固有ベクトル中心性

・媒介中心性

周縁的(periferal)

mixiのネットワーク

4

社会ネットワーク分析(social network analysis)

ه 分析ه キーとなるプレイヤーは誰か(中心性の分析)ه 競合にあるのは誰と誰か(構造同値)

ى つながっている先が似ている関係

ه 誰が効率的にネットワークを張っているか(構造的空隙)ى つながっている先同士がつながっていないほど効率的

ه どういったグループが他のグループとどのような関係を形成しているか(ブロックモデル等のクラスタ分析)

ه 例えば、ه PageRank:固有ベクトル中心性(Bonacich中心性)として1970年代からあ

る概念

ه 日本では、GERC 社会ネットワーク研究所(安田 雪先生)ه 世界では、INSNA

ه International Network of Social Network Analysisه SUNBELT 国際会議:社会ネットワーク分析唯一。Corfu island, May 1-6.

Page 3: Web2 - Yutaka Matsuo's HomepageWeb2.0時代の個人とコラボレーション 松尾豊 産業技術総合研究所/GBRC社会ネットワーク研究所/ スタンフォード大学

3

5

Affiliation matrix 所属行列(例えば、人と興味)

00100111啓介

00110111雅弘

11000001純一

11001001花子

00001111太郎

デートグルメ筋トレラジオTVスポーツ音楽Web

01100啓介

10100雅弘

11010純一

00101花子

00010太郎

啓介雅弘純一花子太郎

Adjacent matrix 隣接行列

(例えば、知り合い関係)

太郎

雅弘花子

純一

啓介

太郎雅弘花子

純一 啓介

3

433

Adjacent network (誰と誰が知り合いか)

Affiliation network (誰と誰が興味が近いか)

3

2

音楽スポーツ

グルメデート

筋トレ

22

6

おしてだめならひいてみな

わけがわかりません

ダンシングスパイダーマン達

Macユーザー

美術館・博物館 展示情報

足あとが気になる人

空を見る人

名前覚えられません

めんどくさい

時間守れません

眠い

宇宙

世界遺産

面白ネタで笑おう

mixiのコミュニティのネットワーク

夜行性人間

Page 4: Web2 - Yutaka Matsuo's HomepageWeb2.0時代の個人とコラボレーション 松尾豊 産業技術総合研究所/GBRC社会ネットワーク研究所/ スタンフォード大学

4

7

コミュニティXとYの類似度の高さ:共起の指標

ه 共起度(Matching coefficient) |X∩Y|ه XとYに同時に所属する人の数ه Webと音楽だと3, グルメとデートだと2

ه Jaccard係数 |X∩Y| / |X∪Y|ه Webと音楽 3/5 = 0.6, グルメとデート 2/2 = 1.0

ه Simpson(Overlap)係数 |X∩Y| / min(|X|,|Y|)ه ダイス係数 2|X∩Y| / (|X|+|Y|)ه コサイン |X∩Y| / (√|X||Y|)ه 相互情報量 log N|X∩Y| / |X||Y|

ه 性質ه 共起度:大きいコミュニティ同士がつながりやすいه Jaccard係数:同じくらいの大きさのコミュニティがつながりやすい

ه 相互情報量:小さいコミュニティが、エッジを多く持ちやすいه Simpson係数:大きいコミュニティがエッジを多く持ちやすい

00100111啓介

00110111雅弘

11000001純一

11001001花子

00001111太郎

デートグルメ筋トレラジオTVスポーツ音楽Web

8

Deliciousのタグネットワーク

P.Mika: Ontologies are us: A unified model of social networks and semantics, ISWC2005

ユーザ-タグのAffiliation行列を作る。Cosine係数で計算

Page 5: Web2 - Yutaka Matsuo's HomepageWeb2.0時代の個人とコラボレーション 松尾豊 産業技術総合研究所/GBRC社会ネットワーク研究所/ スタンフォード大学

5

9

Web2.0と社会ネットワーク

ه SNSه Adjacent network: 知り合い関係

ه Affiliation network: コミュニティ所属

ه Blogه Adjacent network: リンク、トラックバック、コメント、お気に入り(blogroll)ه Affiliation network: リンクが同じ、出てくる単語が同じなど

ه Social bookmarkه Adjacent network: 使っているタグが同じ、タグをつけている対象が同じ

ه Web2.0の各サービスを社会ネットワークの視点から分析する研究を紹介

10

内容

ه SNSの分析

ه 知り合いネットワーク、コミュニティの生態系

ه blogの分析

ه 関係と情報の伝播

ه ソーシャルブックマークの分析ه Emergent Semantics

ه 検索エンジン、そして今後のWeb技術

Page 6: Web2 - Yutaka Matsuo's HomepageWeb2.0時代の個人とコラボレーション 松尾豊 産業技術総合研究所/GBRC社会ネットワーク研究所/ スタンフォード大学

6

11

SNSの分析

12

mixiの分析

ه Webが生み出す関係構造と社会ネットワーク分析ワークショップ

ه 2005年秋:松尾・安田・大向

ه mixiの分析: 2005年春の時点。36万ノード

ه 公式データの提供

ه 湯田・小野・藤原(ATR)

ى ソーシャル・ネットワーキング・サービスにおける人的ネットワークの構造、情報処理学会論文誌、VOl.47, No.3, 2006

ه 松尾・安田

ى SNSにおける関係形成原理 – mixiのデータ分析 –、人工知能学会、投稿中

ه 森(早稲田)、柴田、内田(東大)

ى 社会ネットワークサービスを基盤とした情報流通シミュレーションに向けて

Page 7: Web2 - Yutaka Matsuo's HomepageWeb2.0時代の個人とコラボレーション 松尾豊 産業技術総合研究所/GBRC社会ネットワーク研究所/ スタンフォード大学

7

13

基本データ

ه ユーザ数:363,819ه 紐帯数(マイミク数):3,813,702

ه 一人平均マイミク数 10.48人ه マイミクの最大値:1301

ى 2004.10以降は最大1000人ه コミュニティ数: 90,795個

ه 一人平均平均24.97個ه べき乗の係数γ=2.4ه 全体で1215のコンポネント(非連結成分)

ه 最大のものは360,801人。2番目に大きいものでも16人ه 全体のクラスタ係数 C: 0.328ه 最大コンポネントの平均パス長 L: 5.528

14

ه 複雑ネットワーク:スモールワールド、スケールフリーه 1998年~:主に統計物理、計算機科学の研究者

ه ⇔社会学者。”Invasion of the Physicists” by Bonacichه ノード間のパスが短く、クラスタ化されている

ه L: 平均パス長: characteristic path lengthى グラフ中の2ノード間の最短パス長の平均

ه C: クラスタ係数: clustering coefficientى 友達同士が友達である確率のノード全体の平均ى 友人数が0か1のノードは0として計算

ه Small Worldは、Cが大きいにも関わらず、Lが小さいグラフ

ここで少し、複雑ネットワークの話

Page 8: Web2 - Yutaka Matsuo's HomepageWeb2.0時代の個人とコラボレーション 松尾豊 産業技術総合研究所/GBRC社会ネットワーク研究所/ スタンフォード大学

8

15

Scale-freeネットワーク(Barabási 1999)

ه Webのリンク:

ه 他ページからのリンク数が k本のページが、ベキ分布(power law)に従う。

ه scale-free(尺度のない)ネットワーク

γ−≈ kkP )(

http://biomol.gifu-u.ac.jp/~molbio3/UnivMoneyNet2.pdf

16

さまざまな Small World, Scale-free

ه Small world, Scale-freeの例ه 俳優の共演グラフ、送電網、線虫の神経回路、WWW:直径がおよそ

19から21クリック、インターネット、食物連鎖、科学論文の共著関係、細胞の代謝ネットワーク、航空路線、自然言語文書における語の共起関係、難しい探索問題の変数間の依存関係、・・・

ه 自然界、人工物、社会におけるさまざまなネットワーク

ه 特徴ه 流行や伝染病が伝わりやすい。ه ランダムな攻撃に対する耐性、狙いをつけた攻撃に対する脆さ

ه 生成のモデルه 金持ちが金持ちになるモデル(優先選択モデル)など。ه しきい値モデル:ノードに適応度ه 遺伝子複製モデル:リンクを複製ه 最近隣接続モデル:友達を紹介

ه 日本での複雑ネットワークの研究ه 情報処理学会

ى 「ネットワーク生態学研究グループ」(主査:上林憲行先生)、2004-ه 日本ソフトウェア科学会

ى 「ネットワークが創発する知能研究会」(主査:中島秀之先生)、2005-ه ATR ネットワーク情報学研究所

Page 9: Web2 - Yutaka Matsuo's HomepageWeb2.0時代の個人とコラボレーション 松尾豊 産業技術総合研究所/GBRC社会ネットワーク研究所/ スタンフォード大学

9

17

基本データ

ه ユーザ数:363,819ه 紐帯数(マイミク数):3,813,702

ه 一人平均マイミク数 10.48人ه コミュニティ数: 90,795個

ه コミュニティにひとつでも所属:241,423人(全ユーザの66.4%)

ه マイミクの最大値:1301ه 2004.10以降は最大1000人

ه べき乗の係数 γ=2.4ه 全体で1215のコンポネント(非連結成分)

ه 最大のものは360,801人。2番目に大きいものでも16人ه 全体のクラスタ係数 C: 0.328ه 最大コンポネントの平均パス長 L: 5.528

スケールフリーネットワーク

c.f. Milgramの手紙の転送の実験: 5.5

18

ユーザ数の増加と、CとL

ه Cはほとんど変わっていない。

ه Lも少しずつしか大きくなっていない。

ه ~ log(n)ه L=0.295 ln(n) + 1.543 (決定係数0.963)

ه n=600万だと、6.147

Page 10: Web2 - Yutaka Matsuo's HomepageWeb2.0時代の個人とコラボレーション 松尾豊 産業技術総合研究所/GBRC社会ネットワーク研究所/ スタンフォード大学

10

19

mixiの中心性上位のネットワーク

ه 300人以上のマイミクを持つ99人ه コアのメンバー

ه C=0.382ه L=2.74ه なぜか2つのクリークが。

20

コミュニティの所属

ه 平均24.97個ه 平均66.40人

ه Zipf則ではない。

ユーザの所属コミュニティ数の分布

コミュニティのユーザ数の分布

コミュニティの時間とユーザ数

Page 11: Web2 - Yutaka Matsuo's HomepageWeb2.0時代の個人とコラボレーション 松尾豊 産業技術総合研究所/GBRC社会ネットワーク研究所/ スタンフォード大学

11

21

おしてだめならひいてみな

わけがわかりません

ダンシングスパイダーマン達

Macユーザー

美術館・博物館 展示情報

足あとが気になる人

空を見る人

名前覚えられません

めんどくさい

時間守れません

眠い

宇宙

世界遺産

面白ネタで笑おう

コミュニティ間の共起ネットワーク (上位200,Jaccard係数0.2超)

夜行性人間

22

ネタ画像

Mac系(7)

共通要素系(1)

モテタイ

TV系(6)

デザイン系(8)

ネコ

食べ物

性格

芸能人系(3)

面白ネタ系(4)

趣味系(5)

共通嗜好系(2)

Page 12: Web2 - Yutaka Matsuo's HomepageWeb2.0時代の個人とコラボレーション 松尾豊 産業技術総合研究所/GBRC社会ネットワーク研究所/ スタンフォード大学

12

23

1. 共通要素系• 酒好き、珈琲党、AB型、B型、関西人

2. 共通嗜好系• はてなダイアリー、プログレッシブロック、

めがね男子愛好会

3. 芸能人系• マシュー南、松本人志、ラーメンズ

4. 面白ネタ系• わけわからない、ダンシングスパイダーマン

ゼクシの加藤ローザ

5. 趣味系• そうだ京都行こう、GREE、映画愛好会、

吉祥寺フリークス、JAZZ、ファミコン

6. TV系• たもりクラブ、みうらじゅん、ピタゴラスイッチ

7. Mac系• Mac user、ipod user, MAC OSX user

8. デザイン系• Web design, Design News,

クリエータ&デザイナー

ブロックモデルによる分割

24

マイミクかコミュニティか

ه マイミクは、マイミクをたどって作られるのか、コミュニティをたどって作られるのか。ه 招待は除く。

ه 確率モデルه ランダムサーファーを過程ه あるマイミク関係がないとするときに、その両者をつなぐ最も短い(確率

的に高い)パスはマイミクか、コミュニティか。ه 人気のあるコミュや人を通っていくパスは長い。

ه 共通のコミュ経由の方が短い:615,397本ه 共通の友人経由の方が短い:2,789,554本

ه ⇒ コミュニティの友人形成機能は、直接の友人関係のそれの約1/4

Page 13: Web2 - Yutaka Matsuo's HomepageWeb2.0時代の個人とコラボレーション 松尾豊 産業技術総合研究所/GBRC社会ネットワーク研究所/ スタンフォード大学

13

25

コミュニティ内のマイミクの密度

ه CC: Community Connectednessه コミュニティ内のマイミク関係の密度

ه 例えば3人のコミュで3本マイミクがあれば1.0

26

SNSのコミュニティ生態系

ه トピックを起点にしたコミュニティه 数万人規模以上:

ى 万人に受け入れられやすいトピックのコミュニティ

ه 数百人~数千人規模:ى ⇒よりマニアックなコミュニティ

ه 数十人規模ى ⇒あまり小さくなりすぎるとつまらない。ى ⇒時間が経って大きくなると、よりマニアックなのができる。

ه リアルワールドを起点にしたコミュニティه 数人~数十人:

ى オフ会を中心としたリアルとオンラインのコミュニティ

ه 百人超:ى ⇒オフ会の機能が弱まってくる。停滞するか、トピックのコミュに昇華。

Page 14: Web2 - Yutaka Matsuo's HomepageWeb2.0時代の個人とコラボレーション 松尾豊 産業技術総合研究所/GBRC社会ネットワーク研究所/ スタンフォード大学

14

27

SNSの社会性

ه 経済合理性ه 紐帯の維持のコストがゼロه 作るコストも非常に低いه ⇔企業の取引ネットワーク、人的ネットワーク

ه かといって、ないわけではない。ه SNS内部の規範

ه マイミクを登録しすぎると書きたいことが書けないه 返事をしなければいけない

ه こういったSNSの内部にもつ社会性が、SNS独特の形成原理の要因となっている。

ه マイミク≠友人関係:それ自体、新しい関係の種類である

28

他のSNSの分析

Page 15: Web2 - Yutaka Matsuo's HomepageWeb2.0時代の個人とコラボレーション 松尾豊 産業技術総合研究所/GBRC社会ネットワーク研究所/ スタンフォード大学

15

29

SNSの分析

ه L. Adamicによる分析(2002年)ه 最も早い時期のSNSの研究

ه NexusというSNSه スタンフォードの学生2470人、1万本の紐帯

平均パス長ى L:4.0, クラスタリング係数 C:0.17

ه mixiよりもCが小さい。ى Mixiの2500人時点:L=3.951, C=0.394⇒ى mixiのシステムとしての優秀さ

⇒ى さまざまなSNSで比較すれば、特徴が分かりそう。

30

SNSのコミュニティ

ه Live Journalのコミュニティの分析(2005)ه Kleinbergのグループ

ه 875のコミュニティ、のべ14,488ユーザ

ه どういう要素が、ユーザをコミュニティに入らせる要因になるか?

Group Formation in Large Social Networks: Membership, Growth, and Evolution,L. Backstrom, D. Huttenlocher, J. Kleinberg, and X. Lan, SIGKDD2006

Page 16: Web2 - Yutaka Matsuo's HomepageWeb2.0時代の個人とコラボレーション 松尾豊 産業技術総合研究所/GBRC社会ネットワーク研究所/ スタンフォード大学

16

31

Group Formation in Large Social Networks: Membership, Growth, and Evolution,L. Backstrom, D. Huttenlocher, J. Kleinberg, and X. Lan, SIGKDD2006

そのコミュに入っている友人が多いほど入りやすい

そのコミュに入っている友人同士がお互いに友人であるほど入りやすい

仲間内で閉じている(closedなトライアドの比率が高い)

コミュニティほど入りにくい

32

コミュニティの推薦

ه Orkutの推薦:19000コミュニティ、18万ユーザ

ه どのようなコミュニティが受け入れられるか。

ه ユーザのすでに入っているコミュニティと「近い」コミュニティを推薦

ه さまざまな計量尺度を比較ه Jaccard, L1/L2ノルム、相互情報量、IDF、対数オッズなど

ه L2ノルム(コサイン類似度)が良い: |X ∩ Y| / √|X| |Y|

Evaluating similarity measures: a large-scale study in the orkut social networkE. Spertuxs, M. Sahami, O. Buyukkokten, SIGKDD 2005

Page 17: Web2 - Yutaka Matsuo's HomepageWeb2.0時代の個人とコラボレーション 松尾豊 産業技術総合研究所/GBRC社会ネットワーク研究所/ スタンフォード大学

17

33

FOAFのネットワーク

ه Friend Of A Friendه knowsのプロパティで知り合い関係を記述ه Swoogle:Semantic Webの検索エンジン

ه OWLやRDFをクロール。検索できる。ه Maryland大:Tim Finin, Li Ding(いまはスタンフォード)

ه 2005年ه 26,788人、15,630個のknowsの関係

ه 多くのユーザは孤立、クラスタは842個、最大のものは7111人ه FOAFが経済合理性のある社会ネットワークになるのは、まだ先では。

ه 知り合いを登録しすぎる⇒何らかのマイナスの作用ه そのためには、もっとFOAFが活用される必要がある。

34

SNSの分析のまとめ

ه スーパーノードが存在する

ه 現実世界との違いه コスト:時間、空間

ه 独自の社会性を持つ。

ه 現実世界との対応を考えるのは無意味?

ه 一方で、ロングテール部分の重要性ه 周りの人の日記、ちょっとしたコミュニケーション

Page 18: Web2 - Yutaka Matsuo's HomepageWeb2.0時代の個人とコラボレーション 松尾豊 産業技術総合研究所/GBRC社会ネットワーク研究所/ スタンフォード大学

18

35

ブログの分析

36

ブログにおける情報の伝播

ه ブログの研究

ه 2006年~:TREC(米国NISTが開催)のブログトラック

ه トピックのバーストの発見、影響力の高いブログのランキング、ブログユーザのプロファイリングなど

ه L. AdamicらのPolitical blogの研究

ه 古川らの研究

ه E. Adarらの研究

Page 19: Web2 - Yutaka Matsuo's HomepageWeb2.0時代の個人とコラボレーション 松尾豊 産業技術総合研究所/GBRC社会ネットワーク研究所/ スタンフォード大学

19

37

ه blogのdirectoryからpolitical blogのリストを抽出ه eTalkingHead, BlogCatalog, CampaignLine, and Blogarama

ه そのblogのfront pageからリンクされてるblogも取る。ه Blog roll + recent posts

ه 1494 blogs: 759共和党、 735民主党ه 平均 共和党 15.1リンク、 民主党 13.6リンク

共和党民主党

Orange goes from liberal to conservativePurple goes from conservative to liberal

The Political Blogosphere and the 2004 U.S. Election: Divided They BlogLada Adamic and Natalie Glance, LinkKDD-2005, 2005

38

エントリ中でどのくらいURLが言及されているか

The Political Blogosphere and the 2004 U.S. Election: Divided They BlogLada Adamic and Natalie Glance, LinkKDD-2005, 2005

Page 20: Web2 - Yutaka Matsuo's HomepageWeb2.0時代の個人とコラボレーション 松尾豊 産業技術総合研究所/GBRC社会ネットワーク研究所/ スタンフォード大学

20

39

ブログのネットワーク

ه Relationه citation: エントリ中で他のblogのURLを引用

ه Trackback: トラックバック

ه blogroll: トップページからのリンク

ه comment: 他のblogへの書き込み

ه (invitation: システムの招待)ه Readership

ه だれがだれのblogを読んでいるか

40Doblog内のユーザのネットワーク(古川ら2006)

trackback

blogroll

comment

readership

Page 21: Web2 - Yutaka Matsuo's HomepageWeb2.0時代の個人とコラボレーション 松尾豊 産業技術総合研究所/GBRC社会ネットワーク研究所/ スタンフォード大学

21

41

各ネットワークの特徴(doblog)

Readership関係を予測するlink予測

Weblog usage mining, T. Furukawa et al. 2007

コメントネットワークはCが高い(知り合い同士で固まりやすい)

コメント⇔blogrollCitation⇔トラックバック

のネットワークは比較的似ている

42

Blog上での情報の伝播

ه E. Adarらの研究(2004)ه 情報がどのように伝わるか

ه Giant MicrobesというぬいぐるみのURLの言及ى SVMによる分類で、URLを言及してなく

ても、91%の精度で予測できる。

ه これがどのように広まっているか。

Page 22: Web2 - Yutaka Matsuo's HomepageWeb2.0時代の個人とコラボレーション 松尾豊 産業技術総合研究所/GBRC社会ネットワーク研究所/ スタンフォード大学

22

43

Amazon.comでの情報の伝播

ه Amazon.comでの推薦

ه B. Hubermanら(HP研究所)

ه 推薦すると安くなる

ه 誰が誰に推薦したか。誰が買ったか。

医療の本マンガ

The Dynamics of Viral Marketing, Jurij Leskovec, Lada A. Adamic, Bernardo A. Huberman, 2005

44

推薦

ه Amazon.comでの推薦:知見ه 2人の間でインタラクションが多くなると、推薦が効かなくなるه 推薦を受け入れる確率は、推薦してくれる人の数が増えると急激

に増えるがすぐに飽和ه 次数の高いスーパーノードがあるが、影響力には限界ه 推薦の効果は、カテゴリや値段に影響される

ه 他の関連研究ه ユーザの``network value’’の計算(P. Domingosら, 2002)

ى Epinions:商品のレビューサイト

ى その人がいることで、他の人の購買確率がどのくらい上がっているか

ه @cosmeにおける分析(山本 晶, 2006)ى お気に入りメンバーを用いたブランド選好の予測、

レコメンデーションエージェント

Page 23: Web2 - Yutaka Matsuo's HomepageWeb2.0時代の個人とコラボレーション 松尾豊 産業技術総合研究所/GBRC社会ネットワーク研究所/ スタンフォード大学

23

45

Blog、情報伝播の分析のまとめ

ه Blog, Amazon.com, コミュニティサイト…

ه ユーザが情報を伝播させる力を持つ

ه ネットワークとしてつながった個々が影響しあうه 誰が何を誰にどのように影響を与えているのか。

ه そこに一般的な法則はあるのか。

ه ユーザにとって心地の良い、効率的な情報環境とは?

ه それを実現するには?

46

ソーシャルブックマークの分析

Page 24: Web2 - Yutaka Matsuo's HomepageWeb2.0時代の個人とコラボレーション 松尾豊 産業技術総合研究所/GBRC社会ネットワーク研究所/ スタンフォード大学

24

47

研究の動向

ه Collaborative Web Tagging Workshop (WWW2006)ه 初めてのSocial taggingのワークショップ

ه S. Golder (HP研究所)ه Deliciousのタグ9万の分析

ه タグの安定性、タグの分類

ه タギングの研究ではコミュニティの中心

ه P. Mika (Free大学、オランダ)ه ISWC2005(International Semantic Web conference) Best paperه タグのネットワーク:ユーザの共通性、インスタンスの共通性

48

Scott Golder and Bernardo A. Huberman. (2006). "Usage Patterns of Collaborative Tagging Systems." Journal of Information Science

Page 25: Web2 - Yutaka Matsuo's HomepageWeb2.0時代の個人とコラボレーション 松尾豊 産業技術総合研究所/GBRC社会ネットワーク研究所/ スタンフォード大学

25

49

タグの表現

ه 3つ組み: (u, t, i)ه Affiliation networkه ユーザ/インスタンス/タグのネットワークが描ける

ه タグのネットワーク:オントロジの抽出ه ユーザの共通性

ه インスタンスの共通性

50

Deliciousのタグネットワーク

P.Mika: Ontologies are us: A unified model of social networks and semantics, ISWC2005

51852 unique annotations of 30790 URLs, by 10198 persons using 29476 unique tags.

Page 26: Web2 - Yutaka Matsuo's HomepageWeb2.0時代の個人とコラボレーション 松尾豊 産業技術総合研究所/GBRC社会ネットワーク研究所/ スタンフォード大学

26

51

ユーザの共通性か、インスタンスの共通性か

ه インスタンス(URL)の共通性:O_ciه ユーザの共通性:O_ac

P.Mika: Ontologies are us: A unified model of social networks and semantics, ISWC2005

52

他のSBの研究

ه Flickrのタグの分析ه HT06, Tagging Paper, Taxonomy, Flickr, Academic Article,

ToReadCameron Marlow, Mor Naaman, danah boyd, Marc Davis, Hypertext 2006

ه タグのオーバーラップ、時系列変化など。ه Position Paper, Tagging, Taxonomy, Flickr, Article, ToRead

(WWW2006 workshop)

ه 丹羽ら(東京大学)の研究ه はてなの5800人分のデータ

ه タグ間の親和度を出しクラスタリング。ユーザとタグの親和度をもとに、タグクラスタとの親和度を出す。

Page 27: Web2 - Yutaka Matsuo's HomepageWeb2.0時代の個人とコラボレーション 松尾豊 産業技術総合研究所/GBRC社会ネットワーク研究所/ スタンフォード大学

27

53

SBの問題:多義語

ه 多義語ه Polysemy: 互いに関係のない複数の意味がある。

ه Hononymy: 互いに関係のある複数の意味がある。

ه 同義語ه Synonym: これはsocial taggingでは解消される場合が

多い。ى Cf) SF, san francisco, SanFrancisco, …

54

ه カテゴリごとにタグの出現確率を見る

Xian Wu, Lei Zhang, Yong Yu: Exploring Social Annotations for the Semantic Web, WWW2006

Page 28: Web2 - Yutaka Matsuo's HomepageWeb2.0時代の個人とコラボレーション 松尾豊 産業技術総合研究所/GBRC社会ネットワーク研究所/ スタンフォード大学

28

55

SBの学術的意義とまとめ

ه タギングと語彙の形成: Emergent Semanticsه ソシュール:一般言語学講義

ه ラングとパロールى パロール:個人の言語実践

ى ラング:共同体で用いられるようになったもの

ه ヴィトゲンシュタイン(後期)ه 言語ゲーム:言語は使用によってのみ意味が決まる

ه 今まで目に見えなかった言語現象・社会現象が、Webというプラットフォームで可視化され、強化されている。

56

検索エンジン、そして今後のWeb技術

Page 29: Web2 - Yutaka Matsuo's HomepageWeb2.0時代の個人とコラボレーション 松尾豊 産業技術総合研究所/GBRC社会ネットワーク研究所/ スタンフォード大学

29

57

検索エンジンの上にくるもの

ه 検索エンジンをモジュールと見る研究ه 同義語、関連語の把握(Turney 2001): TOEFLのsynomym問題

ه Which word (A, B, C, or D) is most like ...... prominent?

A. battered, B: ancient, C: mysterious, D: conspicuous

... zenith?A. completion, B: pinnacle, C: outset, D: decline

... flawed? A. tiny, B: imperfect, C: lustrous, D: crude

ه 検索エンジンを使う。ى “prominent battered” “prominent ancient” “prominent mysterious” “prominent

conspicuous”ى 多いのが答えだろう。

ه 相互情報量を使ったときが最も良くて、73.75%の正答率になった。(non-English speakingの人は平均で64.5%)

Peter D. Turney: Mining the Web for Synonyms: PMI-IR versus LSA on TOEFL. ECML 2001: 491-502

58

検索エンジンを使った研究

ه 検索エンジンを使ったオントロジの構築、関係抽出の研究は多数ه 言語処理系、人工知能系、WWW、セマンティックウェブ、、、ه Frequency estimates for statistical word similarity measures: Egidio L.

Terra and Charles L.A. Clarke, HLT/NAACL 2003, 2003.ه Measuring Semantic Similarity by Latent Relational Analysis, Peter D.

Turney , IJCAI-05, 2005ه Gimme' the context: context-driven automatic semantic annotation with

C-PANKOW, Philipp Cimiano, Gunter Ladwig, and Steffen Staab, WWW2005, 2005

ه Extracting Relations in Social Networks from Web using Similarity between Collective Context: Junichiro Mori, Takumi Tsujishita, Yutaka Matsuo, and Mitsuru Ishizuka, ISWC06, 2006

ه …ه Search engine as an enabler of higher-level application – Implicit

Search and Information Supplyه WWW2007 Search trackのCFPより

Page 30: Web2 - Yutaka Matsuo's HomepageWeb2.0時代の個人とコラボレーション 松尾豊 産業技術総合研究所/GBRC社会ネットワーク研究所/ スタンフォード大学

30

59

研究に関するさまざまな情報がWeb上から入手可能個人の研究の紹介、発表文献、学会のプログラム、プロジェクトやグループのホー

ムページ、助成金の情報・・・

融合領域、産学官連携の重要性

検索エンジンを使って、研究者のソーシャルネットワークを抽出

可視化システム、検索システム

AI研究者、情報系研究者、ロボット分野の研究者・・・

JSAI2003, JSAI2004, JSAI2005, JSAI2006, WISS05, UbiComp2005, UbiComp2006: コミュニケーション支援

目的

自分になじみの少ない研究分野の概観、研究者の検索

共同研究の促進、連携の効果(変化の様子)

Polyphonet:ソーシャルネットワークマイニング (+SNS, SB)

Y. Matsuo, J. Mori, M. Hamasaki, H. Takeda, T. Nishimura, K. Hasida and M. Ishizuka,POLYPHONET: An advanced social network extraction system, Proc. WWW 2006

60

Page 31: Web2 - Yutaka Matsuo's HomepageWeb2.0時代の個人とコラボレーション 松尾豊 産業技術総合研究所/GBRC社会ネットワーク研究所/ スタンフォード大学

31

61

関係の抽出から知識処理へ

ه S. Brin: Extracting patterns and relations from the world wide web (1998)ه 本のタイトル、著者などの関係をWebから取り出すにはどうすればよい

かه パターンと関係を両方見つけなる

ه エンティティの関係こそが知識の基礎であるه AIのさまざまな知識表現、推論体系ه Webをフィールドとした、より進んだAIの処理

ه 最近の研究ه さまざまな対象の関係を見つける。検索エンジンを使った関係の見つけ

方を学習する。Googleのヒット件数をロバストに推定する。ه SNSとSBをつなげたEmergent Semanticsه Wikipediaからの関係(RDF)抽出、など。。

62

まとめ

Page 32: Web2 - Yutaka Matsuo's HomepageWeb2.0時代の個人とコラボレーション 松尾豊 産業技術総合研究所/GBRC社会ネットワーク研究所/ スタンフォード大学

32

63

Web2.0における社会ネットワーク

ه 社会ネットワーク分析、複雑ネットワーク

ه 2つのネットワークه Adjacent network, Affiliation network

ه Web2.0の社会ネットワーク

ه SNSの社会ネットワーク形成原理

ه Blogのネットワークと情報流通

ه SBのネットワークとEmergent Semanticsه 検索エンジンと知識の構築

64

Web1.0とWeb2.0の違い:

社会ネットワークからの視点

ه 以前はه 人のつながりは、情報の流通チャネル+価値・意味の共有

ه Webによってه 情報の探索は検索エンジンで可能になった。(Web 1.0)ه 価値や意味の共有(つながり、興味の共通性を見つける)が可能

になった。(Web 2.0)

ه 要するに、ه Adjacent network: コミュニケーションのチャネル(=価値の共有)

ه Affiliation network: 価値の共有

Page 33: Web2 - Yutaka Matsuo's HomepageWeb2.0時代の個人とコラボレーション 松尾豊 産業技術総合研究所/GBRC社会ネットワーク研究所/ スタンフォード大学

33

65

まとめ

ه ネットワーク化する社会ه 意味や価値のつながり

ه 関係性の織り成すネットワーク構造。ネットワーク自身が及ぼす影響

ه Web2.0時代の個人とコラボレーションه 増強された個人と集合知

ه つながりによるユーザモデル(ユーザプロファイル)の補完、探索能力の強化

ه 匿名の大多数による集合知とのマッチング

ه ⇒コミュニティベースの情報流通