hiroshima.r #1 1-3 lt

を言語・言語教育研究でどう活用できるか

@sakaue

2011-06-17 HiRoshima.R #1@

1Saturday, June 18, 2011

Agenda

1. R で検定 ―カイ二乗検定―

2. R で英語データを処理

3. R で日本語データを解析

Agenda

言語現象を数値データ＋検定から捉えてみたい

を使う経緯言語研究で

t 検定

カイ二乗検定パワーアナリシス

分散分析

共分散分析

判別分析

主成分分析

クラスカル・ウォリス検定

符号検定

マクマネー検定

因子分析

で「カイ二乗検定」

カイ二乗検定• 独立性の検定のために使う（連関の有無）• （例）数学が好き嫌いと統計の好き嫌いの間に有意な連関があるか

• （例）あるコーパス中の表現Aと表現Bの頻度の差

• ざっくり言えば，期待度数と観測度数のズレが偶然出ちゃったかどうかを調べる

事例: 接続詞 “however” の生起位置の比較

文頭文中文末合計頻度 109 347 8 493

[文頭] However, ....

[文中] ..., however, ....

[文末] ..., however.

> freq <- c(109,347,8)> chisq.test(freq,correct=FALSE)

Chi-squared test for given probabilities

data: freq X-squared = 391.7371, df = 2, p-value < 2.2e-16

# 手作業なら，カイ二乗分布表の自由度2のところを確認する# http://homepage2.nifty.com/nandemoarchive/toukei_kiso/t_F_chi.htm

生起位置の比較のためにカイ二乗検定を実行

言語現象を数値データ＋検定から捉えてみよう！

を使って

Agenda

大規模コーパスを効率よく処理せねば！

を使う経緯言語データ処理で

主なデータ処理手順1.　データを読み込む2.　データを切り出す3.　データを分解する4.　データを揃える5.　数値を求める6.　データを書き出す

1. データを読み込む• その１• ns <- scan("ns_raw.txt", what="character")

• その２• ns <- scan(choose.files(), what="char")

• ファイルのパスに注意（トラブル多発地域）• getwd() による作業ディレクトリの確認を!

2. データを切り出す

•head(変数名, 要素数)

•tail(変数名, 要素数)

•先頭/末尾部分を指定した要素分の表示

2. データを切り出す•grep (“文字列”, 変数名)

• 要素の番号のみを返す。> grep("school", ns)

•変数 ns から、要素のみ取り出し。> ns[grep("school", ns)]

• 変数名[要素番号]

• > ns[100]

• 100 番目の要素のみ取り出し

• > ns[c(98,99,100)]

• 98, 99, 100 番目の要素のみ取り出し• c 関数に注意

2. データを切り出す

3. データを分解する• 単語をバラバラにする•strsplit (変数名, “セパレータ”)

> strsplit (ns, " ")

•ns の要素をスペースで分割する•要素ごとに処理される•つまり、list になっている状態

3. データを分解する•リストの要素をバラバラにする

> ns_list <- strsplit (ns, " ")

•分割した結果を ns_list という変数に代入

> unlist (ns_list)

• ns_list のリストの要素をバラバラにする。• unlist(strsplit(ns, " "))でも同じ結果。

4. データを揃える

ばらばらにした単語をソートするsort (変数名)

> ns2 <- sort(unlist(ns_list))

4. データを揃える

unique (変数名)

> ns3 <- unique (sort(unlist(ns_list)))#ソートした単語をタイプ(異なり語)にまとめる。

# sort(unique(unlist(ns_list)))でも結果は同じ。

5. 数値を求めるtable (変数名)

> ns4 <- table(unlist(strsplit (ns, " ")))

#単語をバラバラにした後で table を使用。# 総語数を求めることになる

5. 数値を求める

> ns5 <- length(unlist(strsplit (ns, " ")))

# これでも総語数を求めることになる

5. 数値を求める

> ns6 <- length(unique(sort(unlist(strsplit (ns, " ")))))

# これで異なり語数を求めることになる# ここまで来ると間違えるので変数利用が不可欠

> ns7 <- unique(sort(unlist (ns_list)))> length(ns7)

6. データを書き出す> write.table(ns4, file=“freq1.txt”)> write.table(ns5, file=“freq2.txt”)> write.table(ns6, file=“freq3.txt”)

# getwd() で表示されるディレクトリに保存# Excel 等で読み込んで，再処理・再加工

言語データを効率よく処理してしまおう！

を使って

Agenda

テキストマイニングが流行り？

•テキストに含まれる特徴を見つけ出す•ユーザーの趣向・動向調査

•文章を書いた人の推定・分類

•自由記述アンケート

•授業アンケート... orz

日本語データの分析を助けてくれる

RMeCab を紹介

RMeCabとは•石田基広氏が開発したパッケージ

•R から MeCab を呼び出して日本語のテキストを解析させる

•解析結果をも R で出力してくれる素晴らしいプログラム

デモ一覧•RMeCabText() : ファイル解析

•RMeCabFreq() : 頻度集計

•Ngram() : N-gram 解析

•collocate() : 共起関係の分析

参考文献紹介

1,785円 3,780円2,940円

言語データを効率よく処理してしまおう！

を使って

ご静聴ありがとうございました

twitter: @sakaue

e-mail: tsakaue<AT>hiroshima-u.ac.jp

hiroshima.r #1 1-3 lt

strsplit ns

rmecab r mecabrsaturday

list unlist ns

ns nsgrepschool

list unliststrsplitns

falsechisquared test

freq chisq

Technology

crossover the others · awd high country awd premier awd lt...

lt-591 0818 3 - juki · lt-591 lt-591 single needle,...

-nc 12- pot sta 840+00.00 -nc 12- pt sta 838+93 · lt lt lt...

rg of public... · •org chart lt lt lt sgt x 3 sgt x 3...

kaye labwatch® lt...chapter 1. installing the diva...

preliminary results of subsurface exploration and ... ·...

c. swpot i 1953 - osti.gov · 2-~1anc commander 1-file co 1...

industrial air broshure - vesko air...

lokasi - emerald bintaro hours security with cctv indoor &...

lt160 isagraf v3 - leroy automation · 2019. 3. 1. ·...

oto - standard signal timing tables 2 2/ped 3 4 4/ped 5 6...

catalog st 50 english, chpt. 1 - siemens global website ·...

0150 (5) page 1/2 - mecadata...beverly 300i beverly 125i...

lt-q282a lt-q562a lt-qb22a - samsung us · pdf filep =40...

prescolite litetrac lt-3 1989

descendants and ancestors of lt. edward...

freitag: lt: inclusive command 1.olympische spiel...

specification hanaro2 40fhd psiv231i01a...

lt 1 reviewer

metronode lt / lt-s - launch 3 telecom lt / lt-s -...