attentive listening system generating various kinds of

自律型アンドロイドERICAにおける多様な聞き手応答を用いた傾聴対話

Attentive Listening System Generating Various Kinds of Responses

for the Autonomous Android ERICA

井上昂治 ∗ Divesh Lala Pierrick Milhorat 石田真也趙天雨高梨克也河原達也

Koji Inoue Divesh Lala Pierrick Milhorat Masanari Ishida Tianyu Zhao

Katsuya Takanashi Tatsuya Kawahara

京都大学大学院情報学研究科Graduate School of Informatics, Kyoto University

Abstract: We demonstrate an attentive listening system operating in the autonomous android

ERICA. Much attention has been paid to developing attentive listening systems which are capable

of talking with people who want to talk with someone. Attentive listening systems need to let

a user talk more by expressing adequate behaviors as a listener. Our attentive listening system

is designed to generate a various kinds of responses with several dialogue modules as follows:

Backchannels are generated according to the prosodic feature extracted from user utterances. This

module predicts the timing of backchannels on every time frame so that the system is capable of

generating backchannels right after the end of user utterances. Dialogue act tag is identified on the

user utterance from the automatic speech recognition result. If the dialogue act tag is a statement,

the system generates four kinds of statement responses based on a focus word or a predicate of

the statement: elaborating questions on the focus word or the predicate, repeating the focus word,

and lexical responses. If the dialogue act tag is a question, a system response is derived from a

question-answer database.

1 はじめに

スマートフォンやスマートスピーカ，会話ロボットなど，日常の多くの場面で対話システムが実用化されている．対話の種類として，情報検索などのタスク指向型だけでなく，雑談などの非タスク指向型も扱われるようになった．対話システムの新たな実用として，傾聴対話が検討されている [1, 2, 3]．傾聴対話では，相手の話に耳を傾け，時折質問などをすることで相手の話を引き出すことが求められる．傾聴対話システムを導入することで，話を聞いてもらいたいという欲求を満たすだけでなく，話をすることによる認知機能の維持も期待される [4]．我々の研究グループでは，自律型アンドロイド ER-

ICA（図 2）の音声対話に関する研究・開発を進めている [5]．人間のような見かけを備え，マルチモーダルな

∗連絡先：京都大学大学院情報学研究科知能情報学専攻　　　　　　京都市左京区吉田本町　　　　　　 E-mail: [email protected]

インタラクションを実現することで，他の会話ロボットやエージェントにはない，人間らしい存在感を伴った対話の実現を目指している．対話の種類として，日常のすべてを包含することは困難であるため，特定の社会的役割が与えられた状況を想定している．本稿では，既に述べた傾聴対話に焦点をあてる．傾聴対話を実現するためには，相槌や質問などの多様な聞き手応答を生成しなければならない．Denらによる相槌表現の形態の分類 [6]では，応答系感動詞，感情表出系感動詞，語彙的応答，評価応答，繰り返し，共同補完が挙げられている．我々は，これらのうち，応答系感動詞，感情表出系感動詞，語彙的応答，繰り返し，さらに焦点および述語に関する掘り下げ質問を加えた，聞き手応答の生成について研究を進めてきた [7, 8, 9]．これらの対話モジュールを統合することで，アンドロイドERICAによる傾聴対話を実現した．

人工知能学会研究会資料 SIG-SLUD-B508-11

－ 45 －

位置推定

音源定位音声強調

マイクロホンアレイ

Kinect v2 ユーザ位置

音源位置音声認識 (Julius)

韻律特徴抽出

強調音声(音声認識結果)

(韻律特徴)

音声処理

ターンテイキング制御

質問応答DB検索

平叙文に対する応答生成 (3.1節)談話行為推定

焦点抽出焦点

談話行為タグ

応答生成言語理解

相槌

• 焦点 / 述語の掘り下げ質問• 繰り返し応答• 語彙的応答

質問応答

(音声認識結果)

(韻律特徴)

出力

相槌生成 (3.2節)

図 1: システム構成

図 2: 自律型アンドロイド ERICA

2 システム構成

システムの全体構成を図 1に示す．入力装置はマイクロホンアレイと Kinect v2である．これらのセンサはアンドロイド本体ではなく，ERICAの周囲に配置する．各処理は主に３つに類別できる．はじめに，音声処理について述べる．マイクロホン

アレイに入力されるマルチチャネル音声信号から，音源方向の定位，およびその方向の音声のみを強調する．また，Kinect v2により三次元空間内でのユーザの位置を追跡して，音源定位結果と比較することで，ユーザの発話区間を検出する [5]．音声強調および検出した発話区間をもとに，音声認識 [10]および韻律特徴抽出[11]を行う．次に，言語理解について述べる．音声認識結果から，

ユーザ発話内で焦点となる単語を抽出する. 各単語の品詞情報などを特徴量として，条件付確率場（CRF）に

より各単語が焦点になり得る確率を推定する [12]．同時に，ユーザ発話の談話行為を推定する．ここでは，ユーザ発話を，質問，情報提供，返答，その他の４種へ分類する．推定モデルは再帰型ニューラルネットである[13]．最後に，応答生成について述べる．ユーザ発話の談

話行為が情報提供（平叙文）の場合には，平叙文に対する応答生成モジュールを用いる．ここでは，ユーザ発話の焦点の有無と疑問詞との関係によって４種の応答を生成する．また，談話行為が質問の場合には，質問応答データベースから応答を検索する [14]. これらはユーザが発話権をシステムへ譲った場合に動作する．ここでは一定区間（1秒）以上のポーズがあれば，発話権がユーザからシステムへ移ったとみなす．また，ユーザ発話の途中では，韻律特徴をもとに相槌のタイミングを予測して生成する．平叙文に対する応答生成および相槌生成のモジュールの詳細は次節で述べる．

3 多様な聞き手応答生成

傾聴対話を実現するためには，質問や繰り返し，相槌などの多様な聞き手応答の生成が重要である．ここでは，前節の応答生成における平叙文に対する応答生成と相槌生成のモジュールについて詳述する．

3.1 平叙文に対する応答生成

傾聴対話では，話し手であるユーザは自身の経験や感想などを話す．談話行為の観点では，質問ではなく情報提供（平叙文）がほとんどである．質問の場合と

－ 46 －

焦点単語が抽出できた

「疑問詞＋焦点」のN-gram確率 > 閾値

「疑問詞＋述語」のN-gram確率 > 閾値

焦点に関する掘り下げ質問

繰り返し

述語に関する掘り下げ質問

語彙的応答

YES：「カレーを食べました」（焦点：カレー） YES

YES

NO：「昨日遊びました」（焦点：なし）

NO

NO

「どんなカレーですか？」

「カレーですか」

「どこで遊んだのですか？」

「そうですか」

図 3: 平叙文に対する応答生成の流れ

は異なり，平叙文に対しては，許容される応答に幅がある．応答の例として，平叙文の内容に関する掘り下げ質問，「よかったですね」などの評価応答，「そうですか」などの語彙的応答が挙げられる．ただし，ユーザが話を継続しやすい応答を選択することが望ましい．また，多様な話題に対応する汎用性も求められる．我々は，話の焦点という観点から聞き手応答の生成

に取り組んでいる．応答の種類として，焦点単語についての掘り下げ質問，繰り返し応答，述語についての掘り下げ質問，語彙的応答を備えている [8]．本システムにおける平叙文に対する応答生成の流れ

を図 3に示す．焦点単語がある場合には，「どんな」，「どの」，「なんの」，「どこの」，「いつの」，「だれの」，などの11種の疑問詞と焦点単語のペアについて，そのN-gram

確率を算出する．閾値以上で最大の N-gram確率をもつペアに基づき，焦点に関する掘り下げ質問を生成する．いずれのペアの N-gram確率も閾値を下回る場合には，焦点単語の繰り返し応答を生成する．焦点単語がない場合には，述語に着目する．疑問詞と述語のペアについて，焦点単語の場合と同様に，そのN-gram確率を参照する．ただし，候補となる疑問詞は，上記に加え，格助詞の多様性を考慮して，33種とした．いずれのペアの N-gram確率も閾値を下回る場合には，語彙的応答を生成する．N-gram確率のモデルは，多様な話題に対応するために，現代日本語書き言葉均衡コーパス（BCCWJ）の全データから学習したものを使っている．

3.2 相槌のタイミング予測

相槌は，相手の話の継続や受容を示す聞き手の反応であり，傾聴対話において重要な要素である．システムが相槌をうつためには，適切なタイミングおよび形態を予測しなければならない．タイミング予測には，主に韻律特徴が用いられてきた [15, 16]．形態予測には，韻

律および言語特徴を用いた手法を提案している [7]．ここでは，タイミング予測について述べる．他の多くのシステムでは，ユーザ発話の終了を検出する毎に，相槌をうつか否かを判断している．これに対して，すべての時間フレームにおける予測を行う [9]．具体的には，100ミリ秒毎に，その時点から将来の 500ミリ秒以内に相槌をうつか否かをロジスティック回帰で予測する．ロジスティック回帰の学習には，相談対話コーパスを用いた [7]. 特徴量は，基本周波数（F0）およびパワーについての，平均，最大，最小，レンジなどの統計値である．この予測により，ユーザ発話の終了を待たずとも，相槌をうつことが可能となる．実際に，第三者による聴取実験を実施して，ユーザ発話毎に相槌を予測および生成した場合と比較した．その結果，相槌の自然さ，共感を示しているか，このカウンセラーと話したいか，という項目において，全時間フレームで予測する方法が，ユーザ発話毎に予測する方法よりも有意に高かった．また，全時間フレームで予測する方法と，実際にカウンセラーがうった相槌に基づき生成した場合とを比べると，第三者評価はほとんど変わらなかった. このことから，的確かつ早いタイミングでの相槌生成が重要であることが示唆される．

3.3 対話例

対話例を以下に示す．また，実際に ERICAとユーザが対話する様子を図 4に示す．以下では，Uはユーザ，Eは ERICAの発話をそれぞれ表す．

U1 昨日はカレーを食べました

E1 どんなカレーですか？（焦点の掘り下げ質問）

U2 インドカレーです

E2 うん（相槌）

U3 とても美味しかったです

E3 そうですか（語彙的応答）

－ 47 －

ユーザ ERICAKinect v2

マイクロホンアレイ

図 4: 対話の様子

U4 その後，みんなで遊びました

E4 どこで遊んだのですか？（述語の掘り下げ質問）

U5 すぐ近くなんですが

E5 うん（相槌）

U6 公園で野球をしました

E6 野球ですか（繰り返し）

4 おわりに

本稿では，自律型アンドロイド ERICAにおける傾聴対話システムについて述べた．傾聴対話を実現するためのモジュールとして，平叙文に対する応答と相槌の生成について特に述べた．平叙文に対する応答生成では，ユーザ発話の焦点の有無と疑問詞との関係に応じて，焦点に関する掘り下げ質問，繰り返し，述語に関する掘り下げ質問，語彙的応答のいずれかを生成する．相槌生成では，すべての時間フレームで予測をすることで，自然かつ有効なタイミングでの生成を試みた．今後は，システム全体の評価として，被験者実験による定量評価を予定している．

謝辞

本研究は，JST ERATO 石黒共生ヒューマンロボットインタラクションプロジェクト JPMJER1401，ならびに JSPS科研費 15J07337の支援を受けて実施した．

参考文献[1] Marc Schroder, Elisabetta Bevacqua, Roddy Cowie,

Florian Eyben, Hatice Gunes, Dirk Heylen, Mark terMaat, Gary McKeown, Sathish Pammi, Maja Pan-tic, Catherine Pelachaud, Bjorn Schuller, Etienne

de Sevin, Michel Valstar, and Martin Wollmer. Build-ing autonomous sensitive artificial listeners. IEEETrans. on Affective Computing, Vol. 3, No. 2, pp.165–183, 2012.

[2] Martin Johansson, Tatsuro Hori, Gabriel Skantze,Anja Hothker, and Joakim Gustafson. Making turn-taking decisions for an active listening robot for mem-ory training. In Proc. ICSR, pp. 940–949, 2016.

[3] 下岡和也, 徳久良子, 吉村貴克, 星野博之, 渡部生聖. 音声対話ロボットのための傾聴システムの開発. 自然言語処理, Vol. 24, No. 1, pp. 3–47, 2017.

[4] 大武美保子. 認知症の予防と支援に役立つ人工知能と高齢者とともにつくる認知症予防支援サービスの開発. 人工知能, Vol. 31, No. 3, 2016.

[5] Koji Inoue, Pierrick Milhorat, Divesh Lala, TianyuZhao, and Tatsuya Kawahara. Talking with erica, anautonomous android. In Proc. SIGDIAL, pp. 212–215, 2016.

[6] Yasuharu Den, Nao Yoshida, Katsuya Takanashi, andHanae Koiso. Annotation of japanese response to-kens and preliminary analysis on their distributionin three-party conversations. In Proc. Oriental CO-COSDA, pp. 168–173, 2011.

[7] Tatsuya Kawahara, Takashi Yamaguchi, Koji Inoue,Katsuya Takanashi, and Nigel G Ward. Predictionand generation of backchannel form for attentive lis-tening systems. In Proc. INTERSPEECH, pp. 2890–2894, 2016.

[8] 石田真也, 井上昂治, 中村静, 高梨克也, 河原達也. 傾聴対話システムのための発話を促す聞き手応答の生成. 人工知能学会研究会資料, SLUD-B504-1, 2016.

[9] Divesh Lala, Pierrick Milhorat, Koji Inoue, MasanariIshida, Katsuya Takanashi, and Tatsuya Kawahara.Attentive listening system with backchanneling, re-sponse generation and flexible turn-taking. In Proc.SIGDIAL, pp. 127–136, 2017.

[10] 井上昂治, 三村正人, 石井カルロス寿憲, 河原達也. DAEを用いたリアルタイム遠隔音声認識. 日本音響学会春季研究発表会講演論文集, 1-Q-6, 2017.

[11] Crlos T. Ishi, Chaoran Liu, Jani Even, and NorihiroHagita. Hearing support system using environmentsensor network. In Proc. IROS, 2016.

[12] Koichiro Yoshino and Tatsuya Kawahara. Conver-sational system for information navigation based onPOMDP with user focus tracking. Computer Speechand Language, Vol. 34, No. 1, pp. 275–291, 2015.

[13] Tianyu Zhao and Tatsuya Kawahara. Joint learningof dialog act segmentation and recognition in spokendialog using neural networks. In Proc. IJCNLP, 2017.

[14] 井上昂治, Pierrick Milhorat, Divesh Lala, 趙天雨, 河原達也. 自律型アンドロイド erica による社会的役割に則したインタラクション. 人工知能学会研究会資料,SLUD-B505-7, 2016.

[15] Nigel Ward and Wataru Tsukahara. Prosodic fea-tures which cue back-channel responses in english andjapanese. Journal of pragmatics, Vol. 32, No. 8, pp.1177–1207, 2000.

[16] Khiet P. Truong, Ronald W. Poppe, and Dirk K. J.Heylen. A rule-based backchannel prediction modelusing pitch and pause information. pp. 3058–3061,2010.

－ 48 －

attentive listening system generating various kinds of

Documents