vocal dynamics controller 歌声のf0動特性を …...③...

17
大石 康智, 亀岡 弘和,持橋 大地 永野 秀尚,柏野 邦夫 NTTコミュニケーション科学基礎研究所 VOCAL DYNAMICS CONTROLLER: 歌声のF0動特性をノート単位で編集し, 合成できるインタフェース Copyright (c) 2010 日本電信電話株式会社

Upload: others

Post on 24-Apr-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: VOCAL DYNAMICS CONTROLLER 歌声のF0動特性を …...③ Griffin-Limの反復STFT法による位相推定 周波数 [Hz] 時間 [s] 時間 [s] 比率 0.96 1 1.04 1.08 1.12 包絡構造(音韻)

大石 康智, 亀岡 弘和,持橋 大地

永野 秀尚,柏野 邦夫

NTTコミュニケーション科学基礎研究所

VOCAL DYNAMICS CONTROLLER: 歌声のF0動特性をノート単位で編集し,

合成できるインタフェース

Copyright (c) 2010 日本電信電話株式会社

Page 2: VOCAL DYNAMICS CONTROLLER 歌声のF0動特性を …...③ Griffin-Limの反復STFT法による位相推定 周波数 [Hz] 時間 [s] 時間 [s] 比率 0.96 1 1.04 1.08 1.12 包絡構造(音韻)

デモシステムの紹介

①観測F0系列

②入力歌声聴取

③パラメータに基づく生成F0系列

④パラメータ説明(ダイナミクスと音高)

減衰率,固有周波数,音高差

⑤付加機能(ビブラート)説明

⑥合成説明

⑦歌声合成音聴取

2 Copyright (c) 2010 日本電信電話株式会社

Page 3: VOCAL DYNAMICS CONTROLLER 歌声のF0動特性を …...③ Griffin-Limの反復STFT法による位相推定 周波数 [Hz] 時間 [s] 時間 [s] 比率 0.96 1 1.04 1.08 1.12 包絡構造(音韻)

歌声音響信号の合成

① 観測F0系列と生成(修正)F0系列の比率計算

② 入力歌声音響信号の線形予測分析

③ Griffin-Limの反復STFT法による位相推定

周波数

[H

z]

時間 [s] 時間 [s]

比率

0.96

1

1.04

1.08

1.12

包絡構造(音韻)

周波数

[H

z]

時間 [s]

入力スペクトログラム

周波数

[H

z]

時間 [s]

微細構造(音高)

周波数

[H

z]

時間 [s]

線形伸縮

3

合成スペクトログラム

周波数

[H

z]

時間 [s]

修正微細構造

周波数

[H

z]

時間 [s]

Copyright (c) 2010 日本電信電話株式会社

Page 4: VOCAL DYNAMICS CONTROLLER 歌声のF0動特性を …...③ Griffin-Limの反復STFT法による位相推定 周波数 [Hz] 時間 [s] 時間 [s] 比率 0.96 1 1.04 1.08 1.12 包絡構造(音韻)

それでは

聴いてみましょう!

4 Copyright (c) 2010 日本電信電話株式会社

Page 5: VOCAL DYNAMICS CONTROLLER 歌声のF0動特性を …...③ Griffin-Limの反復STFT法による位相推定 周波数 [Hz] 時間 [s] 時間 [s] 比率 0.96 1 1.04 1.08 1.12 包絡構造(音韻)

システムの基礎技術

F0系列のセグメント分割

F0系列の成分分解

5

4000

4400

4800

5200

5600 6000

F0 [cent]

[sec] 2 4 0 6 8 ⇒ 隠れマルコフモデル(HMM)によるViterbiサーチ

観測F0系列

0 時間

0

インパルス応答

旋律成分

時間

大局的

動的変動成分

ノート間の

音高差

局所的

動的変動成分

0 時間 0 時間

⇒ 2次系によるF0動特性の統計的モデリング Copyright (c) 2010 日本電信電話株式会社

Page 6: VOCAL DYNAMICS CONTROLLER 歌声のF0動特性を …...③ Griffin-Limの反復STFT法による位相推定 周波数 [Hz] 時間 [s] 時間 [s] 比率 0.96 1 1.04 1.08 1.12 包絡構造(音韻)

隠れマルコフモデル(HMM)によるViterbiサーチ

エルゴディックHMM(状態:ノートの音高,パラメータ:手動決定)

F0系列のセグメント分割

6 時間 [s]

周波数

[ce

nt]

無音 無音 Copyright (c) 2010 日本電信電話株式会社

Page 7: VOCAL DYNAMICS CONTROLLER 歌声のF0動特性を …...③ Griffin-Limの反復STFT法による位相推定 周波数 [Hz] 時間 [s] 時間 [s] 比率 0.96 1 1.04 1.08 1.12 包絡構造(音韻)

F0系列の成分分解

想定する歌声のF0生成過程の概略図

旋律成分:ステップ信号 パラメータ:ノート間の音高差

大局的変動成分:2次系インパルス応答 パラメータ:減衰率 ,固有周波数

系の出力信号

局所的変動成分:ガウス性白色雑音 パラメータ:ガウス分布の分散 7

オーバーシュート ポルタメント

観測F0系列

インパルス応答

旋律成分 大局的変動成分

ノート間の

音高差

局所的変動成分

減衰振動( ) 指数減衰( ) 臨界制動( )

Copyright (c) 2010 日本電信電話株式会社

Page 8: VOCAL DYNAMICS CONTROLLER 歌声のF0動特性を …...③ Griffin-Limの反復STFT法による位相推定 周波数 [Hz] 時間 [s] 時間 [s] 比率 0.96 1 1.04 1.08 1.12 包絡構造(音韻)

Copyright (c) 2010 日本電信電話株式会社

従来研究:2次系インパルス応答

話声のF0パターン生成モデル:藤崎モデル

歌声のF0パターン生成モデル(齋藤ら)

8

喉頭の生理的・物理的特性に基づいて,

声帯振動制御機構を定量的にモデル化した

フレーズ指令

アクセント指令

フレーズ制御

アクセント制御

臨界制動2次系

インパルス応答

臨界制動2次系

インパルス応答

話声のF0

旋律成分 歌声のF0

2次系インパルス応答を利用したF0動特性の制御

パラメータを手動で調整し,音声合成に利用

2次系インパルス応答

観測されるF0から,生成過程のパラメータを推定したい !!

Page 9: VOCAL DYNAMICS CONTROLLER 歌声のF0動特性を …...③ Griffin-Limの反復STFT法による位相推定 周波数 [Hz] 時間 [s] 時間 [s] 比率 0.96 1 1.04 1.08 1.12 包絡構造(音韻)

Copyright (c) 2010 日本電信電話株式会社 9

提案アプローチ

統計的信号処理手法に基づくF0動特性のモデリング 観測F0系列

インパルス応答

旋律成分 大局的変動成分

ノート間の

音高差

局所的変動成分

局所的変動成分

入力ステップ信号

長さ

( : の単位行列) 減衰率 ,固有周波数

(下三角行列)

2次系の出力信号

2次系インパルス応答 独立な確率変数

観測F0系列

Page 10: VOCAL DYNAMICS CONTROLLER 歌声のF0動特性を …...③ Griffin-Limの反復STFT法による位相推定 周波数 [Hz] 時間 [s] 時間 [s] 比率 0.96 1 1.04 1.08 1.12 包絡構造(音韻)

Copyright (c) 2010 日本電信電話株式会社

提案アプローチの工夫点 1/2

の関数からなる行列

10

(下三角行列)

複雑な行列となる!

従来法(自身の従来モデル):自己回帰モデルで近似

を推定する問題

を推定する問題

臨界制動( )の場合

インパルス応答:

パラメータ数が増加して,

自由度が高くなり,

パラメータ推定が不安定

Page 11: VOCAL DYNAMICS CONTROLLER 歌声のF0動特性を …...③ Griffin-Limの反復STFT法による位相推定 周波数 [Hz] 時間 [s] 時間 [s] 比率 0.96 1 1.04 1.08 1.12 包絡構造(音韻)

Copyright (c) 2010 日本電信電話株式会社

提案アプローチの工夫点 2/2

の関数からなる行列

モデルの自由度を効果的に下げる目的で,あらかじめ用意した複数の振動基底の疎(スパース)な線形和で構成する

事前に 個の を計算し( を手動で決定),その逆行列の重み付き和で近似する

11

の推定 (スパース)の推定

(下三角行列)

複雑な行列となる!

臨界制動( )の場合

インパルス応答:

減衰振動 臨界制動 指数減衰

Page 12: VOCAL DYNAMICS CONTROLLER 歌声のF0動特性を …...③ Griffin-Limの反復STFT法による位相推定 周波数 [Hz] 時間 [s] 時間 [s] 比率 0.96 1 1.04 1.08 1.12 包絡構造(音韻)

Copyright (c) 2010 日本電信電話株式会社

パラメータ最適化アルゴリズム

EM法と補助関数法に基づく最適化アルゴリズム

12

不完全データ

観測F0系列 2次系の出力信号 局所変動成分

完全データ

E-step: 観測F0系列を出力信号と局所変動成分に分離

条件付期待値:

補助変数:

(現在のパラメータ集合を として)

M-step: パラメータの更新 に関する連立方程式(Coordinate descent法)

の更新式

初期化: の導出( を手動で決定)と

パラメータ集合 の初期値決定

Page 13: VOCAL DYNAMICS CONTROLLER 歌声のF0動特性を …...③ Griffin-Limの反復STFT法による位相推定 周波数 [Hz] 時間 [s] 時間 [s] 比率 0.96 1 1.04 1.08 1.12 包絡構造(音韻)

F0系列の生成方法

ステップ信号

推定されたパラメータ

2次系インパルス応答

推定されたパラメータ

の中で最も値が大きい

に対応する ⇒ 推定されたインパルス応答

生成F0系列

の計算

13

ステップ信号 インパルス応答

4200

4400

4600

4800

5000

0 2 4 6 8 時間 [s]

周波数

[cent]

観測F0系列 生成F0系列

セグメントごとにF0を生成した結果

Copyright (c) 2010 日本電信電話株式会社

Page 14: VOCAL DYNAMICS CONTROLLER 歌声のF0動特性を …...③ Griffin-Limの反復STFT法による位相推定 周波数 [Hz] 時間 [s] 時間 [s] 比率 0.96 1 1.04 1.08 1.12 包絡構造(音韻)

生成結果の例

声楽家と素人による,“喜びの歌”の歌唱

YINを利用したF0推定(5ms),無声音区間⇒線形補間

14

5000

5400

5800

6200

3800

4200

4600

周波数

[ce

nt]

周波数

[ce

nt]

0 2 4 6 8 時間 [sec]

5000

声楽家(女性)

素人(男性)

観測F0系列

生成F0系列

観測F0系列

生成F0系列

○大局的動的変動成分(立ち上がり,オーバーシュートなど)

×局所的動的変動成分(ビブラート,微細な変動成分)

⇒ ガウシアンプロセス,マルチカーネル学習

Copyright (c) 2010 日本電信電話株式会社

Page 15: VOCAL DYNAMICS CONTROLLER 歌声のF0動特性を …...③ Griffin-Limの反復STFT法による位相推定 周波数 [Hz] 時間 [s] 時間 [s] 比率 0.96 1 1.04 1.08 1.12 包絡構造(音韻)

評価実験

人工的に合成したF0系列に基づく評価

パラメータ の応用性の評価

パラメータ

の中で最も値が大きい

に対応する の

の歌唱者ごとの平均値

15

信号合成

比較

局所解問題を解決できているかの評価

0.46 0.50 0.54 0.58 0.62 0.12

0.14

0.16

0.18

0.20 声楽家(女性)

素人(男性)

素人(女性)

声楽家(男性)

ポップス歌手

(女性)

ポップス歌手(男性)

歌唱技術・スタイルの違いの分析

が小さい ⇒ オーバーシュートしがち

が小さい ⇒ ノートの立ち上りが遅い

ランダムな 提案法

推定された

Copyright (c) 2010 日本電信電話株式会社

Page 16: VOCAL DYNAMICS CONTROLLER 歌声のF0動特性を …...③ Griffin-Limの反復STFT法による位相推定 周波数 [Hz] 時間 [s] 時間 [s] 比率 0.96 1 1.04 1.08 1.12 包絡構造(音韻)

研究の根底にある興味

人間が付与する動特性(ダイナミクス)の特徴抽出

連続的な信号 音高(F0信号)

音韻(MFCC信号)

16

き ら き ら ひ か る

離散的な記号列

歌声:楽譜・歌詞

人間

歌唱者

おはようございます,

今日は良い天気ですね。

話声:文章(文字列) 話し手 音高(F0信号)

音韻(MFCC信号)

ダイナミクスと,非言語情報(歌い方や話し方などのスタイル,

平静,怒り,喜び,悲しみなどの感情)との関係性の解明

⇒ “D特徴量に代わる” ,ダイナミクスのモデル化 Copyright (c) 2010 日本電信電話株式会社

Page 17: VOCAL DYNAMICS CONTROLLER 歌声のF0動特性を …...③ Griffin-Limの反復STFT法による位相推定 周波数 [Hz] 時間 [s] 時間 [s] 比率 0.96 1 1.04 1.08 1.12 包絡構造(音韻)

まとめ

歌声のF0動特性をノート単位で編集し,合成できる

Vocal Dynamics Controllerの提案

F0系列のセグメント分割

エルゴディックなHMMによるViterbiサーチ

F0系列の成分分解

2次系を利用したF0動特性の統計的モデリング

EM法と補助関数法に基づくパラメータ最適化アルゴリズム

パラメータを利用したF0生成

今後の課題

局所的変動成分(ビブラート,微細な変動成分)のモデル化

⇒ ガウシアンプロセス,マルチカーネル学習

提案モデルの多変量化と声質(MFCCなど)の動特性の制御

17 Copyright (c) 2010 日本電信電話株式会社