vocal dynamics controller 歌声のf0動特性を …...③...
Post on 24-Apr-2020
0 Views
Preview:
TRANSCRIPT
大石 康智, 亀岡 弘和,持橋 大地
永野 秀尚,柏野 邦夫
NTTコミュニケーション科学基礎研究所
VOCAL DYNAMICS CONTROLLER: 歌声のF0動特性をノート単位で編集し,
合成できるインタフェース
Copyright (c) 2010 日本電信電話株式会社
デモシステムの紹介
①観測F0系列
②入力歌声聴取
③パラメータに基づく生成F0系列
④パラメータ説明(ダイナミクスと音高)
減衰率,固有周波数,音高差
⑤付加機能(ビブラート)説明
⑥合成説明
⑦歌声合成音聴取
2 Copyright (c) 2010 日本電信電話株式会社
歌声音響信号の合成
① 観測F0系列と生成(修正)F0系列の比率計算
② 入力歌声音響信号の線形予測分析
③ Griffin-Limの反復STFT法による位相推定
周波数
[H
z]
時間 [s] 時間 [s]
比率
0.96
1
1.04
1.08
1.12
包絡構造(音韻)
周波数
[H
z]
時間 [s]
入力スペクトログラム
周波数
[H
z]
時間 [s]
微細構造(音高)
周波数
[H
z]
時間 [s]
線形伸縮
3
合成スペクトログラム
周波数
[H
z]
時間 [s]
修正微細構造
周波数
[H
z]
時間 [s]
Copyright (c) 2010 日本電信電話株式会社
それでは
聴いてみましょう!
4 Copyright (c) 2010 日本電信電話株式会社
システムの基礎技術
F0系列のセグメント分割
F0系列の成分分解
5
4000
4400
4800
5200
5600 6000
F0 [cent]
[sec] 2 4 0 6 8 ⇒ 隠れマルコフモデル(HMM)によるViterbiサーチ
観測F0系列
0 時間
0
インパルス応答
旋律成分
時間
大局的
動的変動成分
ノート間の
音高差
局所的
動的変動成分
0 時間 0 時間
⇒ 2次系によるF0動特性の統計的モデリング Copyright (c) 2010 日本電信電話株式会社
隠れマルコフモデル(HMM)によるViterbiサーチ
エルゴディックHMM(状態:ノートの音高,パラメータ:手動決定)
F0系列のセグメント分割
6 時間 [s]
周波数
[ce
nt]
無音 無音 Copyright (c) 2010 日本電信電話株式会社
F0系列の成分分解
想定する歌声のF0生成過程の概略図
旋律成分:ステップ信号 パラメータ:ノート間の音高差
大局的変動成分:2次系インパルス応答 パラメータ:減衰率 ,固有周波数
系の出力信号
局所的変動成分:ガウス性白色雑音 パラメータ:ガウス分布の分散 7
オーバーシュート ポルタメント
観測F0系列
インパルス応答
旋律成分 大局的変動成分
ノート間の
音高差
局所的変動成分
減衰振動( ) 指数減衰( ) 臨界制動( )
Copyright (c) 2010 日本電信電話株式会社
Copyright (c) 2010 日本電信電話株式会社
従来研究:2次系インパルス応答
話声のF0パターン生成モデル:藤崎モデル
歌声のF0パターン生成モデル(齋藤ら)
8
喉頭の生理的・物理的特性に基づいて,
声帯振動制御機構を定量的にモデル化した
フレーズ指令
アクセント指令
フレーズ制御
アクセント制御
臨界制動2次系
インパルス応答
臨界制動2次系
インパルス応答
話声のF0
旋律成分 歌声のF0
2次系インパルス応答を利用したF0動特性の制御
パラメータを手動で調整し,音声合成に利用
2次系インパルス応答
観測されるF0から,生成過程のパラメータを推定したい !!
Copyright (c) 2010 日本電信電話株式会社 9
提案アプローチ
統計的信号処理手法に基づくF0動特性のモデリング 観測F0系列
インパルス応答
旋律成分 大局的変動成分
ノート間の
音高差
局所的変動成分
局所的変動成分
⇒
入力ステップ信号
長さ
⇒
( : の単位行列) 減衰率 ,固有周波数
(下三角行列)
2次系の出力信号
⇒
2次系インパルス応答 独立な確率変数
観測F0系列
Copyright (c) 2010 日本電信電話株式会社
提案アプローチの工夫点 1/2
の関数からなる行列
10
(下三角行列)
複雑な行列となる!
従来法(自身の従来モデル):自己回帰モデルで近似
を推定する問題
を推定する問題
臨界制動( )の場合
インパルス応答:
パラメータ数が増加して,
自由度が高くなり,
パラメータ推定が不安定
Copyright (c) 2010 日本電信電話株式会社
提案アプローチの工夫点 2/2
の関数からなる行列
モデルの自由度を効果的に下げる目的で,あらかじめ用意した複数の振動基底の疎(スパース)な線形和で構成する
事前に 個の を計算し( を手動で決定),その逆行列の重み付き和で近似する
11
の推定 (スパース)の推定
(下三角行列)
複雑な行列となる!
臨界制動( )の場合
インパルス応答:
減衰振動 臨界制動 指数減衰
Copyright (c) 2010 日本電信電話株式会社
パラメータ最適化アルゴリズム
EM法と補助関数法に基づく最適化アルゴリズム
12
不完全データ
観測F0系列 2次系の出力信号 局所変動成分
完全データ
E-step: 観測F0系列を出力信号と局所変動成分に分離
条件付期待値:
補助変数:
(現在のパラメータ集合を として)
M-step: パラメータの更新 に関する連立方程式(Coordinate descent法)
の更新式
初期化: の導出( を手動で決定)と
パラメータ集合 の初期値決定
F0系列の生成方法
ステップ信号
推定されたパラメータ
2次系インパルス応答
推定されたパラメータ
の中で最も値が大きい
に対応する ⇒ 推定されたインパルス応答
生成F0系列
の計算
13
ステップ信号 インパルス応答
4200
4400
4600
4800
5000
0 2 4 6 8 時間 [s]
周波数
[cent]
観測F0系列 生成F0系列
セグメントごとにF0を生成した結果
Copyright (c) 2010 日本電信電話株式会社
生成結果の例
声楽家と素人による,“喜びの歌”の歌唱
YINを利用したF0推定(5ms),無声音区間⇒線形補間
14
5000
5400
5800
6200
3800
4200
4600
周波数
[ce
nt]
周波数
[ce
nt]
0 2 4 6 8 時間 [sec]
5000
声楽家(女性)
素人(男性)
観測F0系列
生成F0系列
観測F0系列
生成F0系列
○大局的動的変動成分(立ち上がり,オーバーシュートなど)
×局所的動的変動成分(ビブラート,微細な変動成分)
⇒ ガウシアンプロセス,マルチカーネル学習
Copyright (c) 2010 日本電信電話株式会社
評価実験
人工的に合成したF0系列に基づく評価
パラメータ の応用性の評価
パラメータ
の中で最も値が大きい
に対応する の
の歌唱者ごとの平均値
15
信号合成
比較
局所解問題を解決できているかの評価
0.46 0.50 0.54 0.58 0.62 0.12
0.14
0.16
0.18
0.20 声楽家(女性)
素人(男性)
素人(女性)
声楽家(男性)
ポップス歌手
(女性)
ポップス歌手(男性)
歌唱技術・スタイルの違いの分析
が小さい ⇒ オーバーシュートしがち
が小さい ⇒ ノートの立ち上りが遅い
ランダムな 提案法
推定された
Copyright (c) 2010 日本電信電話株式会社
研究の根底にある興味
人間が付与する動特性(ダイナミクス)の特徴抽出
連続的な信号 音高(F0信号)
音韻(MFCC信号)
16
き ら き ら ひ か る
離散的な記号列
歌声:楽譜・歌詞
人間
歌唱者
おはようございます,
今日は良い天気ですね。
話声:文章(文字列) 話し手 音高(F0信号)
音韻(MFCC信号)
ダイナミクスと,非言語情報(歌い方や話し方などのスタイル,
平静,怒り,喜び,悲しみなどの感情)との関係性の解明
⇒ “D特徴量に代わる” ,ダイナミクスのモデル化 Copyright (c) 2010 日本電信電話株式会社
まとめ
歌声のF0動特性をノート単位で編集し,合成できる
Vocal Dynamics Controllerの提案
F0系列のセグメント分割
エルゴディックなHMMによるViterbiサーチ
F0系列の成分分解
2次系を利用したF0動特性の統計的モデリング
EM法と補助関数法に基づくパラメータ最適化アルゴリズム
パラメータを利用したF0生成
今後の課題
局所的変動成分(ビブラート,微細な変動成分)のモデル化
⇒ ガウシアンプロセス,マルチカーネル学習
提案モデルの多変量化と声質(MFCCなど)の動特性の制御
17 Copyright (c) 2010 日本電信電話株式会社
top related