voice conversion - ai ukraine · 2016-10-26 · ІНШІ ПІДХОДИ non-negative matrix...

Post on 13-Jul-2020

7 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

VOICE CONVERSION

ЩО ЦЕ?Вокодінг Спектральний мапінг

ВОКОДІНГ

Звичайний голос:

:

:

Крокова :

0:00 / 0:03

= ⋅ 0.5F0 F00:00 / 0:03

= ⋅ 6F0 F00:00 / 0:03

F00:00 / 0:03

Warping #1:

Warping #2:

0:00 / 0:03

0:00 / 0:03

СПЕКТРАЛЬНІ ФІЧІ

Фіча Розмір Алгоритми

Спектральна густина: NMF, FW

MCEP (Mel-cepstrumenvelope):

GMM, Kernel,DNN

R513

R24

ПАРАЛЕЛЬНИЙ КОРПУС

[Toda et al. 2007]

СПЕКТРАЛЬНИЙ МАПІНГНаївне застосування регресі� призводить донезадовільних результатівJDGMM: Joint Density Gaussian Mixture Models

JOIN DENSITY GMMGMM - метод кластеризаці�Акустичний простір має природнє розділення накластери

JDGMM дозволяє моделювати локальну функціюперетворення для кожного кластера

та початковий та цільовий голоси та {xt}T1 {yt}T

1 := ( , )zt xt yt

P ( , ) = P ( ) = N ( ; , ) + N ( ; , )xt yt zt w1 zt μ(z)1 C(zz)

1 w2 zt μ(z)2 C(zz)

2

= [ ] ; = [ ]μ(z)m

μ(x)m

μ(y)m

C(z)m

C(xx)m

C(yx)m

C(xy)m

C(yy)m

P ( | ) = P (m = 1| )P (y| , m = 1) + P (m = 2| )P (y| , m = 2)yt xt xt xt xt xt

( ) = [P ( | )]yt xt Ey yt xt

НЕДОЛІКИНе враховується динамічна природа сигналуНадмірне згладжування yt

Приклад звуку: 0:00 / 0:03

ДИНАМІЧНІ ФІЧІ

1. Замість використовуємо , де

2. Тренуємо JDGMM

3. Збираємо послідовності у один вектор:

Можна записати:

4. Знаходимо найкращу (maximum likelihood) послідовність дляцільового голосу:

∈yt RD = ( , Δ ) ∈Yt yt yt R2D

Δ := 0.5 ⋅ ( − )yt yt−1 yt+1

⟹ P ( | )Yt Xt

y = ( , … , ) ∈y1 yTtstRDTtst

Y = ( , … , ) = ( , Δ , … , , Δ ) ∈Y1 YTtsty1 y1 yTtst

yTtstR2DTtst

Y = Wy

= P (Wy| ) = ( DW Dey argmaxy

Xtst WT )−1WT

НЕДОЛІКИНе враховується динамічна природа сигналуНадмірне згладжування yt

Приклад звуку:

Приклад звуку (ДФ):

0:00 / 0:03

0:00 / 0:03

ГЛОБАЛЬНА ДИСПЕРСІЯ

1. Моделюємо розподіл дисперсій цільового спікера простимнормальним розподілом:

2. Враховуємо дисперсію під час оптимізаці�:

3. На жаль, немає аналітичного рішення для максимуму ¯\_(ツ)_/¯

P (v)

= P (Wy|X) ⋅ P (var(y))y argmaxy

Приклад звуку:

Приклад звуку (DF):

Приклад звуку (DF + GV):

0:00 / 0:03

0:00 / 0:03

0:00 / 0:03

ІНШІ ПІДХОДИNon-negative Matrix Factorization (NMF) - кожен новийфрейм моделюється як лінійна комбінація фреймів зтренувальної вибіркиFrequency warping (FW) - кожен новий цільовий фрейммоделюється як викривлення відповідного фреймупочаткового спікераKernel Partial Least Squares - Лінійна регресія знелінійним ядромNeural Networks

TAKE HOME MESSAGE:Use domain knowledge, Luke!

СКРЯБІН

xtrain0:00 / 0:09

ytrain0:00 / 0:11

y 0:00 / 0:27

THANKS!bielievtsov@ibdi.pro

top related