VOICE CONVERSION
ЩО ЦЕ?Вокодінг Спектральний мапінг
ВОКОДІНГ
Звичайний голос:
:
:
Крокова :
0:00 / 0:03
= ⋅ 0.5F0 F00:00 / 0:03
= ⋅ 6F0 F00:00 / 0:03
F00:00 / 0:03
Warping #1:
Warping #2:
0:00 / 0:03
0:00 / 0:03
СПЕКТРАЛЬНІ ФІЧІ
Фіча Розмір Алгоритми
Спектральна густина: NMF, FW
MCEP (Mel-cepstrumenvelope):
GMM, Kernel,DNN
R513
R24
ПАРАЛЕЛЬНИЙ КОРПУС
[Toda et al. 2007]
СПЕКТРАЛЬНИЙ МАПІНГНаївне застосування регресі� призводить донезадовільних результатівJDGMM: Joint Density Gaussian Mixture Models
JOIN DENSITY GMMGMM - метод кластеризаці�Акустичний простір має природнє розділення накластери
JDGMM дозволяє моделювати локальну функціюперетворення для кожного кластера
та початковий та цільовий голоси та {xt}T1 {yt}T
1 := ( , )zt xt yt
P ( , ) = P ( ) = N ( ; , ) + N ( ; , )xt yt zt w1 zt μ(z)1 C(zz)
1 w2 zt μ(z)2 C(zz)
2
= [ ] ; = [ ]μ(z)m
μ(x)m
μ(y)m
C(z)m
C(xx)m
C(yx)m
C(xy)m
C(yy)m
P ( | ) = P (m = 1| )P (y| , m = 1) + P (m = 2| )P (y| , m = 2)yt xt xt xt xt xt
( ) = [P ( | )]yt xt Ey yt xt
НЕДОЛІКИНе враховується динамічна природа сигналуНадмірне згладжування yt
Приклад звуку: 0:00 / 0:03
ДИНАМІЧНІ ФІЧІ
1. Замість використовуємо , де
2. Тренуємо JDGMM
3. Збираємо послідовності у один вектор:
Можна записати:
4. Знаходимо найкращу (maximum likelihood) послідовність дляцільового голосу:
∈yt RD = ( , Δ ) ∈Yt yt yt R2D
Δ := 0.5 ⋅ ( − )yt yt−1 yt+1
⟹ P ( | )Yt Xt
y = ( , … , ) ∈y1 yTtstRDTtst
Y = ( , … , ) = ( , Δ , … , , Δ ) ∈Y1 YTtsty1 y1 yTtst
yTtstR2DTtst
Y = Wy
= P (Wy| ) = ( DW Dey argmaxy
Xtst WT )−1WT
НЕДОЛІКИНе враховується динамічна природа сигналуНадмірне згладжування yt
Приклад звуку:
Приклад звуку (ДФ):
0:00 / 0:03
0:00 / 0:03
ГЛОБАЛЬНА ДИСПЕРСІЯ
1. Моделюємо розподіл дисперсій цільового спікера простимнормальним розподілом:
2. Враховуємо дисперсію під час оптимізаці�:
3. На жаль, немає аналітичного рішення для максимуму ¯\_(ツ)_/¯
P (v)
= P (Wy|X) ⋅ P (var(y))y argmaxy
Приклад звуку:
Приклад звуку (DF):
Приклад звуку (DF + GV):
0:00 / 0:03
0:00 / 0:03
0:00 / 0:03
ІНШІ ПІДХОДИNon-negative Matrix Factorization (NMF) - кожен новийфрейм моделюється як лінійна комбінація фреймів зтренувальної вибіркиFrequency warping (FW) - кожен новий цільовий фрейммоделюється як викривлення відповідного фреймупочаткового спікераKernel Partial Least Squares - Лінійна регресія знелінійним ядромNeural Networks
TAKE HOME MESSAGE:Use domain knowledge, Luke!
СКРЯБІН
xtrain0:00 / 0:09
ytrain0:00 / 0:11
y 0:00 / 0:27