![Page 1: VOICE CONVERSION - AI Ukraine · 2016-10-26 · ІНШІ ПІДХОДИ Non-negative Matrix Factorization (NMF) - кожен новий фрейм моделюється як лінійна](https://reader034.vdocuments.us/reader034/viewer/2022050106/5f4442a28a716769256afc98/html5/thumbnails/1.jpg)
VOICE CONVERSION
![Page 2: VOICE CONVERSION - AI Ukraine · 2016-10-26 · ІНШІ ПІДХОДИ Non-negative Matrix Factorization (NMF) - кожен новий фрейм моделюється як лінійна](https://reader034.vdocuments.us/reader034/viewer/2022050106/5f4442a28a716769256afc98/html5/thumbnails/2.jpg)
ЩО ЦЕ?Вокодінг Спектральний мапінг
![Page 3: VOICE CONVERSION - AI Ukraine · 2016-10-26 · ІНШІ ПІДХОДИ Non-negative Matrix Factorization (NMF) - кожен новий фрейм моделюється як лінійна](https://reader034.vdocuments.us/reader034/viewer/2022050106/5f4442a28a716769256afc98/html5/thumbnails/3.jpg)
ВОКОДІНГ
![Page 4: VOICE CONVERSION - AI Ukraine · 2016-10-26 · ІНШІ ПІДХОДИ Non-negative Matrix Factorization (NMF) - кожен новий фрейм моделюється як лінійна](https://reader034.vdocuments.us/reader034/viewer/2022050106/5f4442a28a716769256afc98/html5/thumbnails/4.jpg)
Звичайний голос:
:
:
Крокова :
0:00 / 0:03
= ⋅ 0.5F0 F00:00 / 0:03
= ⋅ 6F0 F00:00 / 0:03
F00:00 / 0:03
Warping #1:
Warping #2:
0:00 / 0:03
0:00 / 0:03
![Page 5: VOICE CONVERSION - AI Ukraine · 2016-10-26 · ІНШІ ПІДХОДИ Non-negative Matrix Factorization (NMF) - кожен новий фрейм моделюється як лінійна](https://reader034.vdocuments.us/reader034/viewer/2022050106/5f4442a28a716769256afc98/html5/thumbnails/5.jpg)
СПЕКТРАЛЬНІ ФІЧІ
Фіча Розмір Алгоритми
Спектральна густина: NMF, FW
MCEP (Mel-cepstrumenvelope):
GMM, Kernel,DNN
R513
R24
![Page 6: VOICE CONVERSION - AI Ukraine · 2016-10-26 · ІНШІ ПІДХОДИ Non-negative Matrix Factorization (NMF) - кожен новий фрейм моделюється як лінійна](https://reader034.vdocuments.us/reader034/viewer/2022050106/5f4442a28a716769256afc98/html5/thumbnails/6.jpg)
ПАРАЛЕЛЬНИЙ КОРПУС
![Page 7: VOICE CONVERSION - AI Ukraine · 2016-10-26 · ІНШІ ПІДХОДИ Non-negative Matrix Factorization (NMF) - кожен новий фрейм моделюється як лінійна](https://reader034.vdocuments.us/reader034/viewer/2022050106/5f4442a28a716769256afc98/html5/thumbnails/7.jpg)
[Toda et al. 2007]
СПЕКТРАЛЬНИЙ МАПІНГНаївне застосування регресі� призводить донезадовільних результатівJDGMM: Joint Density Gaussian Mixture Models
![Page 8: VOICE CONVERSION - AI Ukraine · 2016-10-26 · ІНШІ ПІДХОДИ Non-negative Matrix Factorization (NMF) - кожен новий фрейм моделюється як лінійна](https://reader034.vdocuments.us/reader034/viewer/2022050106/5f4442a28a716769256afc98/html5/thumbnails/8.jpg)
JOIN DENSITY GMMGMM - метод кластеризаці�Акустичний простір має природнє розділення накластери
JDGMM дозволяє моделювати локальну функціюперетворення для кожного кластера
![Page 9: VOICE CONVERSION - AI Ukraine · 2016-10-26 · ІНШІ ПІДХОДИ Non-negative Matrix Factorization (NMF) - кожен новий фрейм моделюється як лінійна](https://reader034.vdocuments.us/reader034/viewer/2022050106/5f4442a28a716769256afc98/html5/thumbnails/9.jpg)
та початковий та цільовий голоси та {xt}T1 {yt}T
1 := ( , )zt xt yt
P ( , ) = P ( ) = N ( ; , ) + N ( ; , )xt yt zt w1 zt μ(z)1 C(zz)
1 w2 zt μ(z)2 C(zz)
2
= [ ] ; = [ ]μ(z)m
μ(x)m
μ(y)m
C(z)m
C(xx)m
C(yx)m
C(xy)m
C(yy)m
P ( | ) = P (m = 1| )P (y| , m = 1) + P (m = 2| )P (y| , m = 2)yt xt xt xt xt xt
( ) = [P ( | )]yt xt Ey yt xt
![Page 10: VOICE CONVERSION - AI Ukraine · 2016-10-26 · ІНШІ ПІДХОДИ Non-negative Matrix Factorization (NMF) - кожен новий фрейм моделюється як лінійна](https://reader034.vdocuments.us/reader034/viewer/2022050106/5f4442a28a716769256afc98/html5/thumbnails/10.jpg)
НЕДОЛІКИНе враховується динамічна природа сигналуНадмірне згладжування yt
Приклад звуку: 0:00 / 0:03
![Page 11: VOICE CONVERSION - AI Ukraine · 2016-10-26 · ІНШІ ПІДХОДИ Non-negative Matrix Factorization (NMF) - кожен новий фрейм моделюється як лінійна](https://reader034.vdocuments.us/reader034/viewer/2022050106/5f4442a28a716769256afc98/html5/thumbnails/11.jpg)
ДИНАМІЧНІ ФІЧІ
1. Замість використовуємо , де
2. Тренуємо JDGMM
3. Збираємо послідовності у один вектор:
Можна записати:
4. Знаходимо найкращу (maximum likelihood) послідовність дляцільового голосу:
∈yt RD = ( , Δ ) ∈Yt yt yt R2D
Δ := 0.5 ⋅ ( − )yt yt−1 yt+1
⟹ P ( | )Yt Xt
y = ( , … , ) ∈y1 yTtstRDTtst
Y = ( , … , ) = ( , Δ , … , , Δ ) ∈Y1 YTtsty1 y1 yTtst
yTtstR2DTtst
Y = Wy
= P (Wy| ) = ( DW Dey argmaxy
Xtst WT )−1WT
![Page 12: VOICE CONVERSION - AI Ukraine · 2016-10-26 · ІНШІ ПІДХОДИ Non-negative Matrix Factorization (NMF) - кожен новий фрейм моделюється як лінійна](https://reader034.vdocuments.us/reader034/viewer/2022050106/5f4442a28a716769256afc98/html5/thumbnails/12.jpg)
НЕДОЛІКИНе враховується динамічна природа сигналуНадмірне згладжування yt
Приклад звуку:
Приклад звуку (ДФ):
0:00 / 0:03
0:00 / 0:03
![Page 13: VOICE CONVERSION - AI Ukraine · 2016-10-26 · ІНШІ ПІДХОДИ Non-negative Matrix Factorization (NMF) - кожен новий фрейм моделюється як лінійна](https://reader034.vdocuments.us/reader034/viewer/2022050106/5f4442a28a716769256afc98/html5/thumbnails/13.jpg)
ГЛОБАЛЬНА ДИСПЕРСІЯ
1. Моделюємо розподіл дисперсій цільового спікера простимнормальним розподілом:
2. Враховуємо дисперсію під час оптимізаці�:
3. На жаль, немає аналітичного рішення для максимуму ¯\_(ツ)_/¯
P (v)
= P (Wy|X) ⋅ P (var(y))y argmaxy
![Page 14: VOICE CONVERSION - AI Ukraine · 2016-10-26 · ІНШІ ПІДХОДИ Non-negative Matrix Factorization (NMF) - кожен новий фрейм моделюється як лінійна](https://reader034.vdocuments.us/reader034/viewer/2022050106/5f4442a28a716769256afc98/html5/thumbnails/14.jpg)
Приклад звуку:
Приклад звуку (DF):
Приклад звуку (DF + GV):
0:00 / 0:03
0:00 / 0:03
0:00 / 0:03
![Page 15: VOICE CONVERSION - AI Ukraine · 2016-10-26 · ІНШІ ПІДХОДИ Non-negative Matrix Factorization (NMF) - кожен новий фрейм моделюється як лінійна](https://reader034.vdocuments.us/reader034/viewer/2022050106/5f4442a28a716769256afc98/html5/thumbnails/15.jpg)
ІНШІ ПІДХОДИNon-negative Matrix Factorization (NMF) - кожен новийфрейм моделюється як лінійна комбінація фреймів зтренувальної вибіркиFrequency warping (FW) - кожен новий цільовий фрейммоделюється як викривлення відповідного фреймупочаткового спікераKernel Partial Least Squares - Лінійна регресія знелінійним ядромNeural Networks
![Page 16: VOICE CONVERSION - AI Ukraine · 2016-10-26 · ІНШІ ПІДХОДИ Non-negative Matrix Factorization (NMF) - кожен новий фрейм моделюється як лінійна](https://reader034.vdocuments.us/reader034/viewer/2022050106/5f4442a28a716769256afc98/html5/thumbnails/16.jpg)
TAKE HOME MESSAGE:Use domain knowledge, Luke!
![Page 17: VOICE CONVERSION - AI Ukraine · 2016-10-26 · ІНШІ ПІДХОДИ Non-negative Matrix Factorization (NMF) - кожен новий фрейм моделюється як лінійна](https://reader034.vdocuments.us/reader034/viewer/2022050106/5f4442a28a716769256afc98/html5/thumbnails/17.jpg)
СКРЯБІН
xtrain0:00 / 0:09
ytrain0:00 / 0:11
y 0:00 / 0:27