voice conversion - ai ukraine · 2016-10-26 · ІНШІ ПІДХОДИ non-negative matrix...

VOICE CONVERSION

ЩО ЦЕ?Вокодінг Спектральний мапінг

ВОКОДІНГ

Звичайний голос:

Крокова :

0:00 / 0:03

= ⋅ 0.5F0 F00:00 / 0:03

= ⋅ 6F0 F00:00 / 0:03

F00:00 / 0:03

Warping #1:

Warping #2:

0:00 / 0:03

СПЕКТРАЛЬНІ ФІЧІ

Фіча Розмір Алгоритми

Спектральна густина: NMF, FW

MCEP (Mel-cepstrumenvelope):

GMM, Kernel,DNN

ПАРАЛЕЛЬНИЙ КОРПУС

[Toda et al. 2007]

СПЕКТРАЛЬНИЙ МАПІНГНаївне застосування регресі� призводить донезадовільних результатівJDGMM: Joint Density Gaussian Mixture Models

JOIN DENSITY GMMGMM - метод кластеризаці�Акустичний простір має природнє розділення накластери

JDGMM дозволяє моделювати локальну функціюперетворення для кожного кластера

та початковий та цільовий голоси та {xt}T1 {yt}T

1 := ( , )zt xt yt

P ( , ) = P ( ) = N ( ; , ) + N ( ; , )xt yt zt w1 zt μ(z)1 C(zz)

1 w2 zt μ(z)2 C(zz)

= [ ] ; = [ ]μ(z)m

μ(x)m

μ(y)m

C(xx)m

C(yx)m

C(xy)m

C(yy)m

P ( | ) = P (m = 1| )P (y| , m = 1) + P (m = 2| )P (y| , m = 2)yt xt xt xt xt xt

( ) = [P ( | )]yt xt Ey yt xt

НЕДОЛІКИНе враховується динамічна природа сигналуНадмірне згладжування yt

Приклад звуку: 0:00 / 0:03

ДИНАМІЧНІ ФІЧІ

1. Замість використовуємо , де

2. Тренуємо JDGMM

3. Збираємо послідовності у один вектор:

Можна записати:

4. Знаходимо найкращу (maximum likelihood) послідовність дляцільового голосу:

∈yt RD = ( , Δ ) ∈Yt yt yt R2D

Δ := 0.5 ⋅ ( − )yt yt−1 yt+1

⟹ P ( | )Yt Xt

y = ( , … , ) ∈y1 yTtstRDTtst

Y = ( , … , ) = ( , Δ , … , , Δ ) ∈Y1 YTtsty1 y1 yTtst

yTtstR2DTtst

Y = Wy

= P (Wy| ) = ( DW Dey argmaxy

Xtst WT )−1WT

НЕДОЛІКИНе враховується динамічна природа сигналуНадмірне згладжування yt

Приклад звуку:

Приклад звуку (ДФ):

0:00 / 0:03

ГЛОБАЛЬНА ДИСПЕРСІЯ

1. Моделюємо розподіл дисперсій цільового спікера простимнормальним розподілом:

2. Враховуємо дисперсію під час оптимізаці�:

3. На жаль, немає аналітичного рішення для максимуму ¯\_(ツ)_/¯

= P (Wy|X) ⋅ P (var(y))y argmaxy

Приклад звуку:

Приклад звуку (DF):

Приклад звуку (DF + GV):

0:00 / 0:03

ІНШІ ПІДХОДИNon-negative Matrix Factorization (NMF) - кожен новийфрейм моделюється як лінійна комбінація фреймів зтренувальної вибіркиFrequency warping (FW) - кожен новий цільовий фрейммоделюється як викривлення відповідного фреймупочаткового спікераKernel Partial Least Squares - Лінійна регресія знелінійним ядромNeural Networks

TAKE HOME MESSAGE:Use domain knowledge, Luke!

СКРЯБІН

xtrain0:00 / 0:09

ytrain0:00 / 0:11

y 0:00 / 0:27

THANKS!bielievtsov@ibdi.pro

voice conversion - ai ukraine · 2016-10-26 · ІНШІ ПІДХОДИ non-negative matrix...

Documents

ВІДОМОСТІ ПРО САМООЦІНЮВАННЯ...

ВІСНИК - lute.lviv.ua · читальні...

Процедура управління працею kyiv...

З М І С Т - dn.gov.ua · З М І С Т плану...

Як Інтернет змінив підходи до...

Шаблон word · web viewНавчальні та...

УДК: 616.11-084:616-008.939 Підходи до...

lviv pmday 2015 s Мирослав Гаврищук:...

arx.com.ua · web view2018/12/01 · - Страховик...

ˆˇ...

szioska. - core · 2017-03-02 · що кожен...

УДК 336.71:339.138 1 СУЧАСНІ ПІДХОДИ ДО...

НОВІ ПІДХОДИ ДО...

background paper on financing waste management in...

the cathedral bulletin sunday, august 2, 2020 year...

Проект МІНІСТЕРСТВО ОСВІТИ І...

f 1 g 1 k l ? j k h k < 1 1 m d b : 2 g b...

› wp-content › ... · МАКГЛІНЧІ ТА ІНШІ...

geo.chnu.edu.uageo.chnu.edu.ua/res//geo/konf_9-11.10.2014.doc ·...

safety and health occupational у...