d więk w multimediach

60
1 Dwięk w multimediach Ryszard Gubrynowicz [email protected]. pl Wykład 6

Upload: dahlia-garner

Post on 31-Dec-2015

38 views

Category:

Documents


0 download

DESCRIPTION

D  więk w multimediach. Ryszard Gubrynowicz [email protected]. Wykład 6. Sylaby fonetyczne. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: D  więk w multimediach

1

D �więk w multimediach

Ryszard [email protected]

Wykład 6

Page 2: D  więk w multimediach

2

Sylaby fonetyczne

Zmiany głośności między kolejnymi głoskami w strumieniu dźwięków mowy warunkują podział wypowiedzi na tzw. sylaby fonetyczne. Rdzeniem (ośrodkiem) sylaby fonetycznej jest segment głoskowy różniący się poziomem głośności od swego najbliższego otoczenia. Jego głośność jest niemal zawsze większa od głośności głoski występującej bezpośrednio przed nim i po nim.

Page 3: D  więk w multimediach

3

Granice między sylabami

Granice sylab fonetycznych wypadają w momentach zamknięcia toru głosowego lub powstania w nim znacznego zwężenia, ewentualnie w chwili wystąpienia tzw. pauzy akustycznej.tS I m u gb I p a n p S I s wa ts' k o g o z' v e f t o r e k r a n o

tSI mug bI pan pSI swats' ko goz' ve fto rek ra no

Przebieg zmian intensywności

Page 4: D  więk w multimediach

4

Struktura sylabiczna wypowiedzi

Sylaba nie stanowi elementu funkcjonalnego jakim jest głoska. Jej jedyną funkcją jest segmentacja wypowiedzi, ułatwiająca artykulację i percepcję. Segmentacja ta dokonuje się poprzez rytmizację ciągu segmentów, spowodowaną podziałem tego ciągu na skutek chwilowych obniżeń poziomu emitowanego sygnału mowy.

Obniżenia te są wywoływane przez zwarcia, bądź szczeliny będącymi źródłem pobudzenia szumowego o niskim poziomie. Ośrodkami sylab są głoski o najwyższym poziomie (na ogół są to samogłoski).

Page 5: D  więk w multimediach

5

Poziom intensywnościw sylabach „uwydatnionych”

tS I m o Z e m i p a n' i p

tSI mo Ze mi pa n'i po

tSI mo Ze mi pa n'i po

20

25

30

35

40

45

50

55

60

65

70

75

80

0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8

Page 6: D  więk w multimediach

6

Akcent wyrazowyDefinicja akcentu: Jest to to proces uwydatniający wybrane segmenty w sygnale mowy ciągłej, np. sylab w wyrazach lub wyrazów w zdaniach.

Uwydatnienie sylaby akcentowanej może polegać na silniejszym, a zarazem głośniejszym jej wypowiedzeniu, na bardziej precyzyjnym jej wymówieniu, co może spowodować jej wydłużenie czasu trwania.

Może też wystąpić tylko podwyższenie (niekiedy obniżenie) częstotliwości pobudzenia krtaniowego.

Page 7: D  więk w multimediach

W zależności od tego, który z tych czynników przeważa, akcent jest określany jako:

dynamiczny – gdy czynnikiem dominującym w płaszczyźnie akustycznej są zmiany intensywności

rytmiczny – gdy o wrażeniu akcentu decydują zmiany iloczasów sylab, lub

melodyczny – gdy akcentowanie sylaby jest realizowane poprzez zmianę wysokości głosu Dla języka polskiego przyjmuje się , że akcent jest zazwyczaj dynamiczny, choć jest to dyskusyjne.

7

Akcent dynamiczny, rytmiczny i melodyczny

Page 8: D  więk w multimediach

8

Położenie akcentuPrzyjmuje się, że w języku polskim akcent wyrazowy jest stały i spoczywa w zasadzie na przedostatniej sylabie formy wyrazowej. Są formy wyrazowe nie mające samodzielnego akcentu np. „się”, „ci”, „za”, „mnie” itp. i dołączają się do wyrazu mającego swój akcent – np. „pod_lasem”.Akcent wyrazów zapożyczonych jest na ogół na 3-ej sylabie od końca – „logika”. To samo może wystąpić w niektórych formach czasownikowych – „widzieliśmy”.Dłuższe formy wyrazowe obok akcentu na sylabie przedostatniej mają także akcent na pierwszej sylabie (akcent główny) – „prawdopodobnie” (o tym zadecydowały względy rytmiczne i melodyczne)

Page 9: D  więk w multimediach

9

Przykład analizy położenia akcentu

tS I m o Z e m i p a n' i p

tSI mo Ze mi pa n'i po

tSI mo Ze mi pa n'i po

20

25

30

35

40

45

50

55

60

65

70

75

80

0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8

tSI mo paZe mi ni

Wpływ iloczasu na percepcję akcentu

tSI mo paZe mi ni

Page 10: D  więk w multimediach

10

tS I m o Z e m i p a n' i

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 1.1 1.2 1.3 1.420

25

30

35

40

45

50

55

60

65

70

75

80

85

90

Czas [s]

Wpływ poziomu intensywności na percepcję akcentu

Page 11: D  więk w multimediach

11

Wpływ F0 na percepcję akcentu

tS

I

m

oZ

e

mi

p a

n'i

tS

Im

o

Z

e

m

i

p

a

n'

i

0

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 1.1 1.2 1.3 1.4Time [s]

Page 12: D  więk w multimediach

12

Przykład melodii zdania angielskiego –„I wanted chocolate and cake”

aj won

thIt

tSo

klet

endkejk

ajwon tIt

tSo

klet

ent

kejk

aj

wont zenkejk

aj won

tedtSo

kletend

kejk

-5

-4

-3

-2

-1

0

1

2

3

4

5

6

7

8

9

10

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 1.1 1.2 1.3 1.4 1.5 1.6

Czas [s]

kolor czarny – melodia standardowa; pozostałe kolory z przenoszeniem akcentu

zielony – „I”

czerwony– „and”

niebieski – „cake”

Page 13: D  więk w multimediach

13

Realizacja akcentu w płaszczyźnie akustycznej

W zależności od języka mówca posługuje się jednym z akcentów jako dominującym dla danego języka.

W przykładzie dla języka angielskiego (z dominującym akcentem melodycznym), mówca niekiedy dodaje również akcent dynamiczny, a niekiedy obserwuje się wydłużenie sylaby, by uzyskać na niej słyszalne podniesienie melodii.

Page 14: D  więk w multimediach

Jak jest realizowany akcent w języku polskim?

% czas trwania sylab

-sylaby akcentowane

14

Page 15: D  więk w multimediach

15

Wpływ zwiększenia iloczasu samogłoski /i/ w sylabie /bli/ i

skrócenia samogłoski /e/ w /kle/

Page 16: D  więk w multimediach

16

Wpływ spłaszczenia konturu melodycznego

Iloczas sylabnie modyfikowany

Iloczas sylabjednakowy

Iloczas sylaby /bli/zwiększony

Page 17: D  więk w multimediach

17

Przykład zapisu muzycznego melodii mowy

o

v

I

p

r

a

S

a

m

t

o

s

o

b

j

e

j

a k

t

o

j a n' n'e

ro

b

j

e

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

0 0.25 0.5 0.75 1 1.25 1.5 1.75 2 2.25 2.5 2.75 3 3.25 3.5 3.75 4 4.25 4.5

Czas [s]Czas [s]

Czas [s]

Czas [s]

Page 18: D  więk w multimediach

18

Rozkład iloczasów sylab

F0

F0

F0

F0

Page 19: D  więk w multimediach

Przebieg zmian F0, A i iloczasów samogłosek

19

Time (s)0 6.754

Pitc

h (s

emito

nes re

100

Hz)

10

26

o

v

I

p

r

a

S

a

m

t

o

s

o

bj

e

j

a k

t

o

j an n’

e

ro

b

j

e

Time (s)0 6.754

Pitc

h (s

emito

nes re

100

Hz)

10

26

o

v

I

p

r

a

S

a

m

t

o

s

o

bj

e

j

a k

t

o

j an n’

e

ro

b

j

e

o v I p r a S a m t o s o b j e j a k t o j a n n’ e r o b j e

10

26

18

Pitc

h (s

emito

nes re

100

Hz)

Time (s)0 6.754

o

v

Ip

r

a

S

a

m

t

os

o

bj

e

j

a k

t

o

j a n n’er

ob

j

e

1011121314151617181920212223242526

75

80

85

90

00 50 1 2 3 4 5 6

Czas s

F0 (sem)A (dB)

Czas (s)

o v I p r a S a m t o s o b j e j a k t o j a n n’ e r o b j e

Page 20: D  więk w multimediach

20

Opis symboliczny melodii zdania

tSIm

ugb

I

p

a

n

p

S

I sw

a

ts'k o

g

o

z'v

e

f

to r

e k r

a n

o

6789

101112131415161718192021222324252627282930

0 0.25 0.5 0.75 1 1.25 1.5 1.75 2 2.25 2.5Czas [s]

T

B

L

LHHL

H HL

H

HL H

L

LH

sylaby tSI mug bI pan pSI swatc’ ko goz’ ve fto rek ra no

F0symb L LH T HL H HL H HL L H L B LH

L

Page 21: D  więk w multimediach

21

Funkcje melodii (intonacji) mowy

W języku polskim zmiany wysokości tonu krtaniowego, charakteryzują wraz z rozłożeniem akcentów, tempem wypowiedzi itp. dłuższe niż głoska odcinki wypowiedzi.

Zmiany F0 są nosicielami informacji o rozczłonowaniu składniowym tej wypowiedzi, o tym które jej fragmenty są szczególnie ważne, sygnalizują też koniec całej wypowiedzi, lub któregoś z jej członów.

Page 22: D  więk w multimediach

22

Obniżenie melodii jest zazwyczaj w wypowiedziach stanowiących zamkniętą całość. Podobnie jest w pozbawionych emocji poleceniach i rozkazach. Na końcu tych odcinków wypowiedzi, które wyodrębniają się, ale nie stanowią jeszcze zamkniętej całości, a więc takich, po których ma nastąpić ciąg dalszy melodia się wznosi. Podobnie melodia wznosi się na końcu zdania pytającego.

Wzmacnianie danej sylaby często odbywa się poprzez podniesienie częstotliwości F0 (w przykładzie na „O!”, czy „Jak to..”). Takie uwydatnianie nazywa się akcentem logicznym (zdaniowym). Na ogół, wymaga to ponadto zwiększenia iloczasu uwydatnianej sylaby.

Wzmocnienie sylaby

Page 23: D  więk w multimediach

23

porządkują i organizują strukturę czasową wypowiedzi

są nosicielami informacji o jej podziale składniowym

sygnalizują gramatyczną funkcję wypowiedzi (przede wszystkim melodia jest nosicielem tej informacji)

sygnalizują stan emocjonalny

Rola cech prozodycznych w mowie

Page 24: D  więk w multimediach

24

Jakiego typu jest to fraza?

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

13.5 13.75 14 14.25 14.5 14.75 15 15.25

vje vjur ka s'e dz'i na dZZe vje

Czas [s]Czas [s]

Czas [s]

Czas [s]

F0

[pół

tony

]

Page 25: D  więk w multimediach

25

Było to zdanie niedokończone

vje

vjur

kas'e

dz'i nadZZe

vje

igrI

z'e

o

Zex

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

13.5 13.75 14 14.25 14.5 14.75 15 15.25 15.5 15.75 16 16.25 16.5 16.75 17

F0

[pół

tony

]

Czas [s]

Page 26: D  więk w multimediach

26

Czy prozodia wpływa na artykulację ?Intensywność i rejestr głosu

F0=262 Hz

F0=466 HzF0=349 Hz

Page 27: D  więk w multimediach

Przykłady zapisu nutowego fraz wypowiedzianych przez K.Ch.

Page 28: D  więk w multimediach

28

Muzyczna notacja dla mowy ?• W dobie precyzyjnych pomiarów częstotliwości,

czy ma jeszcze sens ? • W muzyce podstawowym pojęciem jest interwał –

różnica wysokości dwóch dźwięków wyrażona w jednostce miary, której podstawą jest oktawa i półton

• Muzyczny interwał jest muzyczną odległością między dźwiękami o różnej wysokości – ma bezpośredni związek z percepcją wysokości.

• Interwały są związane z częstotliwością, ale nie są identyczne (w różnych oktawach te same interwały są w skali częstotliwości różne)

• Tony 220 Hz i 440 Hz są muzycznie identyczne

Page 29: D  więk w multimediach

29

Muzyczne interwały nie zależą od zakresu– Oktawa może być dzielona muzycznie na wiele

sposobów– Melodia może wykorzystywać tylko jakąś część

muzycznej przestrzeni dźwiękowej– Mowa rozciąga lub zmniejsza całą przestrzeń

dźwiękową. W zmienionej przestrzeni nadal dźwięk Wysoki pozostaje nadal Wysoki bez względu na to, czy przestrzeń ta została rozciągnięta, czy pomniejszona. W muzyce pomniejszony interwał jest różny od rozciągniętego

– Innymi słowy, muzyczna tonalność zmienia się w obrębie przestrzeni tonicznej, natomiast mowa tę przestrzeń sobie niemal dowolnie kształtuje

Mowa a muzyka

Page 30: D  więk w multimediach

Nieadekwatność notacji muzycznej mowy

30

• Notacja nutowa sugeruje, że mowa jest „muzyczna”.

• Muzyczna notacja może być myląca, sugerując strukturę tonalną melodii mowy, o czym nie ma przekonywujących danych.

• Jednakże badania neurologiczne wskazują na związek między percepcją konturu melodycznego i intonacją, ale nie między intonacją (w sensie lingwistycznym) i muzyczną tonalnością.

Page 31: D  więk w multimediach

Manipulacja prozodią w syntezie mowy

praat

31

Po wczytaniu pliku wav, „Go to Manipulation”

Page 32: D  więk w multimediach

Mowa jako ciąg krótkotrwałych segmentów

32

Page 33: D  więk w multimediach

Modyfikacja czasu trwania

Podwojenie lub usunięcie segmentu

33

Page 34: D  więk w multimediach

SOLA-Synchronized Overlap and Add

– Przesunięcie segmentów odpowiednio do wielkości współczynnika skalującego

– Wzajemne ustawienie, przedział nakładania/sumowania,

– Obliczenie korelacji wzajemnej w przedziale nakładania się

– Tak przesunąć względem siebie segmenty, by w tym przedziale współczynnik korelacji wzajemnej był maksymalny

– wzmacnianie/tłumienie j.w.– Dowolne przesunięcie czasowe

• Przetwarzanie segmentów czasowych- Segmentacja na ciągi x[n] w zachodzących na siebie ramkach

34

Page 35: D  więk w multimediach

PSOLA• Wariant metody OLA specjalnie dostosowany do

przetwarzania mowy• Podział sygnału na zachodzące na siebie okienka• Podział zsynchronizowany z F0

– unikać miejsc z nieciągłościami F0• Konieczne jest wstępne zaznaczenie na przebiegu

sygnału miejsca impulsów krtaniowych• Analiza:

– wyznaczenie okresów pobudzenia krtaniowego– ekstrakcja okienkowanych segmentów, których

środki znajdują w miejscach impulsów krtaniowych35

Page 36: D  więk w multimediach

36

Page 37: D  więk w multimediach

Synteza sygnału mowy• Skalowanie czasowe:

– Skalowane segmenty muszą być dodane lub usunięte bez zmiany odległości między sąsiednimi impulsami krtaniowymi

• Zmiana F0:– Po syntezie czas trwania segmentu nie ulega

zmianie, natomiast konieczne jest przeskalowanie lokalnego okresu tonu krtaniowego

• Segmenty mogą być pomijane (kompresja/obniżenie wysokości głosu)• Segmenty mogą być podwojone (rozciągnięcie/zwiększenie wysokości)• Artefakty:

– „rozmazywanie tranzjentów”, słyszalne „cięcia”, zniekształcenia błędami fazowymi

37

Page 38: D  więk w multimediach

Zmiana skali czasu - zwiększenie

Schematyczne przedstawienie odwzorowania osi czasu analizy w oś czasu syntezy

38

Page 39: D  więk w multimediach

Modyfikowanie czasu – zmniejszenie

39

Page 40: D  więk w multimediach

Modyfikowanie intonacji bez zmiany skali czasu

40

Page 41: D  więk w multimediach

Multimedialna/multimodalna reprezentacja emocji

41

Page 42: D  więk w multimediach

Jakie stany emocjonalne należy/można wyróżnić?

42

Page 43: D  więk w multimediach

Uniwersalizm niektórych sposobów wyrażania stanów emocjonalnych

Ekman wykazał , że niektóre stany emocjonalne są wyrażane w sposób niezależny od środowiska kulturowego:– radość– smutek– złość, gniew– strach, obawa– odraza, wstręt (dla niektórych środowisk)– zdziwienie, zaskoczenie (dla niektórych środowisk)

Pozostałe są kulturowo zmienne, w tym i „obojętność”43

Page 44: D  więk w multimediach

Dlaczego ważne jest rozpoznawanie stanów emocjonalnych w dwustronnej komunikacji?

• Człowiek w codziennym komunikowaniu z otoczeniem wyraża swoje emocje

• Zrozumienie emocji i znajomość jak reagować w stosunku do ludzi wyrażających swoje emocje znacznie wzbogaca wzajemne oddziaływanie

44

Page 45: D  więk w multimediach

Emocje w interakcji człowiek –komputer

• Znając emocje użytkownika system może się do niego lepiej dostosować

• Rozpoznając i reagując adekwatnie (!) do stanu emocjonalnego użytkownika system będzie oddziaływał na niego w sposób bardziej naturalny, przekonywujący i wiarygodny

45

Page 46: D  więk w multimediach

Sposoby wyrażania emocji

emocje znajdują swoje odzwierciedlenie w głosie, ruchach rąk i ciała, ale dla niektórych emocji, przede wszystkim w mimice twarzy

46

Page 47: D  więk w multimediach

Multimodalna analiza twarzy

Oparta jest na analizie:

– Informacji o kolorze skóry– Cechy elipsoidalne głowy– Gradient luminancji/chrominancji– Wstępny podział obszarów twarzy– Określenie cech wyrazu twarzy– Analiza sygnałów mikrofonowych– …

47

Page 48: D  więk w multimediach

Multimodalne środki emocji i jej rozpoznawanie

Obiekt analizy i rozpoznawania: twarz (wyraz, mimika) + mowa (głos, treść)

• Rozpoznawanie emocji systemy inteligentne (nadmiarowość, niepewność, niespójność informacji)

• Modelowanie emocji synteza emocji

• Interakcja rzeczywiste emocje baza danych

48

Page 49: D  więk w multimediach

Rozpoznawanie emocji w systemie dialogowym

49

Page 50: D  więk w multimediach

Analiza semantyczna emocji

50

...II

...

I_hateI_hate BadBad AdhorrenceAdhorrence

first_personfirst_person

RadośćRadość

NegativeNegativePositivePositive DisgustDisgust

PoziomPoziom wejściowywejściowy

słowasłowa

kategoryzacjakategoryzacja

frazyfrazy

kategory-kategory-zacjazacja

WstrętWstręt

I can‘t stand this nasty every tray traffic-jam

can‘tcan‘t standstand nastynasty

cannotcannot standstand badbad disgustingdisgusting

InterpretaInterpretacjacja

GoodGood

ZłośćZłość

GrupowanieGrupowanie

PrzetwarzaniePrzetwarzanieciągówciągów

GrupowanieGrupowanie

GrupowanieGrupowanie

Wyszukiwanie słów kluczowychWyszukiwanie słów kluczowych

I_likeI_like ... ...

... ...

...

... ...

... ...

... ...

Leksykon wyrażeń emocjonalnych

Page 51: D  więk w multimediach

Etapy multimodalnej analizy i syntezy emocji

• Multimodalna analiza twarzy mówiącej osoby (tzw. Face Tracking)

• Ekstrakcja cech mimiki twarzy

• Ekstrakcja cech głosu

• Multimodalne rozpoznawanie emocji

• Multimodalna synteza emocji

51

Page 52: D  więk w multimediach

Anatomia a mimika twarzy

Ekman opracował system kodowania ruchów mięśni twarzy -Facial Action Coding System (FACS):

Opis mięśni twarzy szczęki i języka oparty na analizie anatomii twarzy

52

Page 53: D  więk w multimediach

Określenie cech wyrazu twarzy

Detekcja i śledzenie zmian cech– Lokalizacja : w procesie uczenia i/lub

poprzez heurystykę– Ekstrakcja: wykorzystanie wiedzy a priori– Informacje dotyczące kształtu/konturu – Chwilowe zmarszczki– …

53

Page 54: D  więk w multimediach

Określenie obszarów ekstrakcji cech wyrazu twarzy

54

Page 55: D  więk w multimediach

Ekstrakcja cech wyrazu twarzy - kontury

55

Page 56: D  więk w multimediach

”Maska emocjonalna”

56

Page 57: D  więk w multimediach

Wektorowy opis mimiki twarzy

• wektory przesunięcia określonych elementów twarzy

57

Page 58: D  więk w multimediach

Archetypy ekspresji wizerunku

Source: F. Parke and K. Waters, Computer Facial Animation, A K Peters

Zwane są uniwersalnymi, bowiem są jednoznacznie rrozpoznawane niezależnie od strefy kulturowej

58

Page 59: D  więk w multimediach

Emocje niesione przez wyraz twarzy – synteza

Niektóre emocje w wyrazie twarzy są niemal bezbłędnie rozpoznawane

59

Page 60: D  więk w multimediach

Stopniowanie emocji w wizerunku twarzy

60