dasar audio processing

7/26/2019 Dasar Audio Processing

1/57

Dasar Audio Processing


2/57

Bentuk Gelombang Sederhana

Frekuensi menyatakan banyaknya gelombang per detik, dinydalam Hertz (Hz)

Periode gelombang merupakan invers dari frekuensi, yaitu lwaktu untuk sebuah gelombang, dikenal juga dengan panjagelombang


3/57

Sinyal Sinus

Sinyal sinus sederhana dinyatakan dalam bentuk:y = A sin (2ft + )

A = Amplitudo

f = frekuensi

t = waktu (dalam detik) atau indeks sample

= fase sinyal


4/57

Hubungan antara Amplitudo, Frekuensi,

Apa pengaruh perubahan amplitudo, frekuensi, dan fasa pagelombang ini?


5/57

Hubungan antara Amplitudo, Frekuensi,


6/57

Sinyal Audio

Pada prinsipnya sinyal audio sederhana dinyatakan dalam sisinusioidal

Semua operasi yang berlaku pada sebuah sinyal sinusoid daoperasikan pada sinyal audio

Proses konversi audio analog ke audio digital prinsipnya sam

proses ADC pada sinyal analog Pada audio yang kita dengar, apa efek dari perubahan ampli

frekuensi?


7/57

Spectogram

Spectogram adalah suatu diagram yang berguna untuk msuatu gelombang dalam periode waktu yang pendek

Untuk akusisi data suara, parameter data suaraakan lebih baik diamati menggunakan Spectogram

Format data suara yang akan dianalisa yang paling umuberbentuk grafik dengan dua dimensi geometris yaitu sumb

horizontal mewakili waktu dan sumbu vertikal mewakili Selain dua dimensi tersebut

biasanya terdapat dimensi ketiga yaitu amplitudo frekuetu pada waktu tertentu yang diwakili dengan intensitas atasetiap titik digambar


8/57

Spectogram


9/57

Skema Pemrosesan Audio Digital


10/57

10

Sampling ProcessQuantization

Error

1010

1011

1011

1011

1001

1010

1001

Digital Data Stream : 1010 1011 1011 1011 1001 ...

Sampling

Period


11/57

Decibel

Decibel (dB) digunakan untuk menyatakan intensitas suara Formula yang digunakan:

X0 menyatakan nilai reference

Jadi, dB biasa digunakan untuk menyatakan intensitas suaraterhadap referensi 0 dB

Referensi 0 dB mewakili batas human perception


12/57

Parameter Sinyal Audio Dasar

Sampling Frequency Human Perception 20 Hz 20.000 Hz

Nyquist menyatakan Fs dua kali dari frekuensi maksimal

Nyquist : Fs >= 40 kHz

CD Audio 44.1 kHz

Blu-ray: 48 kHz

Bit depth

Raw Data Rate


13/57

Parameter Sinyal Audio Dasar

Bit depth Berpengaruh terhadap tingkat intensitas atau loudness relatif terh

pendengarn manusia

Treshold of hearing 0 dB

Mesin Jet 110 s.d 140 dB

Busy Road 100 dB

Menggunakan PCM, intensitas bertambah 6 dB per bit 16 bits per sample menyebabkan 96 dB

24 bits per sample menyebabkan 144 dB

Raw Data Rate

Dihitung berdasarkan frekuensi sampling, bit depth


14/57

Raw Data Rate

Berapa raw data rate untuk audio berdurasi 2 menit menggstandar Blu-ray dan bit depth 16 bits per sample?


15/57

Frekuensi Suara Musik

Nada dasar dari suara musik didasarkan pada nada A dengan freHz

Untuk frekuensi nada-nada yang lain dihitung menggunakan rumberikut:

Dimana :

f = Frekuensi dari nada-nada yang lain

n = langkah (dalam 1 oktaf) dari nada-nada yang akan di ca

12 = jumlah oktaf ( C, C#, D, D#, E, F, F#, G, G#, A, A#, B)

Sebagai contoh, untuk mencari frekuensi nada F, maka n = 4, umencari frekuensi nada B, maka n = 2.


16/57


Hitung frekuensi nada F dan B! Setiap kenaikan 1 oktaf nada, maka frekuensinya menjadi du

lipat


17/57



18/57

Speech Processing


19/57

Speech

Speech (sinyal ucapan) merupakah bentuk khusus dari sinyal suara (vo

Memerlukan pemrosesan khusus yaitu speech processing, relatif berbvoice processing

Speech merupakan bentuk komunikasi yang paling natural sesama ma

Speech sangat erat kaitannya dengan bahasa

Sinyal speech mengandung informasi yang sangat kaya yang dengannydiperoleh informasi antara lain:

Words (kata yang diucapkan) Speaker identity Aksen bicara Ekspresi Style of speech emosi Kondisi kesehatan speaker


20/57

Speech

Sinyal speech mengandung informasi yang sangat kaya yangdengannya dapat diperoleh informasi antara lain:

words (kata yang diucapkan)

speaker identity

aksen bicara, style of speech

ekspresi, emosi

kondisi kesehatan speaker status gender

usia

dll


21/57

Speech

Penelitian di bidang speech sangat luas dan teru berkemban

Di Indonesia relatif sedikit diminati

Teknologi yang terkenal terkait speech:

Speech Recognition, Speech to Text

Text to Speech


22/57

Sistem Pembentukan Sinyal Ucapan

Ucapan manusia dihasilkan oleh suatu sistem produksi ucapdibentuk oleh alat-alat ucap manusia

Dimulai dengan formulasi pesan dalam otak pembicara

Pesan tersebut akan diubah menjadi perintah-perintah yangkepada alat-alat ucap manusia, sehingga akhirnya dihasilkan

yang sesuai dengan pesan yang ingin diucapkan


23/57

Sistem Pembentukan Sinyal Ucapan

Vocal tract ditandai oleh g

putus-putus, dimulai dari vcords atau glottis, dan bermulut

Vocal tract terdiri dari pha(koneksi antara esophagus

mulut) dan mulut


24/57

Model Sistem Produksi Speech

Pembentukan ucapan dimulai

adanya hembusan udara dari Cara kerjanya mirip seperti pis

pompa yang ditekan untuk metekanan udara. Pada saat vocaberada dalam keadaan tegangudara akan menyebabkan terjvibrasi pada vocal cord dan mbunyi ucapan yang disebut vo

sound. Pada saat vocal cord bekeadaan lemas, aliran udara adaerah yang sempit pada vocamenyebabkan terjadinya turbsehingga menghasilkan suara sebagai unvoiced sound.


25/57

Klasifikasi Sinyal Ucapan

1. silence (S), keadaan pada saat tidak ada ucapan yang diuc

2. unvoiced (U), keadaan pada saat vocal cord tidak melakuksehingga suara yang dihasilkan bersifat tidak periodic ataurandom;

3. voiced (V), keadaan pada saat terjadinya vibrasi pada vocasehingga menghasilkan suara yang bersifat kuasi periodik.


26/57

Klasifikasi Sinyal Ucapan-contoh

Baris pertama serta awal barditandai dengan S

bagian tersebut merepresendiam dimana pembicara beluapapun

amplituda kecil yang tampaktersebut merupakan noise laikut terekam.

Suatu perioda singkat unvoicmendahului vocal pertama d

Selanjutnya voiced (V) yang cmerepresentasikan vokal i.

Berikutnya unvoiced (U) yangmerepresentasikan daerah ppengucapan i.

Setelah itu diikuti oleh silencmerupakan bagian dari fonemseterusnya.


27/57

Klasifikasi Sinyal Ucapan-contoh

Segmentasi ucapan me

dan V tidak bersifat eks ada daerah-daerah yan

dapat dikategorikan deke dalam salah satu dakategori tersebut

ada segmen-segmen umirip atau bahkan mensilence didalamnya.


28/57

Representasi Sinyal Ucapan

Representasi sinyal dalam diagram waktu terhadap amplitudseringkali tidak cukup efektif untuk melakukan analisis dari ucapan

Dengan menggunakan spektogram, dapat diidentifikasikankomponen-komponen frekuensi dari suatu segmen ucapan

Segmen ucapan yang bentuknya mirip pada domain waktu lmudah dibedakan pada spektogram dengan cara melihat pekomponen frekuensinya


29/57



30/57


Spektogram pita lebar dapat digunakan untuk melihat kompkomponen frekuensi utama dari suatu ucapan dengan jelas

Sebagian komponen frekuensi yang tidak dominan yang tidapada spektogram pita lebar dapat lebih rinci dilihat mengguspektogram pita sempit

Di dalam pengembangan TTS, analisis spektral diantaranya duntuk:

segmentasi komponen-komponen sinyal ucapan,

identifikasi komponen frekuensi segmen ucapan,

analisis frekuensi dasar yang diperlukan untuk analisis intonasi uca


31/57

Karakteristik Sinyal Ucapan

Unit bunyi terkecil yang dapat dibedakan oleh manusia disefonem.

Suatu ucapan kata atau kalimat pada prinsipnya dapat dilihaurutan fonem.

Himpunan fonem yang ada dalam suatu bahasa berbeda-be

Setiap fonem disimbolkan dengan suatu simbol yang unik. beberapa standar cara penamaan fonem yang berlaku diant

adalah standar IPA (International Phonetic Alphabet), ARPABSAMPA.


32/57

Fonem Bahasa Inggris-Amerika


33/57

Klasifikasi Fonem Bahasa Inggris-Amerik


34/57

Komponen Sinyal Suara

Pitch

Auditory sensation dari frekuensi fundamental sinyal ucapan

Frekuensi fundamental dapat diukur menggunakan frequency ana

Pitch adalah sensasi yang dirasakan/didengar oleh sistem persepspendengaran manusia (kombinasi dari telinga dan otak)

Formant

frekuensi-frekuensi resonansi dari filter, yaitu vocal tract (articulatmeneruskan dan memfilter bunyi keluaran (sinyal speech)

frekuensi-frekuensi formant bersifat tidak terbatas namun, untukmengidentifikasi seseorang paling tidak ada 3 (tiga) format yang dyaitu, Formant 1 (F1), Formant 2 dan Formant 3 (F3)


35/57

Komponen Sinyal Suara-Formant


36/57

Komponen Sinyal Suara-Formant


37/57

Text-To-Speech

Sistem Text to Speech pada prinsipnya terdiri dari dua sub s

yaitu :1. bagian Konverter Teks ke Fonem (Text to Phoneme), serta

2. bagian Konverter Fonem to Ucapan (Phoneme to Speech).


38/57

Text To Speech Konverter Teks-Fonem

mengubah kalimat masukan (teks) menjadi rangkaian kode-kode

yang biasanya direpresentasikan dengan kode fonem, durasi sert

melakukan konversi dari simbol-simbol tekstual menjadi simbol-fonetik yang merepresentasikan unit bunyi terkecil dalam suatu

Fonem yang dihasilkan disesuaikan dengan bahasa yang digunak

Bagian ini bersifat sangat language dependant

Implementasi unit konverter teks ke fonem menjadi sangat spesterhadap suatu bahasa

Untuk suatu bahasa baru, bagian ini harus dikembangkan secarakhusus untuk bahasa tersebut


39/57

Text To Speech Konverter Teks-Fonem

Untuk mendapatkan ucapan yang lebih alami, ucapan yang

harus memiliki intonasi (prosody).

Secara kuantisasi, prosodi adalah perubahan nilai pitch (frekdasar) selama pengucapan kalimat atau pitch sebagai fungs

Pada prakteknya, informasi pembentuk prosodi terdiri atas dpitch serta durasi pengucapannya untuk setiap fonem yang

dibangkitkan.

Nilai-nilai yang dihasilkan diperoleh dari suatu model prosod


40/57

Text To Speech Konverter Fonem-Spee

menerima masukan berupa kode-kode fonem serta pitch dan durasi yang dihasilkan

sebelumnya

Konverter Fonem ke Ucapan akan menghasilkan bunyi atau sinyal ucapan yang sesua

yang ingin diucapkan.

Ada beberapa alternatif teknik yang dapat digunakan untuk implementasi bagian ini,

digunakan adalah:

formant synthesizer,

diphone concatenation

Formant synthesizer bekerja berdasarkan suatu model matematis yang akan melakuk

untuk menghasilkan sinyal ucapan yang diinginkan

dapat menghasilkan ucapan dengan tingkat kemudahan interpretasi yang baik, synth

dapat menghasilkan ucapan dengan tingkat kealamian yang tinggi.


41/57

Text To Speech Konverter Fonem-Spee

Synthesizer yang menggunakan teknik diphone concatenation bekerja d

menggabung-gabungkan segmen-segmen bunyi yang telah direkam seb

Setiap segmen speechnya merupakan diphone (gabungan dua buah fon

Synthesizer jenis ini dapat menghasilkan bunyi ucapan dengan tingkat k

(naturalness) yang tinggi.

Pada sistem yang menggunakan teknik diphone concatenation, sistem h

didukung oleh suatu diphone database yang berisi rekaman segmen-seyang berupa diphone

Ucapan dalam suatu bahasa dibentuk dari satu set bunyi yang mungkin

untuk setiap bahasa, oleh karena itu setiap bahasa harus dilengkapi de

database yang berbeda.


42/57

Text To Speech


43/57

Text To Speech

Text Normalization mengubah semua teks kalimat yang masih ber

angka/singkatan/tanggal/bentuk-bentuk khusus ke dalam murni t

Hasil normalisasi teks lalu diubah ke dalam bentuk fonem menggu

aturan letter-to-phonem conversion

Sebelum dikonversikan ke dalam fonem, teks harus diparsing hing

bentuk satuan huruf

Untuk konversi yang tidak teratur ditangani oleh bagian Exception

Lookup


44/57

Text To Speech

Bagian prosody generator akan melengkapi setiap unit fonem

dihasilkan dengan data durasi pengucapannya serta pitchnya

Phonetic Analysis dapat dikatakan sebagai tahap penyempur

melakukan perbaikan di tingkat bunyi

Contoh:

dalam bahasa Indonesia, fonem /k/ dalam kata bapak tidak pernah

secara tegas

penambahan sisipan fonem /y/ dalam pengucapan kata alamiah an

dan /a/.


45/57

Text To Speech


46/57

Text To Speech

Catatan:

Jika digunakan fonem sebagai basis unit bunyi, maka diperlukan dat

dan synthesizer speech yang digunakan adalah dengan merangkaika

Jika digunakan diphone sebagai basis unit bunyi, maka diperlukan d

diphone dan synthesizer speech yang digunakan adalah dengan me

diphone

Basis unit bunyi bisa menggunakan fonem, diphone, suku kata, atau

Basis unit bunyi yang digunakan akan menentukan jenis database ya

digunakan, parsing teks yang digunakan, dan synthesizer speech ya


47/57

Text To Speech Parsing Diphone

Diphone adalah satuan unit bunyi yang menggabungkan du

fonem

Teks input diparsing hingga ke dalam bentuk diphone

Contoh:

Synthesizer Speech menggunakan Diph


48/57

Synthesizer Speech menggunakan DiphConcatenation

h


49/57

Speech Recognition

S h R i i


50/57

Speech Recognition

Secara umum, sub proses yang ada di dalam Speech Recogn

1. Preprocessing2. Feature Extraction (Ekstraksi Ciri)

3. Classification

1. Training

2. Testing

S h R i i


51/57

Speech Recognition

Secara umum, sub proses yang ada di dalam Speech Recogn

1. PreprocessingReduksi noise, segmentasi/parsing sinyal hingga ke bentuk sinyal kata/suku k

2. Feature Extraction (Ekstraksi Ciri)

Mengambil ciri (feature) yang dianggap mewakili setiap unit speech

Ciri dapat berupa pitch/frekuensi fundamental, frekuensi formant, warna slainnya

Menggunakan berbagai metode, di antaranya kuantisasi vektor, MFCC, dll

3. Classification

Menggunakan berbagai metode, dapat berupa metode machine learning, astatistik, atau gabungan keduanya

Contoh metode: JST, Hidden Markov Model, SVM, dll

S h R iti T t


52/57

Speech Recognition-Tantangan

Peluang noise yang besar, terutama jika Speech Recognition

digunakan di environment umum Speech mengandung banyak komponen yang rentan beruba

mempengaruhi sinyal asli

Contoh: kondisi kesehatan, logat/dialek

Sulitnya memisahkan background voice dengan speech

Sangat terikat pada bahasa tertentu

S h R iti T li Ot k M


53/57

Speech Recognition vs Telinga-Otak Ma

Kemampuan Telinga dan Otak Manusia lebih superior

Manusia dengan mudah memisahkan antara pembicara dengan suara musikbelakang, sementara komputer masih sangat sulit melakukan itu

Bahkan manusia mempunyai kemampuan untuk fokus (berusaha fokus). Misatu keramaian konser musik, anda berbicara dengan teman di sebelah, masmemahami apa yang diucapkan. Speech Recognition?

Mengapa komputer sulit melakukannya? Semuanya berhubungan dengan psinyal suara. Pemrosesan tersebut sekarang masih berbasis frekuensi. Ketikainformasi dalam sinyal suara mempunyai komponen frekuensi yang banyak

komponen frekuensi noise-nya, jadi sulit memisahkannya, sementara telingamanusia masih bisa melakukannya dengan mudah. Jadi, kesimpulannya? Temanusia mungkin bekerja dengan prinsip yang berbeda.., mungkin tidapemisahan frekuensi. Sensor dalam telinga manusia berupa rambut-rambujumlahnya sangat banyak, sementara sensor komputer hanya satu buah mikkarena itu, salah satu arah riset yang berkembang adalah penggunaan arrayuntuk menirukan banyaknya sensor dalam telingan manusia.

S h R iti T li Ot k M


54/57

Speech Recognition vs Telinga-Otak Ma

Mengapa komputer sulit melakukannya?

Semuanya berhubungan dengan pemrosesan sinyal suara yasekarang masih berbasis frekuensi

Ketika sebuah informasi dalam sinyal suara mempunyai komfrekuensi yang sama banyaknya dengan komponen frekuensnya, maka sangat sulit memisahkannya

Telinga dan otak manusia mungkin bekerja dengan prinsip yberbeda, mungkin tidak berbasis pemisahan frekuensiMmemerlukan riset yang panjang

Speaker Recognition


55/57

Speaker Recognition


56/57

CBAR


57/57

CBAR

Teknologi lain yang sedang berkembang

Content Based Audio Retrieval

Selama ini pencarian data audio pada searching engines maberbasis text-searching

CBAR berbasis kesamaan konten audio

dasar audio processing

Documents