dasar audio processing
TRANSCRIPT
-
7/26/2019 Dasar Audio Processing
1/57
Dasar Audio Processing
-
7/26/2019 Dasar Audio Processing
2/57
Bentuk Gelombang Sederhana
Frekuensi menyatakan banyaknya gelombang per detik, dinydalam Hertz (Hz)
Periode gelombang merupakan invers dari frekuensi, yaitu lwaktu untuk sebuah gelombang, dikenal juga dengan panjagelombang
-
7/26/2019 Dasar Audio Processing
3/57
Sinyal Sinus
Sinyal sinus sederhana dinyatakan dalam bentuk:y = A sin (2ft + )
A = Amplitudo
f = frekuensi
t = waktu (dalam detik) atau indeks sample
= fase sinyal
-
7/26/2019 Dasar Audio Processing
4/57
Hubungan antara Amplitudo, Frekuensi,
Apa pengaruh perubahan amplitudo, frekuensi, dan fasa pagelombang ini?
-
7/26/2019 Dasar Audio Processing
5/57
Hubungan antara Amplitudo, Frekuensi,
-
7/26/2019 Dasar Audio Processing
6/57
Sinyal Audio
Pada prinsipnya sinyal audio sederhana dinyatakan dalam sisinusioidal
Semua operasi yang berlaku pada sebuah sinyal sinusoid daoperasikan pada sinyal audio
Proses konversi audio analog ke audio digital prinsipnya sam
proses ADC pada sinyal analog Pada audio yang kita dengar, apa efek dari perubahan ampli
frekuensi?
-
7/26/2019 Dasar Audio Processing
7/57
Spectogram
Spectogram adalah suatu diagram yang berguna untuk msuatu gelombang dalam periode waktu yang pendek
Untuk akusisi data suara, parameter data suaraakan lebih baik diamati menggunakan Spectogram
Format data suara yang akan dianalisa yang paling umuberbentuk grafik dengan dua dimensi geometris yaitu sumb
horizontal mewakili waktu dan sumbu vertikal mewakili Selain dua dimensi tersebut
biasanya terdapat dimensi ketiga yaitu amplitudo frekuetu pada waktu tertentu yang diwakili dengan intensitas atasetiap titik digambar
-
7/26/2019 Dasar Audio Processing
8/57
Spectogram
-
7/26/2019 Dasar Audio Processing
9/57
Skema Pemrosesan Audio Digital
-
7/26/2019 Dasar Audio Processing
10/57
10
Sampling ProcessQuantization
Error
1010
1011
1011
1011
1001
1010
1001
Digital Data Stream : 1010 1011 1011 1011 1001 ...
Sampling
Period
-
7/26/2019 Dasar Audio Processing
11/57
Decibel
Decibel (dB) digunakan untuk menyatakan intensitas suara Formula yang digunakan:
X0 menyatakan nilai reference
Jadi, dB biasa digunakan untuk menyatakan intensitas suaraterhadap referensi 0 dB
Referensi 0 dB mewakili batas human perception
-
7/26/2019 Dasar Audio Processing
12/57
Parameter Sinyal Audio Dasar
Sampling Frequency Human Perception 20 Hz 20.000 Hz
Nyquist menyatakan Fs dua kali dari frekuensi maksimal
Nyquist : Fs >= 40 kHz
CD Audio 44.1 kHz
Blu-ray: 48 kHz
Bit depth
Raw Data Rate
-
7/26/2019 Dasar Audio Processing
13/57
Parameter Sinyal Audio Dasar
Bit depth Berpengaruh terhadap tingkat intensitas atau loudness relatif terh
pendengarn manusia
Treshold of hearing 0 dB
Mesin Jet 110 s.d 140 dB
Busy Road 100 dB
Menggunakan PCM, intensitas bertambah 6 dB per bit 16 bits per sample menyebabkan 96 dB
24 bits per sample menyebabkan 144 dB
Raw Data Rate
Dihitung berdasarkan frekuensi sampling, bit depth
-
7/26/2019 Dasar Audio Processing
14/57
Raw Data Rate
Berapa raw data rate untuk audio berdurasi 2 menit menggstandar Blu-ray dan bit depth 16 bits per sample?
-
7/26/2019 Dasar Audio Processing
15/57
Frekuensi Suara Musik
Nada dasar dari suara musik didasarkan pada nada A dengan freHz
Untuk frekuensi nada-nada yang lain dihitung menggunakan rumberikut:
Dimana :
f = Frekuensi dari nada-nada yang lain
n = langkah (dalam 1 oktaf) dari nada-nada yang akan di ca
12 = jumlah oktaf ( C, C#, D, D#, E, F, F#, G, G#, A, A#, B)
Sebagai contoh, untuk mencari frekuensi nada F, maka n = 4, umencari frekuensi nada B, maka n = 2.
-
7/26/2019 Dasar Audio Processing
16/57
Frekuensi Suara Musik
Hitung frekuensi nada F dan B! Setiap kenaikan 1 oktaf nada, maka frekuensinya menjadi du
lipat
-
7/26/2019 Dasar Audio Processing
17/57
Frekuensi Suara Musik
-
7/26/2019 Dasar Audio Processing
18/57
Speech Processing
-
7/26/2019 Dasar Audio Processing
19/57
Speech
Speech (sinyal ucapan) merupakah bentuk khusus dari sinyal suara (vo
Memerlukan pemrosesan khusus yaitu speech processing, relatif berbvoice processing
Speech merupakan bentuk komunikasi yang paling natural sesama ma
Speech sangat erat kaitannya dengan bahasa
Sinyal speech mengandung informasi yang sangat kaya yang dengannydiperoleh informasi antara lain:
Words (kata yang diucapkan) Speaker identity Aksen bicara Ekspresi Style of speech emosi Kondisi kesehatan speaker
-
7/26/2019 Dasar Audio Processing
20/57
Speech
Sinyal speech mengandung informasi yang sangat kaya yangdengannya dapat diperoleh informasi antara lain:
words (kata yang diucapkan)
speaker identity
aksen bicara, style of speech
ekspresi, emosi
kondisi kesehatan speaker status gender
usia
dll
-
7/26/2019 Dasar Audio Processing
21/57
Speech
Penelitian di bidang speech sangat luas dan teru berkemban
Di Indonesia relatif sedikit diminati
Teknologi yang terkenal terkait speech:
Speech Recognition, Speech to Text
Text to Speech
-
7/26/2019 Dasar Audio Processing
22/57
Sistem Pembentukan Sinyal Ucapan
Ucapan manusia dihasilkan oleh suatu sistem produksi ucapdibentuk oleh alat-alat ucap manusia
Dimulai dengan formulasi pesan dalam otak pembicara
Pesan tersebut akan diubah menjadi perintah-perintah yangkepada alat-alat ucap manusia, sehingga akhirnya dihasilkan
yang sesuai dengan pesan yang ingin diucapkan
-
7/26/2019 Dasar Audio Processing
23/57
Sistem Pembentukan Sinyal Ucapan
Vocal tract ditandai oleh g
putus-putus, dimulai dari vcords atau glottis, dan bermulut
Vocal tract terdiri dari pha(koneksi antara esophagus
mulut) dan mulut
-
7/26/2019 Dasar Audio Processing
24/57
Model Sistem Produksi Speech
Pembentukan ucapan dimulai
adanya hembusan udara dari Cara kerjanya mirip seperti pis
pompa yang ditekan untuk metekanan udara. Pada saat vocaberada dalam keadaan tegangudara akan menyebabkan terjvibrasi pada vocal cord dan mbunyi ucapan yang disebut vo
sound. Pada saat vocal cord bekeadaan lemas, aliran udara adaerah yang sempit pada vocamenyebabkan terjadinya turbsehingga menghasilkan suara sebagai unvoiced sound.
-
7/26/2019 Dasar Audio Processing
25/57
Klasifikasi Sinyal Ucapan
1. silence (S), keadaan pada saat tidak ada ucapan yang diuc
2. unvoiced (U), keadaan pada saat vocal cord tidak melakuksehingga suara yang dihasilkan bersifat tidak periodic ataurandom;
3. voiced (V), keadaan pada saat terjadinya vibrasi pada vocasehingga menghasilkan suara yang bersifat kuasi periodik.
-
7/26/2019 Dasar Audio Processing
26/57
Klasifikasi Sinyal Ucapan-contoh
Baris pertama serta awal barditandai dengan S
bagian tersebut merepresendiam dimana pembicara beluapapun
amplituda kecil yang tampaktersebut merupakan noise laikut terekam.
Suatu perioda singkat unvoicmendahului vocal pertama d
Selanjutnya voiced (V) yang cmerepresentasikan vokal i.
Berikutnya unvoiced (U) yangmerepresentasikan daerah ppengucapan i.
Setelah itu diikuti oleh silencmerupakan bagian dari fonemseterusnya.
-
7/26/2019 Dasar Audio Processing
27/57
Klasifikasi Sinyal Ucapan-contoh
Segmentasi ucapan me
dan V tidak bersifat eks ada daerah-daerah yan
dapat dikategorikan deke dalam salah satu dakategori tersebut
ada segmen-segmen umirip atau bahkan mensilence didalamnya.
-
7/26/2019 Dasar Audio Processing
28/57
Representasi Sinyal Ucapan
Representasi sinyal dalam diagram waktu terhadap amplitudseringkali tidak cukup efektif untuk melakukan analisis dari ucapan
Dengan menggunakan spektogram, dapat diidentifikasikankomponen-komponen frekuensi dari suatu segmen ucapan
Segmen ucapan yang bentuknya mirip pada domain waktu lmudah dibedakan pada spektogram dengan cara melihat pekomponen frekuensinya
-
7/26/2019 Dasar Audio Processing
29/57
Representasi Sinyal Ucapan
-
7/26/2019 Dasar Audio Processing
30/57
Representasi Sinyal Ucapan
Spektogram pita lebar dapat digunakan untuk melihat kompkomponen frekuensi utama dari suatu ucapan dengan jelas
Sebagian komponen frekuensi yang tidak dominan yang tidapada spektogram pita lebar dapat lebih rinci dilihat mengguspektogram pita sempit
Di dalam pengembangan TTS, analisis spektral diantaranya duntuk:
segmentasi komponen-komponen sinyal ucapan,
identifikasi komponen frekuensi segmen ucapan,
analisis frekuensi dasar yang diperlukan untuk analisis intonasi uca
-
7/26/2019 Dasar Audio Processing
31/57
Karakteristik Sinyal Ucapan
Unit bunyi terkecil yang dapat dibedakan oleh manusia disefonem.
Suatu ucapan kata atau kalimat pada prinsipnya dapat dilihaurutan fonem.
Himpunan fonem yang ada dalam suatu bahasa berbeda-be
Setiap fonem disimbolkan dengan suatu simbol yang unik. beberapa standar cara penamaan fonem yang berlaku diant
adalah standar IPA (International Phonetic Alphabet), ARPABSAMPA.
-
7/26/2019 Dasar Audio Processing
32/57
Fonem Bahasa Inggris-Amerika
-
7/26/2019 Dasar Audio Processing
33/57
Klasifikasi Fonem Bahasa Inggris-Amerik
-
7/26/2019 Dasar Audio Processing
34/57
Komponen Sinyal Suara
Pitch
Auditory sensation dari frekuensi fundamental sinyal ucapan
Frekuensi fundamental dapat diukur menggunakan frequency ana
Pitch adalah sensasi yang dirasakan/didengar oleh sistem persepspendengaran manusia (kombinasi dari telinga dan otak)
Formant
frekuensi-frekuensi resonansi dari filter, yaitu vocal tract (articulatmeneruskan dan memfilter bunyi keluaran (sinyal speech)
frekuensi-frekuensi formant bersifat tidak terbatas namun, untukmengidentifikasi seseorang paling tidak ada 3 (tiga) format yang dyaitu, Formant 1 (F1), Formant 2 dan Formant 3 (F3)
-
7/26/2019 Dasar Audio Processing
35/57
Komponen Sinyal Suara-Formant
-
7/26/2019 Dasar Audio Processing
36/57
Komponen Sinyal Suara-Formant
-
7/26/2019 Dasar Audio Processing
37/57
Text-To-Speech
Sistem Text to Speech pada prinsipnya terdiri dari dua sub s
yaitu :1. bagian Konverter Teks ke Fonem (Text to Phoneme), serta
2. bagian Konverter Fonem to Ucapan (Phoneme to Speech).
-
7/26/2019 Dasar Audio Processing
38/57
Text To Speech Konverter Teks-Fonem
mengubah kalimat masukan (teks) menjadi rangkaian kode-kode
yang biasanya direpresentasikan dengan kode fonem, durasi sert
melakukan konversi dari simbol-simbol tekstual menjadi simbol-fonetik yang merepresentasikan unit bunyi terkecil dalam suatu
Fonem yang dihasilkan disesuaikan dengan bahasa yang digunak
Bagian ini bersifat sangat language dependant
Implementasi unit konverter teks ke fonem menjadi sangat spesterhadap suatu bahasa
Untuk suatu bahasa baru, bagian ini harus dikembangkan secarakhusus untuk bahasa tersebut
-
7/26/2019 Dasar Audio Processing
39/57
Text To Speech Konverter Teks-Fonem
Untuk mendapatkan ucapan yang lebih alami, ucapan yang
harus memiliki intonasi (prosody).
Secara kuantisasi, prosodi adalah perubahan nilai pitch (frekdasar) selama pengucapan kalimat atau pitch sebagai fungs
Pada prakteknya, informasi pembentuk prosodi terdiri atas dpitch serta durasi pengucapannya untuk setiap fonem yang
dibangkitkan.
Nilai-nilai yang dihasilkan diperoleh dari suatu model prosod
-
7/26/2019 Dasar Audio Processing
40/57
Text To Speech Konverter Fonem-Spee
menerima masukan berupa kode-kode fonem serta pitch dan durasi yang dihasilkan
sebelumnya
Konverter Fonem ke Ucapan akan menghasilkan bunyi atau sinyal ucapan yang sesua
yang ingin diucapkan.
Ada beberapa alternatif teknik yang dapat digunakan untuk implementasi bagian ini,
digunakan adalah:
formant synthesizer,
diphone concatenation
Formant synthesizer bekerja berdasarkan suatu model matematis yang akan melakuk
untuk menghasilkan sinyal ucapan yang diinginkan
dapat menghasilkan ucapan dengan tingkat kemudahan interpretasi yang baik, synth
dapat menghasilkan ucapan dengan tingkat kealamian yang tinggi.
-
7/26/2019 Dasar Audio Processing
41/57
Text To Speech Konverter Fonem-Spee
Synthesizer yang menggunakan teknik diphone concatenation bekerja d
menggabung-gabungkan segmen-segmen bunyi yang telah direkam seb
Setiap segmen speechnya merupakan diphone (gabungan dua buah fon
Synthesizer jenis ini dapat menghasilkan bunyi ucapan dengan tingkat k
(naturalness) yang tinggi.
Pada sistem yang menggunakan teknik diphone concatenation, sistem h
didukung oleh suatu diphone database yang berisi rekaman segmen-seyang berupa diphone
Ucapan dalam suatu bahasa dibentuk dari satu set bunyi yang mungkin
untuk setiap bahasa, oleh karena itu setiap bahasa harus dilengkapi de
database yang berbeda.
-
7/26/2019 Dasar Audio Processing
42/57
Text To Speech
-
7/26/2019 Dasar Audio Processing
43/57
Text To Speech
Text Normalization mengubah semua teks kalimat yang masih ber
angka/singkatan/tanggal/bentuk-bentuk khusus ke dalam murni t
Hasil normalisasi teks lalu diubah ke dalam bentuk fonem menggu
aturan letter-to-phonem conversion
Sebelum dikonversikan ke dalam fonem, teks harus diparsing hing
bentuk satuan huruf
Untuk konversi yang tidak teratur ditangani oleh bagian Exception
Lookup
-
7/26/2019 Dasar Audio Processing
44/57
Text To Speech
Bagian prosody generator akan melengkapi setiap unit fonem
dihasilkan dengan data durasi pengucapannya serta pitchnya
Phonetic Analysis dapat dikatakan sebagai tahap penyempur
melakukan perbaikan di tingkat bunyi
Contoh:
dalam bahasa Indonesia, fonem /k/ dalam kata bapak tidak pernah
secara tegas
penambahan sisipan fonem /y/ dalam pengucapan kata alamiah an
dan /a/.
-
7/26/2019 Dasar Audio Processing
45/57
Text To Speech
-
7/26/2019 Dasar Audio Processing
46/57
Text To Speech
Catatan:
Jika digunakan fonem sebagai basis unit bunyi, maka diperlukan dat
dan synthesizer speech yang digunakan adalah dengan merangkaika
Jika digunakan diphone sebagai basis unit bunyi, maka diperlukan d
diphone dan synthesizer speech yang digunakan adalah dengan me
diphone
Basis unit bunyi bisa menggunakan fonem, diphone, suku kata, atau
Basis unit bunyi yang digunakan akan menentukan jenis database ya
digunakan, parsing teks yang digunakan, dan synthesizer speech ya
-
7/26/2019 Dasar Audio Processing
47/57
Text To Speech Parsing Diphone
Diphone adalah satuan unit bunyi yang menggabungkan du
fonem
Teks input diparsing hingga ke dalam bentuk diphone
Contoh:
Synthesizer Speech menggunakan Diph
-
7/26/2019 Dasar Audio Processing
48/57
Synthesizer Speech menggunakan DiphConcatenation
h
-
7/26/2019 Dasar Audio Processing
49/57
Speech Recognition
S h R i i
-
7/26/2019 Dasar Audio Processing
50/57
Speech Recognition
Secara umum, sub proses yang ada di dalam Speech Recogn
1. Preprocessing2. Feature Extraction (Ekstraksi Ciri)
3. Classification
1. Training
2. Testing
S h R i i
-
7/26/2019 Dasar Audio Processing
51/57
Speech Recognition
Secara umum, sub proses yang ada di dalam Speech Recogn
1. PreprocessingReduksi noise, segmentasi/parsing sinyal hingga ke bentuk sinyal kata/suku k
2. Feature Extraction (Ekstraksi Ciri)
Mengambil ciri (feature) yang dianggap mewakili setiap unit speech
Ciri dapat berupa pitch/frekuensi fundamental, frekuensi formant, warna slainnya
Menggunakan berbagai metode, di antaranya kuantisasi vektor, MFCC, dll
3. Classification
Menggunakan berbagai metode, dapat berupa metode machine learning, astatistik, atau gabungan keduanya
Contoh metode: JST, Hidden Markov Model, SVM, dll
S h R iti T t
-
7/26/2019 Dasar Audio Processing
52/57
Speech Recognition-Tantangan
Peluang noise yang besar, terutama jika Speech Recognition
digunakan di environment umum Speech mengandung banyak komponen yang rentan beruba
mempengaruhi sinyal asli
Contoh: kondisi kesehatan, logat/dialek
Sulitnya memisahkan background voice dengan speech
Sangat terikat pada bahasa tertentu
S h R iti T li Ot k M
-
7/26/2019 Dasar Audio Processing
53/57
Speech Recognition vs Telinga-Otak Ma
Kemampuan Telinga dan Otak Manusia lebih superior
Manusia dengan mudah memisahkan antara pembicara dengan suara musikbelakang, sementara komputer masih sangat sulit melakukan itu
Bahkan manusia mempunyai kemampuan untuk fokus (berusaha fokus). Misatu keramaian konser musik, anda berbicara dengan teman di sebelah, masmemahami apa yang diucapkan. Speech Recognition?
Mengapa komputer sulit melakukannya? Semuanya berhubungan dengan psinyal suara. Pemrosesan tersebut sekarang masih berbasis frekuensi. Ketikainformasi dalam sinyal suara mempunyai komponen frekuensi yang banyak
komponen frekuensi noise-nya, jadi sulit memisahkannya, sementara telingamanusia masih bisa melakukannya dengan mudah. Jadi, kesimpulannya? Temanusia mungkin bekerja dengan prinsip yang berbeda.., mungkin tidapemisahan frekuensi. Sensor dalam telinga manusia berupa rambut-rambujumlahnya sangat banyak, sementara sensor komputer hanya satu buah mikkarena itu, salah satu arah riset yang berkembang adalah penggunaan arrayuntuk menirukan banyaknya sensor dalam telingan manusia.
S h R iti T li Ot k M
-
7/26/2019 Dasar Audio Processing
54/57
Speech Recognition vs Telinga-Otak Ma
Mengapa komputer sulit melakukannya?
Semuanya berhubungan dengan pemrosesan sinyal suara yasekarang masih berbasis frekuensi
Ketika sebuah informasi dalam sinyal suara mempunyai komfrekuensi yang sama banyaknya dengan komponen frekuensnya, maka sangat sulit memisahkannya
Telinga dan otak manusia mungkin bekerja dengan prinsip yberbeda, mungkin tidak berbasis pemisahan frekuensiMmemerlukan riset yang panjang
Speaker Recognition
-
7/26/2019 Dasar Audio Processing
55/57
Speaker Recognition
-
7/26/2019 Dasar Audio Processing
56/57
CBAR
-
7/26/2019 Dasar Audio Processing
57/57
CBAR
Teknologi lain yang sedang berkembang
Content Based Audio Retrieval
Selama ini pencarian data audio pada searching engines maberbasis text-searching
CBAR berbasis kesamaan konten audio