Text to Speech

TEXT TO SPEECH BAHASA INDONESIA DENGAN PEMBANGKITAN PROSODI MENGGUNAKAN METODA MULTIRATE RECURRENT NEURAL NETWORKIwan Iwut ~ritoasmoro',Suhartono ~jondrone~oro'2

'~e~artemen Teknii Elektro, Sekolah Tinggi Teknoloi Telkom Sekolah Teknik Elektro dan Informatika, Institut Teknologi Bandung I. [email protected], 2stnegoro~bd~.centrin.net.id

Abstraksi Penelitian Text-to-Speech (TTS) dalam berbagai versi bahasa sedang dikembangkan, dan dalam bahasa tertentu telah mencapai hasil yang memuaskan. Namun demikian beberapa permasalahan dalam pengembangan tcxt-to-speech masih belum terpecahkan secara tnntas. Pendekatan dari setiap permasalahan ini akan selalu mengacu pada tercapainya sistem TTS yang memenuhi knalitas intelligibility (terdengar jelas) dan iratumlness (kealamian). Agar tercapai sintesis ucapan yang alami, sangat dibutuhkan kontrol prosodi untuk membangkitkan informasi linguistik yang terdapat dalam teks masukan, seperti memastikan pengaturan ritme, tempo, aksen, intonasi, dan penekanan yang tepat. Permasalahan pengontrolan prosodi tersebut, menjadi fokus penelitian ini. Dalam penelitian ini Multirate Recrirrent Neural Nehvork (MRNN) dipilih untuk merealisasikan model prosodi pada TTS bahasa Indonesia. MRNN bekerja dengan dua hidden layer bertugas membuat prediksi kontur FO, yang sebelumnya telah dilatih dengan sejumlah pola ucapan. Pada bagian pensintesa TTS, digunakan algorihna PSOLA @itch synchronous overlap add) yang bekerja merangkai database unit ucapan fonem. Sistem TTS yang dihasilkan dari perancangan ini dapat mengucapkan kata-kata bahasa Indonesia dengan cukup lancar, yang secara umum dapat dipahami dengan baik oleh para pendengar, namun dengan intonasi (prosodi) yang masih kurang alami. Kata kunci: TTS, MRNN, PSOLA, prosodi Abstract Text-to-speech research in several languages is under developmint, and has reached a satisfactory result in certain language.,But, some problems in text-to-speech have not been completely solved yet. Approaches to each of these problems will always focus on the accomplishment in text-to-speech system that satisfies intelligibility and naturalness. In order to achieve natural speech synthesis, text-to-speech system needs prosodic control to generate linguistics information available in the input text, i.e. determining rhythm control, tempo, accent, intonation, and stress. This research is focused on the prosodic control. In this research, Multirate Recurrent Neural Network ( R N is selected to realize M N ) prosodic model in Indonesian test-to-speech. MRNN works with two hidden layers which make F O contour prediction and has been previously trained by several speech patterns. Text-to-speech synthesis S') O L A that arranges speech unit database. Text-to-speech section uses Pitch Synchronous Overlap Add @ system generated by this implementation is capable to generate Indonesian speech fluently, which generally can be understood well by listener although it is still in less natural intonation (prosodic). Keywords :TTS, MRNN, PSOLA, prosodic

1. PendahuluanSistem konversi Text-to-Speech (TTS) merupakan suatu sistem yang mampu memproduksi sinyal ucapan secara otomatis melalui transkripsi grafem-ke-fonem untuk kalimat yang diucapkan [I]. Perbedaan sistem TTS dengan talking machine biasa adalah keotomatisannya dalam mengucapkan katakata baru. Agar tercapai sintesis ucapan yang alami, sangat membutuhkan kontrol prosodi untuk memastikan pengaturan ritme, tempo, aksen, intonasi, dan penekanan yang tepat. Pemodelan prosodi yang tepat menjadi tautangan terbesar saat ini, untuk menghasilkan sintesis sinyal ucapan yang jelas dan alami. Permasalahan pengontrolan prosodi tersebut, menjadi fokus penelitian ini. Beberapa metoda pengontrol prosodi telah diiembangkan

diantarannya statistical model dan neural network model. Dalam penelitian ini Multirate Recurrent Neural Network (MRNN) dipilih untuk merealisasikan model prosodi. Penelitian ini diiarapkan dapat mencapai beberapa tujuan pokok, sebagai berikut: a) Merancang algoritma dan memahami aspekaspek perancangan sistem TTS bahasa Indonesia b) Mengimplementasikan sistem TTS bahasa Indonesia yang mampu menghasilkan sinyal ucapan yang jelas dan alami dengan pembangkitan model prosodi menggunakan MRNN. c) Mengamati kinerja MRNN sebagai model prosodi dalam sistem TTS bahasa Indonesia.

T a t To Speech Bahssa Indonesia dengan Pembangldtan Prosodi Menggunakao Metoda MRNN [Iwan Iwut Tritoasmoro]

Text to Speech

Documents

Transcript of Text to Speech