Introduction to Text to Speech Technology and Applications
-
Upload
arry-arman -
Category
Technology
-
view
8.273 -
download
1
description
Transcript of Introduction to Text to Speech Technology and Applications
MengenalText to Speech dan Teknologi Bahasa
Arry Akhmad ArmanInstitut Teknologi BandungEmail: [email protected]: http://www.kupalima.comBlog: http://kupalima.wordpress.com
Arry Akhmad Arman | http://www.kupalima.com | [email protected] | Institut Teknologi Bandung | 2008
Materi kuliah ini dapat di download di http://slideshare.net/kupalima
How small can you go?y g
Still convenient?
Arry Akhmad Arman | http://www.kupalima.com | [email protected] | Institut Teknologi Bandung | 2008
Arry Akhmad Arman | http://www.kupalima.com | [email protected] | Institut Teknologi Bandung | 2008
Apa “Teknologi Bahasa”?p g
Arry Akhmad Arman | http://www.kupalima.com | [email protected] | Institut Teknologi Bandung | 2008
Komponen Teknologi Bahasap g
Text to SpeechText to Speech
Speech RecogniSpeech
RecogniRecogni-tion
Recogni-tion
NLP NLP NLP: Language
Translator
NLP: Language
Translator
Arry Akhmad Arman | http://www.kupalima.com | [email protected] | Institut Teknologi Bandung | 2008
Apa “Text to Speech”?p p
Text to SpeechText Ucapan
Arry Akhmad Arman | http://www.kupalima.com | [email protected] | Institut Teknologi Bandung | 2008
Speech
Indonesian Text to Speech SystemText to Speech System
IntonationModel
DiphoneDatabase
Text to Phoneme
Phoneme to Speech
Text Phonemes Speechto PhonemeConverter
to SpeechConverter
Arry Akhmad Arman | http://www.kupalima.com | [email protected] | Institut Teknologi Bandung | 2008 7
Konversi Teks ke Ucapanp
Textli i
Bapak membeli 5 kerang seharga
Normalization
Letter-to-PhonemeException
kerang sehargaRp 200,-
eme
ConversionDictionary Lookup
Prosodyext-
to-P
hon
e
GenerationTech
Speech ParameterGeneration
eme-
to-S
pee
c
Arry Akhmad Arman | http://www.kupalima.com | [email protected] | Institut Teknologi Bandung | 2008 8
Speech WaveformProductionP
hon
e
Konversi Teks ke Ucapanp
Textli i
Saya membeli 5 kerang seharga
saya membeli lima k h dNormalization
Letter-to-PhonemeException
kerang sehargaRp 200,-
eme
kerang seharga dua ratus rupiah
ConversionDictionary Lookup
Prosodyext-
to-P
hon
e
GenerationTech
Speech ParameterGeneration
eme-
to-S
pee
c
Arry Akhmad Arman | http://www.kupalima.com | [email protected] | Institut Teknologi Bandung | 2008 9
Speech WaveformProductionP
hon
e
Konversi Teks ke Ucapanp
Textli i
Saya membeli 5 kerang seharga
saya membeli lima k h dNormalization
Letter-to-PhonemeException
kerang sehargaRp 200,-
eme
kerang seharga dua ratus rupiah
*|s|* => |s|*|a| =>|a|ConversionDictionary Lookup
Prosodyext-
to-P
hon
e |a| =>|a|*|n|~g => |n|*|n|g => |ñ|
n|g|* => |blank|~n|g|* => |g|
GenerationTech
Speech ParameterGeneration
eme-
to-S
pee
c
Arry Akhmad Arman | http://www.kupalima.com | [email protected] | Institut Teknologi Bandung | 2008 10
Speech WaveformProductionP
hon
e
Konversi Teks ke Ucapanp
Textli i
Saya membeli 5 kerang seharga
saya membeli lima k h dNormalization
Letter-to-PhonemeException
kerang sehargaRp 200,-
eme
kerang seharga dua ratus rupiah
teknik => *|s|* => |s|*|a| =>|a|ConversionDictionary Lookup
Prosodyext-
to-P
hon
e
/t//E//k/ /n//i//k/
|a| =>|a|*|n|~g => |n|*|n|g => |ñ|
n|g|* => |blank|~n|g|* => |g|
GenerationTech
IT => /a//i//t//i/
Speech ParameterGeneration
eme-
to-S
pee
c
Arry Akhmad Arman | http://www.kupalima.com | [email protected] | Institut Teknologi Bandung | 2008 11
Speech WaveformProductionP
hon
e
Konversi Teks ke Ucapanp
Textli i
Saya membeli 5 kerang seharga
saya membeli lima k h dNormalization
Letter-to-PhonemeException
kerang sehargaRp 200,-
eme
kerang seharga dua ratus rupiah
teknik => *|s|* => |s|*|a| =>|a|ConversionDictionary Lookup
Prosodyext-
to-P
hon
e
/t//E//k/ /n//i//k/
|a| =>|a|*|n|~g => |n|*|n|g => |ñ|
n|g|* => |blank|~n|g|* => |g|
GenerationTech
|_||s||a||y||a| …|_||k||e||r||a||ñ| |_|…
Speech ParameterGeneration
eme-
to-S
pee
c
Arry Akhmad Arman | http://www.kupalima.com | [email protected] | Institut Teknologi Bandung | 2008 12
Speech WaveformProductionP
hon
e
Konversi Teks ke Ucapanp
Textli i
Saya membeli 5 kerang seharga
saya membeli lima k h dNormalization
Letter-to-PhonemeException
kerang sehargaRp 200,-
eme
kerang seharga dua ratus rupiah
teknik => *|s|* => |s|*|a| =>|a|ConversionDictionary Lookup
Prosodyext-
to-P
hon
e
/t//E//k/ /n//i//k/
|a| =>|a|*|n|~g => |n|*|n|g => |ñ|
n|g|* => |blank|~n|g|* => |g|
GenerationTech
|_||s||a||y||a| …|_||k||e||r||a|| ñ | |_|…
|_| ,100ms |s| ,60ms, 97Hz| | 85 100H Speech Parameter
Generation
eme-
to-S
pee
c|a| ,85ms, 100Hz….|r| ,55ms, 110Hz|a| ,90ms, 114Hz| ñ|, 87ms ,117Hz
Arry Akhmad Arman | http://www.kupalima.com | [email protected] | Institut Teknologi Bandung | 2008 13
Speech WaveformProductionP
hon
e| |, ,…
Konversi Teks ke Ucapanp
Textli i
Saya membeli 5 kerang seharga
saya membeli lima k h dNormalization
Letter-to-PhonemeException
kerang sehargaRp 200,-
eme
kerang seharga dua ratus rupiah
teknik => *|s|* => |s|*|a| =>|a|ConversionDictionary Lookup
Prosodyext-
to-P
hon
e
/t//E//k/ /n//i//k/
|a| =>|a|*|n|~g => |n|*|n|g => |ñ|
n|g|* => |blank|~n|g|* => |g|
GenerationTech
|_||s||a||y||a| …|_||k||e||r||a|| ñ | |_|…
|_| ,100ms |s| ,60ms, 97Hz| | 85 100H Speech Parameter
Generation
eme-
to-S
pee
c|a| ,85ms, 100Hz….|r| ,55ms, 110Hz|a| ,90ms, 114Hz| ñ|, 87ms ,117Hz
Arry Akhmad Arman | http://www.kupalima.com | [email protected] | Institut Teknologi Bandung | 2008 14
Speech WaveformProductionP
hon
e| |, ,…
Teknik Pembangkitan Ucapang p
• Formant Synthesizer (penentuan parameterFormant Synthesizer (penentuan parameter frekuensi untuk setiap fonem)• Concatenation (rekaman kata yang disambung)( y g g)– Word concatenation (terbatas)– Diphone Concatenation (teknik yang saat ini digunakan untuk TTS Bahasa Indonesia)– Unit Selection (today’s most uptodate TTS)A i l M d l ( fi ik• Articulatory Model (penentuan parameter fisik alat-alat ucap manusia untuk setiap fonem)
Arry Akhmad Arman | http://www.kupalima.com | [email protected] | Institut Teknologi Bandung | 2008
[Teknik Pembangkitan Ucapan]
Formant SynthesizerFormant Synthesizer
Arry Akhmad Arman | http://www.kupalima.com | [email protected] | Institut Teknologi Bandung | 2008
[Teknik Pembangkitan Ucapan]
Formant SynthesizerFormant Synthesizer
F1 F2 F3
/ /
/a/
/a/ 180 272 390
FormantSynthesizer
d l
180
272
390
/i/ 171 293 377
module
Arry Akhmad Arman | http://www.kupalima.com | [email protected] | Institut Teknologi Bandung | 2008
[Teknik Pembangkitan Ucapan]
Diphone ConcatenationDiphone Concatenation_|s = wav11s|a = wav23a|y = wav54|yy|a =wav167a|_ =wav365
/s
/s//a/y/a/DiphoneConcate-
nationEngine
DiphoneSequencer
_/ss/aa/yy/a Enginey/aa/_
Arry Akhmad Arman | http://www.kupalima.com | [email protected] | Institut Teknologi Bandung | 2008
Apa “Speech Recognition”?p p g
Speech Recognition TextUcapan
Arry Akhmad Arman | http://www.kupalima.com | [email protected] | Institut Teknologi Bandung | 2008
Recognition
Speech Recognition Systemp g y
Arry Akhmad Arman | http://www.kupalima.com | [email protected] | Institut Teknologi Bandung | 2008 20
Intermezzo…
Arry Akhmad Arman | http://www.kupalima.com | [email protected] | Institut Teknologi Bandung | 2008
Apa “Translator Bahasa”?p
TranslatorBahasa
Bahasa Alami #1
Bahasa Alami #2
Arry Akhmad Arman | http://www.kupalima.com | [email protected] | Institut Teknologi Bandung | 2008
BahasaAlami #1 Alami #2
Bahasa Alami dan Bahasa Buatan
Arry Akhmad Arman | http://www.kupalima.com | [email protected] | Institut Teknologi Bandung | 2008
Beberapa Tantangan dalam Pengembangan TranslatorPengembangan Translator
Arry Akhmad Arman | http://www.kupalima.com | [email protected] | Institut Teknologi Bandung | 2008
Arry Akhmad Arman | http://www.kupalima.com | [email protected] | Institut Teknologi Bandung | 2008
Definisi Prosodi
Thierry Dutoit [Dut97] mengemukakan bahwa:“The term prosody refers to certain properties of the speech signal such as audible changes in pitch, loudness,speech signal such as audible changes in pitch, loudness, and syllable length. … because prosodic events appear to be time-aligned with syllables or groups of syllables,rather than with segments (sound phonemes) they arerather than with segments (sound, phonemes), they arealso referred to as supra segmental phenomena.
Arry Akhmad Arman | http://www.kupalima.com | [email protected] | Institut Teknologi Bandung | 2008
Definisi Prosodi
Hiroya Fujisaki [Fuj96] mengutip pendapat Lehiste(1970) Ladd dan Cutler (1983):(1970), Ladd dan Cutler (1983):1. prosodi sebagai fenomena fisik yang melibatkan i h d i d i iparameter‐parameter pitch, durasi dan intensitas; dan2. prosodi sebagai suatu fenomena linguistik yang p g f g y gmelibatkan organisasi fonologi pada level yang
lebih tinggi dari segmen-segmennya.Arry Akhmad Arman | http://www.kupalima.com | [email protected] | Institut Teknologi Bandung | 2008
Definisi Prosodi
Definisi prosodi menurut Hiroya Fujisaki [Fuj96] :p y j [ j ]“Prosody is the systematic organization of various linguistic units into an utterance or a coherent group oflinguistic units into an utterance or a coherent group of utterances in the process of speech production. Its realization involves both segmental and
t l f t f h d tsuprasegmental features of speech, and serves to convey not only linguistic information, but also paralinguistic and non-linguistic information”.
Arry Akhmad Arman | http://www.kupalima.com | [email protected] | Institut Teknologi Bandung | 2008
Rangkuman Definisi Prosodig
• Prosodi adalah “organisasi yang sistematis dari g y gberbagai unit linguistik untuk membentuk ucapan”.• Prosodi dapat dilihat sebagai fenomena fisik atau f li i tikfenomena linguistik.• Prosodi sebagai fenomena fisik dibentuk dari properti-properti pitch, tingkat kekerasan, serta durasi.properti pitch, tingkat kekerasan, serta durasi.• Prosodi sebagai fenomena linguistik dipengaruhi oleh informasi informasi linguistik, informasi para-li i ik (i f i di b hk l h )linguistik (informasi yang ditambahkan oleh pengucap), serta informasi non-linguistik (usia, jenis kelamin dan sebagainya).
Arry Akhmad Arman | http://www.kupalima.com | [email protected] | Institut Teknologi Bandung | 2008
g y )
Model-Model Prosodi
• Model FujisakiModel Fujisaki• Model Acoustic Stylization• Model Automatic Perceptual Stylization• Model Automatic Perceptual Stylization• Model “Teori Kontur Pitch”• Model “Teori Urutan Nada”• Model Teori Urutan Nada
Arry Akhmad Arman | http://www.kupalima.com | [email protected] | Institut Teknologi Bandung | 2008
Model Fujisakij
• Kurva pitch prosodi merupakan super-impose dari kurvap p p p pfrasa dan kurva aksen.• Fujisaki tidak menjelaskan bagaimana mengaitkan setiap k d k li i tikkomponen dengan aspek linguistiknya.
Arry Akhmad Arman | http://www.kupalima.com | [email protected] | Institut Teknologi Bandung | 2008
Teori Kontur PitchKontur Pitch• Teori Kontur Pitch menyatakan bahwa kurva pitch dibentuk
dari segmen segmendari segmen-segmenunik yang berasal dari kumpulan segmenyang jumlahnya terhingga.• Pernah diterapkan oleh• Pernah diterapkan oleh Delatree untuk Bahasa Perancis dengan 10 (k t d )
Arry Akhmad Arman | http://www.kupalima.com | [email protected] | Institut Teknologi Bandung | 2008
segmen (kontur dasar)
Penelitian Intonasi Bahasa Indonesia
• Analisis pola intonasi secara kualitatif. Penelitian-penelitian kelompok ini mencoba menganalisis pola intonasi bahasa Indonesia tanpa melakukan pengukuran secara kuantitatif.• Analisis pola intonasi secara kuantitatif. Analisis pola intonasi bahasa Indonesia berdasarkan besaran besaranAnalisis pola intonasi bahasa Indonesia berdasarkan besaran‐besaran kuantitatif yang diukur mengunakan alat tertentu.– ”Intonation in Relation to Syntax in Indonesia” yang merupakan disertasi Bapak Amran Halim (1969, Universitas Michigan).p ( , g )• Pemodelan Intonasi. Pengembangan model yang dapat membangkitkan pola intonasi secara otomatis untuk suatu kalimat tertentu.– Model intonasi Indo-1, diusulkan oleh Arry Akhmad Arman yang dipublikasikan pada APCC (Asia Pacific Conference on Communications) 2001 di Tokyo, Jepang [ASAM01].– Model intonasi Indo-2, diusulkan oleh Arry Akhmad Arman yang dip blikasikan sebagai disertasi (2004)
Arry Akhmad Arman | http://www.kupalima.com | [email protected] | Institut Teknologi Bandung | 2008
dipublikasikan sebagai disertasi (2004)
Model Intonasi Indo-1
Arry Akhmad Arman | http://www.kupalima.com | [email protected] | Institut Teknologi Bandung | 2008
Arry Akhmad Arman | http://www.kupalima.com | [email protected] | Institut Teknologi Bandung | 2008
Definisi Praktis ‘Model Prosodi’
Textli i
Saya membeli 5 kerang seharga
Normalization
Letter-to-PhonemeException
kerang sehargaRp 200,-
eme
eme
ConversionDictionary Lookup
Prosodyext-
to-P
hon
eex
t-to
-Ph
one
GenerationTeTechch
|_| ,100ms |s| ,60ms, 97Hz| | 85 100H Speech Parameter
Generation
eme-
to-S
pee
cem
e-to
-Sp
eec|a| ,85ms, 100Hz
….|r| ,55ms, 110Hz|a| ,90ms, 114Hz| ñ|, 87ms ,117Hz
Arry Akhmad Arman | http://www.kupalima.com | [email protected] | Institut Teknologi Bandung | 2008 36
Speech WaveformProductionP
hon
eP
hon
e| |, ,…
Model Intonasi Indo-2[Tahap Analisis][Tahap Analisis]
Arry Akhmad Arman | http://www.kupalima.com | [email protected] | Institut Teknologi Bandung | 2008
Model Intonasi Indo-2[Tahap Analisis][Tahap Analisis]
Arry Akhmad Arman | http://www.kupalima.com | [email protected] | Institut Teknologi Bandung | 2008
Model Intonasi Indo-2[Tahap Analisis][Tahap Analisis]
Arry Akhmad Arman | http://www.kupalima.com | [email protected] | Institut Teknologi Bandung | 2008
Model Intonasi Indo-2[Tahap Analisis][Tahap Analisis]
Arry Akhmad Arman | http://www.kupalima.com | [email protected] | Institut Teknologi Bandung | 2008
Model Intonasi Indo-2[Tahap Analisis: Hasil Analisis][Tahap Analisis: Hasil Analisis]• Kurva prosodi Bahasa Indonesia p
dapat dibentuk dari segmen-segmen yang dapat dikategorikan dalam dalam suatu kumpulan segmenyang jumlahnya terhinggayang jumlahnya terhingga• Setiap segmen dapat dibentuk dari sub-sub segmenyang mempunyai trend linier• Setiap sub segmen dapat dibentuk dari kurva linier dan aksen-aksen yang terletak pada suku kata tertentuB b b h b d i f i • Batas-batas segmen berhubungan dengan informasi linguistik (koma dan simbol lainnya) serta informasi para linguistik (kata tersebut, itu, dan sebagainya)
Arry Akhmad Arman | http://www.kupalima.com | [email protected] | Institut Teknologi Bandung | 2008
p g ( g y )
Model Intonasi Indo-2
Arry Akhmad Arman | http://www.kupalima.com | [email protected] | Institut Teknologi Bandung | 2008
Model Intonasi Indo-2
Arry Akhmad Arman | http://www.kupalima.com | [email protected] | Institut Teknologi Bandung | 2008
Deskripsi Model [1][Besaran Besaran Sistem][Besaran-Besaran Sistem]
kalimatdalamsegmenjumlahjsegkalimat == Ujseg
s kalimatdalamsegmenjumlahjseg,kalimat1
===Ui
is
Ujss
segmensubjumlahjss,1
===Uj
iji sss
segmendalamkatajumlahjkt ==Ujkt
ktss segmendalamkatajumlahjkt,1
===Uk
ijkij ktss
katadalamkatasukujumlahjsk ==Ujsk
ijklijkl skkt katadalamkatasukujumlahjsk,1=Ul
ijklijkl skkt
ijklsukukatapadafonemjumlahjf ==Ujf
klkl fonemsk
Arry Akhmad Arman | http://www.kupalima.com | [email protected] | Institut Teknologi Bandung | 2008
ijklm1
sukukatapadafonemjumlahjf,=Um
ijklmijklm fonemsk
Deskripsi Model [2][Proses Segmentasi][Proses Segmentasi]
=
==
),,,,(
segmentasiaturanjumlah),,,,( 21
lsjskptpttasjasasasasAS jasL
linguistikinformasit) t t( pl
=
∪∈t l
kalimatdalamen jumlah tok),,,2,1(linguistik-para informasit
linguistikinformasit
pl
l
==
==
jtjtpt L
),,,(),,,,(
j),,,,(
21∈>≥=≤<=
tagtagtagjskpt
jjp
nL
Arry Akhmad Arman | http://www.kupalima.com | [email protected] | Institut Teknologi Bandung | 2008
sesudah) sebelum,(∈ls
Deskripsi Model [3][Proses Segmentasi][Proses Segmentasi]
∑∑∑∑∑∑=k l m
klmij fonemdurasisstotaldurasi )()(_
ijklmijklmijklm aksenpitchfrasapitchfonempitch __)( +=
−=
+= ∑∑∑
)()(
)()(_ ,,
AB
Ak l m
mlkijklm
sstotaldurasiPPG
PfonemdurasiGfonemfrasapitch
)(_ ijsstotaldurasi
= ik terpenuhaksen tidaaturanjika0)( fonemaksenpitch
Arry Akhmad Arman | http://www.kupalima.com | [email protected] | Institut Teknologi Bandung | 2008
=
=
penuhiaturan ter jika ps,
ik terpenuhaksen tidaaturan jika,0)(_ ijklmfonemaksenpitch
Arry Akhmad Arman | http://www.kupalima.com | [email protected] | Institut Teknologi Bandung | 2008
Application
Natural Language TranslatorNatural Language Translator
Arry Akhmad Arman | http://www.kupalima.com | [email protected] | Institut Teknologi Bandung | 2008 48
Application
Speech to Speech TranslationSpeech to Speech Translation
Speech Translator Text toRecognition
IndonesiaIndonesia
InggrisSpeechInggris
speech
text text
speech
BahasaIndonesia English
p
Indonesia English
Text toSpeech
TranslatorInggris
SpeechRecognition
speech speech
Arry Akhmad Arman | http://www.kupalima.com | [email protected] | Institut Teknologi Bandung | 2008 49
SpeechIndonesia
InggrisIndonesia
RecognitionInggristext text
Application
Document ReaderDocument Reader
Arry Akhmad Arman | http://www.kupalima.com | [email protected] | Institut Teknologi Bandung | 2008 50
Application
Terminal for Deaf PeopleTerminal for Deaf People
MonitorScreen
dDeaf
TextTo Speech
and
Keyboard
DeafProple
SpeechRecognitiong
Arry Akhmad Arman | http://www.kupalima.com | [email protected] | Institut Teknologi Bandung | 2008 51
Application
Talking AidTalking Aid
Sign Language
Text toLanguage
IdentificationSpeech
Speech
Arry Akhmad Arman | http://www.kupalima.com | [email protected] | Institut Teknologi Bandung | 2008 52
Application
Talking AidTalking Aid
Arry Akhmad Arman | http://www.kupalima.com | [email protected] | Institut Teknologi Bandung | 2008 53
Aplikasi Untuk Tuna Netrap
Arry Akhmad Arman | http://www.kupalima.com | [email protected] | Institut Teknologi Bandung | 2008
Interaksi Lisan dengan Komputerg p
2Komputer! Tolong
bacakan kurs rupiah terhadap dolar
Kurs rupiah terhadap dolar saat ini menurut
informasi Bank Indonesia adalah ….
1
Arry Akhmad Arman | http://www.kupalima.com | [email protected] | Institut Teknologi Bandung | 2008
amerika!Indonesia adalah ….
Layanan pemesanan tanpa operator!y p p p
Selamat datang di layanan online Piza
k
Sedang!
Jakarta!
Sebutkan ukuran yang akan anda yang akan anda
pesan: besar, sedang, atau kecil!
Arry Akhmad Arman | http://www.kupalima.com | [email protected] | Institut Teknologi Bandung | 2008
Application
FutureFuture
• Di masa depan robot akan• Di masa depan, robot akan menjadi bagian dari kehidupan kita sehari‐hari; p ;tentunya kita tidak berharap berhadapan dengan robot yang hanya bisa berbahasa Inggris atau Jepang!atau Jepang!
Arry Akhmad Arman | http://www.kupalima.com | [email protected] | Institut Teknologi Bandung | 2008 57
Penutupp
Arry Akhmad Arman | http://www.kupalima.com | [email protected] | Institut Teknologi Bandung | 2008
Terima kasih !
A d f DAAD F h fAward from Presiden RI, 2003
Award from DAAD-Fraunhofer, Germany , 2004
Arry Akhmad Arman | http://www.kupalima.com | [email protected] | Institut Teknologi Bandung | 2008 59
Materi kuliah ini dapat di download di http://slideshare.net/kupalima