Speech Recognition

Post on 31-May-2015

337 views 2 download


Transcript of Speech Recognition


“One of the most fascinating characteristics of humans is their capability to communicate ideas by means of


An Advanced Method for Speech Recognition

Prepared By:

Salma Subh Mohmmed&

Mahmoud Abd _Elmotelb Ibrhaim Mohammed


Production of Speech•voiced excitation•unvoiced excitation•transient excitation

Characteristics of the Speech•The bandwidth of the signal is 4 kHz•The signal is periodic with a fundamental frequency between 80 Hz and 350 Hz•There are peaks in the spectral distribution of energy at(2n − 1) ∗ 500 Hz ; n = 1, 2, 3, . . . (1.1)•The envelope of the power spectrum of the signal shows a decrease withincreasing frequency (-6dB per octave)



*Speech Recognition

• * is the process by which a computer (or other type of machine) identifies spoken words. Basically, it means talking to your computer, AND having it correctly recognize what you are saying.



Acoustic processing

Feature extraction

Classification and


Feature selection

UTA algorithm

Fast Fourier Transform

Mels Scale Bank pass Filtering

Cepstral Analysis.

speech recognition process contains four

main stages:

Speech Recognition System

Three steps to do it

1- Pre-processing ( Analysis Speech) 2- Recognition

3- ( spectral analysis> ) parameter Conversion


Acoustic processing


AnalysisSpeech Analysis Techniques Based On Linear Prediction And Filterbanks.


األساسية • المعالجة تسبق التي العمليات وهيللصوت

إل • الحاسوب إلى المدخل الصوت شكل ىتحويلال معه recognizer يستطيع التعامل



(Data collection & acquisition )واكتسابها البيانات تجميع

صوتية بصمات لهم ونأخذ متقاربة أعمار في وإناث ذكور معينين أشخاص جمع ومعناها

(voiced & unvoiced detection )مسموع والغير المسموع اكتشاف

... مسموعة وغير مسموعة أصوات الكالم في لدينا يكون أن الطبيعي من

لها : اى يكون .. : amplitudeالمسموع الذى وهو ، ظاهر غير اى مسموع الغير كبيرamplitude يشبه مما noiseصغير



end -point-detection

المفيد الكالم ونهاية بداية تحديد

السكوت .. فترة فهناك شخص يتكلم عندمايكون ال له ampltiudeوهنا ولكن صفر

بـ يسمى وهذا جدا صغيرة noiseقيمة


Time Wrapping( segmentation into frame )

نطقوا األشخاص من مجموعة لدينا كان لو مثاللكل الصوتي التسجيل واحدة شخص كلمة

فترة في الكلمة نطق فرد كل أن فية نالحظ .. طول تحديد يجب وبالتالي األخر عن مختلفة

.. الصوتية البصمات لجميع معين


Framingجدا • بسيطة زمنية فترة خالل فإنه معين بحرف النطق أثناء

غير ثبات في النطق أعضاء هي ستكون الفترة وهذه 20ملحوظثانية ملي

•Speech ( كل ثبات فيها صغيرة ( 20يحدث فترة وهي ثانية مليتذكر ال تكاد جدا

ال • نقسم من speech سوف مجموعة أن framesإلى بحيثكل frame 20كل من نأخذ ثم ، ثانية sampleعينة frameملى

خصائص عن frameتعبر



الخطأ • نسبة من التقليل يتم المرحلة هذه وبواسطةموجات تقسيم نتيجة تحدث قد إلى التي framesالكالم

•The most common in speech analysis is the Hamming window:



Mels Scale

Bank pass


We can now assemble a set of band pass filters to analyse speech. These need to be covering - that is every frequency is covered by one filter so no information is lost


Linear predictive


is a popular speech coding analysis

Recognitionالمدخل • الصوت على التعرف مرحلة•: قسمين إلى المرحلة هذه تنقسم

(identification & verification)

Identification : على الطريقة هذه Distance تعتمدmeasurement

معينة كثافة داخل صحيح شيء اقرب حساب وهىالبصمة مثل

Verification : من الناتج صحة من التأكد وهىالسابقة 16الخطوة


isolated word recognition I W Rال ألننا وذلك التعرف أنواع أسهل وهو بعضها عن ومعزولة منفصلة كلمات على للتعرف ويستخدم

ال مشكلة في co-articulationنواجه الحرف مع األولى الكلمة نهاية في الحرف التقاء وهيالتعرف في صعوبة يسبب مما الثانية الكلمة بداية

connected word recognition C W Rبوضع وذلك بفواصل الكلمات من مجموعة على للتعرف يشبه Stopsيستخدم وهو الكلمات بين

التعرف في أصعب لكنه السابق النوع

continuous speech recognition C S Rالمتواصل الكالم على للتعرف وهي

Speech understanding S Uإلى تحويله وممكن خاصة مترجمات بواسطة الكالم فهم عمليات عليه وهي التعرف بعد نصوص

speaker identification ,speaker verification S I, S V

word spottingمعينة كلمات عن للتنقيب ويستخدم



# Generally, there are three usual methods in speech


•between two time series •determine if two waveforms represent the

same spoken

recognition: Dynamic Time

Warping (DTW )

• having a given number of stateHidden Markov

Model (HMM)

•parallel distributed processing•faster

Artificial Neural Networks



Hidden Markov Models(HMM )


A hidden Markov model (HMM) is a statistical Markov model in which the system being modeled is assumed to be a Markov process with unobserved (hidden) states.

An HMM can be considered as the simplest dynamic Bayesian network.

In a regular Markov model, the state is directly visible to the observer, and therefore the state transition probabilities are the only parameters.

In a hidden Markov model, the state is not directly visible, but output, dependent on the state, is visible.

Each state has a probability distribution over the possible output tokens. Therefore the sequence of tokens generated by an HMM gives some information about the sequence of states.


Note that the adjective 'hidden' refers to the state sequence through which the model passes, not to the parameters of the model; even if the model parameters are known exactly, the model is still 'hidden'.

Hidden Markov models are especially known for their application in temporal pattern recognition such as speech, handwriting, gesture recognition, part-of-speech tagging, musical score following, partial discharges and bioinformatics.

A hidden Markov model can be considered a generalization of a mixture model where the hidden variables (or latent variables), which control the mixture component to be selected for each observation, are related through a Markov process rather than independent of each other.

التالية :• السلسلة إنشاء يمكننا ، السابق المخطط منN1 N2 N3

N1 N2 N2 N2 N3 N3 N3 N3 N3N1 N1 N2 N2 N3

كالتعرف المعقدة األشياء حاله في المخططات تلك بين المساراتهو كما ، القيم بعض عليها تكون ، اللغات ومعالجة الصوت على

القادمة الصورة في موضح


يلي : كما ، مسار كل في بعضها مع وضربها القيم بإسناد نقوم سوف أالن

N1 N2 N3 = 0.4 * 0.8 * 0.5 = 0.16

N1 N2 N2 N2 N3 N3 N3 N3 N3 = 0.4 x 0.2 x 0.2 x 0.8 x 0.5 x 0.5 x 0.5 x 0.5 = 0.0008

N1 N1 N2 N2 N3 = 0.6 x 0.4 x 0.2 x 0.8 x 0.5 = 0.192

•قد ، ماركوف نموذج يسمى القيم مع الموجه المخطط هذاتم حال في جدا فعال ولكنه ، فكرته لبساطه نظرا تتعجب

الصوت . على كالتعرف ما مشكله في استخدامه

مع التعامل البرنامج على يجب ، الصوت على التعرف حاله فيمن ) أكثر لها مختلف بشكل تنطق منها وكل الكلمات من اآلالف

بكلمة( كلمه البحث وطريقة ، بتاتا brute forceنطق مجدية غيراستخدام مع لكن ، أيضا والذاكرة الوقت من الكثير وتستهلك

النطق طريقه واختيار الكلمات تمثيل من يمكننا ماركوف نموذجكلمه لنطق التالي بالمثال األمر هذا نوضح ، أيضا المناسبة



t ow m aa t ow - British Englisht ah m ey t ow - American Englisht ah mey t a - Possibly pronunciation when speaking quickly

المخفية : ماركوف نماذج مع ارتبطت رئيسية خوارزميات ثالث هنــاك

The forward algorithm, useful for isolated word recognition 

The Viterbi algorithm, useful for continuous speech recognition 

The forward-backward algorithm, useful for training an HMM


Good luck!