Post on 03-Apr-2015
1
Le Signal Vocal
• 1. Production du signal ; Modèles de production• 2. Notions sur l’audition• 3. Allure temporelle Analyse en fréquence• Typologie des signaux (phonèmes)• Représentation Temps-Fréquence, spectrogramme• Détection de la mélodie, de l’intonation• Analyse « cepstrale » et par prédiction linéaire• 4. Transmission (compression) • 5. Principe de la synthèse de parole• 6. Données utilisées en reconnaissance de parole
http://tcts.fpms.ac.be/cours/1005-08/speech/parole.pdfhttp://svr-www.eng.cam.ac.uk/~ajr/SA95/node87.html
2http://perso.club-internet.fr/mantonio/condvoc.htm
1. Production du signal ; Modèles de production
3
http://mucybermu.over-blog.com/pages/Anatomie_de_la_voix-2436886.html
1. Production du signal
4
http://perso.club-internet.fr/mantonio/condvoc.htm
1. Production du signal
5
http://perso.club-internet.fr/mantonio/condvoc.htm
temps
http://mucybermu.over-blog.com/pages/Anatomie_de_la_voix-2436886.html
1. Production du signal les cordes vocales
6
http://www.ling.su.se/staff/hartmut/kemplne.htm
Wolfgang von Kempelen (1770)
http://alexandria.tue.nl/extra2/200512836.pdf
1. Production du signal
7http://alexandria.tue.nl/extra2/200512836.pdf
The speech organ of Professor Faber from
1846(from the Journal of
the Acoustical Society of America [3]).
1. Production du signal
8
vocoders à canaux : reproduire l’évolution de l’amplitudedu signal dans quelques dizaines de bandes spectrales
vocoders à formants : trouver les 3 à 5 maxima du spectre à court termeet reproduire ces fréquences avec les amplitudes associées
vers les années 1950/1960 : développement de l’électronique
vers les années 1960/1970 : développement de l’informatique
traitement numérique et beaucoup plus de souplesse, par exemple prédiction linéaire
Analyse et Synthèse du Signal Vocal
1. Production du signal
9
guimbarde, chants diphoniques, arc à bouche, didgeridoo
clicsen langue xhosaen Afrique du sud
1. Production du signal
10
Synthèse numérique (ou équivalent analogique)
y t a i y t i x ti
p ou( ) ( ) ( ) ( )
( )
1
10 12
1
A z( )
Filtre récursif
Filtre linéaire variant lentement dans le tempsreprésentant les évolutions temporelles
des résonances du conduit vocal
Impulsionsdes cordes vocales
(intonation)ou bruit
(fricatives)
(Sa réponse en fréquencecorrespond au spectre du signal vocal)
y t( )
Signal synthétisé
x t( )
1. Production du signal
11
100 2000
1
0 50400
200
0
200
100 2001
0
1
0 2000
50
100
0 2000
20
40
0 100 2000
0.5
temps
fréquence
Cordes vocalesintonation
Conduit vocalrésonances
Signal sonoresynthétique
1. Production du signal
12http://www.iurc.montp.inserm.fr/cric/audition/
2. Audition
http://www.cochlea.org
13
http://www.iurc.montp.inserm.fr/cric/audition/ 2. Audition
14
bruit
exce
ssif =
dommages
irrém
édiables
2. Audition
15
Phénomène de masquage (mp3)
0 5 10 15
0
20
40
60
80
0 5 10 15
0
20
40
60
80
x(n) = sinusoïde masquante
q(n) = sinusoïde masquée
0 5 10 150
20
40
60
80
100
120
Fréquences (kHz)
Sx(f) = DSP du signal
Sm(f) = Seuil de masquage
http://tsi.enst.fr/~moreau/activites_enseignement.html
fréquence fréquence
2. Audition
16
Analyse spectrale à court terme
spectre
Spectre (log)
temps
Spectre échelle mel
fréquence
fréquencefréquence Hz
2500 Hz50 ms
2500 Hz3000 Hz
3. Analyse, description et typologie des signaux
17
0 0.15 0.29 0.44 0.58 0.73 0.88 1.02 1.17 1.32 1.46 1.61 1.75
mg md
0.095 0.1 0.105 0.11 0.115 0.12 0.125 0.13 0.135 0.14 0.145 0.15 0.155 0.16 0.165 0.17 0.175 0.18 0.185 0.19 0.195 0.24 10
4
2 104
0
2 104
4 104
0.095 0.1 0.105 0.11 0.115 0.12 0.125 0.13 0.135 0.14 0.145 0.15 0.155 0.16 0.165 0.17 0.175 0.18 0.185 0.19 0.195 0.24 10
4
2 104
0
2 104
4 104
0 200 400 600 800 1000 1200 1400 1600 1800 2000 2200 2400 2600 2800 3000 3200 3400 3600 3800 4000 4200 4400 4600 4800 50000
10
20
30
40
0 200 400 600 800 1000 1200 1400 1600 1800 2000 2200 2400 2600 2800 3000 3200 3400 3600 3800 4000 4200 4400 4600 4800 50000
10
20
30
40
Signal vocal
Zoom
Spectre de la portion analysée : formants
temps
fréquence
tempsquasi périodicité de l’ordre de 5 à 10 ms suivant l’intonation
harmoniques de la fréquence fondamentale
3. Analyse
18
0 0.15 0.29 0.44 0.58 0.73 0.88 1.02 1.17 1.32 1.46 1.61 1.75
mg md
0.095 0.1 0.105 0.11 0.115 0.12 0.125 0.13 0.135 0.14 0.145 0.15 0.155 0.16 0.165 0.17 0.175 0.18 0.185 0.19 0.195 0.24 10
4
2 104
0
2 104
4 104
0 0.15 0.29 0.44 0.58 0.73 0.88 1.02 1.17 1.32 1.46 1.61 1.75
mg md
0.095 0.1 0.105 0.11 0.115 0.12 0.125 0.13 0.135 0.14 0.145 0.15 0.155 0.16 0.165 0.17 0.175 0.18 0.185 0.19 0.195 0.24 10
4
2 104
0
2 104
4 104
0.095 0.1 0.105 0.11 0.115 0.12 0.125 0.13 0.135 0.14 0.145 0.15 0.155 0.16 0.165 0.17 0.175 0.18 0.185 0.19 0.195 0.24 10
4
2 104
0
2 104
4 104
0 200 400 600 800 1000 1200 1400 1600 1800 2000 2200 2400 2600 2800 3000 3200 3400 3600 3800 4000 4200 4400 4600 4800 50000
10
20
30
40
0 200 400 600 800 1000 1200 1400 1600 1800 2000 2200 2400 2600 2800 3000 3200 3400 3600 3800 4000 4200 4400 4600 4800 50000
10
20
30
40
spectre
Module de la transformée de Fourier
Deux secondes de signal temporel
Analyse d ’une portion de 100 ms
fondamental
harmoniques
Formants (résonnances)
temps
fréquence
3. Analyse
19
Allure temporelle des signaux
• Voyelles et consonnes voisées
• Fricatives
• Plosives• Fricatives voisées
• Plosives voisées
• Voyelle et consonnes nasaliséesa, e, oe, i, o, u, ou, é, è, l, r
m, n, on, an, in, unf, s, chv, z, jp, t, kb, d, g
+sons « doubles », diphtongues, ... w, ll
mais il y a une grande variabilité même pour un locuteuren fonction du contexte du son prononcé, de l’intonation,
de l’état de santé, etc...
3. Analyse
20
signalanalysé sousmatrice signalcoupé debutanalyse finanalyse 0 0( )
0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1 0.11
0 400 800 1200 1600 2000 2400 2800 3200 3600 40000
20
40
‘ eu ’
0 0.01 0.02 0.03 0.04 0.05 0.06 0.07
0 400 800 1200 1600 2000 2400 2800 3200 3600 40000
20
40
‘ a ’
0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1
0 400 800 1200 1600 2000 2400 2800 3200 3600 40000
20
40
‘ ai ’
0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1
0 400 800 1200 1600 2000 2400 2800 3200 3600 40000
20
40
‘ o ’
temps
fréquence
temps
fréquence
temps
fréquence
temps
fréquence
3. Analyse
21
0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1
0 400 800 1200 1600 2000 2400 2800 3200 3600 40000
20
40
‘ u ’
0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1
0 400 800 1200 1600 2000 2400 2800 3200 3600 40000
20
40
‘ i ’
temps
fréquence
temps
fréquence
3. Analyse
22
‘ (ll)an ’
0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1
0 400 800 1200 1600 2000 2400 2800 3200 3600 40000
20
40
0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1
0 0.4 0.8 1.2 1.6 2 2.4 2.8 3.2 3.6 41
2
3
4
‘ on ’
0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1
debutanalyse
0 0.4 0.8 1.2 1.6 2 2.4 2.8 3.2 3.6 41
2
3
‘ in ’
temps
fréquence
temps
fréquence
temps
fréquence
3. Analyse
23
0 0.01 0.02 0.03 0.04 0.05 0.06 0.07
0 400 800 1200 1600 2000 2400 2800 3200 3600 40000
20
40
(a)ll
0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1
0 400 800 1200 1600 2000 2400 2800 3200 3600 40000
20
40
‘ m ’
0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1
0 400 800 1200 1600 2000 2400 2800 3200 3600 40000
20
40
‘ n ’
temps
fréquence
temps
fréquence
temps
fréquence
3. Analyse
24
0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1
‘ ta ’
0 400 800 1200 1600 2000 2400 2800 3200 3600 40000
20
40
signalanalysé sousmatrice signalcoupé debutanalyse finanalyse 0 0( )
0 0.01 0.02 0.03 0.04 0.05 0.06 0.07
0 400 800 1200 1600 2000 2400 2800 3200 3600 40000
20
40
‘ d ’
0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1
0 400 800 1200 1600 2000 2400 2800 3200 3600 40000
20
40
‘ b ’
0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1
0 400 800 1200 1600 2000 2400 2800 3200 3600 40000
20
40
‘ po ’
0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1
0 400 800 1200 1600 2000 2400 2800 3200 3600 40000
10
20
3.0557
2.54 2.56 2.57 2.58 2.59 2.61 2.62 2.63 2.64 2.66 2.672.73 10
4
2754
3.28 104‘ co ’
0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1
0 400 800 1200 1600 2000 2400 2800 3200 3600 40000
20
40
‘ g ’
temps
fréquence
temps
fréquence
temps
fréquence
temps
fréquence
temps
fréquence
temps
fréquence
3. Analyse
25
0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1
0 400 800 1200 1600 2000 2400 2800 3200 3600 40000
20
40
‘ s ’
0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1
0 400 800 1200 1600 2000 2400 2800 3200 3600 40000
20
40
‘ j ’
0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1
0 400 800 1200 1600 2000 2400 2800 3200 3600 40000
20
40
‘ f ’
0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1
0 400 800 1200 1600 2000 2400 2800 3200 3600 40000
10
20
30
‘ z ’
0 0.010.020.030.040.050.060.070.080.09 0.1
0 400800120016002000240028003200360040000
20
40
‘ v ’
0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1
0 0.4 0.8 1.2 1.6 2 2.4 2.8 3.2 3.6 40
10
20
‘ ch ’
temps
fréquence
temps
fréquence
temps
fréquence
temps
fréquence
temps
fréquence
temps
fréquence
3. Analyse
26
tempsfréquence perspective
log spectrogramme( )
0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.52 10
4
0
2 104
chronogrammeénergie (log)
temps
fréq
uenc
e
ampl
itude spectrogramme
chronogramme
3. Analyse
27
fréquence
temps
amplitude
Spectrogramme, sonogramme, sonagramme Evolution au cours du temps de l ’analyse spectrale à court terme
fréquence
temps
3. Analyse
28
ph o n e t i c i an
fréquence
temps
3. Analyse
29
Le « cepstre »
- Analyse de la fréquence fondamentale chant, intonation- Paramètres de base pour la reconnaissance
fréquence« temps »
périodicité des harmoniques
variations lentes du spectre
déconvolution source (harmoniques) / conduit (enveloppe)
3. Analyse
30
Analyse de la fréquence fondamentalechant, intonation
4
0 125 250 375 500 625 750 875 10001
2
3
temps
fréquence
fondamentalharmoniques
3. Analyse
31
0 6.34 12.6819.0225.36 31.7 38.0444.3850.7257.06 63.4 69.7476.0882.4288.76 95.1101.44107.78114.12120.46126.8133.14139.48145.82152.16158.5164.84171.18177.52183.86190.2196.54202.880
1 104
2 104
1.943 104
0
cbas k
longueurcoupe
50
00 k
0 507.2 1014.4 1521.6 2028.8 2536 3043.2 3550.4 4057.6 4564.8 5072 5579.2 6086.4 6593.6 7100.8 7608 8115.2 8622.4 9129.6 9636.8 1.01 104
1000
500
0
500
1000893.488
884.279
CCk
longueurcoupe0 k
0 6.34 12.6819.0225.36 31.7 38.0444.3850.7257.06 63.4 69.7476.0882.4288.76 95.1101.44107.78114.12120.46126.8133.14139.48145.82152.16158.5164.84171.18177.52183.86190.2196.54202.880
1 104
2 104
3 104
2.272 104
0
cbandek
longueurcoupe
50
00 k
0 1014.4 2028.8 3043.2 4057.6 5072 6086.4 7100.8 8115.2 9129.6 1.01 104
1 104
5000
0
5000
1 104
5.366 103
5.366 103
CFBk
REDRESk 0.5
longueurcoupe0 k
0 6.34 12.6819.0225.36 31.7 38.0444.3850.7257.06 63.4 69.7476.0882.4288.76 95.1101.44107.78114.12120.46126.8133.14139.48145.82152.16158.5164.84171.18177.52183.86190.2196.54202.880
5 107
1 108
8.578 107
0
cbas k
longueurcoupe
50
00 k
0 507.2 1014.4 1521.6 2028.8 2536 3043.2 3550.4 4057.6 4564.8 5072 5579.2 6086.4 6593.6 7100.8 7608 8115.2 8622.4 9129.6 9636.8 1.01 104
1 107
5 106
0
5 106
1 107
5.927 106
5.939 106
CCk
longueurcoupe0 k
Passe bas
Passe bandedémodulation
Passe bassur le résultat
Analyse de la mélodie (pitch)
fondamental
harmoniques
temps
fréquence
temps
fréquence
temps
fréquencefondamental retrouvé par démodulation
3. Analyse
32
Codage à bas débit (moins de 15kbits/s) : prédiction linéaire
Codage à débit moyen : 16 à 32 kbits/s : modulation delta
Téléphonie : 8bits x 8000 éch./s = 64 kbits/s
Haute fidélité 16bits x 44100 éch./s = 700 kbits/
MP3 = 144 kbits/s
4. Codage de la parole : différents débits enfonction des applications et de la qualité acceptée
33
Téléphonie numérique
Réduire la dynamique
Loi « mu »)].1([log2 xQy
94.4 38.8 0 72.4 128
0
128
128
yx
128128 x 128
Échantillonnage à 8kHz quantification sur 8 bits
4. Codage
34
Codage par modulation delta (parole)pour les débits de 16 à 32 kBits/s
Quantification de la différenceentre le signal et sa prédiction
q
kktkb
1
+
_)(tx
)(t
Tra
nsm
issi
on
q
kktkt btx
1
)(
)(tx )(t
Synthèse
Analyse
4. Codage
35
Filtrage des signauxdans différentes bandes de fréquences
T. FourierSélection des canaux utiles (effet de masquage)1er codage
T. Cos etcodage
T. Cos etcodage
T. Cos etcodage
T. Cos etcodage
T. Cos etcodage
Em
issi
on d
es d
onné
es
Principe du codage MP34. Codage
36
Analyse par prédiction linéaire
Canal vocalImpusions
(cordes vocales)
Bruit(pour les fricatives)
Signal Synthétique
Filtre récursifévoluant « lentement »
au cours du tempset dont la réponse en
fréquence estcelle du spectre
à court terme
)(
1
zA
4. Codage
37
- Calcul de 11 coefficients de corrélation sur une portion de 25 ms (200 échantillons)
- Application de l ’algorithme de Levinsonpour obtenir les coefficients du filtre récursif
(sous la forme d ’un filtre en treillis)
- Transmission des coefficients et du signal résiduel (erreur de prédiction) au récepteurqui en déduit la synthèse du signal
199
0)()(
tk ktxtxr
101 )10()1(1
1
)(
1
zazazA
4. Codage
38
Codage par prédiction linéaire
signal analysé calcul de corrélationalgorithme de Levinson
coefficients du filtre A(z)filtre nonrécursif A(z)
signal résiduel e(t)recherche de périodicité L
(max de corrélation) e(t)e(t+L)
v(t)=e(t)-r.e(t-L)
quantificationrecherche d’un
élément ressemblant à un tronçon de v(t)
dans un dictionnaire
d(n)
filtre récursif 1/A(z)
e(t)=v(t)+r.e(t-L)
reconstruction de v(t)à partir des d(n)
transmission
signal synthétisé
L
signal résiduel e(t)
d(n)
v(t) v(t)
étape decompression
analyse synthèse
4. Codage
39
Spectre de la portionde signal analysé
Réponse en fréquencedu filtre récursif
modélisant le signal vocal
Analyse par prédiction linéaire
fréquence
4. Codage
40
Code Excited Linear Prediction (CELP)
Dictionnairede signaux
élémentairesPrédiction à long terme(intonation)
Modèledu conduit vocal
génération du signald’entrée du filtre (cordes vocales, bruit)
4. Codage
41
(Ech 11025 Hz)
k 0 1023
0 64 128 192 256 320 384 448 512 576 640 704 768 832 896 960 1024816
113
590
0 128 256 384 512 640 768 896 10240
500
1000
0 204.8 409.6 614.4 819.2 1024500
0
500
portion de signal de parole analyséefiltrage passe bande du signaldans le domaine des fréquences
temps
tempsfréquence
Illustration de l ’application de la prédiction linéaireau codage de la parole en téléphonie
4. Codage
42
0 2 4 6 8 10 125 10
6
0
5 106
1 107
0 1 2 3 4 5 6 7 8 9 10 11 12 13 141
0
1Corrélation : r(n) Coefficients de A(z)
Réponse impulsionnelledu filtre récursif 1/A(z)
Réponse impulsionnelledu filtre non récursif A(z)
Algo de Levinsonou Schur
temps
Signal modélisé
tempstemps
4. Codage
43
50 100 150 200 250 300 350 4002000
1000
0
1000
0 102.4 204.8 307.2 409.6 5120
2
4
6
1.2 0 1.21.2
0
1.2
Réponse impulsionnelledu filtre récursif 1/A(z) modélisantla production de ce signal
Réponse en fréquence du filtre récursif 1/A(z))
Zéros de A(z)(pôles de 1/A(z))
temps
fréquence
Signal analyséamplitude 4. Codage
44
0 64 128 192 256 320 384 448 512 576 640 704 768 832 896 960 1024846.71
124.2
598.31
Signal résiduel à coder- Recherche de la périodicité (pitch :
prédiction à long termeon code x(t)-x(t-L) : estimer L
- Quantification vectorielle
1617181920212223242526272829303132346.71
4.74
337.22
L
On découpe le signal résiduel en tronçonscomparaison à des formes de signalmémorisées dont on transmet le numéro+ transmission des coefs du filtre
Spectre du signal résiduel
temps
temps
fréquence
4. Codage
(~ bruit blanc)
45
5. Synthèse de son ; diphones
Difficultés:• Enchainement de sons élémentaires• Intonation naturelle
46
Découpe d’un son élémentaire (p. ex. diphone)en période de longueur double de la période du pitch
)().()( tfttxts nn
nknknk httsn
ty ,, ).()(
Chacun des ~1000 diphones (33x33) est découpé en10 ou 20 sons élémentaires de 100 à 200 échantillons
Synthèse de parole
)()( nn ttsn
tx
mbrolahttp://tcts.fpms.ac.be/synthesis/
.
5. Synthèse
47
On peut rajouter ces tronçons après les avoir décaléset amplifiés en fonction de la mélodie, de l ’intonation, ...
Plus aigu : diminuer
Plus grave : augmenter
Modification de l ’amplitude en changeant
nkt ,
nkt ,
nkh ,
5. Synthèse
48
6. Reconnaissance de la Parole fondée sur les Modèles de Markov Cachés
Hidden Markov Models
1. Introduction2. Formulation en reconnaissance de parole 2.1 Reconnaissance (Viterbi) 2.2 Probabilité d’une séquence 2.3 Apprentissage3. Mise en œuvre 3.1 Analyse spectrale à court terme 3.2 Quantification vectorielle 3.3 Forme usuelle de l’automate
http://htk.eng.cam.ac.uk/
49
transition
mesures
a m m( ' , )
b m n( , ') b m n( , )
2. Automates utilisés dans les modèles de Markov cachés
Séquence d’états :
Séquence de mesures :
(Probabilités)
S s s sT 0 1, , ,
Y y y yT 0 1, , ,
d m p s m( ) ( ) 0
a m m p s m s mt t( ' , ) ( '/ ) 1
b m n p y n s mt t( , ) ( / )
états
n’ n
m’ m
probabilité de transition de l’état m’ à l’état m
probabilité de mesurer ‘n’ quand l’automate estdans l’état m
probabilité que l’état initial soit m
6. Reconnaissance
50
Les trois problèmes :
1. Reconnaissance : Y donné quelle est la S la plus probable ?
2. Quelle est la probabilité d’observer Y avec l ’automate (a,b,d) ?
3. Apprentissage : comment calculer a(m,m’), b(m,n) et d(m)
Séquence d’états :
Séquence de mesures :
S s s sT 0 1, , ,
Y y y yT 0 1, , ,
6. Reconnaissance
51
Algorithme de ViterbiCalcul par récurrence de r m p s s s m y yt t t t( ) max ( , , , , , , ) 0 1 0
Initialisation
Récurrence
Fin de l’algorithme
r m r m a m m b m ytm
t t( ') max ( ) ( , ') ( ' , ) 1
r m d m b m y0 0( ) ( ) ( , )
t T
r mt 1( )
q mt ( ')m'
Obtention de la séquence la plus probable
m' '
t 1 t t 1 temps
Etat m
« Treillis » pourreprésenterl ’évolutionde l ’automateau cours du temps
6. Reconnaissance
52
Probabilité d’observation d’une séquence Y avec (a,b,d)
p Y d s b s y a s s b s yt t t tt
T
S( ) ( ) ( , ) ( , ) ( , )
0 0 0 1
1
1
Calcul à t croissant
t t tm p s m y y( ) ( ,[ , , ]) 0
0 0( ) ( ) ( , )m d m b m y
tm
M
t tm m a m m b m y
11
1( ) ( ') ( ' , ) ( , )'
p Y mm
T( ) ( )
Utilisé pour comparer la pertinence de différents automates(un automate est associé à un mot)
(aussi utilisé dans les « turbocodes en détection d ’erreurs »
6. Reconnaissance
53
Apprentissage de mots (cf. notes de cours)Calculer à partir de mesures Y de a(m,m’), b(m,n), d(m)
Automate usuel (Bakis)
Défauts de rythmes (doublement ou suppression d’une étape)voir aussi le « dynamic time warping »
t
t’
(lourd : nécessite de nombreuses réalisations deY)
6. Reconnaissance
54
3. Mise en forme des données mesurées sur la parole
Associer à une portion de signal vocal (~20ms)une mesure y(t) :- Analyse spectrale à court terme un vecteur (dim 20)- Quantification vectorielle
F o n e t i ch i an
6. Reconnaissance
55
Analyse spectrale à court terme
0 500 1000 1500 2000 2500 3000 3500 4000 4500
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21
2000
4000
Echelle Mel linéaire exponentielle
Fréquence centraledu filtre
Banc de filtres
6. Reconnaissance
56
Coefficients cepstraux
Energie en sortie des différents filtres : C(n)
c k C n k nn
( ) log[ ( )]cos[ ( )]
1
20
20
1
2
Peuvent être liés aux coefficients de la prédiction linéaire
c k a kk
a c kk
( ) ( ) ( ) ( ) ( )
1
1
1
6. Reconnaissance
57
Quantification vectorielle
Trouver des représentants pour des nuages de points
Choisir des centres de classesAssigner à cette classe les pointsvoisinsPrendre comme centre de classele barycentre des points d’uneclasseréitérer jusqu ’à convergence
Passer des c(k) aux y (mesures)
« expectation maximization »
les HMM nécessitent une quantification (assez grossière) des données traitées
6. Reconnaissance
58
Toutefois, beaucoup de réglages et de variantes…
Recherche : « comprendre » le signal vocalet l ’information qu ’il contient (et non se contenterd ’une « simple » comparaison)
Comprendre le fonctionnement de la cochlée et du système nerveux auditif
http://www.cochlea.org/spe/cerveau-auditif-2.html
6. Reconnaissance