1 Le Signal Vocal 1. Production du signal ; Modèles de production 2. Notions sur laudition 3....

Post on 03-Apr-2015

108 views 0 download

Transcript of 1 Le Signal Vocal 1. Production du signal ; Modèles de production 2. Notions sur laudition 3....

1

Le Signal Vocal

• 1. Production du signal ; Modèles de production• 2. Notions sur l’audition• 3. Allure temporelle Analyse en fréquence• Typologie des signaux (phonèmes)• Représentation Temps-Fréquence, spectrogramme• Détection de la mélodie, de l’intonation• Analyse « cepstrale » et par prédiction linéaire• 4. Transmission (compression) • 5. Principe de la synthèse de parole• 6. Données utilisées en reconnaissance de parole

http://tcts.fpms.ac.be/cours/1005-08/speech/parole.pdfhttp://svr-www.eng.cam.ac.uk/~ajr/SA95/node87.html

2http://perso.club-internet.fr/mantonio/condvoc.htm

1. Production du signal ; Modèles de production

3

http://mucybermu.over-blog.com/pages/Anatomie_de_la_voix-2436886.html

1. Production du signal

4

http://perso.club-internet.fr/mantonio/condvoc.htm

1. Production du signal

5

http://perso.club-internet.fr/mantonio/condvoc.htm

temps

http://mucybermu.over-blog.com/pages/Anatomie_de_la_voix-2436886.html

1. Production du signal les cordes vocales

6

http://www.ling.su.se/staff/hartmut/kemplne.htm

Wolfgang von Kempelen (1770)

http://alexandria.tue.nl/extra2/200512836.pdf

1. Production du signal

7http://alexandria.tue.nl/extra2/200512836.pdf

The speech organ of Professor Faber from

1846(from the Journal of

the Acoustical Society of America [3]).

1. Production du signal

8

vocoders à canaux : reproduire l’évolution de l’amplitudedu signal dans quelques dizaines de bandes spectrales

vocoders à formants : trouver les 3 à 5 maxima du spectre à court termeet reproduire ces fréquences avec les amplitudes associées

vers les années 1950/1960 : développement de l’électronique

vers les années 1960/1970 : développement de l’informatique

traitement numérique et beaucoup plus de souplesse, par exemple prédiction linéaire

Analyse et Synthèse du Signal Vocal

1. Production du signal

9

guimbarde, chants diphoniques, arc à bouche, didgeridoo

clicsen langue xhosaen Afrique du sud

1. Production du signal

10

Synthèse numérique (ou équivalent analogique)

y t a i y t i x ti

p ou( ) ( ) ( ) ( )

( )

1

10 12

1

A z( )

Filtre récursif

Filtre linéaire variant lentement dans le tempsreprésentant les évolutions temporelles

des résonances du conduit vocal

Impulsionsdes cordes vocales

(intonation)ou bruit

(fricatives)

(Sa réponse en fréquencecorrespond au spectre du signal vocal)

y t( )

Signal synthétisé

x t( )

1. Production du signal

11

100 2000

1

0 50400

200

0

200

100 2001

0

1

0 2000

50

100

0 2000

20

40

0 100 2000

0.5

temps

fréquence

Cordes vocalesintonation

Conduit vocalrésonances

Signal sonoresynthétique

1. Production du signal

12http://www.iurc.montp.inserm.fr/cric/audition/

2. Audition

http://www.cochlea.org

13

http://www.iurc.montp.inserm.fr/cric/audition/ 2. Audition

14

bruit

exce

ssif =

dommages

irrém

édiables

2. Audition

15

Phénomène de masquage (mp3)

0 5 10 15

0

20

40

60

80

0 5 10 15

0

20

40

60

80

x(n) = sinusoïde masquante

q(n) = sinusoïde masquée

0 5 10 150

20

40

60

80

100

120

Fréquences (kHz)

Sx(f) = DSP du signal

Sm(f) = Seuil de masquage

http://tsi.enst.fr/~moreau/activites_enseignement.html

fréquence fréquence

2. Audition

16

Analyse spectrale à court terme

spectre

Spectre (log)

temps

Spectre échelle mel

fréquence

fréquencefréquence Hz

2500 Hz50 ms

2500 Hz3000 Hz

3. Analyse, description et typologie des signaux

17

0 0.15 0.29 0.44 0.58 0.73 0.88 1.02 1.17 1.32 1.46 1.61 1.75

mg md

0.095 0.1 0.105 0.11 0.115 0.12 0.125 0.13 0.135 0.14 0.145 0.15 0.155 0.16 0.165 0.17 0.175 0.18 0.185 0.19 0.195 0.24 10

4

2 104

0

2 104

4 104

0.095 0.1 0.105 0.11 0.115 0.12 0.125 0.13 0.135 0.14 0.145 0.15 0.155 0.16 0.165 0.17 0.175 0.18 0.185 0.19 0.195 0.24 10

4

2 104

0

2 104

4 104

0 200 400 600 800 1000 1200 1400 1600 1800 2000 2200 2400 2600 2800 3000 3200 3400 3600 3800 4000 4200 4400 4600 4800 50000

10

20

30

40

0 200 400 600 800 1000 1200 1400 1600 1800 2000 2200 2400 2600 2800 3000 3200 3400 3600 3800 4000 4200 4400 4600 4800 50000

10

20

30

40

Signal vocal

Zoom

Spectre de la portion analysée : formants

temps

fréquence

tempsquasi périodicité de l’ordre de 5 à 10 ms suivant l’intonation

harmoniques de la fréquence fondamentale

3. Analyse

18

0 0.15 0.29 0.44 0.58 0.73 0.88 1.02 1.17 1.32 1.46 1.61 1.75

mg md

0.095 0.1 0.105 0.11 0.115 0.12 0.125 0.13 0.135 0.14 0.145 0.15 0.155 0.16 0.165 0.17 0.175 0.18 0.185 0.19 0.195 0.24 10

4

2 104

0

2 104

4 104

0 0.15 0.29 0.44 0.58 0.73 0.88 1.02 1.17 1.32 1.46 1.61 1.75

mg md

0.095 0.1 0.105 0.11 0.115 0.12 0.125 0.13 0.135 0.14 0.145 0.15 0.155 0.16 0.165 0.17 0.175 0.18 0.185 0.19 0.195 0.24 10

4

2 104

0

2 104

4 104

0.095 0.1 0.105 0.11 0.115 0.12 0.125 0.13 0.135 0.14 0.145 0.15 0.155 0.16 0.165 0.17 0.175 0.18 0.185 0.19 0.195 0.24 10

4

2 104

0

2 104

4 104

0 200 400 600 800 1000 1200 1400 1600 1800 2000 2200 2400 2600 2800 3000 3200 3400 3600 3800 4000 4200 4400 4600 4800 50000

10

20

30

40

0 200 400 600 800 1000 1200 1400 1600 1800 2000 2200 2400 2600 2800 3000 3200 3400 3600 3800 4000 4200 4400 4600 4800 50000

10

20

30

40

spectre

Module de la transformée de Fourier

Deux secondes de signal temporel

Analyse d ’une portion de 100 ms

fondamental

harmoniques

Formants (résonnances)

temps

fréquence

3. Analyse

19

Allure temporelle des signaux

• Voyelles et consonnes voisées

• Fricatives

• Plosives• Fricatives voisées

• Plosives voisées

• Voyelle et consonnes nasaliséesa, e, oe, i, o, u, ou, é, è, l, r

m, n, on, an, in, unf, s, chv, z, jp, t, kb, d, g

+sons « doubles », diphtongues, ... w, ll

mais il y a une grande variabilité même pour un locuteuren fonction du contexte du son prononcé, de l’intonation,

de l’état de santé, etc...

3. Analyse

20

signalanalysé sousmatrice signalcoupé debutanalyse finanalyse 0 0( )

0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1 0.11

0 400 800 1200 1600 2000 2400 2800 3200 3600 40000

20

40

‘ eu ’

0 0.01 0.02 0.03 0.04 0.05 0.06 0.07

0 400 800 1200 1600 2000 2400 2800 3200 3600 40000

20

40

‘ a ’

0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1

0 400 800 1200 1600 2000 2400 2800 3200 3600 40000

20

40

‘ ai ’

0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1

0 400 800 1200 1600 2000 2400 2800 3200 3600 40000

20

40

‘ o ’

temps

fréquence

temps

fréquence

temps

fréquence

temps

fréquence

3. Analyse

21

0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1

0 400 800 1200 1600 2000 2400 2800 3200 3600 40000

20

40

‘ u ’

0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1

0 400 800 1200 1600 2000 2400 2800 3200 3600 40000

20

40

‘ i ’

temps

fréquence

temps

fréquence

3. Analyse

22

‘ (ll)an ’

0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1

0 400 800 1200 1600 2000 2400 2800 3200 3600 40000

20

40

0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1

0 0.4 0.8 1.2 1.6 2 2.4 2.8 3.2 3.6 41

2

3

4

‘ on ’

0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1

debutanalyse

0 0.4 0.8 1.2 1.6 2 2.4 2.8 3.2 3.6 41

2

3

‘ in ’

temps

fréquence

temps

fréquence

temps

fréquence

3. Analyse

23

0 0.01 0.02 0.03 0.04 0.05 0.06 0.07

0 400 800 1200 1600 2000 2400 2800 3200 3600 40000

20

40

(a)ll

0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1

0 400 800 1200 1600 2000 2400 2800 3200 3600 40000

20

40

‘ m ’

0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1

0 400 800 1200 1600 2000 2400 2800 3200 3600 40000

20

40

‘ n ’

temps

fréquence

temps

fréquence

temps

fréquence

3. Analyse

24

0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1

‘ ta ’

0 400 800 1200 1600 2000 2400 2800 3200 3600 40000

20

40

signalanalysé sousmatrice signalcoupé debutanalyse finanalyse 0 0( )

0 0.01 0.02 0.03 0.04 0.05 0.06 0.07

0 400 800 1200 1600 2000 2400 2800 3200 3600 40000

20

40

‘ d ’

0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1

0 400 800 1200 1600 2000 2400 2800 3200 3600 40000

20

40

‘ b ’

0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1

0 400 800 1200 1600 2000 2400 2800 3200 3600 40000

20

40

‘ po ’

0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1

0 400 800 1200 1600 2000 2400 2800 3200 3600 40000

10

20

3.0557

2.54 2.56 2.57 2.58 2.59 2.61 2.62 2.63 2.64 2.66 2.672.73 10

4

2754

3.28 104‘ co ’

0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1

0 400 800 1200 1600 2000 2400 2800 3200 3600 40000

20

40

‘ g ’

temps

fréquence

temps

fréquence

temps

fréquence

temps

fréquence

temps

fréquence

temps

fréquence

3. Analyse

25

0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1

0 400 800 1200 1600 2000 2400 2800 3200 3600 40000

20

40

‘ s ’

0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1

0 400 800 1200 1600 2000 2400 2800 3200 3600 40000

20

40

‘ j ’

0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1

0 400 800 1200 1600 2000 2400 2800 3200 3600 40000

20

40

‘ f ’

0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1

0 400 800 1200 1600 2000 2400 2800 3200 3600 40000

10

20

30

‘ z ’

0 0.010.020.030.040.050.060.070.080.09 0.1

0 400800120016002000240028003200360040000

20

40

‘ v ’

0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1

0 0.4 0.8 1.2 1.6 2 2.4 2.8 3.2 3.6 40

10

20

‘ ch ’

temps

fréquence

temps

fréquence

temps

fréquence

temps

fréquence

temps

fréquence

temps

fréquence

3. Analyse

26

tempsfréquence perspective

log spectrogramme( )

0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.52 10

4

0

2 104

chronogrammeénergie (log)

temps

fréq

uenc

e

ampl

itude spectrogramme

chronogramme

3. Analyse

27

fréquence

temps

amplitude

Spectrogramme, sonogramme, sonagramme Evolution au cours du temps de l ’analyse spectrale à court terme

fréquence

temps

3. Analyse

28

ph o n e t i c i an

fréquence

temps

3. Analyse

29

Le « cepstre »

- Analyse de la fréquence fondamentale chant, intonation- Paramètres de base pour la reconnaissance

fréquence« temps »

périodicité des harmoniques

variations lentes du spectre

déconvolution source (harmoniques) / conduit (enveloppe)

3. Analyse

30

Analyse de la fréquence fondamentalechant, intonation

4

0 125 250 375 500 625 750 875 10001

2

3

temps

fréquence

fondamentalharmoniques

3. Analyse

31

0 6.34 12.6819.0225.36 31.7 38.0444.3850.7257.06 63.4 69.7476.0882.4288.76 95.1101.44107.78114.12120.46126.8133.14139.48145.82152.16158.5164.84171.18177.52183.86190.2196.54202.880

1 104

2 104

1.943 104

0

cbas k

longueurcoupe

50

00 k

0 507.2 1014.4 1521.6 2028.8 2536 3043.2 3550.4 4057.6 4564.8 5072 5579.2 6086.4 6593.6 7100.8 7608 8115.2 8622.4 9129.6 9636.8 1.01 104

1000

500

0

500

1000893.488

884.279

CCk

longueurcoupe0 k

0 6.34 12.6819.0225.36 31.7 38.0444.3850.7257.06 63.4 69.7476.0882.4288.76 95.1101.44107.78114.12120.46126.8133.14139.48145.82152.16158.5164.84171.18177.52183.86190.2196.54202.880

1 104

2 104

3 104

2.272 104

0

cbandek

longueurcoupe

50

00 k

0 1014.4 2028.8 3043.2 4057.6 5072 6086.4 7100.8 8115.2 9129.6 1.01 104

1 104

5000

0

5000

1 104

5.366 103

5.366 103

CFBk

REDRESk 0.5

longueurcoupe0 k

0 6.34 12.6819.0225.36 31.7 38.0444.3850.7257.06 63.4 69.7476.0882.4288.76 95.1101.44107.78114.12120.46126.8133.14139.48145.82152.16158.5164.84171.18177.52183.86190.2196.54202.880

5 107

1 108

8.578 107

0

cbas k

longueurcoupe

50

00 k

0 507.2 1014.4 1521.6 2028.8 2536 3043.2 3550.4 4057.6 4564.8 5072 5579.2 6086.4 6593.6 7100.8 7608 8115.2 8622.4 9129.6 9636.8 1.01 104

1 107

5 106

0

5 106

1 107

5.927 106

5.939 106

CCk

longueurcoupe0 k

Passe bas

Passe bandedémodulation

Passe bassur le résultat

Analyse de la mélodie (pitch)

fondamental

harmoniques

temps

fréquence

temps

fréquence

temps

fréquencefondamental retrouvé par démodulation

3. Analyse

32

Codage à bas débit (moins de 15kbits/s) : prédiction linéaire

Codage à débit moyen : 16 à 32 kbits/s : modulation delta

Téléphonie : 8bits x 8000 éch./s = 64 kbits/s

Haute fidélité 16bits x 44100 éch./s = 700 kbits/

MP3 = 144 kbits/s

4. Codage de la parole : différents débits enfonction des applications et de la qualité acceptée

33

Téléphonie numérique

Réduire la dynamique

Loi « mu »)].1([log2 xQy

94.4 38.8 0 72.4 128

0

128

128

yx

128128 x 128

Échantillonnage à 8kHz quantification sur 8 bits

4. Codage

34

Codage par modulation delta (parole)pour les débits de 16 à 32 kBits/s

Quantification de la différenceentre le signal et sa prédiction

q

kktkb

1

+

_)(tx

)(t

Tra

nsm

issi

on

q

kktkt btx

1

)(

)(tx )(t

Synthèse

Analyse

4. Codage

35

Filtrage des signauxdans différentes bandes de fréquences

T. FourierSélection des canaux utiles (effet de masquage)1er codage

T. Cos etcodage

T. Cos etcodage

T. Cos etcodage

T. Cos etcodage

T. Cos etcodage

Em

issi

on d

es d

onné

es

Principe du codage MP34. Codage

36

Analyse par prédiction linéaire

Canal vocalImpusions

(cordes vocales)

Bruit(pour les fricatives)

Signal Synthétique

Filtre récursifévoluant « lentement »

au cours du tempset dont la réponse en

fréquence estcelle du spectre

à court terme

)(

1

zA

4. Codage

37

- Calcul de 11 coefficients de corrélation sur une portion de 25 ms (200 échantillons)

- Application de l ’algorithme de Levinsonpour obtenir les coefficients du filtre récursif

(sous la forme d ’un filtre en treillis)

- Transmission des coefficients et du signal résiduel (erreur de prédiction) au récepteurqui en déduit la synthèse du signal

199

0)()(

tk ktxtxr

101 )10()1(1

1

)(

1

zazazA

4. Codage

38

Codage par prédiction linéaire

signal analysé calcul de corrélationalgorithme de Levinson

coefficients du filtre A(z)filtre nonrécursif A(z)

signal résiduel e(t)recherche de périodicité L

(max de corrélation) e(t)e(t+L)

v(t)=e(t)-r.e(t-L)

quantificationrecherche d’un

élément ressemblant à un tronçon de v(t)

dans un dictionnaire

d(n)

filtre récursif 1/A(z)

e(t)=v(t)+r.e(t-L)

reconstruction de v(t)à partir des d(n)

transmission

signal synthétisé

L

signal résiduel e(t)

d(n)

v(t) v(t)

étape decompression

analyse synthèse

4. Codage

39

Spectre de la portionde signal analysé

Réponse en fréquencedu filtre récursif

modélisant le signal vocal

Analyse par prédiction linéaire

fréquence

4. Codage

40

Code Excited Linear Prediction (CELP)

Dictionnairede signaux

élémentairesPrédiction à long terme(intonation)

Modèledu conduit vocal

génération du signald’entrée du filtre (cordes vocales, bruit)

4. Codage

41

(Ech 11025 Hz)

k 0 1023

0 64 128 192 256 320 384 448 512 576 640 704 768 832 896 960 1024816

113

590

0 128 256 384 512 640 768 896 10240

500

1000

0 204.8 409.6 614.4 819.2 1024500

0

500

portion de signal de parole analyséefiltrage passe bande du signaldans le domaine des fréquences

temps

tempsfréquence

Illustration de l ’application de la prédiction linéaireau codage de la parole en téléphonie

4. Codage

42

0 2 4 6 8 10 125 10

6

0

5 106

1 107

0 1 2 3 4 5 6 7 8 9 10 11 12 13 141

0

1Corrélation : r(n) Coefficients de A(z)

Réponse impulsionnelledu filtre récursif 1/A(z)

Réponse impulsionnelledu filtre non récursif A(z)

Algo de Levinsonou Schur

temps

Signal modélisé

tempstemps

4. Codage

43

50 100 150 200 250 300 350 4002000

1000

0

1000

0 102.4 204.8 307.2 409.6 5120

2

4

6

1.2 0 1.21.2

0

1.2

Réponse impulsionnelledu filtre récursif 1/A(z) modélisantla production de ce signal

Réponse en fréquence du filtre récursif 1/A(z))

Zéros de A(z)(pôles de 1/A(z))

temps

fréquence

Signal analyséamplitude 4. Codage

44

0 64 128 192 256 320 384 448 512 576 640 704 768 832 896 960 1024846.71

124.2

598.31

Signal résiduel à coder- Recherche de la périodicité (pitch :

prédiction à long termeon code x(t)-x(t-L) : estimer L

- Quantification vectorielle

1617181920212223242526272829303132346.71

4.74

337.22

L

On découpe le signal résiduel en tronçonscomparaison à des formes de signalmémorisées dont on transmet le numéro+ transmission des coefs du filtre

Spectre du signal résiduel

temps

temps

fréquence

4. Codage

(~ bruit blanc)

45

5. Synthèse de son ; diphones

Difficultés:• Enchainement de sons élémentaires• Intonation naturelle

46

Découpe d’un son élémentaire (p. ex. diphone)en période de longueur double de la période du pitch

)().()( tfttxts nn

nknknk httsn

ty ,, ).()(

Chacun des ~1000 diphones (33x33) est découpé en10 ou 20 sons élémentaires de 100 à 200 échantillons

Synthèse de parole

)()( nn ttsn

tx

mbrolahttp://tcts.fpms.ac.be/synthesis/

.

5. Synthèse

47

On peut rajouter ces tronçons après les avoir décaléset amplifiés en fonction de la mélodie, de l ’intonation, ...

Plus aigu : diminuer

Plus grave : augmenter

Modification de l ’amplitude en changeant

nkt ,

nkt ,

nkh ,

5. Synthèse

48

6. Reconnaissance de la Parole fondée sur les Modèles de Markov Cachés

Hidden Markov Models

1. Introduction2. Formulation en reconnaissance de parole 2.1 Reconnaissance (Viterbi) 2.2 Probabilité d’une séquence 2.3 Apprentissage3. Mise en œuvre 3.1 Analyse spectrale à court terme 3.2 Quantification vectorielle 3.3 Forme usuelle de l’automate

http://htk.eng.cam.ac.uk/

49

transition

mesures

a m m( ' , )

b m n( , ') b m n( , )

2. Automates utilisés dans les modèles de Markov cachés

Séquence d’états :

Séquence de mesures :

(Probabilités)

S s s sT 0 1, , ,

Y y y yT 0 1, , ,

d m p s m( ) ( ) 0

a m m p s m s mt t( ' , ) ( '/ ) 1

b m n p y n s mt t( , ) ( / )

états

n’ n

m’ m

probabilité de transition de l’état m’ à l’état m

probabilité de mesurer ‘n’ quand l’automate estdans l’état m

probabilité que l’état initial soit m

6. Reconnaissance

50

Les trois problèmes :

1. Reconnaissance : Y donné quelle est la S la plus probable ?

2. Quelle est la probabilité d’observer Y avec l ’automate (a,b,d) ?

3. Apprentissage : comment calculer a(m,m’), b(m,n) et d(m)

Séquence d’états :

Séquence de mesures :

S s s sT 0 1, , ,

Y y y yT 0 1, , ,

6. Reconnaissance

51

Algorithme de ViterbiCalcul par récurrence de r m p s s s m y yt t t t( ) max ( , , , , , , ) 0 1 0

Initialisation

Récurrence

Fin de l’algorithme

r m r m a m m b m ytm

t t( ') max ( ) ( , ') ( ' , ) 1

r m d m b m y0 0( ) ( ) ( , )

t T

r mt 1( )

q mt ( ')m'

Obtention de la séquence la plus probable

m' '

t 1 t t 1 temps

Etat m

« Treillis » pourreprésenterl ’évolutionde l ’automateau cours du temps

6. Reconnaissance

52

Probabilité d’observation d’une séquence Y avec (a,b,d)

p Y d s b s y a s s b s yt t t tt

T

S( ) ( ) ( , ) ( , ) ( , )

0 0 0 1

1

1

Calcul à t croissant

t t tm p s m y y( ) ( ,[ , , ]) 0

0 0( ) ( ) ( , )m d m b m y

tm

M

t tm m a m m b m y

11

1( ) ( ') ( ' , ) ( , )'

p Y mm

T( ) ( )

Utilisé pour comparer la pertinence de différents automates(un automate est associé à un mot)

(aussi utilisé dans les « turbocodes en détection d ’erreurs »

6. Reconnaissance

53

Apprentissage de mots (cf. notes de cours)Calculer à partir de mesures Y de a(m,m’), b(m,n), d(m)

Automate usuel (Bakis)

Défauts de rythmes (doublement ou suppression d’une étape)voir aussi le « dynamic time warping »

t

t’

(lourd : nécessite de nombreuses réalisations deY)

6. Reconnaissance

54

3. Mise en forme des données mesurées sur la parole

Associer à une portion de signal vocal (~20ms)une mesure y(t) :- Analyse spectrale à court terme un vecteur (dim 20)- Quantification vectorielle

F o n e t i ch i an

6. Reconnaissance

55

Analyse spectrale à court terme

0 500 1000 1500 2000 2500 3000 3500 4000 4500

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21

2000

4000

Echelle Mel linéaire exponentielle

Fréquence centraledu filtre

Banc de filtres

6. Reconnaissance

56

Coefficients cepstraux

Energie en sortie des différents filtres : C(n)

c k C n k nn

( ) log[ ( )]cos[ ( )]

1

20

20

1

2

Peuvent être liés aux coefficients de la prédiction linéaire

c k a kk

a c kk

( ) ( ) ( ) ( ) ( )

1

1

1

6. Reconnaissance

57

Quantification vectorielle

Trouver des représentants pour des nuages de points

Choisir des centres de classesAssigner à cette classe les pointsvoisinsPrendre comme centre de classele barycentre des points d’uneclasseréitérer jusqu ’à convergence

Passer des c(k) aux y (mesures)

« expectation maximization »

les HMM nécessitent une quantification (assez grossière) des données traitées

6. Reconnaissance

58

Toutefois, beaucoup de réglages et de variantes…

Recherche : « comprendre » le signal vocalet l ’information qu ’il contient (et non se contenterd ’une « simple » comparaison)

Comprendre le fonctionnement de la cochlée et du système nerveux auditif

http://www.cochlea.org/spe/cerveau-auditif-2.html

6. Reconnaissance