1 Cours parole du 16 février 2005 enseignants: Dr. Dijana Petrovska-Delacrétaz et Gérard Chollet...
-
Upload
eloise-ferrer -
Category
Documents
-
view
106 -
download
3
Transcript of 1 Cours parole du 16 février 2005 enseignants: Dr. Dijana Petrovska-Delacrétaz et Gérard Chollet...
1
Cours parole du 16 février 2005enseignants: Dr. Dijana Petrovska-Delacrétaz
et Gérard Chollet
Reconnaissance Automatique de la Parole
1. Introduction, Historique, Domaines d’applications 2. Extraction de paramètres3. Comparaison de représentations temps-fréquence4. DTW : Dynamic Time Warping (anamorphose T-F)5. Modèles stochastiques (HMM, Réseaux Bayésiens)6. Modèles de langage7. Evaluation8. Conclusions
2
Références bibliographiques :Reconnaissance Automatique de la Parole
3
Histoire de la Reconnaissance Automatique de la Parole
4
Type de parole
• Mots isolés
• Mots connectés
• Détection de mots clés
• Parole contrainte
• Parole continue
• Parole spontanée
5
Taille du vocabulaire
• Quelques mots (5 – 50)
• Petit vocabulaire (50 – 500)
• Vocabulaire moyen (500 – 5000)
• Grand vocabulaire (5000 – 50000)
• Très grand vocabulaire (> 50000)
6
Dépendance au locuteur
• Dépendant du locuteur :le système fonctionne correctement avec un utilisateur particulier
Adaptation au locuteur =utilise quelques données spécifiques
d’un locuteur pour adapter le systèmeà une nouvelle voix
• Indépendant du locuteur :le système fonctionne avec n’importe quel utilisateur
7
Environnement d’utilisation
• Parole large-bande(ordinateur, etc.)
• Parole bande-étroite avec distorsion (téléphone, etc.)
• Environnement calme (bureau + micro-casque)
• Bruit de fond
8
Profil des utilisateurs potentiels
• Utilisation professionnelle par des spécialistes
• Grand public
• Entraîné / naïf
• Fréquent / occasionnel
• Utilité
• Coopération
9
Deux exemples
Dictée vocale• Parole continue
• Grand vocabulaire
• Adaptation au locuteur
• Bureau+micro-casque
• Utilisateurs d’ordinateurs
Service téléphonique• Détection de mots clés
• Quelques mots
• Indépendant du locuteur
• Parole téléphonique
• Grand public
10
Dimensions et difficultés en RAP
• Taille du vocabulaire, perplexité, facteur de branchement,• Environnement sonore (prise de son), distortions, pertes,
bande passante (téléphonique, élargie, HiFi,…)• Nombre de locuteurs concernés, motivation des locuteurs,• Possibilités d’apprentissage, d’adaptation,• Nombre de langues, accents, …• Ergonomie de l’interface vocale,
11
Variabilité intra- et inter-locuteur
12
Variabilité intra-locuteur
13
Modèles probabilistes
• La séquence des observations (vecteurs de paramètres) est généré par un automate stochastique à nombre fini d’états.
• Les Modèles de Markov Cachés (HMM : Hidden Markov Models) sont les plus utilisés.
14
Modèle de Markov caché : principe
15
Modèles de Markov cachés (HMM)
meilleurchemin
)S(Plog)Y,X(iXjy∑−=μ
Mot 2
Mot 1
Mot n
Mot inconnu Y
Mot
X
16
Viterbi : exemple
17
Le modèle hiérarchique
18
Le modèle hiérarchique : exemple
19
Modèles phonétiques (1)
20
Modèles phonétiques (2)
Le mot « américain »
21
Modèles contextuels
22
8.3 Codeurs segmentaux
• Permettent la plus grande réduction du débit (<800bps), mais nécessitent des méthodes de reconnaissance des unités segmentales.
• Résultats similaires dans l'implémentation des systèmes dépendant du locuteur.
• Comment pourrait-on encore réduire le débit: en transmettant le texte reconnu, et en effectuant de la synthèse à partir du texte du coté du transmetteur.
23
Modèles de langage
• A un instant donné, tous les mots n’ont pas la même probabilité de présence :
Le petit chat boit du …
• Grammaires probabilistes : toutes les phrases sont possibles mais avec des probabilités différentes
• Grammaires à états finis : partition binaire des séquences de mots en « séquences possibles » et « séquences impossibles »
24
Modèle acoustique + Modèle de langage
25
Performances
26
Recherche actuelle