Introduction aux Traitements Audiofrankyfuzzfire.free.fr/Docs/cours_TA_preO_parole.pdf ·...

30
1 Introduction aux Traitements Audio Partie 1 Traitement de la Parole Laurent Girin Plan Généralités sur le traitement des sons Généralités sur le signal de parole Analyse de la parole Reconnaissance automatique de la parole Synthèse de la parole

Transcript of Introduction aux Traitements Audiofrankyfuzzfire.free.fr/Docs/cours_TA_preO_parole.pdf ·...

Page 1: Introduction aux Traitements Audiofrankyfuzzfire.free.fr/Docs/cours_TA_preO_parole.pdf · Introduction aux Traitements Audio Partie 1 Traitement de la Parole ... • Principe très

1

Introduction aux Traitements Audio

Partie 1Traitement de la Parole

Laurent Girin

Plan

• Généralités sur le traitement des sons• Généralités sur le signal de parole• Analyse de la parole• Reconnaissance automatique de la parole• Synthèse de la parole

Page 2: Introduction aux Traitements Audiofrankyfuzzfire.free.fr/Docs/cours_TA_preO_parole.pdf · Introduction aux Traitements Audio Partie 1 Traitement de la Parole ... • Principe très

2

Généralités sur le traitement des sons

• Sons = variations de la pression de l’air

• Passage dans transducteur (microphone) → signal électrique → numérisation (échantillonnage + quantification) → suite de valeurs numériques

• On restera généralement ici à ce niveau numérique mais il existe aussi des traitements en amont (ex : acoustique des salles) ou en étroite connexion à un niveau différent (ex : la composition musicale assistée par ordinateur)

• On distingue parole et musique (ou audio général)– Caractéristiques communes : ex : traits acoustiques essentiels (fréquence

fondamentale, énergie, spectre) et leur correspondants perceptuels (pitch, intensité, timbre)

– Caractéristiques spécifiques (détaillée par la suite) → traitements spécifiques (guidé aussi par les applications)

• Bande passante audio : 20 Hz → 20 kHz• Dynamique des sons : ≈ 90 dB (douleur à 130 dB)

Traitement de la parole : généralités

• Speech is special :– Vecteur fondamental de la communication

– Signal biologique• Grande richesse• Destiné à être produit et perçu instantanément avec bouclage perception-action

• Traitement de la parole– Discipline à la jonction du traitement du signal numérique et du traitement

du langage– On reste ici à un niveau ingénieur TS (peu d’éléments sur la production ou

sur la linguistique par exemple) → Description générale des systèmes automatiques « mimant » les sous-tâches « signal » de l’appareil humain de production / perception de parole

• Analyse (= caractérisation)• Reconnaissance (= « compréhension » (?))• Synthèse (= « production »)

• Codage (aspect technologique)

Page 3: Introduction aux Traitements Audiofrankyfuzzfire.free.fr/Docs/cours_TA_preO_parole.pdf · Introduction aux Traitements Audio Partie 1 Traitement de la Parole ... • Principe très

3

Spécificité de la parole

- 8 0 0 0

- 6 0 0 0

- 4 0 0 0

- 2 0 0 0

0

2 0 0 0

4 0 0 0

6 0 0 0

“…vec ce bon cap…”

13000 échantillons ~ 600 ms

0 200 400 600 800 1000-1000

-500

0

500

1000

1500

0 200 400 600 800 1000-10000

-5000

0

5000

0 200 400 600 800 1000-6000

-4000

-2000

0

2000

4000

Spécificité de la parole

• Gamme de fréquence ~ 70-10000 Hz (généralement peu d’info au-delà de 8kHz)

• Non-stationnarité globale mais « blocs » de signal cohérents successifs ↔ les différents sons de la parole = phonèmes (attention, certains phonèmes sont en « plusieurs parties »)

• Sections quasi-stationnaires– Opposition voisé (= quasi-périodique ↔ vibration des cordes vocales)

vs non voisé (= bruit fricatif ↔ écoulement d’air turbulent)• Voyelles ; ex: bloc 2 : son « on »• Consonnes fricatives ; ex: bloc 1 : son « s »

– Sons mixtes : consonnes voisées (« m », « b », « j »…), voix de Don VitoCorleone…

• Sections (fortement) non-stationnaires– Consonnes occlusives (« p », « t », « k »…)– Transitions

• Importance des transitions entre sons– Glissements plus ou moins progressifs

– Non interchangeabilité des réalisations acoustiques des sons de la parole

Page 4: Introduction aux Traitements Audiofrankyfuzzfire.free.fr/Docs/cours_TA_preO_parole.pdf · Introduction aux Traitements Audio Partie 1 Traitement de la Parole ... • Principe très

4

Un problème central du traitement de la parole : l’opposition entre invariance et variabilité

• Invariance des sons ↔ caractéristiques « propres » de chaque son

• Variabilité des réalisations !!!– Inter-locuteur : caractéristiques physiologiques (sexe, age, configuration des

articulateurs), langue (+accents régionaux), « façon de parler »…

– Intra-locuteur• Dans des conditions physiologiques différentes (émotions, santé…)

• Dans des conditions physiologiques stables: influence des autres facteurs liés à la production de parole : coarticulation (influence sur un son des sons environnants qui peut aller jusqu’à des subsitutions/pertes de sons élémentaires), prosodie (mélodie, rythme, intensité : dépend du contenu et du locuteur)

• Explique les difficultés de la reco (entre autres! → perturbations environnementales, multiplicité des interprétations d’une même suite de sons…)

• Une question générale constante : comment exploiter la spécificité de la parole et l’opposition invariance/variabilité ?

Analyse de la parole

Page 5: Introduction aux Traitements Audiofrankyfuzzfire.free.fr/Docs/cours_TA_preO_parole.pdf · Introduction aux Traitements Audio Partie 1 Traitement de la Parole ... • Principe très

5

Analyse de la parole

• Outils de caractérisation : de quoi est fait le signal de parole ?– Composants de base des systèmes de reco / synthèse/ codage…

– Outils de diagnostic (médical), étude des langues, compréhension du système de production et de perception de la parole…

• Analyse spectrale ↔ décomposition au sens de Fourier, dans le domaine des fréquences– Composantes vibratoires (harmoniques) : prédominantes pour les sons

clairement voisés– Composantes de bruit : prédominantes pour les sons non voisés, mais aussi

présentes dans les sons mixtes + apériodicités de toute sorte (ex : irrégularités du pitch)

• Evolution continue des composantes au cours du temps– Plus ou moins lente, plus ou moins abrupte– Ex : mélodie de la parole (fréquence fondamentale)

• Analyse bloc par bloc : première (bonne) approximation pour un suivi de cette évolution

Une magnifique réalisation pionnière :l’analyseur de Koenig (vers 1870)

Résonateurs de Helmholtz

(réglables)

Miroir tournant

Capsulesmanométriques

Capture des résonances

des sons

Conversion des vibrations acoustiques en vibration de

flammes

Visualisation des flammes

V

Scf

24 5

4

π=

• Détails dans (C. Vilain, A. Arnal, L.J. Boë, 2007)

• Un exemplaire restauré visible au « musée » de Gipsa-lab DPC

Page 6: Introduction aux Traitements Audiofrankyfuzzfire.free.fr/Docs/cours_TA_preO_parole.pdf · Introduction aux Traitements Audio Partie 1 Traitement de la Parole ... • Principe très

6

Plus moderne !

∫−+=

R

fj dewtxftX τττ τπ2)()(),(

• Technique typique : Transformée de Fourier à Court Terme (TFCT)

• Taille : 20 à 30 ms ↔ 320 à 480 échantillons à 16kHz(en pratique 256 ou 512)

• Module2 = Densité Spectrale de Puissance (DSP) (à court terme)

Position du bloc

Fenêtre àsupport fini

• En pratique : Transformée de Fourier Discrète (TFD)= implémentation numérique

∑−

=

−+=

1

0

2)()(),(

N

n

N

mnj

enwnkxmkXπ

N échantillons↔ N canaux fréquentiels

Exemples typiques : blocs cohérents de sons voisés (voyelles)

0 100 200 300 400 500-1

0

1

0 1000 2000 3000 4000 5000 6000 7000

-40

-20

0

20

40

0 100 200 300 400 500

-0.5

0

0.5

1

0 1000 2000 3000 4000 5000 6000 7000

-40

-20

0

20

40

0 100 200 300 400 500

-0.5

0

0.5

1

0 1000 2000 3000 4000 5000 6000 7000

-40

-20

0

20

40

• Signaux quasi-périodiques → partie harmonique (raies) en BF + partie bruitée en HF

• Le relief de l’enveloppe spectrale caractérise les différents sons de la parole ; zones de fortes énergie = formants

[a]

[i]

[ou]

Time (samples) Frequency (Hz)

Page 7: Introduction aux Traitements Audiofrankyfuzzfire.free.fr/Docs/cours_TA_preO_parole.pdf · Introduction aux Traitements Audio Partie 1 Traitement de la Parole ... • Principe très

7

• NB : Pour des sons non-stationnaires, c’est plus délicat !

0 100 200 300 400 500

-0.5

0

0.5

1

0 2000 4000 6000-40

-20

0

20

40

0 100 200 300 400 500-1

0

1

0 2000 4000 6000-40

-20

0

20

40

0 100 200 300 400 500-1

0

1

0 2000 4000 6000-40

-20

0

20

40

Exemples typiques : blocs cohérents de sons non-voisés (fricatives)

[f]

[s]

[ch]

Time (samples) Frequency (Hz)

Spectrogramme

• Graphe 2D : spectre (TFCT) au cours du temps (x = temps, y = fréquence, couleur ou niveaux de gris = intensité)

• Limitation de la résolution temps-fréquence : spectro à large bande vs. spectro à bande étroite

Page 8: Introduction aux Traitements Audiofrankyfuzzfire.free.fr/Docs/cours_TA_preO_parole.pdf · Introduction aux Traitements Audio Partie 1 Traitement de la Parole ... • Principe très

8

Analyse/modélisation de l’enveloppe spectrale

• Outils / modèles paramétriques spécifiques (ex : LPC, DCT, MFCC), non détaillés ici

• But : capter l’information essentielle du spectre dans peu de coefficients (paramètres)

Fréquence (Hz)

1000 2000 3000 4000 5000

40

50

60

70

80

DSP(db)

Spectre LPC

Périodogramme (FFT = TFD)

Interlude : un mot sur la notion de modèle paramétrique

• Modèle = simplification de la réalité, exploitable pour les traitements

• Modèle paramétrique = équation mathématique (fonction) paramétriqueremplaçant le signal ou une de ses représentations – Plage de variation des paramètres ↔ ensemble des signaux possibles– Grandeurs spécifiques des paramètres ↔ réalisation spécifique du signal

• Analyse = estimation des paramètres qui réalisent la meilleure mise en correspondance du modèle avec le signal = qui minimisent la différence entre modèle et signal (l’erreur de modélisation)

• Principe très répandu en traitement de parole et traitement audio (ex : un modèle est intrinsèquement un synthétiseur de signal)→ généralisé à d’autres représentations que le spectre (ex : modèle d’évolution de la fréquence fondamentale au cours du temps)

• Attention : la pertinence (le choix) du modèle (= son adéquation au signal) est au moins aussi importante que les performances de laméthode d’analyse associée

Page 9: Introduction aux Traitements Audiofrankyfuzzfire.free.fr/Docs/cours_TA_preO_parole.pdf · Introduction aux Traitements Audio Partie 1 Traitement de la Parole ... • Principe très

9

Un très bref aperçu des applications possibles de la modélisation de l’enveloppe spectrale

• Séparation entre relief général (phonème) et pics harmoniques

(fréquence fondamentale ↔ mélodie)

• Correspond physiquement à une séparation entre conduit vocal

(filtre modulant) et source vocale (cordes vocales et/ou bruit)

• Permet de représenter efficacement et indépendamment les caractéristiques correspondantes du signal, et de modifier ces

caractéristiques en modifiant les paramètres des modèles

correspondants

→ en particulier : modification de la fréquence fondamentale

• Application majeure en codage, reconnaissance et synthèse

• On y reviendra !

Complément : le pitch

• Pitch = évolution de la fréquence fondamentale ↔ mélodie de la parole• Facteur de la prosodie (avec intensité et rythme) essentiel pour l’expressivité• 70 à 250 Hz pour hommes (typique : 120 Hz), 150 à 450 Hz pour femmes,

(typique : 220 Hz), 200 à 600 Hz pour enfants (dépend de la longueur des cordes vocales)

• Nombreuses techniques (ex : basée sur maximum de la fonction d’autocorrélation) et applications

Page 10: Introduction aux Traitements Audiofrankyfuzzfire.free.fr/Docs/cours_TA_preO_parole.pdf · Introduction aux Traitements Audio Partie 1 Traitement de la Parole ... • Principe très

10

Lien avec la modélisation de la production de parole

air

cordes vocales

s(t)

conduitvocal

G

H(z) s(n)e(n)

voisé

nonvoisé

T0

• Conduit vocal ⇔ Filtre linéaire H(z)

• Vibration cordes vocales à F0 (pitch) ⇔ Excitation par train d’impulsions→ sons voisés (voyelles, [m], [b], [n]…)

• Ecoulement d’air dans constriction du CV ⇔ Excitation par bruit blanc→ sons non voisés ([ch], [s], [f]…)

• Eventuellement mélange des deux types d’excitation ([j], [z]…)• Gain G = « réglage du volume » (modèle « forme-gain »)

• OK pour portions pseudo-stationnaires de parole (≈ 10-30 ms); pour les autres…c’est moins bien mais ce modèle reste en liaison avec la production

Caractérisation spectrale : en résumé…

• Forme générale du spectre = enveloppe spectrale– Pics = résonances du conduit vocal = formants– Creux = anti-résonances = anti-formants

• Ne pas confondre formants avec harmoniques = pics multiples de la fréquence fondamentale qui est due à la vibration des cordes vocales et qui donne la mélodie de la parole– Les harmoniques peuvent être considérés comme un échantillonnage

de l’enveloppe spectrale.

• Position (fréquence centrale), intensité, et largeur de bande des formants déterminent la classe (identification) et le timbre (sonorité) du son– Pour les sons voisés : spectre « passe-bas » (pente descendante)

• Voyelles : généralement un formant par kHz, 3 ou 4 premiers sont essentiels à l’identification/timbre

– Pour les sons non voisés : spectre plutôt passe-haut

• Caractéristiques captés par des modèles paramétriques (LPC) et non-paramétriques (FFT)

Page 11: Introduction aux Traitements Audiofrankyfuzzfire.free.fr/Docs/cours_TA_preO_parole.pdf · Introduction aux Traitements Audio Partie 1 Traitement de la Parole ... • Principe très

11

Reconnaissance automatique de la parole

(RAP)

Reconnaissance automatique de la parole (RAP)

• Objectif : décodage du signal = conversion du son vers le texte(ou du moins, vers de l’information lexicale).

• Différentes configurations selon la tâche (liée à l’application) :– Mots isolés (prédéfinis, séparés par des silences) (« facile »)

– Mots-clés en contexte (wordspotting)

– Mots connectés (suites de mots prédéfinies) (plus dur)

– Parole continue (n’importe quelle séquence de parole) (arg !)• Texte lu (assez structuré)

• Spontanée (= langage naturel ↔ vraiment n’importe quelle séquence…?)

– Monolocuteur / multilocuteur / indépendant du locuteur

• Autres domaines connexes : – La reconnaissance automatique du locuteur (RAL) = qui a parlé parmi un

ensemble de locuteurs possibles?

– La vérification automatique du locuteur (VAL) = est-ce bien λ qui a parlé?

• Principe général : Classification automatique à base d’outils statistiques configurables à partir d’exemples représentatifs de la tâche

Passage progressif du

discret vers continuum

Page 12: Introduction aux Traitements Audiofrankyfuzzfire.free.fr/Docs/cours_TA_preO_parole.pdf · Introduction aux Traitements Audio Partie 1 Traitement de la Parole ... • Principe très

12

Applications de la RAP

• Dictée vocale

• Transcription et indexation de documents sonores• Interface Homme-Machine

– Commande et contrôle– Aide à l’handicap– Dialogue homme-machine

• Application « évoluée », attention à la différence entre reconnaissance et interprétation : « intelligence » de la machine pour le dialogue

• Couplage avec synthèse vocale

• Etat actuel : protocole réduit, application spécifique

• Serveurs vocaux– Systèmes de réservation, systèmes d’information divers,…– Nombreuses applications commerciales– Couplage avec synthèse vocale

• Identification (RAL, VAL)

Pourquoi c’est difficile

• Problème de l’invariance vs variabilité : ici le problème c’est précisément retrouver l’invariant dans le variable !

• Problème général de l’apprentissage à partir d’exemples : les occurrences en mode de fonctionnement peuvent être différents des exemples d’apprentissage

• Evidemment, moins il y a de variabilité, plus les taux de reconnaissance correcte sont élevés– Bons scores sur mots isolés, vocabulaire limité– Problème particulièrement difficile pour la parole continue spontanée

multilocuteur : grande variabilité, continuum de sons, co-articulation…

– Applications à vocabulaire limité / syntaxe contrainte

• Difficulté décuplée par l’environnement et les conditions d’utilisation– Bruits de toute sorte : voiture, lieu de travail, locuteurs concurrents, bruit

de respiration dans le microphone…– Acoustique du lieu d’utilisation : réverbérations, filtrage…

– Système d’acquisition du signal : transducteur, distorsions, limitation de bande passante (téléphone)

Page 13: Introduction aux Traitements Audiofrankyfuzzfire.free.fr/Docs/cours_TA_preO_parole.pdf · Introduction aux Traitements Audio Partie 1 Traitement de la Parole ... • Principe très

13

Pourquoi c’est difficile

• Cette difficulté explique que RAP est un problème toujours pas résolu en dépit des efforts (cf. campagne DARPA 1976)

• On cherche une « RAP robuste »

• Ceci dit, de nombreux progrès depuis 30 ans, à la fois dans les outils et les performances

Maintenant qu’on a dit ça, rigolons un

bon coup avec l’ami n°2 en TP de

RAL !

They match !

C’est clair !

C’est surtout n’importe quoi…

Page 14: Introduction aux Traitements Audiofrankyfuzzfire.free.fr/Docs/cours_TA_preO_parole.pdf · Introduction aux Traitements Audio Partie 1 Traitement de la Parole ... • Principe très

14

Un précurseur méconnu :Édouard-Léon Scott de Martinville et son

phonotaugraphe (vers 1860)

• Brevet 1857 : « fixation graphique de la voix » = le premier système d’enregistrement, 17 ans avant le phonographe de T. Edison !

• Le premier enregistrement de voix connu : au clair de la lune, 1860(« reconstitué » en 2008 ! cf. www.firstsounds.org)

pavillon

membrane

stylet

Papier enduit de noir de

fumée sur cylindre tournant

OK ! Mais quel rapport avec

la RAP ?

Scott de Martinville, visionnaire de la RAP

• Communication à la Société d’Encouragement, 16 nov. 1857 : « Des hommes aussi expérimentés que vous, et si bien au courant de l’histoire des découvertes contemporaines, me dispenseront, je l’espère, de répondre à la banale objection « A quoi bon? » toujours prête à saluer une invention naissante. Il est pourtant une question […] à laquelle je désire répondre avec netteté […]. Êtes-vous en mesure, me dira-t-on, de donner, sans appareil coûteux, sans nouveaux essais, une sténographie naturelle, immédiatement traduisible, du discours, de l’improvisation ? Non, Messieurs, et voici pourquoi : le tracé de la parole, encore incomplet d’ailleurs, que je vous soumets en ce moment est l’analyse des éléments de la voix parlée; il est pour me servir d’une expression de mathématiciens, fonction de la tonalité, de l’intensité, du timbre; il n’est donc pas […] un signe de pure convention, comme l’écriture […]. Cette synthèse, néanmoins, je la crois possible, et je me propose dela tenter; permettez-moi d’ajouter que j’en possède les moyens. Mais Messieurs,

de grandes obscurités pèsent encore sur l’histoire de la voix articulée; quand nous saurons nettement ce qu’elle est, après une étude complète de chacun de ses éléments par nos procédés, nous transformerons par des moyens mécaniques le tracé des mots en une suite de signes. »

• 1878, après avoir pris connaissance de l’invention du phonographe : « Je ne demande pour mes efforts qu'une seule récompense (...) de ne pas oublier de prononcer mon nom dans cette affaire... »

Page 15: Introduction aux Traitements Audiofrankyfuzzfire.free.fr/Docs/cours_TA_preO_parole.pdf · Introduction aux Traitements Audio Partie 1 Traitement de la Parole ... • Principe très

15

Un peu plus moderne…

(Microsoft SAPI)

Principe général : trois étapes essentielles

• Deux modules Traitement du Signal : – Analyse du signal → obtenir une représentation paramétrique

compacte et discriminante

– Décodage acoustico-phonétique = associer une suite de symboles élémentaires (phonèmes) à une suite de paramètres

• Un module Traitement Automatique du Langage Naturel(optionnel suivant la tâche, la technique et l’application – essentiel en reco de la parole continue)

– Régularisation du résultat (généralement largement entachéd’erreurs à cause de la variabilité acoustique) par des modèles de langage et conversion finale chaîne phonétique vers texte

Page 16: Introduction aux Traitements Audiofrankyfuzzfire.free.fr/Docs/cours_TA_preO_parole.pdf · Introduction aux Traitements Audio Partie 1 Traitement de la Parole ... • Principe très

16

Etape 1 : Analyse du signal de parole

• Remplacer les (nombreux) échantillons temporels par une représentation– compacte ↔ paramétrique

– discriminante (entre les différents phonèmes)

– organisée sous forme de vecteurs successifs pour suivre l’évolution de la parole (blocs de 20-30 ms tous les 10 ms)

– capable d’éliminer une partie de la variabilité intra-phonème…

• Test de nombreuses représentations possibles (avec variantes) au cours de l’histoire de la RAP → une représentation gagnante : MFCC– Mel-Frequency Cepstrum Coefficients : coefficients décrivant l’enveloppe

spectrale (tiens tiens !) sur une échelle fréquentielle quasi-log

– Environ 10 coefficients par vecteur

– Utilisés en RAP avec leurs dérivés temporelles (∆MFCC)

Etape 2 : Décodage acoustico-phonétiqueExemple historique : mots isolés, vocabulaire limité

• Années 70• Bon exemple de technique basique de reconnaissance par

comparaison avec des exemples (prototypes) = principe élémentaire de la Reconnaissance des Formes

• On stocke des suites de vecteurs (matrices) prototypes de paramètres des mots à reconnaître

• On se munit d’une distance sur cet espace de vecteurs/matrices (on a alors une partition induite de l’espace)

• Lors de la reconnaissance, on compare la suite de vecteurs extraite sur le mot prononcé avec les prototypes et on sélectionne le plus proche au sens de la distance

• Très fort lien avec le codage (la différence principale est la granularité)• Généralité du principe de séparer les phases « d’apprentissage »

(génération des prototypes à partir de base de données dédiée) et de « test » (reco proprement dite)

Page 17: Introduction aux Traitements Audiofrankyfuzzfire.free.fr/Docs/cours_TA_preO_parole.pdf · Introduction aux Traitements Audio Partie 1 Traitement de la Parole ... • Principe très

17

Etape 2 : Programmation Dynamique

• Ca marche bien quand le « format » des données d’apprentissage correspond à celui des données de test

• Pas si simple en parole, même pour des mots isolés : en particulier variabilité temporelle des réalisations du même mot → formats différents : suite de vecteurs « distordue » dans le temps→ difficulté pour comparer et forts taux d’erreurs

• Solution : introduire de « l’élasticité temporelle » dans la procédure de comparaison → Programmation Dynamique (Dynamic Time Warping – DTW)

• En gros : possibilité de dupliquer/supprimer des trames lors de l’ajustement candidat/prototype, si cela permet d’améliorer la minimisation de distance

• Optimisation efficace de l’ajustement global sur l’ensemble du mot en trouvant « le meilleur chemin » dans le treillis des combinaisons possibles sans tester toutes ces combinaisons

Un exemple majeur d’implémentation : les HMMs

• HMM = Hidden Markov Model = modèle de Markov caché

• Définition : automate synchrone, probabiliste, à états– Décrit les suites d’états possibles d’un système évolutif avec composante aléatoire

– Chaque état i est associé à une observation ok selon une certaine loi aléatoire pi(ok) (propre à chaque état)

– Les états sont reliés par des transitions, effectuées à chaque coup d’horloge, et à chaque transition entre un état i et un état j est associée une probabilité pij

• Important : possibilité de bouclage sur le même état

– On a la suite des observations o1 o2 o3 … oN mais on n’a pas accès au comportement du système (la suite des états) → HMM

Ex : HMM à 4 états

p1(om) p2(on) p3(op) p4(oq)

p12p11

p13

1 2 43

Page 18: Introduction aux Traitements Audiofrankyfuzzfire.free.fr/Docs/cours_TA_preO_parole.pdf · Introduction aux Traitements Audio Partie 1 Traitement de la Parole ... • Principe très

18

HMMs : Application à la reconnaissance de mots isolés avec vocabulaire limité

• Un HMM pour chaque mot du vocabulaire• Un état représente généralement un phonème du mot, et une transition

représente le passage d’un phonème à un autre• Une observation = la réalisation acoustique d’un mot mise sous forme

de suite de vecteurs de paramètres par la phase d’analyse• Principe de la reconnaissance :

– On « applique » l’observation sur chaque HMM = association des vecteurs de l’observation avec les états, de la gauche vers la droite

– On cumule les probabilités (d’observation et de transition) pour avoir une probabilité globale associée à la réalisation du mot complet

– Le mot reconnu est celui dont le HMM a la probabilité la plus forte

)(...)( 10111

11 opop ××

d i sun d eu t r aw

)(...)()()( 10223

22

2122

211

21 opoppopop ×××××

)(...)()()()()( 10345

33

3234

323

32

3122

311

31 opoppopoppopop ××××××××

)(...)( 101031

101 opop ××

HMMs : Application à la reconnaissance de mots isolés avec vocabulaire limité

• Deux problèmes majeurs– Configurer les HMMs = définir leurs paramètres

• Densités de probabilités à chaque état = modèles paramétriques (ex : somme de lois gaussiennes; paramètres = moyennes, variances, coefficients multiplicatifs)

• Probabilités aux transitions

– Plusieurs possibilités de cumuler les probabilités↔ plusieurs chemins (séquences d’états) possibles pour une observation donnée : c’est le principe de « l’élasticité » du DTW

t r aw

)(...)()()()()( 10345

33

3234

32

3123

312

311

31 opoppoppopopop ××××××××

)(...)()()()()( 10345

33

3234

323

322

32

3121

31 opoppopopoppop ××××××××

)(...)()()()()( 10345

33

3234

323

32

3122

311

31 opoppopoppopop ××××××××

Page 19: Introduction aux Traitements Audiofrankyfuzzfire.free.fr/Docs/cours_TA_preO_parole.pdf · Introduction aux Traitements Audio Partie 1 Traitement de la Parole ... • Principe très

19

• Solution problème 1 = phase d’apprentissage = optimisation des paramètres de chaque HMM à partir d’exemples de réalisation des mots– Pas de solution analytique…– … mais il existe des algorithmes d’optimisation efficaces !

– Correspond à une forme d’analyse statistique du corpus d’apprentissage– Plus on a d’exemples de chaque mot, plus on a des modèles généraux

(= robustes à la variabilité)

– Pas de contrainte de temps-réel : traitement offline

• Solution problème 2 = phase de test (reconnaissance) = alignement optimal observation/HMM ↔ calcul de la probabilité optimale qui correspond à la séquence d’états optimale– Contrainte de temps-réel → il existe des algorithmes dédiés efficaces, qui

évitent de calculer toutes les combinaisons possibles– Le meilleur chemin dans un treillis de possibilités : algorithme de Viterbi !

• Dans les deux cas, on ne détaille pas les algos ici !

HMMs : Application à la reconnaissance de mots isolés avec vocabulaire limité

• Complément : gestion du silence avant/après parole– Détection silence/parole (ex : selon critère d’énergie)

– Insertion d’un « HMM silence » dans l’ensemble des HMM

– Insertion d’un état silence au début et à la fin de chaque HMM

HMMs : Application à la reconnaissance de mots isolés avec vocabulaire limité

Page 20: Introduction aux Traitements Audiofrankyfuzzfire.free.fr/Docs/cours_TA_preO_parole.pdf · Introduction aux Traitements Audio Partie 1 Traitement de la Parole ... • Principe très

20

Etape 2 : Décodage acoustico-phonétiqueCas de la parole continue avec large vocabulaire

• La parole continue est un continuum de sons →– Segmentation des prototypes en « petites » unités arbitraires– Généralisation des principes de DTW sur ces unités

(en pratique = un HMM par unité)– Concaténation des résultats de la reconnaissance par unités

• Problème supplémentaire = choix des unités– Si trop long (taille d’un mot) : bonne modélisation mais trop grand nb de HMMs– Si trop court (un phonème) : petit nombre d’unités mais on perd l’intérêt

fondamental des HMMs (modélisation des transitions entre sons)

• Compromis pour limiter la combinatoire → unités de l’ordre de 2 à 4 sons – Ex. typique : triphones = suite de trois sons → un HMM pour chaque triphone– Au maximum, quelques milliers de combinaisons valables dans une langue

donnée (avec combinaisons particulières à chaque langue, ex : [str]+[voyelle])

– Concaténation des résultats : on prend en compte la probabilité de passage d’un HMM à un autre (aussi apprise à base d’exemples de parole continue)

Etape 3 (pour parole continue) : Régularisation du résultat

• Deux objectifs liés : – Passer de la chaîne phonétique au texte écrit– Corriger les (nombreuses) erreurs du décodage acoustique-phonétique

• Application de modèles de langage sur la chaîne phonétique– Modèles lexicaux : les segments phonétiques successifs (avec éventuelle re-

segmentation) doivent correspondre à des mots possibles (vocabulaire + déclinaisons)

– Modèles syntaxiques : la suite de mots doit respecter une grammaire– Modèles pragmatiques : même si elle est lexicalement et grammaticalement

correcte, une phrase reconnue doit avoir un sens (?)

• En pratique : modèles statistiques dont les paramètres sont appris sur des bases de données énormes (« du texte au km »)

– « la table verte » est une combinaison plus probable que « la table verbe », lexicalement correcte, grammaticalement douteuse, et pragmatiquement suspecte…

– C’est du traitement automatique du langage naturel = IA plus que TS (ex : difficulté du niveau pragmatique) … on ne détaille pas plus !

Page 21: Introduction aux Traitements Audiofrankyfuzzfire.free.fr/Docs/cours_TA_preO_parole.pdf · Introduction aux Traitements Audio Partie 1 Traitement de la Parole ... • Principe très

21

Reconnaissance de parole : quelques remarques en guise de conclusion

• Reco parole continue : apprentissage sur bases de données de très grande taille– Décodage acoustico-phonétique : multilocuteurs, multi-accents, multi-

dialecte…– Modèles de langage : BD texte énorme

• Problème du développement de ce type de BD et du coût associé (en particulier l’indexation)

• Apprentissage adaptatif– Ex : adaptation au locuteur à partir de l’enregistrement de quelques phrases

bien identifiées– Ex : adaptation à l’environnement : conditions changeantes, bruits non

stationnaires (problème non réglé!)

– Ex : adaptation à une application spécifique (vocabulaire, tournure de phrase…)

• Apprentissage supervisé vs. non supervisé• Problème du temps-réel

Synthèse de la parole

Page 22: Introduction aux Traitements Audiofrankyfuzzfire.free.fr/Docs/cours_TA_preO_parole.pdf · Introduction aux Traitements Audio Partie 1 Traitement de la Parole ... • Principe très

22

Synthèse de la parole

• Principe : générer un signal acoustique de parole « artificiel », au sens où les séquences générées n’ont jamais été prononcées telles quelles avant (sinon c’est de la simple restitution d’enregistrement, avec ou sans codage intermédiaire)

• Le terme « artificiel » à une connotation ambigüe : on peut générer de la parole – totalement artificielle (aucun locuteur humain n’est utilisé)

– directement à partir de parole humaine enregistrée (par copier/coller)

– ou encore par une troisième possibilité « hybride » (à partir de paramètres extraits de parole réelle et transformés artificiellement) ;

• Le degré de « naturalité » du procédé est assez subjectif (même pour de la synthèse à base de matériaux a priori très naturels comme les longues séquences préenregistrées « à trous » du type annonces SNCF)→ à corréler avec l’évaluation de la naturalité de la parole résultante, qui est un problème difficile !

Un exemple de précurseur…Wolfgang von Kempelen (vers 1790)

• Machines parlantes mécaniques (plusieurs versions)

• Reproduction / mime des articulateurs de la parole : soufflet, « conduit vocal », « bouche »

• Contrôle par les deux mains (leviers, trous), manie-ment assez complexe, apprentissage fastidieux

• Version avancée capable de produire des phrases(différentes voyelles et consonnes + co-articulation)

• Plus fort que son Turc Mécanique !

Page 23: Introduction aux Traitements Audiofrankyfuzzfire.free.fr/Docs/cours_TA_preO_parole.pdf · Introduction aux Traitements Audio Partie 1 Traitement de la Parole ... • Principe très

23

Un peu plus récent (1939) …Le Voder (Voice Operating Demonstrator) de Homer Dudley

• Premier système de synthèse électrique, présenté à l’exposition universelle (NYC 1939)

• Précurseur des modèles source-filtre modernes – Fortes connexions avec vocoder – Bell Labs

Un exemple majeur : les systèmes Text-to-Speech (TTS)

• Doivent être capable de générer à partir de texte n’importe quelle séquence de parole (ou bien autrement dit de générer de la parole àpartir de n’importe quelle séquence de texte)

• Le texte peut être– Existant

– Généré à la volée par un utilisateur (au clavier)

– Généré par une application (ex : un système de dialogue)

– Il doit être suffisamment cohérent (pas la peine d’essayer de synthétiser « hgkjjfoigjzi jfoiejfggkpz »)

• On va retrouver ces aspects par la suite dans les différentes méthodes TTS

Page 24: Introduction aux Traitements Audiofrankyfuzzfire.free.fr/Docs/cours_TA_preO_parole.pdf · Introduction aux Traitements Audio Partie 1 Traitement de la Parole ... • Principe très

24

Applications de la synthèse vocale• Communication homme-machine

– Objectif le plus élevé (mais non encore abouti) : donner la parole aux machines – Couplage avec RAP, cf. pb dual en RAP : pas seulement un problème de

reco/synthèse de parole : « intelligence » de la machine pour le dialogue,– Besoin d’une synthèse de haute qualité

• Serveurs vocaux et systèmes d’information (nombreuses applications professionnelles et commerciales)– Systèmes de réservation et d’information– Systèmes d’assistance au pilotage, au contrôle de processus complexes…

ex : GPS, avionique, monitoring médical, domotique…– Messagerie électronique…– Systèmes à distance (réseaux), locaux, ou embarqués– Couplage avec RAP pour interaction (protocole restreint spécialisé dans l’application)

• Aide à l’handicap– Accès à l’information écrite pour les non-voyants (couplage avec reconnaissance

automatique de caractères + analyseur de texte)

– Suppléance des déficiences motrices du système de production de parole

• Apprentissage des langues étrangères (besoin d’une synthèse de haute qualité)

• Autres : Jouets, jeux vidéo, gadgets…

Structure générale des systèmes TTS :Deux modules principaux en cascade

• Un module TALN : conversion texte vers chaîne phonétique + génération de la prosodie

s œ k u r ǫ v r ǫ m ã s y p ǫ r« Ce cours est vraiment super ! »

• Un module TS : conversion chaîne phonétique + prosodie vers signal

Structure duale de la RAP !

s œ k u r ǫ v r ǫ m ã s y p ǫ r

t

F0

t

t

F0

t

Page 25: Introduction aux Traitements Audiofrankyfuzzfire.free.fr/Docs/cours_TA_preO_parole.pdf · Introduction aux Traitements Audio Partie 1 Traitement de la Parole ... • Principe très

25

Module texte vers chaîne phonétique + prosodie

• Traitement du langage naturel plus que TS → pas détaillé ici• Un problème pas simple du tout :

– « Les poules du couvent couvent. »– Jean-Marc est allé à New-York ce week-end?

• Différents niveaux– Analyse lexicale / morphologique (niveau structurel des mots)

• liste de toutes les natures possibles pour chaque mot• prise en compte éventuelle du contexte

– Analyse syntaxique (niveau structurel de la phrase)• découpage en groupe de mots• couplage au générateur de prosodie

– Analyse sémantique et pragmatique (contexte)• « niveau supérieur d’intelligence », compréhension ≠ traduction• problème très difficile, peu implémenté, domaine de recherche IA

– Fortes connexions avec la RAP !

Le module signal

• Le problème : générer le signal de parole à partir de la chaîne phonétique et des consignes prosodiques (durée, pitch, et intensité)

• Trois voies

– Synthèse par règles

• En perte de vitesse

– Synthèse par concaténation

• C’est l’état de l’art actuel

– Synthèse articulatoire : mimer le comportement du système physique de production de parole

• Modélisation (simulation) des articulateurs bio-mécaniques et de leur comportement

• Encore en recherche fondamentale, non détaillé ici

Page 26: Introduction aux Traitements Audiofrankyfuzzfire.free.fr/Docs/cours_TA_preO_parole.pdf · Introduction aux Traitements Audio Partie 1 Traitement de la Parole ... • Principe très

26

Synthèse par règles

• Origine : importance des transitions entre phonèmes

– impact de la co-articulation et des contraintes articulatoires sur la réalisation acoustique

– Notion de cible acoustique = (grosso modo) les caractéristiques clés de la parole dans les portions stables des phonèmes (ex majeur : les positions, hauteur et largeur des formants)

• Principe : décrire l’influence des phonèmes les uns sur les autres = décrire les cibles acoustiques successives ET la fa çon de les atteindre (ou pas !) par un ensemble de règles– Les règles concernent à la fois les cibles et les paramètres des modèles

encodant ces cibles et utilisés en pratique pour la synthèse

– En pratique on a des règles d’évolution des valeurs numériques des paramètres en question suivant le type de transition et la durée

Synthèse par règles

• Méthodologie : apprendre les règles à partir d’exemples– Analyse détaillée de corpus de parole naturelle représentatif de toutes les

transitions possibles – Travail multidisciplinaire (phonétique / phonologie) énorme !

– Nombre de règles énorme– En comparaison de ce travail d’analyse, la synthèse elle-même

(= « simple » application des règles) est relativement « aisée »

• Note : Importance d’utiliser des modèles paramétriques et des règles associées séparant la contribution du conduit vocal (encodant la suite de phonèmes) et la source vocale (encodant la prosodie) : si ce sont des problèmes indépendants (hum!), ça simplifie les choses…

Page 27: Introduction aux Traitements Audiofrankyfuzzfire.free.fr/Docs/cours_TA_preO_parole.pdf · Introduction aux Traitements Audio Partie 1 Traitement de la Parole ... • Principe très

27

Synthèse par règles : « bilan »

• Fort engouement dans les années 60-70 dans le monde de la recherche en parole– Approche cognitive / explicite : on cherche à comprendre et décrire

« l’organisation de la parole »– Forte relation avec la phonétique et la phonologie (étude de l’organisation

des sons dans les langues) ; thématique multidisciplinaire

• Résultats assez décevants– Généralité des règles : dépend du corpus d’étude, des stratégies

spécifique des locuteurs (cf. pb de l’invariance/variabilité)• Un locuteur : pas assez général• Plusieurs locuteurs : « moyennage » destructif des règles

– Processus fastidieux de bouclage essais-erreurs pour optimisation – Qualité (naturalité) généralement décevante

• dépassée par synthèse par concaténation• coût de développement supérieur

• reste meilleure en terme de ressource mémoire

Synthèse par concaténation

• Origine : la même !

• Principe : conserver l’encodage naturel des transitions dans des unités élémentaires stockées, et concaténer ces unités

• Unité acoustique = diphone/triphone : commence et finit au milieu de la zone stable d’un phonème = d’une cible à l’autre– L’ensemble de toutes les unités possibles est extrait à partir d’enregistrements

de parole dédiés ; cet ensemble constitue le dictionnaire de diphones/triphonesdu synthétiseur;

– Unités complémentaires pour les cas difficiles (ex : [str])

– L’extraction est faite par des experts humains ou par segmentation automatique + vérification ; c’est long, fastidieux et coûteux

– Important : un dictionnaire par locuteur → une seule voix à la fois

• Synthèse = concaténation + traitement du signal à la jonction des unités– Sinon, discontinuités (très) audibles (même entre parties stables)

– Modification de la prosodie : fréquence fondamentale et durée + lissage spectral (incluant l’intensité)

– Traitement temporel ou spectral (selon méthode de synthèse, voir plus loin)

Page 28: Introduction aux Traitements Audiofrankyfuzzfire.free.fr/Docs/cours_TA_preO_parole.pdf · Introduction aux Traitements Audio Partie 1 Traitement de la Parole ... • Principe très

28

Synthèse par concaténation : Lissage et transformations

• Méthodes temporelles– Concaténation « directe » dans le domaine temporel des segments d’onde– Modification du pitch et de la durée par « copier/coller » des périodes de signal,

avec fenêtre de pondération + recouvrement (OLA) pour lissage

– Bon rapport qualité/complexité– Ex fameux : TD-PSOLA (ENST)

Source : T

. Dutoit

Fac. P

olytech. Mons

Synthèse par concaténation : Lissage et transformations

• Méthodes paramétriques– Si le signal est décrit par un modèle paramétrique, le traitement revient à

conformer les valeurs des paramètres avec les consignes prosodiques– Domaine fréquentiel : modèle sinusoïdal, harmonique,

harmonique + bruit, synthèse LPC– Rappel : importance de la séparation enveloppe spectrale et source

• Modification directe du pitch : c’est un paramètre spectral !

• Lissage spectral direct sur paramètres d’enveloppe ou d’amplitude

– Hybride spectral/temporel : LP-PSOLA (combinaison LPC + PSOLA)

[abi] + [idu]avant après

Page 29: Introduction aux Traitements Audiofrankyfuzzfire.free.fr/Docs/cours_TA_preO_parole.pdf · Introduction aux Traitements Audio Partie 1 Traitement de la Parole ... • Principe très

29

Synthèse par concaténation : Mono ou multi-représentation des unités

• Mono-représentation des unités : une seule réalisation de chaque unité– Suppose que les traitements additionnels (durée, pitch, lissage) peuvent tout

régulariser… hum!– Ordre de grandeur : 1500 unités, 3mn, 5Mo par voix

• Multi-représentation des unités : plusieurs réalisations pour chaque unité– Durée et pitch des réalisations (très) variables (différents contextes à

l’enregistrement) → plusieurs heures, plusieurs Go !– A la synthèse, on va chercher la réalisation qui se rapproche le plus du

contexte phonétique et des consignes prosodiques (définition d’une fonction « coût de sélection »)

– Permet de simplifier (mais pas de supprimer complètement en général) les traitements additionnels → on reporte l’effort computationnel sur la recherche du meilleur représentant (et aussi sur la génération de la BD !)

– Approche étendue sur plusieurs unités consécutives ↔ programmation dynamique (algorithme de Viterbi : trouver le meilleur chemin dans le treillis des possibles; cf. RAP : liens forts)

– Augmentation sensible de la qualité au prix de l’augmentation des calculs et de la mémoire → Tendance actuelle très forte (performances des machines)

Quelques remarques

• Dans tous les cas de figures, la base de données des unités est traitée et annotée offline – Annotation très soignée (semi-automatique)

– Informations nécessaires à la sélection des unités et à leurs lissage/transformations prosodiques

• contour du pitch, pitch-marks, marqueurs de durée, paramètres des modèles intervenant le cas échéant, etc…

• immédiatement disponibles à la synthèse

• n’ont pas à être recalculés à chaque fois

• Synthèse / Traitement dans un domaine paramétrique permet de coupler synthèse et codage efficace pour minimiser le coût mémoire du synthétiseur (crucial pour version embarquées)

Page 30: Introduction aux Traitements Audiofrankyfuzzfire.free.fr/Docs/cours_TA_preO_parole.pdf · Introduction aux Traitements Audio Partie 1 Traitement de la Parole ... • Principe très

30

Synthèse par concaténation : « bilan »

• Approche « implicite » : – On ne cherche pas à avoir une grande connaissance sur le signal– La plus grande partie de cette connaissance reste ancrée dans les unités

stockées– L’expertise parole intervient plus à l’analyse (création des unités)– Esprit très différent de synthèse par règles mais deux tendances

communes : • Le report de l’effort en amont de la synthèse elle-même• L’exploitation de modèles paramétriques

• Résultats très positifs– Méthodes à multi-représentation des unités = état de l’art actuel

– Succès commercial – Bonne qualité– Reste l’aspect limitant « monolocuteur » : il faut autant de BD que de voix

Bilan « comparatif »

• Synthèse par règles / synthèse articulatoire = « faire comme »

• Synthèse par concaténation = « faire semblant »

• Réflexion parallèle avec celle en RAP : – On a vu que les modèles les plus performants en RAP (HMMs) sont très

peu explicatifs– Victoire de l’approche « computationnelle » (reposant sur l’exploitation très

« automatisée » de grandes bases de données)

• En technologie : faire semblant > faire comme ?

• A priori assez surprenant mais… explication : faire semblant ↔ faire plus simple ! (au niveau des principes, pas du coût calcul)

« Après tout, les avions ne battent pas des ailes » (L indblom)