Université de Savoie UFR-LLSH LCE1 UE 103 CM de Phonétique & Phonologie
Questions computationnelles en phonologie et en traitement ...paris7/Traitement du signal Part4...
Transcript of Questions computationnelles en phonologie et en traitement ...paris7/Traitement du signal Part4...
Questions computationnelles en
phonologie et en traitement du
signal de parole 4
Mardi 18h-20h ODG Salle 357
Philippe Martin
http://www.winpitch.com/~Paris7/cours.html
Le programme…
Présentation du cours.
Numérisation. Fréquence de Nyquist.
Transformée de Fourier - FFT
Fenêtrage.
Estimation de Fo
Modélisation LPC
Modèles du conduit vocal
Morphing prosodique. Psola. Vocodeur de phase
Synthèse de la parole. Synthèse par formants, par diphones, par blocs.
Reconnaissance de la parole
Segmentation automatique
Alignement et segmentation automatique
La segmentation phonétique détermine les positions temporelles des phones, syllabes, mots, syntagmes d’un enregistrement de parole à partir de sa transcription orthographique
Applications
1.Analyse phonétique de grands corpus oraux2.Reconnaissance de la parole3.Comparaisons de locuteurs (ex en acquisition de langue seconde)
Mais le problème est-il bien posé ? Existe-t-il des limites acoustiques des phones ?Quelle précision faudrait-il obtenir ?
Faire correspondre un segment de texte avec un segment de parole
Deg usewwi-nni amek sewwayen di Yennayer ; nekkni nettraǧu Yennayer i wakken ad d-yelḥeq,ayaziḍ ilaq d win n tmurt d win yeččan di berra, yeččan leḥcic qqaren yesɛa ddwa, imar ad as-tuqmeḍ sebɛa n yisufar i lqut-nni n yennayer, imir ad ruḥen ad d-awin ilili ad d- awin ammay adtuqmen akk i yiqwiren, ammay-nni ad as-inin i lbaraka, ilili i twekka, mi ara teẓẓuḍ deg yiger miara t-tuqmeḍ i lebṣel, imar akkenni safi ibawen mi ara ten-tuqmeḍ imir ibawen n Yennayer mi ijiḥmi iriḥ, mi ara teẓẓuḍ ibiw n Yennayer xas d amaẓuẓ ameɛna widak rrebḥen lehhun, ad ternuḍibawen n Yennayer, di syinna ad d- yaweḍ wusay, ṣafi tura amer d usay ad neffeɣ daɣen ɣer wusayad nsusi igran s kra n wanda yella yiger ad t- tsusiḍ,
Choisir un chemin qui minimise la somme des distances d(i,j)
Par comparaison dynamique (Dynamic Time Warping)
Alignement
Choisir un chemin qui minimise la somme des distances d(i,j)
Alignement par comparaison dynamique (Dynamic Time Warping)
i i+1
j+1
j
D(i,j+1)
D(i+1,j+1)
D(i+1,j)
Min
1. Découper l’axe temporal en segments (par ex. de 50 ms ou 100 ms)
2. Choisir une fonction de comparaison entre spectres
3. On part de la case 0, 0 (en bas à gauche du graphique)
4. On calcule la similarité entre les cases 1,0 / 1,1 / 0,1 en on choisit de se déplacer sur la case donnant la meilleure similitude entre les spectres correspondants.
5. On procède ainsi jusqu’à atteindre le coint supérieur droit (case n,m)
6. On retrace le chemin parcouru par la stratégie du petit Poucet…
L’efficacité dépend de la fonction de comparaison entre spectres
Alignement par comparaison dynamique (Dynamic Time Warping)
Alignement Méthode de Viterbi
1. Découper l’axe temporal en segments (par ex. de 50 ms ou 100 ms)
2. Principe : l’écoulement de l’eau ! Attraction vers une case cible
3. On calcule l’expansion sur les case adjacentes de la case de départ, et on garde les différents scores en mémoire
4. On calcule pour chaque nouvelle case une expansion possible
5. On procède ainsi jusqu’à atteindre la case cible
6. On retrace le chemin parcouru par la stratégie du petit Poucet…
Choisir un chemin qui minimise le coût pour atteindre la cible
Par comparaison dynamique (Dynamic Time Warping)
Alignement
i i+1
j+1
j
Cible
Départ
* *
*** *
*
Alignement Un exemple de comparaison de syllabification
Syllabification
Alignement Un exemple de comparaison de syllabification
Intonation
Segmentation automatique EasyAlign (J-Philippe Goldman)
From a speech audio file and its corresponding orthographic transcription in a text file,
the user has to go through 3 automatic steps; manual verifications and adjustments
can be done in-between to ensure even better quality. The result is a multi-tier
TextGrid with phones, syllables, words and utterance segmentation
More precisely, these three steps are:
1. macro-segmentation at utterance level (makes ortho tier)
2. grapheme-to-phoneme conversion (makes phono tier)
3. phone segmentation (make words, syll, phones tiers)
Segmentation automatique EasyAlign (J-Philippe Goldman)
Principe de fonctionnement ? HMM (Hidden Markov Model)
1. Transcription orthographique-phonétique
2. Alignement par Viterbi et modèles HMM pour l’attraction vers une
cible modèle de phone à retrouver (après apprentissage)
Chaîne de Markov
Andrei Andreevich Markov (2 juin 1856 - 20 juillet 1922) est un mathématicien russe.
Né en 1856 à Razan, il étudia à l'Université d'Étatde Saint-Pétersbourg en 1874 sous la tutelle de Tchebychev et en 1886, il devint membre de l'Académie des Sciences de Saint-Pétersbourg. Sestravaux sur la théorie des probabilités l'ont amené à mettre au point les chaînes de Markov qui l'ontrendu célèbre.
Chaîne de Markov Doudou le hamster
Doudou le hamster paresseux ne connaît que 3 endroits dans sa cage: les copeaux où il dort, la mangeoire où il mange et la roue où il fait de l'exercice. Ses journées sont assez semblables les unes aux autres, et son activité se représente aisément par une chaîne de Markov. Toutes les minutes, il peut soit changer d'activité, soit continuer celle qu'il était en train de faire.
Quand il dort, il a 9 chances sur 10 de ne pas se réveiller la minute suivante.
Quand il se réveille, il y a 1 chance sur 2 qu'il aille manger et 1 chance sur 2 qu'il parte faire de l'exercice.
Le repas ne dure qu'une minute, après il fait autre chose.
Après avoir mangé, il y a 3 chances sur 10 qu'il parte courir dans sa roue, mais surtout 7 chances sur 10 qu'il retourne dormir.
Courir est fatigant; il a donc 80% de chance de retourner dormir au bout d'une minute. Sinon il continue en oubliant qu'il est déjà un peu fatigué. (Wikipedia)
Chaîne de Markov Doudou le hamster
Quand il dort, il a 9 chances sur 10 de ne pas se réveiller la minute suivante.
Quand il se réveille, il y a 1 chance sur 2 qu'il aille manger et 1 chance sur 2 qu'il parte faire de l'exercice.
Le repas ne dure qu'une minute, après il fait autre chose.
Après avoir mangé, il y a 3 chances sur 10 qu'il parte courir dans sa roue, mais surtout 7 chances sur 10 qu'il retourne dormir.
Courir est fatigant; il a donc 80% de chance de retourner dormir au bout d'une minute. Sinon il continue en oubliant qu'il est déjà un peu fatigué. (Wikipedia)
Matrice de transition
dormir manger courir
Somme des probabilités de transition = 1
Chaînes de Markov cachées Doudou le hamster
C’est la même chose, sauf qu’on n’a qu’une estimation de la probabilité de transition.
Les parois de la cage sont assez sales, donc on ne voit pas très bien, mais on peut estimer la probabilité de l’observation
Matrice de transition
dormir manger courir
Somme des probabilités de transition = 1
Chaînes de Markov cachées Application à la reconnaissance de la parole
La probabilité d’observation est faite à partir de spectrogrammes
La probabilité de transition se fait à partir d’observations de corpus de transition
i.e. Voyelle [a] suivie de [p] : p= 0.00043
Voyelle [a] suivie de [t] : p= 0.00031
Voyelle [a] suivie de [k] : p= 0.00018
Voyelle [o] suivie de [p] : p= 0.00018
Voyelle [o] suivie de [t] : p= 0.00018
Voyelle [o] suivie de [k] : p= 0.00018
….
Finalement, on construit une arborescence et on y sélectionne le ou les chemins les plus probables (produit des probabilités d’observation et de transition)
Segmentation automatique Limites et problèmes
Présence de bruits, chevauchements, etc.
Différences importantes entre les modèles de références (phones) et les réalisation des enregistrements à segmenter
Alignement forcé : différences entre la transcription et ce qui a ééréellement prononcé (pauses, etc. )
Erreurs de transcription (longs à détecter sur de grands corpus oraux…)
Segmentation semi-automatique Alignement à la volée (Ph. Martin)
Pourquoi : présence de bruits, d’inadéquation aux modèles
phonétiques (y compris dans la synthèse)
La résolution des problèmes de la segmentation automatique sonttransférés à l’opérateur
Alignement à la volée avec parole ralentie
L’utilisateur clique sur les
mots ou groupes de
mots au fur et à mesure
qu’il les entends à
vitesse ralentie
Alignement à la volée avec parole ralentie
On peut ensuite
retrouver
automatiquement le
segment de parole
correspondant à un mot
ou un groupe de mots
sélectionnés dans le
texte
Concordancier intégré
Indexation multimédia des unités lexicales
En entrant un mot, un
concordancier intégré va
retrouver toutes les
occurrences dans toutes
les transcriptions d’un
même répertoire avec
leur contextes gauche et
droit. En cliquant sur une
occurrence, le segment
de parole correspondant
et son analyse
acoustique est
automatiquement affiché
Concordancier intégré
En entrant un mot, un
concordancier intégré va
retrouver toutes les
occurrences dans toutes les
transcriptions d’un même
répertoire avec leur contextes
gauche et droit. En cliquant
sur une occurrence, le
segment de parole
correspondant et son analyse
acoustique est
automatiquement affiché
Intégration dans un dictionnaire
Conversion orthographique - phonétique
Règles d’orthoépie (ex. Pierre Léon)
L’orthoépie ou phonétique normative1, du grec ὀρθοέπεια composé de ὀρθός orthos « droit » et ἔπος epos « parole », est l'étude de la prononciation correcte des mots. Elle définit « les règles de la prononciation par rapport aux règles graphiques, et énonce les lois phonétiques qui gouvernent le système phonique d'une langue »2. Elle prend en compte à la fois l'aspect étymologique et l'évolution de la langue dans une perspective historique.
Conversion orthographique - phonétique
En appliquant des règles d’orthoépie. Exemple :
1. Lorsqu'une consonne se trouve en position intervocalique, elle se rattache à la voyelle qui suit comme dans « répéter » [e-pe-te] et « les amis » [le-za -mi]. 2. Lorsque deux consonnes prononcées, dont la seconde n'est pas une sonante, se trouvent en position intervocalique : a) si elles sont situées à l'intérieur du mot, les consonnes appartiennent à des syllabes différentes comme dans « rester » [es-te] et « respecter » [es-pk-te]. b) si elles sont situées à la fin du mot (le mot suivant commençant par une voyelle), elles appartiennent à des syllabes différentes (dans ce cas, phénomène d'enchaînement) comme dans « un parc immense » [œ-pa-ki-ms] et « une fresque admirable » [yn-fs-ka-dmi-abl]. c) si elle sont situées au début du mot, elles appartiennent à la même syllabe comme dans « un studio » [œ-sty-djo], « c'est un scandale » [s-tœ-sk-dal] « la spirale » [la-spi-al]. 3. Lorsque deux consonnes dont la seconde est une sonante /lmnRwj/ sont en position intervocalique, elles forment un groupe indivisible qui se rattache à la voyelle suivante : « la patrie » [la-pa-ti], « une panoplie » [yn-pa-n-pli], « le colombier » [l-k-l-bje], « abnégation » [a-bne-a-sj] « le patois » [l-pa-twa], « la désuétude » [la-de-ze-tyd]. 4. Lorsque deux sonante
Conversion orthographique - phonétique Par lexique