Questions computationnelles en phonologie et en traitement ...paris7/Traitement du signal Part4...

Questions computationnelles en

phonologie et en traitement du

signal de parole 4

Mardi 18h-20h ODG Salle 357

Philippe Martin

[email protected]

[email protected]

http://www.winpitch.com/~Paris7/cours.html

mailto:[email protected]

mailto:[email protected]

http://www.winpitch.com/~Paris7/cours.html

Le programme…

Présentation du cours.

Numérisation. Fréquence de Nyquist.

Transformée de Fourier - FFT

Fenêtrage.

Estimation de Fo

Modélisation LPC

Modèles du conduit vocal

Morphing prosodique. Psola. Vocodeur de phase

Synthèse de la parole. Synthèse par formants, par diphones, par blocs.

Reconnaissance de la parole

Segmentation automatique

Alignement et segmentation automatique

La segmentation phonétique détermine les positions temporelles des phones, syllabes, mots, syntagmes d’un enregistrement de parole à partir de sa transcription orthographique

Applications

1.Analyse phonétique de grands corpus oraux2.Reconnaissance de la parole3.Comparaisons de locuteurs (ex en acquisition de langue seconde)

Mais le problème est-il bien posé ? Existe-t-il des limites acoustiques des phones ?Quelle précision faudrait-il obtenir ?

Faire correspondre un segment de texte avec un segment de parole

Deg usewwi-nni amek sewwayen di Yennayer ; nekkni nettraǧu Yennayer i wakken ad d-yelḥeq,ayaziḍ ilaq d win n tmurt d win yeččan di berra, yeččan leḥcic qqaren yesɛa ddwa, imar ad as-tuqmeḍ sebɛa n yisufar i lqut-nni n yennayer, imir ad ruḥen ad d-awin ilili ad d- awin ammay adtuqmen akk i yiqwiren, ammay-nni ad as-inin i lbaraka, ilili i twekka, mi ara teẓẓuḍ deg yiger miara t-tuqmeḍ i lebṣel, imar akkenni safi ibawen mi ara ten-tuqmeḍ imir ibawen n Yennayer mi ijiḥmi iriḥ, mi ara teẓẓuḍ ibiw n Yennayer xas d amaẓuẓ ameɛna widak rrebḥen lehhun, ad ternuḍibawen n Yennayer, di syinna ad d- yaweḍ wusay, ṣafi tura amer d usay ad neffeɣ daɣen ɣer wusayad nsusi igran s kra n wanda yella yiger ad t- tsusiḍ,

Choisir un chemin qui minimise la somme des distances d(i,j)

Par comparaison dynamique (Dynamic Time Warping)

Alignement

Choisir un chemin qui minimise la somme des distances d(i,j)

Alignement par comparaison dynamique (Dynamic Time Warping)

i i+1

j+1

j

D(i,j+1)

D(i+1,j+1)

D(i+1,j)

Min

1. Découper l’axe temporal en segments (par ex. de 50 ms ou 100 ms)

2. Choisir une fonction de comparaison entre spectres

3. On part de la case 0, 0 (en bas à gauche du graphique)

4. On calcule la similarité entre les cases 1,0 / 1,1 / 0,1 en on choisit de se déplacer sur la case donnant la meilleure similitude entre les spectres correspondants.

5. On procède ainsi jusqu’à atteindre le coint supérieur droit (case n,m)

6. On retrace le chemin parcouru par la stratégie du petit Poucet…

L’efficacité dépend de la fonction de comparaison entre spectres

Alignement par comparaison dynamique (Dynamic Time Warping)

Alignement Méthode de Viterbi

1. Découper l’axe temporal en segments (par ex. de 50 ms ou 100 ms)

2. Principe : l’écoulement de l’eau ! Attraction vers une case cible

3. On calcule l’expansion sur les case adjacentes de la case de départ, et on garde les différents scores en mémoire

4. On calcule pour chaque nouvelle case une expansion possible

5. On procède ainsi jusqu’à atteindre la case cible

6. On retrace le chemin parcouru par la stratégie du petit Poucet…

Choisir un chemin qui minimise le coût pour atteindre la cible

Par comparaison dynamique (Dynamic Time Warping)

Alignement

i i+1

j+1

j

Cible

Départ

* *

*** *

*

Alignement Un exemple de comparaison de syllabification

Syllabification

Alignement Un exemple de comparaison de syllabification

Intonation

Segmentation automatique EasyAlign (J-Philippe Goldman)

From a speech audio file and its corresponding orthographic transcription in a text file,

the user has to go through 3 automatic steps; manual verifications and adjustments

can be done in-between to ensure even better quality. The result is a multi-tier

TextGrid with phones, syllables, words and utterance segmentation

More precisely, these three steps are:

1. macro-segmentation at utterance level (makes ortho tier)

2. grapheme-to-phoneme conversion (makes phono tier)

3. phone segmentation (make words, syll, phones tiers)

Segmentation automatique EasyAlign (J-Philippe Goldman)

Principe de fonctionnement ? HMM (Hidden Markov Model)

1. Transcription orthographique-phonétique

2. Alignement par Viterbi et modèles HMM pour l’attraction vers une

cible modèle de phone à retrouver (après apprentissage)

Chaîne de Markov

Andrei Andreevich Markov (2 juin 1856 - 20 juillet 1922) est un mathématicien russe.

Né en 1856 à Razan, il étudia à l'Université d'Étatde Saint-Pétersbourg en 1874 sous la tutelle de Tchebychev et en 1886, il devint membre de l'Académie des Sciences de Saint-Pétersbourg. Sestravaux sur la théorie des probabilités l'ont amené à mettre au point les chaînes de Markov qui l'ontrendu célèbre.

http://fr.wikipedia.org/wiki/2_juin

http://fr.wikipedia.org/wiki/1856

http://fr.wikipedia.org/wiki/20_juillet

http://fr.wikipedia.org/wiki/Math%C3%A9maticien

http://fr.wikipedia.org/wiki/Russie


http://fr.wikipedia.org/w/index.php?title=Razian&action=edit

http://fr.wikipedia.org/wiki/Saint-P%C3%A9tersbourg


http://fr.wikipedia.org/wiki/Pafnouti_Tchebychev


http://fr.wikipedia.org/wiki/Probabilit%C3%A9s

http://fr.wikipedia.org/wiki/Cha%C3%AEne_de_Markov

Chaîne de Markov Doudou le hamster

Doudou le hamster paresseux ne connaît que 3 endroits dans sa cage: les copeaux où il dort, la mangeoire où il mange et la roue où il fait de l'exercice. Ses journées sont assez semblables les unes aux autres, et son activité se représente aisément par une chaîne de Markov. Toutes les minutes, il peut soit changer d'activité, soit continuer celle qu'il était en train de faire.

Quand il dort, il a 9 chances sur 10 de ne pas se réveiller la minute suivante.

Quand il se réveille, il y a 1 chance sur 2 qu'il aille manger et 1 chance sur 2 qu'il parte faire de l'exercice.

Le repas ne dure qu'une minute, après il fait autre chose.

Après avoir mangé, il y a 3 chances sur 10 qu'il parte courir dans sa roue, mais surtout 7 chances sur 10 qu'il retourne dormir.

Courir est fatigant; il a donc 80% de chance de retourner dormir au bout d'une minute. Sinon il continue en oubliant qu'il est déjà un peu fatigué. (Wikipedia)

Chaîne de Markov Doudou le hamster

Quand il dort, il a 9 chances sur 10 de ne pas se réveiller la minute suivante.

Quand il se réveille, il y a 1 chance sur 2 qu'il aille manger et 1 chance sur 2 qu'il parte faire de l'exercice.

Le repas ne dure qu'une minute, après il fait autre chose.

Après avoir mangé, il y a 3 chances sur 10 qu'il parte courir dans sa roue, mais surtout 7 chances sur 10 qu'il retourne dormir.

Courir est fatigant; il a donc 80% de chance de retourner dormir au bout d'une minute. Sinon il continue en oubliant qu'il est déjà un peu fatigué. (Wikipedia)

Matrice de transition

dormir manger courir

Somme des probabilités de transition = 1

Chaînes de Markov cachées Doudou le hamster

C’est la même chose, sauf qu’on n’a qu’une estimation de la probabilité de transition.

Les parois de la cage sont assez sales, donc on ne voit pas très bien, mais on peut estimer la probabilité de l’observation

Matrice de transition

dormir manger courir

Somme des probabilités de transition = 1

Chaînes de Markov cachées Application à la reconnaissance de la parole

La probabilité d’observation est faite à partir de spectrogrammes

La probabilité de transition se fait à partir d’observations de corpus de transition

i.e. Voyelle [a] suivie de [p] : p= 0.00043

Voyelle [a] suivie de [t] : p= 0.00031

Voyelle [a] suivie de [k] : p= 0.00018

Voyelle [o] suivie de [p] : p= 0.00018

Voyelle [o] suivie de [t] : p= 0.00018

Voyelle [o] suivie de [k] : p= 0.00018

….

Finalement, on construit une arborescence et on y sélectionne le ou les chemins les plus probables (produit des probabilités d’observation et de transition)

Segmentation automatique Limites et problèmes

Présence de bruits, chevauchements, etc.

Différences importantes entre les modèles de références (phones) et les réalisation des enregistrements à segmenter

Alignement forcé : différences entre la transcription et ce qui a ééréellement prononcé (pauses, etc. )

Erreurs de transcription (longs à détecter sur de grands corpus oraux…)

Segmentation semi-automatique Alignement à la volée (Ph. Martin)

Pourquoi : présence de bruits, d’inadéquation aux modèles

phonétiques (y compris dans la synthèse)

La résolution des problèmes de la segmentation automatique sonttransférés à l’opérateur

Alignement à la volée avec parole ralentie

L’utilisateur clique sur les

mots ou groupes de

mots au fur et à mesure

qu’il les entends à

vitesse ralentie

Alignement à la volée avec parole ralentie

On peut ensuite

retrouver

automatiquement le

segment de parole

correspondant à un mot

ou un groupe de mots

sélectionnés dans le

texte

Concordancier intégré

Indexation multimédia des unités lexicales

En entrant un mot, un

concordancier intégré va

retrouver toutes les

occurrences dans toutes

les transcriptions d’un

même répertoire avec

leur contextes gauche et

droit. En cliquant sur une

occurrence, le segment

de parole correspondant

et son analyse

acoustique est

automatiquement affiché

Concordancier intégré

En entrant un mot, un

concordancier intégré va

retrouver toutes les

occurrences dans toutes les

transcriptions d’un même

répertoire avec leur contextes

gauche et droit. En cliquant

sur une occurrence, le

segment de parole

correspondant et son analyse

acoustique est

automatiquement affiché

Intégration dans un dictionnaire

Conversion orthographique - phonétique

Règles d’orthoépie (ex. Pierre Léon)

L’orthoépie ou phonétique normative1, du grec ὀρθοέπεια composé de ὀρθός orthos « droit » et ἔπος epos « parole », est l'étude de la prononciation correcte des mots. Elle définit « les règles de la prononciation par rapport aux règles graphiques, et énonce les lois phonétiques qui gouvernent le système phonique d'une langue »2. Elle prend en compte à la fois l'aspect étymologique et l'évolution de la langue dans une perspective historique.

https://fr.wikipedia.org/wiki/Phon%C3%A9tique

https://fr.wikipedia.org/wiki/Grec_ancien

https://fr.wikipedia.org/wiki/Prononciation

https://fr.wikipedia.org/wiki/Mot

https://fr.wikipedia.org/wiki/Ortho%C3%A9pie#cite_note-2

https://fr.wikipedia.org/wiki/%C3%89tymologique

https://fr.wikipedia.org/wiki/Linguistique_compar%C3%A9e

Conversion orthographique - phonétique

En appliquant des règles d’orthoépie. Exemple :

1. Lorsqu'une consonne se trouve en position intervocalique, elle se rattache à la voyelle qui suit comme dans « répéter » [e-pe-te] et « les amis » [le-za -mi]. 2. Lorsque deux consonnes prononcées, dont la seconde n'est pas une sonante, se trouvent en position intervocalique : a) si elles sont situées à l'intérieur du mot, les consonnes appartiennent à des syllabes différentes comme dans « rester » [es-te] et « respecter » [es-pk-te]. b) si elles sont situées à la fin du mot (le mot suivant commençant par une voyelle), elles appartiennent à des syllabes différentes (dans ce cas, phénomène d'enchaînement) comme dans « un parc immense » [œ-pa-ki-ms] et « une fresque admirable » [yn-fs-ka-dmi-abl]. c) si elle sont situées au début du mot, elles appartiennent à la même syllabe comme dans « un studio » [œ-sty-djo], « c'est un scandale » [s-tœ-sk-dal] « la spirale » [la-spi-al]. 3. Lorsque deux consonnes dont la seconde est une sonante /lmnRwj/ sont en position intervocalique, elles forment un groupe indivisible qui se rattache à la voyelle suivante : « la patrie » [la-pa-ti], « une panoplie » [yn-pa-n-pli], « le colombier » [l-k-l-bje], « abnégation » [a-bne-a-sj] « le patois » [l-pa-twa], « la désuétude » [la-de-ze-tyd]. 4. Lorsque deux sonante

Conversion orthographique - phonétique Par lexique

Questions computationnelles en phonologie et en traitement ...paris7/Traitement du signal Part4...

Documents

Transcript of Questions computationnelles en phonologie et en traitement ...paris7/Traitement du signal Part4...