THE INTERNATIONAL PHONETIC ALPHABET (revised to 2005) · Anatomie humaine descriptive,...

53
THE INTERNATIONAL PHONETIC ALPHABET (revised to 2005) CONSONANTS (PULMONIC) ´ i y ÈË ¨u P e e Øo E{ øO a” å IY U Front Central Back Close Close-mid Open-mid Open Where symbols appear in pairs, the one to the right represents a rounded vowel. œ ò Bilabial Labiodental Dental Alveolar Post alveolar Retroflex Palatal Velar Uvular Pharyngeal Glottal Plosive p b t d Ê c Ô k g q G / Nasal m μ n = N Trill ı r R Tap or Flap v | « Fricative F B f v T D s z S Z ß ç J x V X  © ? h H Lateral fricative Ò L Approximant ® j ˜ Lateral approximant l ¥ K Where symbols appear in pairs, the one to the right represents a voiced consonant. Shaded areas denote articulations judged impossible. CONSONANTS (NON-PULMONIC) SUPRASEGMENTALS VOWELS OTHER SYMBOLS Clicks Voiced implosives Ejectives > Bilabial Bilabial Examples: ˘ Dental Î Dental/alveolar pBilabial ! (Post)alveolar ˙ Palatal tDental/alveolar ¯ Palatoalveolar ƒ Velar kVelar Alveolar lateral Ï Uvular sAlveolar fricative " Primary stress Æ Secondary stress ÆfoUn´"tIS´n Long e… Ú Half-long * Extra-short e* ˘ Minor (foot) group Major (intonation) group . Syllable break ®i.œkt Linking (absence of a break) TONES AND WORD ACCENTS LEVEL CONTOUR e_ or â Extra high e ˆ or ä Rising e! ê High e$ ë Falling e@ î Mid e % ü High rising e~ ô Low e ï Low rising e— û Extra low e & ñ$ Rising- falling Õ Downstep ã Global rise õ Upstep à Global fall © 2005 IPA DIACRITICS Diacritics may be placed above a symbol with a descender, e.g. N( 9 Voiceless n9 d9 ª Breathy voiced 1 Dental t1 d1 3 Voiced s3 t3 0 Creaky voiced b0 a0 ¡ Apical t¡ d¡ Ó Aspirated tÓ dÓ £ Linguolabial 4 Laminal t4 d4 7 More rounded O7 W Labialized tW dW ) Nasalized e) Less rounded Palatalized tdˆ Nasal release Advanced u™ Velarized td¬ Lateral release 2 Retracted e2 Pharyngealized td} No audible release d} · Centralized ù Velarized or pharyngealized : + Mid-centralized e+ 6 Raised e6 ( ®6 = voiced alveolar fricative) ` Syllabic n` § Lowered ( = voiced bilabial approximant) 8 Non-syllabic e8 5 Advanced Tongue Root e5 ± Rhoticity ´± a± Retracted Tongue Root eVoiceless labial-velar fricative Ç Û Alveolo-palatal fricatives w Voiced labial-velar approximant » Voiced alveolar lateral flap Á Voiced labial-palatal approximant Í Simultaneous S and x Ì Voiceless epiglottal fricative ¿ Voiced epiglottal fricative Affricates and double articulations can be represented by two symbols ÷ Epiglottal plosive joined by a tie bar if necessary. kp ts ( (

Transcript of THE INTERNATIONAL PHONETIC ALPHABET (revised to 2005) · Anatomie humaine descriptive,...

THE INTERNATIONAL PHONETIC ALPHABET (revised to 2005)CONSONANTS (PULMONIC)

´

A Å

i y È Ë ¨ u

Pe e∏ Ø o

E ‰ ø O

a ӌ

I Y U

Front Central Back

Close

Close-mid

Open-mid

Open

Where symbols appear in pairs, the one to the right represents a rounded vowel.

œ

ò

Bilabial Labiodental Dental Alveolar Post alveolar Retroflex Palatal Velar Uvular Pharyngeal Glottal

Plosive p b t d Ê ∂ c Ô k g q G /Nasal m µ n = ≠ N –Trill ı r RTap or Flap v | «Fricative F B f v T D s z S Z ß Ω ç J x V X Â © ? h HLateralfricative Ò LApproximant √ ® ’ j ˜Lateralapproximant l ¥ K

Where symbols appear in pairs, the one to the right represents a voiced consonant. Shaded areas denote articulations judged impossible.

CONSONANTS (NON-PULMONIC)

SUPRASEGMENTALS

VOWELS

OTHER SYMBOLS

Clicks Voiced implosives Ejectives

> Bilabial ∫ Bilabial ’ Examples:

˘ Dental Î Dental/alveolar p’ Bilabial

! (Post)alveolar ˙ Palatal t’ Dental/alveolar

¯ Palatoalveolar ƒ Velar k’ Velar

≤ Alveolar lateral Ï Uvular s’ Alveolar fricative

" Primary stress

Æ Secondary stress

ÆfoUn´"tIS´n … Long e… Ú Half-long eÚ

* Extra-short e*˘ Minor (foot) group

≤ Major (intonation) group

. Syllable break ®i.œkt ≈ Linking (absence of a break)

TONES AND WORD ACCENTS LEVEL CONTOUR

e _or â Extrahigh e

ˆ

or ä Rising

e! ê High e$ ë Falling

e@ î Mid e% ü Highrising

e~ ô Low efi ï Lowrising

e— û Extralow e& ñ$ Rising-

falling

Õ Downstep ã Global rise

õ Upstep à Global fall

© 2005 IPA

DIACRITICS Diacritics may be placed above a symbol with a descender, e.g. N( 9 Voiceless n9 d9 ª Breathy voiced bª aª 1 Dental t 1 d1 3 Voiced s3 t 3 0 Creaky voiced b0 a0 ¡ Apical t ¡ d¡ Ó Aspirated tÓ dÓ £ Linguolabial t £ d£ 4 Laminal t 4 d4 7 More rounded O7 W Labialized tW dW ) Nasalized e) ¶ Less rounded O¶ ∆ Palatalized t∆ d∆ ˆ Nasal release dˆ ™ Advanced u™ ◊ Velarized t◊ d◊ ¬ Lateral release d¬ 2 Retracted e2 ≥ Pharyngealized t≥ d≥ No audible release d · Centralized e· ù Velarized or pharyngealized : + Mid-centralized e+ 6 Raised e6 ( ®6 = voiced alveolar fricative)

Syllabic n` § Lowered e§ ( B§ = voiced bilabial approximant)

8 Non-syllabic e8 5 Advanced Tongue Root e5 ± Rhoticity ´± a± ∞ Retracted Tongue Root e∞

∑ Voiceless labial-velar fricative Ç Û Alveolo-palatal fricatives

w Voiced labial-velar approximant » Voiced alveolar lateral flap

Á Voiced labial-palatal approximant Í Simultaneous S and xÌ Voiceless epiglottal fricative

¿ Voiced epiglottal fricativeAffricates and double articulationscan be represented by two symbols

÷ Epiglottal plosive joined by a tie bar if necessary.

kp ts

(

(

V. LES ORGANES DE LA PHONATION'

Le caractère phonique sous-jacent aux langues s'exprime par l'entre- mise d'un processus neurophysiologique et acoustique. Ce caractère phonique peut être observé dans la transmission de l'onde sonore, ou au niveau des organes moteurs et récepteurs, internes (cérébraux) et externes (phonatoires et auditifs). La phonétique acoustique étudie, à l'aide de divers appareils, les caractéristiques de l'onde sonore de la parole humaine. La neurophonétique tente de comprendre les mécanismes neurologiques sous-jacents aux unités phoniques, tant au niveau de la réception (décodage) du message, que de sa production (encodage). La phonétique auditive envisage la composante phonique sous l'angle de sa réception par les organes externes non cérébraux (oreille, organe de Corti). La phonétique articulatoire décrit les mécanismes physiologiques externes (non cérébraux) nécessaires à la production des sons humains. La perspective adoptée ici est celle de la phonétique articulatoire ou physiologique, c'est-adire que la composante phonique est envisagée à partir des organes qui sont nécessaires à sa production.

Il faut noter, au passage, que les organes dits phonatoires n'ont pas été conçus spécifiquement pour parler. La physiologie phonatoire de l'homme s'apparente à la physiologie que l'on retrouve chez de nombreuses espèces animales qui, pourtant, n'ont pas le langage. Au cours de l'év~lution,~ la communication linguistique s'est élaborée sur une base auditivo-vocale, mais il aurait certainement pu en être autrement. Quoi qu'il en soit, l'appareil phonatoire humain comprend trois grandes composantes: les poumons, le larynx et les cavités supra-glottiques.

l Les références qui suivent pourraient être utiles pour approfondir la question: E. Garde, La voix, Paris, PUF, «Que sais-je?» no 627, 1970 (1" édition 1954); F. Le Huche et A. Allali, La voix. Anatomie et physiologie des organes de la voix et de la parole, Paris, Masson, 1991; H. Rouvière, Anatomie humaine descriptive, topographique et fonctionnelle (Tome 1, Tête et cou), Paris, Masson, 1974. 2 A l'échelle du temps de notre planète, les langues sont un phénomène récent. Si le système solaire a 4 milliards 600 millions d'années, les langues n'ont pas plus de 2 millions d'années.

i Les organes de la phonation

L'APPAREIL PHONATOIRE'

cavités supra- glottiques

iarynx-

poumons

' Ce dessin est une gracieuseté de M. Mostafa Shoul.

Martin, Pierre. 1996. Éléments de phonétique avec application au français.

Les organes de la phonation 76

A. Les poumons

La respiration, et donc la difision d'oxygène, est la fonction première des poumons. La respiration comprend deux phases, l'inspiration et l'expiration. Lors de l'inspiration, le diaphragme se contracte et s'abaisse, et sous l'action des muscles intercostaux la cage thoracique s'ouvre, créant un appel d'air de l'extérieur. A l'expiration, le diaphragme et les muscles intercostaux se décontractent, la masse pulmonaire se rétrécit et l'air est expulsé des poumons, à l'aide des muscles abdominaux également. La majorité des sons humains sont produits lors de l'expiration. Le débit d'air est alors contrôlé. Pendant la respiration normale, le cycle inspirationlexpiration dure de 3 à 4 secondes. Lors de l'élocution, l'expiration contrôlée dure une vingîaine de secondes. Les poumons fournissent l'air nécessaire à la production des sons humains.

B. Le larynx

Le larynx est présent chez tous les animaux terrestres. Il provient de la valve protectrice des poumons chez les poissons primitifs. Au cours de l'évolution, il s'est adapté à la phonation, si bien que les appels vocaux chez plusieurs espèces d'animaux à respiration impliquent la phonation.

Les cartilages du larynx humain sont reliés par des muscles: le crico- thyroïde, le crico-aryténoïde postérieur, le crico-arytknoïde latéral, le thyro-aryténoïde et l'inter-aryténoïde. Le thyro-aryténoïde agit comme tenseur des cordes vocales. Le crico-aryténoïde postérieur ouvre la glotte. Le crico-aryténoïde latéral ferme la glotte. Le crico-thyroïde applique une tension longitudinale sur les cordes vocales. L'interaryténoïde intervient dans l'adjonction des cordes vocales et agit également comme tenseur. Les muscles du larynx tendent, ouvrent et ferment les cordes vocales mais c'est la pression d'air provenant des poumons qui les fait battre. Des muscles extrinséques tiennent le larynx en place: le stemo-hyoïde, le thyro-hyoïde et le stemo-thyroïde. Le larym est formé de quatre cartilages: le cricoïde, le thyroïde et les deux aryténoïdes. Le cricoïde est un cartilage en forme de bague, à la base du laqmx. Il sert de support au thyroïde et aux arytinoïdes. Le thyroïde (pomme d'Adam) est appuyé sur le cricoïde. Il a la forme d'un bouclier replié. Son rôle principal est de protéger les cordes vocales. Les aryténoïdes sont une paire de cartilages de forme pyramidale, appuyés sur l'amère du cricoïde. Ils servent d'ancrage aux cordes vocales.

Les organes de la phonation

LE LARYNX

thyroïde

aqtknoïdes

cricoïde

thyroïde -

ligament vocal en abduction

. thyroïde

ligament vocal

glotte fermée

fibre tendue

cricoïde

adduction

aryténoïdes Martin, Pierre. 1996. Éléments de phonétique avec application au français.

Martin, Pierre. 1996. Éléments de phonétique avec application au français.

Martin, Pierre. 1996. Éléments de phonétique avec application au français.

Martin, Pierre. 1996. Éléments de phonétique avec application au français.

Martin, Pierre. 1996. Éléments de phonétique avec application au français.

Martin, Pierre. 1996. Éléments de phonétique avec application au français.

On décrit généralement les consonnes au moyen des mêmes critères articulatoires que les voyelles: voisement, résonance nasale, résonance labiale, mode articulatoire, lieu d'articulation et articulateur. Le

5 s

.II voisement, c'est-à-dire la présence plutôt que l'absence de vibrations des cordes vocales, permet d'opposer des consonnes françaises sonores à des

Y

consonnes sourdes: Pl , [dl, [gl, [VI, [zl, [31 à b l , [tl, [kl, [fl, [SI, [JI. Par : ailleurs, les nasales [ml, [n], b ] et les constrictives [l], [KI, [w], Ij], [y]

sont généralement sonores. Cependant, de fréquentes désonorisations se produisent pour les consonnes sonores, que cellesxi aient une contrepartie sourde ou non: «peau de serpent)) [pots~rrpa], «cheval» ufal], «pupitre» [pyprt?], «exemple» [egzap']. Le contraire existe également: les consonnes sourdes peuvent être sonorisées, en particulier dans un contexte sonore. Ainsi, «anecdote» se réalise [ an~gd~ t ] et «cornmunisme» peut se prononcer [k~mynizm] .

Comme pour les voyelles, l'abaissement du voile du palais produit des articulations nasales. En français, il y a trois consonnes nasales distinctes: [ml, [n] et b ] . Les autres consonnes sont orales et nécessitent donc un relèvement de la luette sur la paroi phaygale. Les segments environnants étant propices, les consonnes orales peuvent être nasalisées: «demain» [nmE], «pendant» [piinal. Les nasales peuvent également être dénasalisées: «le rhume)) [ la~ub].

L'avancement des lèvres vers l'extérieur de la cavité buccale produit des consonnes labialisées. En français, il y a quatre consonnes labialisées: 10, [31, [wl et h l .

Le mode articulatoire est la façon dont l'air s'échappe dans le conduit vocal. Pour les consonnes, il peut s'agir d'un échappement continu, ou interrompu. Les consonnes occlusives résultent d'un blocage total du chenal expiratoire en un point quelconque. L'occlusion produit des sons comme [pl, [t], p ] et [b], [dl, [g]. Les nasales [ml, [n], b ] sont également des occlusives (au niveau buccal), bien qu'il y ait échappement continu de l'air par les fosses nasales. A l'explosion, la pression buccale étant moins forte, étant donné l'échappement nasal continu, ces consonnes sont considérées comme des oc~lusives faibles. Une occlusive comporte trois phases: l'implosion (mouvement des organes vers la fermeture), la tenue

Martin, Pierre. 1996. Éléments de phonétique avec application au français.

aouluaoe, rn

O1 3>3,.a.-bb>rn

-e O

Li

m 0

I >.a,,.

a.-

Li 0 ul

3

uoL(ul0 1 ald-ldcaiie>V)

al.-ou O e,

m O

1 a0 cno a,

>.O

O- (6.4 e,

a, m

ae,-a,u

O e,

O

6-

>-O

O- a.,

L( a,

V)

ld a.- u O

1 ld-

>-a, O- a.4 Li

p,

ul ,a

Y

YY

YY

-n

Un

n

z M

cu

>

ul

N

e e!

e ,,

YY

YY

Y

a

8 a

C

C

2,

s

am

22

Martin, Pierre. 1996. Éléments de phonétique avec application au français.

VIII. ANALYSE DE CROQUIS CINÉRADIOLOGIQUES'

Les images radiologiques en continu peuvent donner une représentation très précise du mouvement des organes articulatoires lors du déroulement de la parole. Les croquis qui suivent sont des calques simplifiés extraits de films ~inéradiolo~i~ues.~ Ils veulent illustrer la position des organes lors de la phonation. Les vibrations laryngées ne sont pas représentées sur ces croquis, le larynx étant en deçà du champ de vision de la caméra. On y retrouve essentiellement les cavités supra- glottiques, avec dans chaque cas un jeu particulier de la langue.

La description de ces images se fait a l'aide de cinq critères (le voisement étant exclu), dans l'ordre: la résonance nasale, le mode articulatoire, la résonance labiale, le lieu d'articulation et l'articulateur.

La résonance nasale est déterminée par la position de la luette: si elle est appuyée sur le pharynx, l'articulation est orale, dans le cas contraire, il s'agit d'une nasale. Pour le mode articulatoire, il y a trois possibilités: si quelque part entre le pharynx et les lèvres, il y a un contact entre le bas et le haut du conduit vocal, l'articulation est une occlusive puisque le passage d'air est bloqué. Si, entre le pharynx et les lèvres, l'espace entre les organes du bas et les organes du haut à l'intérieur de la bouche est très

1 Pour approfondir les connaissances acquises dans ce chapitre, on pourra se référer à un ou plusieurs des ouvrages suivants: A. Bothorel (et al.), Cinéradiographie des voyelles et des consonnes françaises, Strasbourg, Travaux de l'Institut de phonétique, 1986; C. Brichler-Labaeye, Les voyelles françaises. Mouvements et positions articulatoires à la lumière de la radiocinématographie, Paris, Klincksieck, 1970; A. Marchal, La palatographie, Paris, Éditions du CNRS, 1988; C.E. Rochette, Les groupes de consonnes en français, Paris, Klincksieck, 1973, (2 vol.); P. Simon, Les consonnes françaises. Mouvements et positions à la lumière de la radiocinématographie, Paris, Klincksieck, 1967.

Le Laboratoire de phonétique et phonologie du Département de langues et linguistique de l'université Laval possède un nombre important de films cinéradiologiques inédits (16 mm et 35 mm) ayant été réalisés dans les années 60 et 70 (principalement sous la direction du Professeur Claude E. Rochette). Ces films ont été mis récemment sur vidéodisques et sont maintenant accessibles à la communauté des chercheurs.

Analyse de croquis cinéradiologiques 93

rétréci en un point quelconque, alors l'articulation est une constrictive. Eniïn, s'il n'y a pas de rétrécissement important du chenai expiratoire, il y a passage d'air relativement libre et il s'agit d'une voyelle. La projection des lèvres vers l'extérieur de la bouche (vers la gauche) fait apparaître la cavité labiale et une articulation labiaiisée (consonne) ou arrondie (voyelle). Sinon, le son est non labiaiisé ou non arrondi. Le lieu d'articulation sera l'endroit ou, sur la partie supérieure du conduit vocal, depuis la lèvre supérieure jusqu'à la luette et au pharynx, en passant par les incisives supérieures, les alvéoles, le palais dur et le palais mou, l'articulation se produira. Et l'articulateur sera la lèvre inférieure ou cette

-partie quelconque de la langue qui se rapprochera ou qui viendra en a. $: contact avec la partie supérieure du conduit vocal. Examinons le croquis

suivant:

La luette s'appuie sur le pharynx (= orale); le passage d'air est bloqué (= occlusive); les lèvres ne sont pas projetées (= non labialisée); l'articulation prend forme au niveau des alvéoles (= alvéolaire); la pointe de la langue est l'articulateur (= apicale). Il peut s'agir de [t] ou [dl.

Martin, Pierre. 1996. Éléments de phonétique avec application au français.

Martin, Pierre. 1996. Éléments de phonétique avec application au français.

Martin, Pierre. 1996. Éléments de phonétique avec application au français.

Martin, Pierre. 1996. Éléments de phonétique avec application au français.

Martin, Pierre. 1996. Éléments de phonétique avec application au français.

Une langue n'est pas constituée de segments isolés mais de sons enchahés dans le discours. Il en résulte que ces unités s'influencent les unes les autres constamment dans la chahe sonore. Dans un environnement nasal, par exemple, un segment oral subira une pression à la nasalisation, le segment nasal subissant lui-même une pression à la dénasalisation. Dans un contexte sourd, un segment sonore subira une pression à la désonorisation, les segments sourds environnants subissant eux-mêmes une pression contraire, c'est-à-dire au voisement. La phonétique combinatoire est précisément l'étude de l'interaction des sons les uns sur les autres.'

La vie des sons dans le discours est régie par l'économie linguistique qui met en présence deux types de pression: l'inertie des organes phonateurs et la nécessité pour les sons de se maintenir distincts pour réaliser la communication. La force d'inertie tend à rapprocher les articulations pour restreindre la dépense d'énergie. Par contre, la nécessité de la communication, telle qu'elle s'exprime dans le système des unités distinctes, tend à faire en sorte que les articulations se maintiennent comme telles, voire se différencient, évitant ainsi l'assimilation et la disparition. L'entrejeu de ces deux forces, avec les gains et les reculs tantôt de l'une, tantôt de l'autre, ponctue l'évolution linguistique.2

Considérons quelques exemples explicables en termes d'inertie. Le mot «absent» présente fréquemment une désonorisation du pb] sous l'influence du [s] sourd qui le suit: [apsa]. Le [ml de ((isthme)) se passe très souvent des vibrations des cordes vocales sous l'influence du [s] sourd qui le précède: [isq]. Ou, au contraire, le [ml sonorise le [s] qui précède, ce qui relève du même principe d'inertie: [izrn]. Le [3] de «donner» peut s'antérioriser au contact des consonnes alvéolaires (antérieures) environnantes: [dane]. Il en va de même du [u] de (mous autres)): [nyzot]. Pour comprendre ce qui se passe, il faut d'abord identifier correctement le son attendu, puis chercher à déceler dans le contexte phonétique les

1 Cf. B. Malmberg, La phonétique, Paris, PUF, «Que sais-je?» no 637, 197 1 ; F. Carton, Introduction à la phonétique du j)ançais, Paris, Bordas, 1974. 2 Lire A. Martinet, Économie des changements ~honétiques, Berne, Francke Verlag, 195 5.

i Phonétique combinatoire

éléments qui auraient pu amener la transformation en question. On retrouve ces influences assimilatrices dans toutes les langues. Ce sont elles

i qui expliquent pourquoi le mot chilien «obscure» se prononce souvent I

i [~xkuro] ([s] > [x] au contact de la vélaire qui suit, après amuïssement du

i hl), l'anglo-américain (harbour)) se prononce [ha:be] (voyelle + [il > [il, qui devient [a:] sous accent et [el hors accent) et les consonnes chinoises [SI, m, [x], distinctes devant [a] et [u], passent toutes à [ç] (consonne palatale) devant [il, et ainsi de suite. L'assimilation rend compte, en partie du moins, de l'apparition des voyelles nasales en fiançais médiéval: v + C

> Y (latin «campum» > français Ka]). Les différenciations sont souvent plus'difficiles à déceler mais elles

s'observent bien sur de longues périodes de l'histoire d'une langue. Ainsi, alors que le mot latin «succusa» est devenu «scossa» (avec disparition du premier [u]) en italien, il a donné «secousse» en fiançais, avec maintien de la première voyelle qui, pour se faire, a dû se transformer. Il en est de même pour «succurrit» qui a donné «secours» en fiançais. On pose ici que si la première voyelle ne s'était pas différenciée de la seconde voyelle contenue dans le mot, elle aurait disparu, comme c'est le cas en italien. Il est donc vrai que les segments se transforment pour mieux se maintenir. En ancien fiançais, [mej] est devenu [m3j] (avant de passer à [mwa] «moi»), [el, trop semblable à Lj], se postériorisant pour mieux se maintenir distinct. De même, [ylle] a donné [yrle] et «fnreux» est devenu «frileux)).

L'inertie est la tendance à restreindre la dépense d'énergie en rapprochant les articulations: (a» donne à (y» une ou plusieurs de ces caractéristiques. Lorsqu'il s'agit de sons en contact, l'on parle d'assimilation. Pour des sons à distance, il s'agit de dilation. Assimilations et dilations peuvent être progressives (l'influence s'exerce de gauche à droite), rCgressives (de droite à gauche), ou doubles (les deux à la fois).

+ assimilation - progressive: «asthme» --> [asq] - régressive: «absolu» --> [aps3ly] - double: (vendant)) --> [pQ;?a]

+ dilation - progressive: «définition» --> [defenisja] - régressive: «surtout» --> [surstu] - double: ((disséminer)) --> [disimine]

Martin, Pierre. 1996. Éléments de phonétique avec application au français.

Phonétique combinatoire 120

La syncope (chute de segments) est la manifestation extrême de l'inertie: (amiversité)) --> [nvsrsste] .

Une langue s'articule au moyen d'unités distinctes. La pression du systéme fait en sorte que non seulement il y a un frein à l'inertie mais que les unités tendent même à se transformer pour mieux se maintenir. En somme, contrairement à ce qui se passe lorsque l'inertie entre en jeu, un élément (<x» accentue ses différences par rapport à «y», tout simplement pour mieux se maintenir et ainsi assurer la communication. Quand la pression se fait sentir pour des unités en contact, il s'agit de différenciation. Lorsque les sons en question se trouvent à distance, séparés par d'autres sons, il s'agit de dissimilation.

+ différenciation: «dehors» --> [de3rs] + dissirnilation: «venimeux» --> [vlhna]

Le renforcement est une autre manifestation de cette tendance au maintien des unités: «réel» --> [rsejel].

En marge de ces intervenants primordiaux, l'anticipation phonétique et le mauvais encodage des formes (écrites) semblent être responsables de la plupart des substitutions. Deux types de remplacement de sons l'un par l'autre doivent alors être distingués, l'interversion (pour des sons en contact) et la métathèse (pour des sons à distance).

+ interversion: «aéroport» --> [arseop3rs] + métathèse: ((séchoir)) --> usswcus]

Enfin, en deçà de ces changements perceptibles, où le lieu d'articulation et le mode articulatoire d'un son peuvent être altérés a la suite d'une pression du contexte, il y a les phénomènes de coarticulation et de transition entre les sons. Ceux-ci sont certes moins facilement perceptibles, habitués que nous sommes à ne pas les reconnaître, mais ils sont tout de même très réels. Toutes choses étant égales par ailleurs, [II sera plus antérieur dans [S.] que dans [-k], à cause du lieu d'articulation des consonnes environnantes. D'autre part, le lieu d'articulation des F ] dans mk] sera à son tour plus antérieur que dans [k3k], [3] étant une voyelle postérieure. La coarticulation implique que lors de la réalisation d'une articulation les organes se placent en fonction d'un suivi articulatoire. Les sons s'influencent les uns les autres dans l'enchaîîement. Les transitions d'une articulation à l'autre changent également en fonction de la nature de ces articulations. La combinatoire est un chapitre essentiel de la phonétique.

La phonétique auditive étudie les mécanismes de l'audition, c'est-à- dire qu'elle envisage l'anatomie et la physiologie de l'oreille, externe, moyenne et interne, puis le fonctionnement de la cochlée et du nerf auditif, depuis l'organe de Corti jusqu'au néo-cortex. Pour ce faire, elle s'appuie sur des connaissances provenant à la fois de l'anatomie, de la physiologie, de la psycho-acoustique, ainsi que des neuro-sciences. La phonétique perceptive, quant à elle, tente de comprendre, de décrire et d'expliquer la perception de la parole humaine. Elle a recours elle aussi aux neuro- sciences mais surtout à la psychologie de la perception et à la psychologie cognitive. Comment amve-t-on à reconnaître des entités (linguistiques) distinctes dans ce qui est habituellement une mixture sonore? Comment anive-t-on a percevoir l'intensité, la hauteur, la durée et le timbre des sons humains? Et quel est le rôle de la mémoire auditive dans la perception? Voilà autant de questions auxquelles la phonétique perceptive tente de répondre.

De prime abord, les problèmes de l'audition et de la perception peuvent paraître simples. Pourtant ils sont extrêmement complexes, plusieurs d'entre eux restant inexpliqués à ce jour. Pour les entrevoir, il n'y a qu'à se demander quels seraient les paramètres qu'il faudrait donner a un ordinateur pour qu'il puisse faire la différence entre un bruissement de feuilles occasionné par le vent et leur craquement occasionné par des pas d'homme. Ou que fàudrait-il pour qu'il reconnaisse une même voix dans la friture d'une conversation téléphonique internationale, lorsque la même personne est enrhumée, lorsqu7elle parle d'une voix tremblotante, ou encore, lorsqu'elle élève le ton (et l'intensité) et crie sa colère? Ou encore, que faudrait-il pour qu'il ne confonde pas ce qui se passe à la télévision, avec la conversation entre des personnes, lorsque les deux actions se déroulent simultanément dans la même pièce?

Nous allons tenter de donner ici brièvement une idée de ce que l'on sait, mais aussi de ce que l'on ne sait pas, sur ces questions, en abordant successivement l'audition et la

1 Les aspects bioélectriques et bio-chimiques de la transmission de

l'influx nerveux lors de l'audition et de la perception ne seront pas abordés car leur considération nous aurait entraîné trop loin.

Martin, Pierre. 1996. Éléments de phonétique avec application au français.

L'audition / 63

CHAPITRE L'Audition On accepte sans trop de curiosité l'immense variété de sensations

dont est faite la vie de tous les jours. Les objets qu'on voit, les sons qu'on entend, les odeurs qu'on respire font évidemment partie d'un monde extérieur. Mais en y songeant, il apparaît clairement que notre image interne de ce monde externe est le produit de méca- nismes hautement sélectifs. Ainsi, les ondes de radio et les rayons gamma qui nous traversent, de même que le radar des chauves- souris, sont des réalités aussi manifestes que l'appel familier du téléphone, le spectacle d'un arbre ou le contact d'un volant d'auto- mobile. Mais les activités qui ne tombent pas immédiatement sous nos sens nous échappent la plupart du temps. Qu'il nous arrive pour- tant de perdre l'une ou l'autre de nos facultés sensorielles et nous constatons combien elles nous sont précieuses et combien peu, sans elles, la réalité du monde extérieur existe pour nous.

Pour les animaux inférieurs, le sens de I'ouïe est d'une importance vitale. Atteint de surdité, le loup a peine à suivre sa proie. C'est

Osselets de

Fig. 5.1 Coripe scli8matique de l'oreille.

surtout par l'oreille que le merle guette son ver de terre. Chez l'homme, naturellement, I'ouïe joue un rôle primordial dans la suite d'activités que nous avons appelée la chaîne de communication verbale.

De quelque animal qu'il s'agisse, la fonction physique des organes de I'ouïe est de recevoir des vibrations acoustiques et de les con- vertir en signaux susceptibles d'être transmis au cerveau par le nerf auditif. Le traitement complexe de ces signaux par le cerveau est le domaine de la perception sonique.

Dans ce chapitre, on considérera deux aspects de l'audition. Le premier couvre l'anatomie et la physiologie des organes de I'ouïe, depuis les parties extérieures de l'oreille jusqu'au foyer où les stimulus sonores sont convertis en activité nerveuse, ce qu'on pourrait appeler le niveau de la réception du son. Au chapitre 6, on étudiera le rôle du cerveau dans le traitement de cette information.

Le second aspect de l'audition porte sur la perception du son, c'est-à-dire la sensation qu'on éprouve quand on est soumis à des stimulus sonores. Ce domaine relève essentiellement de la psycho- logie expérimentale.

LES ORGANES AUDITIFS

L'oreille En examinant le fonctionnement de l'oreille, il est externe commode de considérer séparément les trois régions: l'oreille externe, l'oreille moyenne et l'oreille interne (figure 5.1 ) . L'oreille externe, constituée par ce qu'on voit de cet organe à I'exté- rieur, joue un rôle plutôt secondaire dans l'audition. Le conduit auditif est un passage long d'un pouce environ, ouvert à l'extrémité externe, et fermé à l'autre par la membrane du tympan. Les ondes acoustiques pénètrent dans le conduit auditif comme dans un en- tonnoir et font vibrer le tympan. Comme le conduit auditif est un résonateur acoustique (voir chapitre 3), il amplifie les ondes sonores à des fréquences voisines de sa fréquence résonnante qui est d'environ 3000 à 4000 cps. Vers le tympan, les sons voisins de cette fré- quence de résonance peuvent ainsi acquérir une pression de deux à quatre fois plus grande qu'à l'entrée du conduit auditif. Cet effet permet de déceler des sons qui seraient imperceptibles si le tympan était à la surface de la tête. Sa position reculée sert aussi à le pro- téger et à le maintenir dans des conditions de température et d'hu- midité relativement indépendantes de celles de l'extérieur.

Denes, Peter B. et Elliot N. Pinson. 1963. La chaîne de la communication verbale.

64 / La chaîne de communication verbale '! L'audition / 65

L'oreille L'oreille moyenne contient trois osselets (le marteau, moyenne l'enclume et l'étrier) qui relient mécaniquement le tympan à l'oreille interne par la fenêtre ovale (voir figure 5.2) . L'oreille moyenne est une cavité osseuse du crâne, qu'on appelle caisse du tympan. Les osselets sont suspendus aux parois de la caisse par des ligaments. Le manche du marteau est soudé au tympan, dont il couvre plus de la moitié de la surface. Les mouvements du tympan sont transmis par le marteau à l'enclrtme, reliée elle-même à l'étrier. La platine de l'étrier couvre la fenêtre ovale, qui débouche sur l'oreille interne.

Si la caisse du tympan était complètement fermée à l'air extérieur, il y aurait généralement différence de pression entre l'intérieur et l'extérieur de la caisse, ce qui tendrait à déformer le tympan. Mais la trompe d'Eustache, qui va de l'oreille moyenne au liaut du

Marteau ~~~l~~~ Ét;ier

/ caisse du \: Tympan tympan

I

Fig. 5 .2 Coupe sclrc;rnotique du tyrnpan r71ontrant les o.sselets. I

de grands écarts de pression, l'épreuve peut être douloureuse et amener même une rupture du tympan. D'habitude, il suffit d'avaler sa salive, ce qui entr'ouvre momentanément la trompe d'Eustache et rétablit l'équilibre de pression.

pharynx, admet I'air extérieur dans la caisse du tympan. Norma- lement, la trompe d'Eustache reste close et il peut survenir des différences de pression entre l'oreille moyenne et I'air ambiant. Ceci se remarque en particulier lorsque la pression extérieure tombe rapidement (par exemple, dans un ascenseur; lors de l'envol en avion; quand on plonge dans une piscine). Si la différence de pression n'est pas importante, on ne sentira qu'un malaise passager; mais pour

L'oreille moyenne remplit deux fonctions majeures. D'abord, elle augmente la quantité d'énergie acoustique qui atteint le milieu fluide de l'oreille interne. Une onde sonore qui arriverait directement à la fenêtre ovale, sans l'intermédiaire du tympan et des osselets, perdrait presque toute son énergie incidente par réflexion, le son étant réfléchi par les surfaces compactes. Pour accroître l'efficacité de transmission de l'énergie sonore à l'oreille interne, il faut augmenter l'amplitude des variations de pression à la fenêtre ovale.

1 s

L'oreille moyenne réalise cette amplification de deux façons. En premier lieu (figure 5.3 ( a ) ) , les osselets, agissant comme un méca-

POINT D'APPLICATI'ON

Force

LEVAGE dl Force - - X Force1 d2

Surface % de la fenêtre ovale

Surface Si du tympan Fenêtre ovale

OREILLE INTERNE

Fig. 5 .3 La partie ( a ) montre le principe de levage des osselets. La partie ( b ) reprisente schématiquemerit l'interaction des surfaces du tympan et de la feriêfre ovale. Les osselets agissent comme un piston sur le fluide de l'oreille interne.

Denes, Peter B. et Elliot N. Pinson. 1963. La chaîne de la communication verbale.

66 / La chaîne de communication verbale

Fig. 5.4 Modes de vibration de l'étrier; ( a ) mode normal; ( b ) mode de haute intensite'.

nisme de levier, transmettent à la platine de l'étrier une plus grande force que celle qui s'exerçait sur le marteau. Le rapport de ces deux forces est égal au rapport entre le déplacement du tympan et celui de l'étrier. Le facteur d'accroissement est d'environ 1.5. Mais en outre, et ceci est plus important, l'effort total de l'étrier ne s'exerce que sur la surface de la fenêtre ovale, surface beaucoup moindre que celle du tympan. La surface du tympan est environ 25 fois plus grande que celle de la fenêtre ovale (voir schéma (b) de la figure 5.3). La combinaison de ces deux effets exerce sur la fenêtre ovale une pression environ 35 fois plus grande que si le tympan et les osselets n'y étaient pas. Cette amplification de pression dans l'oreille moyenne permet d'entendre des sons d'une énergie 1000 plus faible que celle des sons qu'on pourrait entendre autrement.

La seconde fonction de l'oreille moyenne est de protéger l'oreille interne contre les sons extrêmes. Ceci exige différentes interven- tions. Deux petits muscles reliés l'un au tympan et l'autre à l'étrier, entrent en action sous l'effet des sons élevés: un muscle rétracte le tympan et l'autre éloigne l'étrier de la fenêtre ovale. Ces deux mouvements réduisent l'efficacité de I'oreille moyenne comme trans- metteur de sons. Un autre mécanisme de protection déplace l'axe de rotation de l'étrier. Normalement, les osselets sont suspendus de façon à vibrer dans la position (a ) de la figure 5.4. Quand l'exci- tation devient extrême, des contractions musculaires imposent à

L'audition / 67

l'étrier un autre mode de vibration et l'étrier oscille comme en (b) de la figure 5.4. Ceci diminue fortement les variations de pression transmises à l'oreille interne, dont la structure délicate se trouve ainsi protégée. Malheureusement, aucune de ces interventions n'est ins- tantanée, de sorte que des sons brusques et intenses peuvent encore entraîner des dommages permanents.

L'oreille L'oreille interne est un système compliqué consistant interne en menues cavités logées dans le crâne. Une de ces cavités, enroulée comme une coquille d'escargot, s'appelle la cochlée ou limaçon (voir figure 5.5). L'importante transformation des vibrations mécaniques en impulsions nerveuses a lieu dans la cochlée.

Pour mieux voir les détails de la cochlée, imaginons-la déroulée comme en ( a ) de la figure 5.6. Une matière membraneuse appelée partition cochléaire, divise la cochlée sur presque toute sa longueur en deux régions distinctes: la rampe vestibulaire, du côté de la fenêtre ovale, et la rampe tympanique, de l'autre côté. Ces deux régions sont remplies d'un fluide deux fois visqueux comme l'eau et appelé périlymphe. La partition cochléaire est creuse, comme on le verra bientôt. A la pointe du limaçon s'ouvre un passage, I'hélicotrè- me, qui permet au fluide de passer d'une rampe à l'autre. A la base du limaçon, la rampe tympanique aboutit à la fenêtre ronde, obturée par une membrane et donnant sur I'oreille moyenne. Les canaux

Fenêtre Canal

, cochléaire

Étrier

\

ampe tibulair

ronde

Trompe f

tympanique

Fig. 5.5 La cochlée, dans l'oreille interne.

Nerf auditif

Cochlée ou limaçon

Denes, Peter B. et Elliot N. Pinson. 1963. La chaîne de la communication verbale.

68 / La chaine de communication verbale L'audition / 69

Un des canaux semi-circulaires

Partition cochléaire

Base \ Fenêtre

ronde 101

Rampe tympanique

Fig. 5.6 L'image ( a ) est utle coupe déroulée de la cochlée; l'image ( b ) est une coupe trat~sversale de la cochlée.

semi-circulaires, qui ne jouent aucun rôle dans l'audition propre- ment dite, sont aussi remplis de périlymphe et raccordés directe- ! ment à la cochlée.

l

L'appareil cochléaire est excité à travers la fenêtre ovale par les mouvements de la platine de l'étrier. Quand la fenêtre se déplace

vers l'intérieur, le fluide de la cochlée est refoulé vers sa pointe. Si l'action était lente, le fluide passerait par l'hélicotrème dans la rampe tympanique, la fenêtre ronde cédant sous la pression pour équilibrer la poussée.

Mais les vibrations sonores sont trop rapides pour une telle pénétration et au lieu de cela, les variations de pression ébranlent le fluide en faisant vibrer la partition cochléaire.

La structure de cette cloison se révèle dans la coupe transversale (b) de la figure 5.6. La lame renferme le conduit cochléaire, rempli d'un fluide très visqueux et presque gélatineux qui s'appelle endo- lymphe. Ce conduit est isolé de la rampe vestibulaire par la membrane de Reissner et il est isolé de la rampe tympanique par la membrane basilaire. Celle-ci s'appuie d'un côté sur la lame spirale osseuse et se rattache de l'autre au ligament spiral qui longe la paroi externe du limaçon. La membrane basilaire est très étroite à la base du limaçon, et là, la lame osseuse occupe presque toute la largeur. Cette lame disparaît presque entièrement près de l'héli- cotrème pour laisser à la membrane basilaire presque toute la place entre les parois du limaçon. Entre ces extrêmes et tout le long de la cochlée, la transition est graduelle. Ainsi, c'est à la base du limaçon que la membrane basilaire est la plus étroite (0.04 milli- mètre environ) et c'est à la pointe qu'elle est la plus large (près de 0.5 millimètre). De plus, elle est plutôt raide, mais légère, près de la fenêtre ovale, tandis que près de l'hélicotrème, elle est plut6t relâchée et massive.

C'est aux propriétés mécaniques de la membrane basilaire que la partition cochléaire doit surtout sa sensibilité aux excitations venues de la fenêtre ovale. Si l'étrier se déplace brusquement vers l'intérieur du limaçon (comme sous l'influence d'un fruit sec), la partition cochléaire bombe du côté du vestibule tympanique, d'abord près de la base, puis cette saillie se propage, en s'élargissant, tout le long du limaçon, jusqu'à l'hélicotrème.

La réponse à une excitation sinusoïdale est particulièrement révé- latrice. La lame entière entre en vibration, mais l'amplitude de la vibration en différents points du parcours dépend largement de la fréquence d'origine. Aux hautes fréquences, la vibration la plus forte de la lame se situe près de la fenêtre ovale, là où la membrane basilaire est la plus légère et la plus résistante. Aux fréquences infé- rieures, le point d'amplitude maximum gagne la région large et

Denes, Peter B. et Elliot N. Pinson. 1963. La chaîne de la communication verbale.

70 / La chaîne de communication verbale

élastique de l'extrémité. La structure de la membrane basilaire tend donc à répartir le point de réponse maximum à la stimulation selon les fréquences. Ceci rappelle la façon dont les longues cordes d'un piano, lourdes et plutôt lâches, répondent aux notes basses, tandis que les cordes courtes, plus minces et plus raides, vibrent en sympathie avec les notes hautes. Aux très basses fréquences, disons au-dessous de 100 cps, la membrane vibre massivement et l'amplitude maximum se produit à la pointe de la Iame.

La figure 5.7 indique les amplitudes de déplacement produites le long de la partition cochléaire pour différentes fréquences de l'excita- tion sinusoïdale à l'étrier. 11 convient de noter que la partition cochléaire est soumise à un mouvement beaucoup plus complexe que

25 CPS _---

50 CPS

O

- C

2 200 CPS œ 0 3m ---- _--- YI

6' -1 C - 4 n

3

2 400 CPS

800 CPS

O

1600 CPS 1 O

O 10 20 30

DISTANCE DE L'ETRIER MILLIMETRES

Fig. 5.7 Contour de déplacement de la membrarze basilaire pour diffé- rentes fréquences d'excitation siriusoïdale à i'étrier.

L'audition / 7 1

Fig. 5.8 Régime des de'placements de la inembrorie basilaire, pour uri cycle complet, en reponse à uiie excitation de 1000 cps à l'étrier. Les courbes iiidi- quent des déplacements se succédant de Iiaut en bas avcc des retards d'uil I~uitième de cycle.

ne l'indiquent les courbes simples de la figure 5.7. Prenons par

exemple la figure 5.8 qui montre le déplacement d'un cycle entier d'une excitation de 1000 cps. En relevant dans cette figure l'ampli- tude maximum de déplacement pour chaque point de la membrane, on obtiendrait une courbe du type de la figure 5.7.

Mais il reste encore à convertir le mouvement mécanique de la membrane basilaire en signaux transmissibles au cerveau. L'organe

Denes, Peter B. et Elliot N. Pinson. 1963. La chaîne de la communication verbale.

7 2 / La chaîne de communication verbale

de conversion consiste en un réseau de mêmes cellules tapissant la membrane basilaire à l'intérieur du conduit cochléaire: c'est l'organe de Corti, dont on voit, en (b) de la figure 5.6, la position dans l'appareil cochléaire. La figure 5.9 en montre une vue plus détaillée.

Les récepteurs sensoriels de l'organe de Corti sont les cellules ciliées. Ces cellules, logées à une extrémité dans la membrane basi- laire, font à l'autre extrémité contact avec la menzbrane de Corti au moyen de microscopiques filaments en forme de cils. Deux piliers en V constituent l'arcade ou tunnel de Corti et consolident le dispositif. On appelle cellules internes celles qui sont du côté de l'arcade le plus rapproché du noyau de la cochlée; celles de l'autre côté sont les cellules externes. Il y a quatre rangées de cellules ciliées, une interne et trois externes, sur presque toute la longueur de la membrane basilaire, de la fenêtre ovale à l'héli- cotrème. Il y a en tout environ 3500 cellules internes et 20,000 cellules externes.

La signalisation nerveuse consiste, comme nous le verrons plus en détail au chapitre 6, en des impulsions électrochimiques qui par- courent les fibres nerveuses. Les fibres du nerf auditif pénètrent dans l'organe de Corti; leurs terminaisons sont très rapprochées des cellules sensorielles. Quand la membrane basilaire vibre sous l'in- fluence d'ondes sonores, les cellules ciliées se recourbent. Par des moyens qui ne s'expliquent pas parfaitement, ces cellules stimulent alors les fibres nerveuses, en produisant des impulsions électro- chimiques qui atteignent le cerveau par le nerf auditif.

Membrane Cellules ciliées de Corti Cellules ciliées

Membrane 1 basilaire Y ~ i b i e s

nerveuses de Corti

L'audition / 73

LA PERCEPTION DU SON

Nous avons examiné certaines caractéristiques anatomiques et physiologiques de l'organe auditif. Maintenant, la question sui- vante se pose: "Qu'entend-on au juste quand on écoute ?".

Cette question touche à la nature des sensations qui accompagnent les stimuli auditifs. On entre ici dans le domaine de la psychologie expérimentale et plus particulièrement, de la psychophysique et de la psychoacoustique.

Il faut se rendre compte que la sensation même d'entendre est une expérience purement subjective. Pour analyser cette sensation, on soumet un sujet au stimulus auditif (à l'aide par exemple d'un haut-parleur ou d'une paire d'écouteurs) et on lui demande d'écrire ce qu'il ressent. Ainsi, on peut le soumettre à un son audible dont on diminue graduellement l'intensité jusqu'à ce qu'il dise qu'il ne l'entend plus. Ou bien, on peut lui transmettre un son très aigu pour déterminer le seuil de douleur. Ou bien encore, on peut émettre un son complexe dans un des écouteurs du sujet et lui demander d'ajuster dans l'autre écouteur la fréquence d'une seconde tonalité, jusqu'à ce que les deux sons soient à la même hauteur. De telles expériences relèvent de la psychoacoustique.

Les résultats de ces tests sont souvent variables. Les gens diffèrent fréquemment de sensibilité auditive. Même chez une même personne, la réaction auditive diffère d'une expérience à l'autre et dépend de la disposition du sujet: la nuit a été mauvaise, le déjeuner a été écourté ou . . . l'esprit est ailleurs. A côté de ces écarts subjectifs, il y a aussi la façon, bonne ou mauvaise, dont l'expérience est conduite. Dans un test acoustique, le sujet a tendance à jouer ses réponses à pile ou face et à inventer ses sensations lorsqu'il n'en est pas sûr. Les résultats de ces tests sont plus variables que dans les expériences à la base de mesures physiques.

Ces remarques signifient simplement qu'il est bien difficile d'obtenir des résultats positifs avec des tests subjectifs. Quoiqu'il en soit, l'expérimentation psychoacoustique est la seule méthode quan- titative dont nous disposons pour savoir comment les mécanismes auditifs répondent au son. Toutes les observations, toutes les mesures dont nous parlerons en terminant cette section, résultent de sérieuses expériences de psychoacoustique.

Denes, Peter B. et Elliot N. Pinson. 1963. La chaîne de la communication verbale.

La phonétique acoustique est l'étude de l'onde sonore utilisée dans les langues humaines.' On aborde cette étude a l'aide de divers appareils qui permettent d'analyser les composantes de l'onde sonore. Un son est une onde en mouvement qui se déplace a une vitesse approximative de 340 mètres a la seconde. Il est le produit de vibrations transmises par l'ébranlement des molécules d'un corps, ni solide, ni liquide, mais gazeux, l'air. Il n'y a pas de son dans le vide car c'est l'air ambiant qui transmet le son à l'oreille. On perçoit les sons compris entre 16 et 20 000 Hz. Audelà et endeçà, il s'agit respectivement d'ultra-sons et d'infra-sons.

Acoustiquement, le son est défini en termes de fréquence, d'amplitude, de timbre et de durée. Les contreparties perceptives de ces paramètres sont dans l'ordre, la hauteur, l'intensité, le timbre perçu (qualité identificatrice) et la longueur. En phonétique acoustique, il convient de distinguer entre les sons et les bmits. Un son est le produit d'une onde périodique, c'est-à-dire qu'il implique le retour des vibrations à intervalles réguliers.

En outre, un son (acoustique) comporte des formants (cf. pp. 149 à 156). Par contre, un bruit est engendré par une onde apériodique. Il est le résultat de vibrations irrégulières dont le nombre par unités de temps est constamment variable (voir figure page suivante). Une deuxième catégorie de bruits utilisés dans les langues humaines se caractérisent par leur périodicité mais l'absence de formants. Les langues utilisent donc,

1 Voici quelques références utiles: G. Fant, Acoustic Theory of Speech Production, Mouton, La Haye, 1960; D.B. Fry, The Physics of Speech, New York, Cambridge University Press, 1979; G. Matras, Le son, Paris, PUF, «Que sais-je?» no 293, 1972 (1" édition 1948); J.M. Pickett, The Sounds of Speech Communication: a Primer of Acoustic Phonetics and Speech Perception, Baltimore, University Park Press, 1980.

Phonétique acoustique 143

acoustiquement, les sons et les bruits. [a] et [ml, par exemple, sont des sons, alors que [s] et [3] sont des bruits.

La fréquence d'un son correspond au nombre de vibrations doubles par seconde. Un cycle/seconde est égal à un Hertz. Plus il y a de Hertz ( =

Hz), plus le son est perçu haut. La composante spectrale la plus basse d'un son est appelée fréquence fondamentale (Fo). C'est elle qui fixe la hauteur d'un son. A la base, elle est fonction des vibrations laryngées. Une basse fréquence donne un son grave, une haute fréquence, un son aigu. Le fondamental de la voix parlée s'inscrit nonnalement dans un registre de 100 à 150 Hz chez l'homme, de 200 a 300 Hz chez la femme et de 300 à 450 Hz chez l'enfant. La voix chantée d'un soprano varie entre 260 et 1 300 Hz, celle du ténor entre 120 et 520 Hz et celle de la basse entre 65 et 325 Hz. La gamme des fréquences d'un violon s'étend de 200 a 2 650 Hz, celle du piano de 27 à 4 150 Hz et celle de l'orgue de 16 à 16 000 Hz. Comme on peut s'en douter, l'audibilité de la fréquence baisse avec l'âge: à 30 ans, elle atteint 15 kHz, a 50 ans 12 kHz, à 60 ans 10 kHz et à 70 ans 6 kHz.

Un spectrogramme est une représentation graphique des paramètres acoustiques de la parole. Le spectrogramme qui suit (page suivante) a été produit à l'aide d'un spectrographe digital utilisant un filtre étroit pour les basses fréquences. Il donne une représentation du fondamental (traits noirs du bas) et des harmoniques (traits superposés a chaque multiple entier du fondamental) de la séquence phonique enregistrée [3a:'phinud:,ss3] (cf. enregistrement sur la cassette accompagnatrice). L'échelle des fréquences (fines lignes horizontales) indique que le fondamental a varié considé- rablement d'une voyelle a l'autre: [a:] 100 Hz, [il (accentué) 180 Hz, [u] 105 Hz, [nr] 120 Hz et [3] 85 Hz. La haute fréquence sur [il est sans doute responsable de l'accentuation primaire perçue sur cette voyelle ( ' ).

L'amplitude est fonction de la pression sonore (P); plus celle-ci est grande, plus l'amplitude (A) est grande. P représente des variations de pression de part et d'autre d'une pression atmosphérique moyenne (ligne morte sur I'oscillogramme). Ces variations de pression sont mesurables en Micron Bar (1 micron = 1 millième de millimètre). A est mesurable en

Martin, Pierre. 1996. Éléments de phonétique avec application au français.

Phonétique acoustique Phonétique acoustique 145

watt/cm2 et représente la force nécessaire pour générer la pression sonore. Le seuil de l'audition se situe à 2 x 104 (.0002) Micron Bar de pression, ce qui nécessite une force ayant une amplitude de 10.'~ watt/cm2 (.000,000,000,000,000,1 watt). Le seuil de la douleur se situe à 2 x 103 Micron Bar de pression (2 millimètres), soit à une amplitude de

watt/cm2 (.O1 watt). La gamme d'amplitude acceptable par l'oreille humaine couvre donc une étendue de 1014 watt/cm2 (100 millions de millions), ce qui correspond à une pression sonore de IO7 (10 millions).

Le décibel (dB) est une unité logarithmique (à base 10) relative de mesure de l'amplitude. Le rapport d'intensité est de 1014.

A dB seuil de l'audition . . . 10-l6 --> loO = 1 O

IO-'' --> 10' = 10 fois plus intense 10 10-~4-->102=100 " 20 ~ o - ' ~ - - > ~ o ~ = ~ o o o 30 10-12 --> 104 = 10000 40

seuil de la douleur . . . 10'~ --> 1014 = 100 millions de millions . . . . . . fois plus intense 140

En somme, pour qu'un son ait 10 dB de plus qu'un autre, il faut qu'il soit 10 fois plus intense que lui. Conventionnellement, une différence de 3 dB correspond à un rapport 2 (doublement) -- + 6 dB = 4 fois plus intense, + 9 dB = 8 fois plus intense, etc. O dB correspond au seuil de l'audition. Voici quelques exemples de puissance sonore:

10 dB: respiration 60 dB: conversation, à un mètre 120 dB: marteau-piqueur, à un mètre; tonnerre 140 dB: jet à 4 moteurs, au décollage, à 40 mètres 175 dB: fusée spatiale, au décollage

Le spectrogramme qui suit représente graphiquement l'amplitude de la séquence décrite précédemment. L'amplitude est calculée ici à partir d'une échelle relative graduée de O à 10. On constate encore une fois que l'amplitude des voyelles est très variable, l'amplitude la plus forte (7 sur l'échelle) se portant sur [il (accentué) et la plus faible (2.5) sur la voyelle finale.

Martin, Pierre. 1996. Éléments de phonétique avec application au français.

Martin, Pierre. 1996. Éléments de phonétique avec application au français.

Phonétique acoustique 148

Sans le timbre, il serait impossible de discerner les voix, ou de faire la différence entre les instruments. Le timbre est cette qualité qui permet de distinguer des sons de même fréquence, de même amplitude et de même durée. Le fondamental (Fo), ou l'harmonique zéro (le plus grave) si l'on veut, donne au son sa hauteur. Les harmoniques procurent au son sa qualité propre, son caractère individuel. Les dix ou quinze premiers harmoniques sont de la plus grande importance pour la reconnaissance. Les harmoniques sont des multiples entiers du fondamental.

Ex.: Fo = 100 Hz, Hi = 200 Hz, Hz = 300 Hz, Hj = 400 Hz, etc. Fo = 150 Hz, Hl = 300 Hz, H2 = 450 Hz, H3 = 600 Hz, etc.

Pourquoi les harmoniques sont-ils des multiples entiers du fondamental? Le diapason présente un son pur (sans harmoniques) dont la fréquence de vibration est de 440 Hz (la 3). Certains sifflements consistent également en des sons purs. Mais la majorité des sons produits par les instruments (violon, piano, haut bois) et par la voix humaine sont des sons complexes (série d'harmoniques). Les harmoniques prennent origine dans la réflexion. Un son pur est une onde simple, une sinusoïde, sans réflexion. Le mouvement simple d'aller et retour de la pendule de l'horloge en constitue une bonne représentation. Un son complexe est une superposition d'ondes. Lorsque l'on secoue d'une main une corde attachée à un poteau, l'onde va au poteau et revient. Elle est réfléchie. L'addition des mouvements d'aller et de retour de l'onde transversale, à la même période mais décalée, produit une onde complexe propre à tous les points de la corde. À chaque endroit de l'onde complexe ou le mouvement d'aller est en phase contraire avec le mouvement de retour apparaissent des points morts, les particules d'air ne bougeant plus, étant soumises à des forces opposées. La rencontre des points morts des ondes complexes d'un corps vibrant détermine un mode de vibration fixant la série harmonique. Ces rencontres se produisent à des intervalles réguliers, correspondant à des fractions du mouvement vibratoire d'ensemble: 'A, l/s, lh, etc. Chaque point de la corde vibre (produit une onde complexe). Toutefois, les points morts de l'onde de l'endroit A (totalité de la corde) ne recoupent les points morts d'une autre onde qu'a un endroit situé à la mi-corde, puis au tiers de la corde, au quart de la corde et ainsi de suite, étant entendu que le point vibrant à la moitié de la corde a une fréquence deux fois plus élevée que celle de l'ensemble de la corde, que le point vibrant au tiers de la corde a une fréquence trois fois plus élevée que celle de l'ensemble de la corde, etc.

Phonétique acoustique

A une fréquence fondamentale de 100 Hz, correspondent, comme nous l'avons dit, des harmoniques de 200 Hz, 300 Hz, 400 Hz, etc. L'amplitude des harmoniques décroît avec leur nombre. Les réflexions dans la colonne d'air de l'appareil phonatoire donnent lieu a des points morts qui font apparaître des séries harmoniques d'ondes vibrantes à des fréquences multiples exactes (fractions) d'une fréquence fondamentale. Un son est une tonalité complexe, un ensemble de fréquences. Un son complexe comprend un fondamental et des harmoniques. Or, selon la nature de l'instrument, ou l'anatomie individuelle dans le cas humain, et l'état des cavités de résonance, certains harmoniques sont renforcés et d'autres sont atténués. Chaque corps possède une fréquence propre de résonance qui est fonction de sa nature (matière, poids, densité, volume). Lorsqu'une onde sonore est émise a fréquence correspondante ou voisine d'un corps, celui-ci vibre a son tour et renforce l'onde initiale puisqu'il entre lui aussi en résonance. Plus la fréquence initiale et la fréquence de résonance du corps s'éloignent l'une de l'autre, moins l'effet de résonance est grand. A une certaine limite, il y a rupture de l'effet de résonance.

Un résonateur est un corps (corde, cavité, membrane) qui peut renforcer une fréquence initiale, sans être lui-même générateur d'onde. Acoustiquement, les cavités pharyngale, nasale, buccale et labiale agissent comme des résonateurs (renforcement de certaines fréquences) et des filtres (affaiblissement d'autres fréquences). Le résonateur pharyngal est peu variable, le résonateur nasal est fixe, le résonateur buccal est très variable et le résonateur labial est légèrement variable.

Le recul ou l'avancement de la racine de la langue modifie la forme et le volume de la cavité pharyngale. L'abaissement de la luette permet a la

Martin, Pierre. 1996. Éléments de phonétique avec application au français.

Phonétique acoustique 150

cavité nasale d'agir comme résonateur de l'air phonateur, rendant possible la distinction entre des articulations nasales et orales. Les diverses positions prises par la langue dans la cavité buccale modifient tantôt tels harmoniques, tantôt tels autres. Le timbre propre aux voyelles et aux consonnes dépend en grande partie de ce résonateur. Enfin, la projection des lèvres crée un résonateur supplémentaire, la cavité labiale utilisée dans la distinction d'articulations arrondies et labialisées. Les cavités sont responsables du timbre des voyelles (cf. leurs formants propres) mais aussi du timbre de la voix. Chaque personne semble avoir une voix bien à elle. Le timbre de la voix est caractérisé par certains harmoniques seulement. Leur identification est souvent cruciale (synthèse et reconnaissance de la parole, écoute électronique, etc.). Les cordes vocales créent l'énergie sonore qui est résonnée et filtrée dans les cavités. Certains harmoniques se trouvent ainsi, selon la fréquence de résonance propre aux cavités, amplifiés alors que d'autres sont amortis. Les fréquences renforcées produisent les formants acoustiques qui permettent d'identifier le timbre des sons. A fréquence de fondamental, amplitude et durée égales, seuls les formants permettent de distinguer les voyelles entre elles. Les formants sont fonction des résonances produites dans le conduit vocal. La plus basse résonance (Fi) d'une voyelle neutre comme schwa ([a]) a une longueur d'onde qui correspond environ à quatre fois la longueur du conduit vocal. Ainsi, si le conduit vocal a une longueur de 17,5 cm, alors la longueur d'onde de [a] est de 70 cm. La fréquence de Fi dépend de la longueur d'onde (L) et de la vitesse du son (V), selon la formule suivante: Fi = V + L. Pour schwa, cela donne 35 000 (cm) + 70 = 500 Hz. Dans le document qui suit, spectrogramme à filtre large, les bandes renforcées de fréquence (les formants) sont des taches noires horizontales. Ainsi, les trois premiers formants de [a:], selon l'échelle des fréquences choisie, s'établissent à 600 Hz (Fi), 1 400 Hz (F2) et 2 350 Hz (F3). Par contraste, [il a des formants à 250 Hz (Fi), 2 200 Hz (F2) et 2 800 Hz (F3). Les tableaux des pages 153 à 156 veulent donner une indication des valeurs formantiques des voyelles françaises. L'auteur de ces lignes a servi d'informateur lors des enregistrements.

Martin, Pierre. 1996. Éléments de phonétique avec application au français.

Phonétique acoustique Phonétique acoustique 157

La durée est aussi un paramètre acoustique du son. Il s'agit du déroulement de l'onde sonore dans le temps. Certaines langues, comme l'anglais et l'italien opposent des voyelles longues à des voyelles brèves:

angl. sit - seat ital. fat0 - fatto [srt] - [si:t] [fato] - [fat:o]

«s'asseoir» - ((siège» «destin» - «fait» Le rôle fonctionnel de la durée est très variable selon les langues et, quelquefois, à l'intérieur d'une même langue. Acoustiquement, la durée peut être etablie sur un oscillogramrne. C'est ce qui a été fait sur le document qui suit, où elle a été calculée en centièmes de seconde (CS): 1 centimètre = 8 CS. On voit, par exemple, que le [a:] a une durée beaucoup plus longue (40 CS) que le [il accentué (26 CS).

L'oscillogramrne permet, en outre, d'illustrer les distinctions entre bruit et son, occlusive et constrictive, sourde et sonore. Un bruit peut ne pas comporter de vibrations régulières ([s]), alors qu'un son en comporte nécessairement ([a], [3]). Pendant la tenue d'une occlusive, l'amplitude du mouvement vibratoire est faible (pour une sonore -- [d:]), voire nulle (pour une sourde -- [pl). La constrictive comporte, au contraire, une amplitude (apériodique, [s], ou périodique, [3]) continue. Enfin, la ligne oscillographique comporte des pointes régulières dans le cas d'une articulation sonore et rien de tel dans le cas d'une sourde. Acoustiquement, les consonnes peuvent être caractérisées de pCriodiques (vibrations régulières) ou apCriodiques, de sonantes (présence de formants) ou de bruyantes, d'impulsionnelles (interrompues) ou de continues. On trouve une illustration acoustique des consonnes françaises aux pages 160- 163.

Martin, Pierre. 1996. Éléments de phonétique avec application au français.

1.3.5.3 Prosodie

Un signal de parole se compose de traits phonétiques (segmentaux) et de traits prosodiques

(suprasegmentaux). Dans le système d’une langue, cette partie de la phonétique qu’est la prosodie se situe

donc à un niveau suprasegmental. On la définit de manière générale comme l’étude des systèmes

accentuel (phénomènes reliés au rythme) et mélodique (phénomènes reliés à l’intonation), et les

paramètres physiques ou perceptifs permettant l’analyse de ces phénomènes sont la hauteur (Hz), la durée

(s ou ms) et l’intensité (dB) « qui concourent à former des unités supra-segmentales (tons, accents,

groupes intonatifs, groupes rythmiques) en s’attachant à des syllabes, en se positionnant à des endroits

précis dans des mots, dans des syntagmes et dans des phrases » (Martin, 1996, p. 166). Les unités

suprasegmentales ne pouvant être isolées, elles ne portent pas sur les segments (voyelles et consonnes),

mais sur des mots ou sur des groupes de sens (Delattre, 1966).

Intonation

L’intonation musicale étant la hauteur à laquelle un son est chanté, il n’est pas si étrange de parler de

musicalité de la voix lorsque l’on fait référence à l’intonation prosodique. Elle est représentée par les

contours intonatifs (appelées aussi courbes intonatives ou courbes mélodiques) qui correspondent à la

variation des modulations de la fréquence fondamentale. Les contours intonatifs montants et descendants

permettent de distinguer une phrase déclarative d’une phrase interrogative pourtant formée des mêmes

unités lexicales dans le même ordre (Vous sortez. vs Vous sortez?). L’intonation transmet également des

informations sur les caractéristiques physiques et psychologiques d’un locuteur. Il est possible d’une part,

d’associer une voix plus haute à un locuteur de sexe féminin; d’autre part, de déceler l’état émotionnel

dans la voix d’un locuteur, car les patrons prosodiques qu’il produit et la forme des courbes intonatives

qui en résulte, sont très différents selon qu’il est envahi par la joie ou la colère (Léon, 1971). En outre, les

indices prosodiques jouent un rôle crucial dans l’encodage et le décodage d’un message oral. Figure de

rhétorique apparentée à l’antiphrase, l’ironie en est un bon exemple. En effet, cette forme d’expression

consiste à dire exactement le contraire de ce qu’on pense en réalité et ce contraste entre pensée et parole

est accentué, renforcé uniquement par l’intonation.

Émond, Caroline. 2007. Les corrélats prosodiques et segmentaux de la parole souriante en français québécois. Mémoire de maîtrise, Montréal : Université du Québec à Montréal 129 p.

Rythme

Le rythme est caractérisé par l’alternance de syllabes proéminentes et non proéminentes, par la

distribution des accents à intervalles plus ou moins réguliers, par la présence de pauses, en plus de varier

en fonction du débit. L’accentuation consiste en la mise en relief d’une syllabe plutôt qu’une autre qui sera

soit plus haute, plus forte ou plus longue. Le domaine de perception de l’accent s’étend vraisemblablement

à la syllabe précédente (Rossi, 1999) et leur distribution des accents varie selon les langues et les règles

qui leur sont inhérentes. De plus, ils occupent diverses fonctions dans les langues (fonctions démarcatives

ou distinctives par exemple).

En français, la place de l’accent est fixe. L’accent primaire (appelé aussi accent tonique) est

obligatoire et tombe sur la dernière syllabe prononcée du dernier item lexical d’un groupe rythmique,

c’est-à-dire d’un mot ou d’un groupe de mots (Di Cristo, 1998). L’accentuation a, en français, une

fonction démarcative « c'est à dire qu'elle permet de "marquer" la fin de chaque unité de sens dans la

chaîne parlée » (Germain-Rutherford et Martin, 2005). Selon les conditions de débit (vitesse d’élocution),

certains mots accentuables (les mots pleins, par opposition aux mots outils) pourront être désaccentués.

Par comparaison, la place de l’accent primaire, en anglais, moins prévisible sans toutefois être aléatoire,

est libre (variable) et sa valeur, distinctive. La fonction grammaticale peut, entre autres, influencer la place

de l’accent primaire. Dans l’exemple 1, l’accent sert à distinguer le sens de deux mots formés des mêmes

segments (phonèmes). En (a), l’accent tombe sur la première syllabe, ce qui permet d’identifier le mot

comme un nom. En (b), il tombe sur la deuxième syllabe, permettant alors l’identification d’un verbe.

L’accent est donc responsable, dans cet exemple, du changement de catégorie grammaticale.

(1) (a) [ ∪ π ↔ ♦ μ Ι τ ] permit, nom; « permis »

(b) [ π ↔ ♦ ∪ μ Ι τ ] (to) permit, verbe; « permettre »

Un autre type d’accent, susceptible de frapper les autres syllabes, perceptible à l’oreille, mais de

moindre intensité, est l’accent secondaire (voir Pasdeloup, 1990 pour une description détaillée des règles

d’accentuation). Il est caractérisé par son côté facultatif et sa position (non finale) dans le mot. La place de

l’accent secondaire se situe en général sur la syllabe antépénultième d’un mot de plus de deux syllabes (Di

Cristo, 1998) comme l’illustre l’exemple 2. (L’accent secondaire est souligné ; l’accent primaire, en

caractères gras.)

Émond, Caroline. 2007. Les corrélats prosodiques et segmentaux de la parole souriante en français québécois. Mémoire de maîtrise, Montréal : Université du Québec à Montréal 129 p.

(2) (a) [ ∩π Α) τ α ∪λ ) ] pantalon

(b) [ ® ∩δ ι ν α ∪τ ↵ ® ] ordinateur

L’accentuation autorise également la mise en relief de certaines unités du discours par le locuteur afin

d’attirer l’attention des personnes à qui il s’adresse. Le but étant d’insister sur un élément plutôt qu’un

autre, on parle d’accent d’insistance, qui a une fonction expressive. Contrairement à l’accent de type

démarcatif qui sert à découper des unités rythmiques, l’accent expressif sert à exprimer une attitude ou une

émotion. Le discours journalistique en présente de nombreux exemples. On apprend aux chefs d’antenne à

moduler leur voix afin de rendre la lecture moins monotone, et cette modulation peut se faire notamment

par l’utilisation d’accents d’insistance sur les chiffres pour retenir l’attention du public (Émond, Ménard,

Martel, 2007) comme le montre l’exemple 3.

(3) [ λ α τ Α) τ Α α φ Ε ∩σ ι μ ) ® ε ∩τ ® ω Α β λ Ε σ ε ]

L’attentat a fait six morts et trois blessés.

L’alternance des syllabes accentuées et non accentuées à l’intérieur d’un groupe de mots engendre

ainsi un regroupement des segments, qui contribue à la formation d’unités à un niveau supérieur. Variable

selon les divers courants théoriques, les termes qui désignent la formation de ces unités foisonnent; la

dénomination usuelle qu’est « groupe rythmique » (GR) sera donc utilisée1. Pour Germain-Rutherford et

Martin (2005), les syllabes accentuées en finale de groupes de mots contribuent à la formation de contours

intonatifs montants et descendants, ce qui permet de décomposer la phrase en GR repérables à l’oreille.

On pourrait définir le GR comme étant « un mécanisme naturel d’organisation du discours oral qui est lié,

d’une part, à des contraintes des systèmes respiratoire et phonatoire, d’autre part, à la physiologie de

l’écoute. Quelle que soit la langue, les locuteurs ont tendance à segmenter un énoncé en petites unités de

sens, afin de rendre leur discours intelligible : en prononçant une phrase ou une suite de phrases, on

regroupe les mots qui forment un ensemble signifiant. » (Lhote, 1995, p. 138, cité dans Germain-

Rutherford et Martin, 2005). Afin d’illustrer ce propos, l’exemple 4 présente une phrase (tirée de

Germain-Rutherford et Martin, 2005) qui, selon son organisation rythmique, peut avoir plus d’une

signification.

1 À titre informatif, le GR est aussi appelé unité accentuelle ou mot prosodique.

Émond, Caroline. 2007. Les corrélats prosodiques et segmentaux de la parole souriante en français québécois. Mémoire de maîtrise, Montréal : Université du Québec à Montréal 129 p.

(4) La belle ferme / le voile. « La belle maison le cache. »

La belle / ferme le voile. « La belle femme ferme le voile. »

On constate que d’une part, le GR est variable quant à sa longueur, c’est-à-dire quant au nombre de

syllabes qui le composent; d’autre part, que des relations grammaticales plus ou moins fortes unissent les

mots entre eux. Même s’il est fréquemment possible d’observer un lien entre syntaxe et prosodie, celui-ci

n’est pas toujours présent en raison, entre autres, des accents d’insistance ou des pauses.

Il existe deux types de pauses : les pauses sonores et les pauses silencieuses. Les premières, aussi

appelées pauses remplies, sont souvent réalisées avec la voyelle centrale neutre schwa, [↔],

correspondant au euh d’hésitation; les deuxièmes correspondent souvent à des pauses de respiration, la

parole étant contrainte par la physiologie de l’être humain. D’après Duez (1997), la pause silencieuse est

un phénomène complexe qui apporte de l’information sur l’organisation prosodique, syntaxique,

sémantique et conceptuelle du message. La durée et la fréquence des pauses dépendent notamment de la

vitesse d’élocution (débit) et de la nature de la frontière syntaxique. Elles sont des éléments fondamentaux

de l’organisation temporelle servant à la fois le locuteur et l’auditeur. Les pauses silencieuses sont

étroitement liées à l’encodage du message et jouent un rôle important dans la planification de la parole et

les pauses d’hésitation sont engendrées par la rareté et le niveau d’abstraction d’un mot. D’une part, ces

pauses permettent au locuteur d’organiser sa pensée, de planifier son message; d’autre part, elles donnent

le temps nécessaire à l’auditeur d’intégrer l’information lexicale. « Bien loin d’être du "bruit" qu’il faut

ignorer dans le signal de parole, les différentes pauses peuvent être des indices extralinguistiques qui

traduisent un état psychologique, une personnalité et ont une fonction informative. Elles peuvent aussi être

des indices paralinguistiques utilisés consciemment pour signaler un affect ou un rôle social, elles ont

alors une fonction communicative » (Duez, 1997, p. 290).

Le nombre d’accents et de pauses, en plus de contribuer au rythme, influence le débit. On définit

celui-ci comme étant le nombre d’unités linguistiques (syllabes, mots) par unité de temps (seconde,

minute). Le débit varie d’un locuteur à l’autre, mais aussi en fonction de l’émotion et du contexte dans

lequel se trouve un locuteur.

Émond, Caroline. 2007. Les corrélats prosodiques et segmentaux de la parole souriante en français québécois. Mémoire de maîtrise, Montréal : Université du Québec à Montréal 129 p.

On s’aperçoit donc qu’il est nécessaire de recourir à des unités de base pour expliquer le

fonctionnement de la prosodie. La parole spontanée, avec sa syntaxe particulière (reprises, hésitations,

faux départs) ne permet pas de prendre la phrase comme unité de regroupement. Le modèle utilisé dans le

cadre de cette étude est celui proposé par Cedergren et Perreault (1994), car il utilise des unités

fonctionnelles au plan phonétique. Même si celui-ci a initialement été conçu pour la parole spontanée, le

fait que le corpus suscite une émotion spontanée (le sourire) justifie l’emploi de celui-ci. Ce modèle

comporte trois niveaux dont l’unité minimale est la syllabe. Au sommet, on retrouve le syntagme intonatif

(SI), l’unité la plus grande, et à un niveau intermédiaire, le groupe rythmique (GR). La figure 1.10 illustre

cette hiérarchie prosodique.

SI

G

Figure 1.1 Modèle de ergren et Perreault, 1994. (D’après Thibault, 1998, p. 84.)

a voix, caractérisé par une chute de F0, peut également être un

dicateur de fin de syntagme.

GR R Le (petit) chat mange la (grosse) pie

regroupement prosodique de Ced

La syllabe est constituée d’au moins un noyau vocalique; le GR, d’au moins une syllabe et le SI, d’au

moins un GR. La frontière droite des SI est caractérisée par une montée relativement importante de F0 et

est souvent accompagnée d’une pause, même si celle-ci n’est pas obligatoire. Un allongement de la

syllabe finale serait un autre indice de la présence d’un SI. Le GR constitue une unité intermédiaire et est

plus difficile à décrire. Comme pour les SI, on observe également, à la frontière droite des GR, une

montée de F0, mais de moindre importance. Il peut y avoir aussi un allongement de la syllabe finale, mais

il n’y a assurément pas de pause, à moins que cette frontière droite de GR ne corresponde à une frontière

droite de SI. L’abaissement final de l

in

(σ) σ σ σ (σ) σ σ

Émond, Caroline. 2007. Les corrélats prosodiques et segmentaux de la parole souriante en français québécois. Mémoire de maîtrise, Montréal : Université du Québec à Montréal 129 p.

Chapitre 13

PHONÉTIQUE ACOUSTIQUE

Christine Meunier – Laboratoire Parole et Langage, CNRS UMR 6057 - Université de Provence

[email protected]

I. Les sons du langage L'ensemble des configurations articulatoires possibles pour la production du langage parlé n'est pas extensible.

Elle est dépendante du matériel anatomique dont dispose l'être humain. Et comme tous les êtres humains

disposent du même appareil anatomique, les sons utilisés dans chacune des langues du monde relèvent de

configurations articulatoires communes. Il est donc possible de procéder à des regroupements de classes de sons

dans lesquels chaque langue puise son propre inventaire. Ces classes de sons se font selon des critères

articulatoires ou acoustiques.

Figure 1: liste des principales consonnes des langues du monde dans l'Alphabet, Phonétique International classées selon leur mode d'articulation (en colonne) et leur lieu d'articulation (en ligne). Lorsqu'il y a deux consonnes par case, celle de

gauche est la consonne sourde, celle de droite est son équivalente sonore. D'après International Phonetic Alphabet (International Phonetic Association, 1999). Les consonnes du français sont entourées en gris.

Figure 2: Trapèze vocalique représentant un classement des voyelles orales des langues du monde selon des critères

articulatoires. Lorsque deux voyelles apparaissent de part et d'autre d'un point, la première est une réalisation étirée, la deuxième une réalisation arrondie (voir plus loin dans ce chapitre "Les voyelles"). D'après International Phonetic Alphabet

(International Phonetic Association, 1999). Les voyelles du français sont entourées en gris.

hal-0

0250

272,

ver

sion

1 -

11 F

eb 2

008

Manuscrit auteur, publié dans "Les dysarthries, Auzou P. (Ed.) (2007) 164-173"

On observe sur la figure 1 les critères articulatoires retenus selon l'Alphabet Phonétique International

(International Phonetic Alphabet, IPA) pour le classement des consonnes. Ainsi, dans la classe des fricatives, le

français utilise seulement une partie des possibilités offertes par l'appareil anatomique. On remarquera sur cette

figure 1 que le français utilise peu la partie très postérieure du tractus vocal, la consonne la plus arrière étant le

// uvulaire De même, dans l'inventaire des voyelles françaises il n'y a aucune voyelle centrale, excepté le //. En

fait, la structure de l'inventaire des sons dans une langue n'est pas aléatoire mais suit une logique universelle

relative aux contraintes articulatoires et à la distinctivé nécessaire au sein de chaque système (Schwartz et al.,

1997). De même, la description acoustique des sons du langage tente de présenter un panorama de valeurs

permettant de distinguer l'ensemble des sons. Nous tenterons, dans ce chapitre, de dresser un inventaire des

descriptions acoustiques des sons du français en les reliant avec une explication articulatoire.

II. L'acoustique des sons

Il est classique de distinguer les voyelles des consonnes selon des critères articulatoires: la production des

voyelles suppose une libre circulation de l'air dans le tractus vocal, tandis que lors de la production des

consonnes, un rétrécissement du tractus en un point entraîne une interruption ou une perturbation dans la

circulation de l'air. Cette distinction de bas niveau reflète mal cette différence fondamentale entre les sons du

langage. En effet, en s'appuyant uniquement sur des critères articulatoires ou acoustiques, la différence entre une

occlusive et une approximante et sans doute plus importante que la différence entre cette même approximante et

une voyelle. Il apparaît en fait que la distinction la plus probante entre les voyelles et les consonnes et de nature

linguistique: les voyelles et les consonnes se distinguent selon leur place dans la syllabe, les voyelles peuvent

être le noyau (centre de la syllabe et seul élément indispensable pour une syllabe), ce que les consonnes, à de

rares exception près, ne peuvent pas (voir Chapitre 14).

Si les voyelles représentent un ensemble de production plutôt homogène, il n'en va pas de même pour la

catégorie des consonnes constituées de classes de sons assez différents aussi bien d'un point de vue articulatoire

qu'acoustique. On parle alors souvent de macro-classes de sons (Rossi, 1990) pour essayer de rendre compte de

groupes de sons homogènes du point de vue acoustique. Si la classe des voyelles est homogène, il est classique

de distinguer les voyelles fermées des voyelles ouvertes, et les voyelles antérieures des postérieures. Au sein des

consonnes, deux macro-classes sont elles mêmes assez homogènes, il s'agit des occlusives et des fricatives. Reste

ensuite un ensemble de sons, ayant peu de points communs, faisant office d'intermédiaire entre consonnes et

voyelles que l'on peut regrouper dans la macro-classe des consonnes vocaliques. Dans cette macro-classe, on

trouve les approximantes, les glissantes, les vibrantes, etc.

Nous allons voir ci-dessous plus en détails les caractéristiques de l'ensemble de ces sons. Pour une description

générale de l'acoustique des sons, voir les chapitres 6 et 8.

1. Les voyelles

Toutes les voyelles sont voisées, c'est-à-dire qu'il s'agit de sons périodiques (voir chapitre 6). Cette périodicité

est issue de la vibration des cordes vocales. Les voyelles sont caractérisées par la présence de zones

hal-0

0250

272,

ver

sion

1 -

11 F

eb 2

008

d'harmoniques renforcées appelées "formants" (voir chapitre 8). La configuration des cavités bucco-pharyngales

étant différente pour chaque voyelle, chacune d'elle va être caractérisée par des valeurs de formants différentes.

En d'autre termes, la modulation de la forme du tractus, et donc de la taille des cavités, va occasionner des

valeurs spécifiques de formant correspondant à la forme que prend le tractus vocal pour chaque voyelle. Il existe

un lien entre la taille d'un résonateur (cavités du tractus dans la parole) et sa fréquence: plus la taille du

résonateur et importante, plus sa fréquence est basse. Les valeurs de formants vont donc, en partie, dépendre de

la taille des cavités des résonances durant la production des voyelles.

Pour les voyelles, trois cavités sont pertinentes: les cavités pharyngale, buccale, et nasale. Quatre dimensions

permettent de modifier la forme ou l'accès à ces cavités: 1/ le degré d'aperture de la mandibule; 2/ la position de

la langue; 3/ la position des lèvres; 4/ la position du velum (autorisant ou non le passage de l'air dans les fosses

nasales). Les variations au sein de ces quatre dimensions entraînent des variations de timbres (valeurs de

formants). Dans d'autres langues, la durée ou encore la valeur tonale (variations de F0) vont constituer des

dimensions supplémentaires permettant la distinctivité au sein du système.

Le premier formant est déterminé par le degré d'aperture de la mandibule (et de la hauteur de la langue). Le

deuxième formant varie en fonction de la position avant ou arrière de la langue, mais aussi en fonction de la

position étirée ou arrondie des lèvres. Enfin, les valeurs du troisième formant sont déterminées par la position

étirée ou arrondie des lèvres. Notons que la voyelle //, présente en français mais avec un statut phonologique

très particulier, présente des caractéristique articulatoire totalement neutre et ne sera donc pas mentionnée dans

nos descriptions. F1 F2 F3

i 308 2064 2976 y 300 1750 2120 vo

y.

ferm

ées

u 315 764 2027 e 365 1961 2644 381 1417 2235

voy.

mi-

ferm

ées

o 383 793 2283 530 1718 2558

517 1391 2379

voy.

mi-

ouve

rtes

531 998 2399 voy.ouv. a 684 1256 2503

Tableau 1: valeurs formantiques moyennes des voyelles orales du français (d'après Tubach, 1989)

a. L'aperture

L'aperture de la mandibule ne fonctionne pas de façon isolée. Elle entraîne, de fait, un abaissement de la langue

ainsi qu'un rétrécissement de la taille du pharynx. On oppose ainsi les voyelles ouvertes (ou basse) caractérisées

par une aperture maximale de la mandibule et un abaissement de la langue (entraînant une très petite cavité

pharyngale) aux voyelles fermées (ou hautes) caractérisées par une aperture très réduite de la mandibule et la

langue en position haute (laissant place à une grande cavité pharyngale). Ainsi, les voyelles ouvertes sont

caractérisées par un F1 élevé (/a/ = 700 Hz), tandis que les voyelles fermées ont un F1 bas (/i/ = 300 Hz) (voir

hal-0

0250

272,

ver

sion

1 -

11 F

eb 2

008

tableau 1 et figure 3). Les voyelles ouvertes sont /a/ et //, //. Les voyelles mi-ouvertes sont //, //, //, //, //,

//. Les voyelles mi-fermées sont /e/, //, /o/. Les voyelles fermées sont /i/, /y/, /u/.

Figure 3: valeurs formantiques des voyelles a, i, u (en haut) et coupe sagittale du tractus vocal (en bas) avec les différentes

positions de la langue pour la production de ces trois voyelles, les plus distinctes du point de vue articulatoire.

b. La position de la langue

Le mouvement de la langue en position avant ou arrière entraîne une modification globale du tractus vocal et

plus précisément de la taille de la cavité buccale. Ce mouvement a une incidence sur la valeur du deuxième

formant (figure 3). Les voyelles antérieures sont caractérisées par un F2 élevé (/i/ = 2000 Hz), tandis que les

voyelles postérieures laissent place à une cavité buccale plus ample et ont un F2 bas (/u/ = 750 Hz). Les voyelles

d'avant sont /i/, /y/, /e/, //, //, //, /a/, //, //. Les voyelles d'arrière sont /u/, /o/, //, //, //, //.

c. La position des lèvres

Certaines voyelles sont réalisées avec une projection des lèvres en avant. On parle alors d'"arrondissement des

lèvres", de "projection des lèvres" ou encore de "protrusion". Ce geste articulatoire a pour conséquence

l'allongement de la cavité buccale par la création d'une petite cavité, la cavité labiale. Cet allongement

occasionnel du conduit vocal entraîne un abaissement du deuxième et du troisième formant (F2 et F3). Ainsi, la

seule différence articulatoire entre /i/ et /y/, qui sont toutes les deux des voyelles fermées antérieures, est

l'arrondissement des lèvres pour la production de /y/. Le F3 de /y/ (2100 Hz) est alors plus bas que celui de /i/

(3000 Hz). Il en va de même pour le F2 (/y/ = 1750 Hz; /i/ = 2050 Hz). Les voyelles arrondies sont /y/, /u/, //,

/o/, //, //, //, //. Les voyelles non-arrondies (étirées) sont /i/, /e/, //, /a/, //, //, //.

d. La nasalité

Les voyelles nasales présentes des caractéristiques plus complexes concernant leur description acoustique. Lors

de la production des voyelles nasales, le voile du palais s'abaisse laissant le flux d'air accéder aux fosses nasales.

Les fosses nasales entrent donc en communication avec le conduit oral. Le couplage acoustique de ces cavités

donne lieu à un formant supplémentaire, nommé formant nasal (vers 500 Hz – 700 Hz) ainsi qu'à des "anti-

formants", autrement dit, des zones où l'on observe une forte chute de l'intensité des harmoniques. Par ailleurs

une modification des valeurs formantiques des voyelles orales correspondantes est observée. Les voyelles

nasales sont //, //, //, //. Les voyelles non-arrondies (étirées) sont /i/, /y/, /u/, /e/, //, /o/, //, //, //, /a/, //.

hal-0

0250

272,

ver

sion

1 -

11 F

eb 2

008

2. Les consonnes

Les consonnes peuvent être périodiques ou apériodiques1. Par rapport aux voyelles, elles sont produites avec un

resserrement du conduit vocal. Les consonnes constituent en ensemble de sons très hétérogène aussi bien du

point de vue articulatoire qu'acoustique. Le type de resserrement réalisé va permettre de distinguer les macro-

classes de consonnes. D'une certaine façon les deux macro-classes occlusives et fricatives sont des sous-

ensembles homogènes et organisés. Nous regroupons les autres types de consonnes dans la catégorie des

consonnes vocaliques en raison de la présence d'une structure de formant dans leur réalisation acoustique.

Toutefois, cette catégorie est constituée de sons très différents d'un point de vue articulatoire.

En acoustique, trois grandes classes sont donc distinguées: 1/ pour les occlusives (ou plosives), le conduit

phonatoire est fermée durant une partie de l'émission de la consonnes; 2/ pour les fricatives (ou constrictives), le

resserrement est important et donne lieu à un bruit turbulent; 3/ les consonnes vocaliques présentent un

rétrécissement ponctuel et/ou peu important du conduit vocal. Ce faible rétrécissement permet la présence d'une

structure formantique visible pour ces consonnes.

a. Les occlusives

On distingue généralement les occlusives orales des occlusives nasales. Effectivement, d'un point de vue

articulatoire les occlusives se caractérisent par la fermeture complète du conduit oral. Toutefois pour les nasales

le voile du palais est abaissé. L'occlusion devient alors relative puisque l'air passe par les cavités nasales qui

entrent en résonance donnant lieu à une structure de formant. Sur le simple critère de l'analyse acoustique, les

occlusives nasales devraient être classées parmi les consonnes vocaliques (Meunier, 1993). Pour cette raison,

nous décrirons les nasales plus bas dans la partie "3. Les Consonnes vocaliques".

Les occlusives orales sont constituées de deux événements temporels. D'abord une tenue, durée pendant laquelle

l'occlusion est maintenue, puis un relâchement de l'occlusion. Ces deux événements donnent lieu à une trace

acoustique différente selon que l'occlusive est périodique ou apériodique. Pour ces dernières, le conduit vocal

étant totalement fermé, ces consonnes sont caractérisées par un silence durant toute la durée de l'occlusion. A la

fin de l'occlusion, le contact de l'occlusion (lèvres, palais ou autre) est brutalement relâché donnant lieu à un

bruit d'explosion dont la fréquence est caractéristique de la consonne. Il en va de même pour les occlusives

périodiques à la différence près que la vibration des cordes vocales donne lieu à une onde sonore (remplaçant le

silence des occlusives apériodiques et visible sur un spectrogramme sous la forme d'une "barre de voisement")

dont la fréquence est celle de la Fréquence Fondamentale (F0) (figure 4). Les caractéristiques de la barre de

voisement ont une grande importance d'un point de vue perceptif. Le Voice Onset Time (V.O.T.) est le temps

d'établissement du voisement, mesuré à partir de la barre d'explosion (Serniclaes, 1984). En français, les

occlusives sourdes ont un V.O.T. positif (le voisement s'installe après l'explosion), alors que les sonores ont un

V.O.T. négatif (l'établissement du voisement précède l'explosion). Ce n'est pas le cas dans toutes les langues

(Lisker et Abramson, 1964). Les occlusives périodiques sont généralement plus courtes que les occlusives 1 La périodicité ou l'apériodicité des sons du langage fait référence, respectivement, à la vibration ou l'absence de vibration des cordes vocales. On trouve également les termes voisé/non voisé ou sonore/sourd. On lit parfois dans des ouvrages que les consonnes sont des sons apériodiques. Toutefois, à partir du moment où une source sonore est présente, on observe, sur le signal de parole, une onde périodique à laquelle peut-être ajoutée une source bruitée. Nous considérons que ces signaux sont périodiques.

hal-0

0250

272,

ver

sion

1 -

11 F

eb 2

008

apériodiques. Leur bruit d'explosion est également de moindre intensité que celui de leur équivalente sourde. Les

occlusives orales apériodiques sont /p/, /t/, /k/. Les occlusives orales périodiques sont /b/, /d/, /g/.

Figure 4: signal temporel (en haut) et spectrographique (en bas) des séquences /apa/ (à gauche) et /aba/ (à droite). On

observe la barre de voisement permettant de distinguer le /b/ du /p/.

Les occlusives se distinguent également en fonction de leur lieu d'articulation, autrement dit du lieu où est

effectué la fermeture du conduit vocal (figure 5). Il existe trois lieux d'articulation pour les occlusives en

français: les bilabiales (les deux lèvres viennent en contact), les alvéolaires (l'apex de la langue vient obturer le

conduit oral en se plaçant sur les alvéoles, c'est à dire, juste derrière les dents supérieures), les vélaires (le dos de

la langue vient en contact du velum, c'est à dire la partie molle et postérieure du palais). Les caractéristiques

acoustiques qui permettent de différencier ces trois types d'occlusives portent a priori sur une durée très brève (5

à 30 ms), le bruit d'explosion. En effet, la tenue est constituée soit d'un silence, soit d'une onde non

caractéristique du lieu d'articulation de la consonne produite. La fréquence, la durée et l'énergie du bruit

d'explosion sont typiques de la consonne produite. Les bilabiales ont un bruit d'explosion de très faible énergie

(parfois même non identifiable), court et de basse fréquence. Les alvéolaires produisent un bruit intense, court et

plutôt de haute fréquence. Enfin, les vélaires ont un bruit intense, long et dont la fréquence dépend étroitement

de la voyelle suivante. En effet, la fréquence du bruit dépend de la taille de la cavité antérieure au lieu

d'occlusion, et, pour les vélaires, le lieu d'occlusion va légèrement se déplacer suivant que la voyelle suivante est

une voyelle antérieure (/i/) ou postérieure (/u/), ceci en raison de la coarticulation (voir plus loin dans ce

chapitre). Toutefois, on considère généralement que les traces acoustiques les plus saillantes pour l'identification

du lieu d'articulation des occlusives ne sont pas interne au segment consonantique, mais dans les "pentes de

transition" des voyelles (voir chapitre 8, figure 8). Les transitions sont les variations fréquentielles (sous forme

de pente) des formants de la voyelle au contact de la consonne. Le type de pente (montant, descendant ou plat)

va dépendre du lieu d'articulation de l'occlusive ainsi que du type de voyelle produite. Les occlusives bilabiales

sont /p/ et /b/. Les occlusives alvéolaires sont /t/ et /d/. Les occlusives vélaires sont /k/ et /g/.

hal-0

0250

272,

ver

sion

1 -

11 F

eb 2

008

Figure 5: coupe sagittale du tractus vocal et localisation des lieux d'articulation et articulateurs utilisés pour la description

des sons des langues du monde.

b. Les fricatives

Les consonnes fricatives sont caractérisées par la présence d'un bruit turbulent durant toute leur tenue. Ce bruit

est issu d'un resserrement important, mais pas total du tractus vocal. Les fricatives peuvent être apériodiques ou

périodiques. Dans ce deuxième cas, le bruit se superpose à une onde sinusoïdale caractéristique de la fréquence

fondamentale (figure 6). Tout comme les occlusives, les fricatives sonores sont plus brèves que les fricatives

sourdes. De même, on note une intensité globale du bruit plus faible pour les sonores en raison de la vibration

des cordes vocales qui diminue la pression supra glottique. Les fricatives apériodiques sont /f/, /s/, //. Les

fricatives périodiques sont /v/, /z/, //

Figure 6: signal temporel (en haut) et spectrographique (en bas) des séquences /aa/ (à gauche) et /aa/ (à droite). On

constate le voisement bruité de la fricative //. A noter également la durée plus courte et l'intensité plus faible de la fricative sonore.

La fréquence et l'intensité du bruit de friction dépendent du lieu d'articulation de la consonne, c'est-à-dire de

l'endroit du conduit où le passage de l'air est le plus étroit. Il existe trois lieux d'articulation en français pour les

fricatives: l'espace entre la lèvre inférieure et les incisives supérieures (labio-dentales), l'espace entre la langue et

les alvéoles (les alvéolaires) et l'espace entre la langue et le palais dur (les palatales). Notons que pour les

alvéolaires et les palatales, la langue entre en contact avec le lieu d'articulation, mais uniquement sur les parties

latérales, laissant passer l'air au milieu. Le lieu de resserrement donne à la cavité buccale une configuration

particulière qui détermine la fréquence du bruit. Le bruit des labiodentales est de faible intensité (c'est d'ailleurs

leur principale caractéristique), il présente des pics diffus vers 3, 5 et 8 kHz. Celui des alvéolaires, plus intense,

hal-0

0250

272,

ver

sion

1 -

11 F

eb 2

008

et se situe entre 4 et 8 kHz avec des pics autour de 5 kHz et 8 kHz. Enfin pour les palatales le bruit de turbulence

se situe entre 2 et 7 kHz avec un pic diffus dont la moyenne se trouve autour de 4 kHz. Les fricatives labio-

dentales sont /f/, /v/. Les fricatives alvéolaires sont /s/, /z/. Les fricatives palatales sont //, //.

c. Les consonnes vocaliques

L'appellation "Consonnes vocaliques" est peu répandue. Certains auteurs utilisent les termes "Consonnes

sonantes" ou d'autres ne regroupent pas ces consonnes dans une seule classe mais détaillent chaque type. Nous

avons choisi d'utiliser ces termes car ils reflètent à la fois l'aspect consonantique (rétrécissement du tractus) et

vocalique (structure de formant) de ces consonnes. D'une certaines façon, il s'agit de sons intermédiaires plutôt

considérés comme des consonnes en raison de la place qu'ils occupent dans la syllabe (attaque ou coda, voir

chapitre 14).

Cette catégorie est bien plus complexe à décrire que les autres catégories de consonnes. Elle est en fait constituée

d'éléments très divers. On distingue les approximantes latérales, les vibrantes, les nasales et les glissantes. Ces

types de consonnes ont peu de caractéristiques communes, si ce n'est le rétrécissement partiel ou transitoire du

tractus vocal qui permet l'apparition de structure de formants moins stables et moins intenses que ceux des

voyelles. Même si chacune de ces consonnes possède des structures formantiques spécifiques, les fréquences des

formants sont relatives aux consonnes et voyelles adjacentes.

Il existe une approximante en français, la latérale /l/. Les approximantes présentent un rétrécissement du tractus

vocal, mais moins important que celui des fricatives. Ce faible rétrécissement, intermédiaire entre l'articulation

vocalique et consonantique, ne génère pas de bruit. Le lieu d'articulation de /l/ est situé sur l'avant du palais:

l'apex de la langue va se positionner sur les alvéoles, laissant passer l'air sur l'un ou les deux côtés de la langue,

d'où son nom de latérale. Le premier formant est autour de 300 Hz tandis que le deuxième formant est fonction

des voyelles adjacentes (figure 8).

Tout comme pour l'approximante, il n'existe qu'une vibrante (ou trill en anglais) en français, il s'agit du /r/. La

consonne /r/ a un statut tout à fait particulier car c'est le son du français le plus multiforme. Il prend en effet des

aspects extrêmement variés en fonction du contexte phonétique dans lequel il se trouve. Traditionnellement

considéré comme une vibrante en français, il est, en fait, rarement réalisé ainsi. Une vibrante est une consonne

pour laquelle la langue va entrer en battements le plus souvent multiples au niveau du lieu d'articulation

(alvéolaire ou uvulaire). La vibrante alvéolaire /r/ ("r roulé") n'est présente que dans certains accents régionaux et

tend à disparaître. Le lieu d'articulation du 'r' le plus fréquent en français est uvulaire (donc le son le plus

postérieur du français). Il est réalisé vibrant (// dans le tableau de l'IPA) uniquement en groupe consonantique

lorsqu'il est précédé d'une occlusive ou d'une fricative sonore (figure 7). Ce // est alors constitué de trois parties:

une partie voyelle suivie d'une partie battue suivie elle-même d'une autre partie voyelle (pour une description

complète voir Meunier, 1994). En revanche, on observe une réalisation fricative // dans les groupes

consonantiques où les occlusives ou fricatives sont sourdes. Dans ce dernier cas, le // est totalement dévoisé

(assimilation de voisement avec la consonne qui précède) et prend le statut d'un consonne fricative (figure 7).

hal-0

0250

272,

ver

sion

1 -

11 F

eb 2

008

Enfin, en contexte intervocalique, le 'r' est en général réalisé comme une approximante: il n'y a pas de pas de

battement et ce n'est pas une fricative. Le lieu d'articulation reste uvulaire dans tous les cas.

Figure 7: signal temporel (en haut) et spectrographique (en bas) des séquences /da/ (à gauche) et /ta/ (à droite). On observe la partie vocalique puis battue (chute d'intensité) du // dans la séquence voisée /da/. En revanche, dans la

séquence dévoisée /ta/, le // est totalement dévoisé et fricatif.

Nous avions mentionné les consonnes nasales dans la partie relative aux occlusives en raison de l'obstruction

complète du conduit oral. De ce fait, ces consonnes sont souvent considérées comme des occlusives. Il existe

deux consonnes nasales en français: /m/ et /n/2. D'un point de vue articulatoire, elles sont totalement comparables

aux occlusives orales si ce n'est que l'abaissement du velum autorise la sortie de l'air par les fosses nasales. Ainsi,

/m/ est une bilabiale. Son articulation est identique à celle de /p/ et /b/ excepté l'abaissement du voile du palais.

De même, /n/ est une alvéolaire comme /t/ et /d/. Les formants de /m/ sont plus graves que ceux de /n/. Comme

pour les voyelles nasales, on note pour ces consonnes la présence d'anti-formants dus au couplage des cavités

orale et nasale (figure 8).

Figure 8: signal spectrographique des séquences /ama/, /ala/ et /aja/.On note la faible intensité des formants des consonnes

vocaliques comparés à ceux des voyelles. On observe également l'aspect totalement continu des variations formantiques de la glissante /j/.

Les glissantes (ou glides an anglais) sont par excellence des éléments phonétiques intermédiaires entre

consonnes et voyelles. Certains auteurs les font appartenir à la classe des approximantes. Elles sont, de ce fait, 2 Deux autres nasales sont souvent mentionnées. Il s'agit de // et de //. Elles sont constituées chacune de deux éléments consonantiques, /n/ + /j/ (pour //) et /n/ + /g/ (pour //). Leur rareté (fortement conditionnée par le lexique) ainsi que leur statut phonologique peu cohérent avec les autres consonnes nous amène à considérer qu'il s'agit, en français, de groupes de consonnes plutôt que de consonnes simples.

hal-0

0250

272,

ver

sion

1 -

11 F

eb 2

008

également appelées semi-voyelles ou semi-consonnes. Elles sont au nombre de trois en français: /j/, // et /w/.

Leur articulation se fait en référence à l'articulation des trois voyelles fermées: /i/ pour /j/ (palatale), /y/ pour //

(labio-palatale) et /u/ pour /w/ (labio-vélaire)3. Les glissantes sont caractérisées par une structure formantique

faible, instable, en variation constante et donc sans partie stable, à la différence des voyelles. Cette instabilité

s'explique par un resserrement des articulateurs plus importants pour les glissantes ainsi que par une articulation

en mouvement. Leur caractère transitoire et vocalique fait qu'il est impossible de distinguer avec assurance la fin

d'une glissante du début de la voyelle qui suit (figure 8).

III. Prototypes acoustiques et réalités de la parole L'ensemble des descriptions que nous avons proposé ci-dessus représentent des prototypes des sons du français.

En d'autres termes, il s'agit de descriptions obtenues à partir de productions très contrôlées (appelées "parole de

laboratoire") auprès de groupes de populations homogènes. Pourquoi est-il nécessaire de contrôler les

productions de parole pour obtenir des prototypes acoustiques stables? Dans la parole conversationnelle

classique, les sources de variation de la parole sont nombreuses et leur impact sur les réalisations phonétiques

peut être de nature à changer considérablement les valeurs prototypiques des sons décrits. En quelque sorte,

l'objectif de la description des sons étant la distinctivité, il est nécessaire, pour augmenter cette distinctivité, de

réduire les sources de variation. Toutefois, pour éviter de donner dans ce chapitre l'impression que tout écart par

rapport à ces prototypes est déviant, ce qui serait erroné, nous nous proposons d'évoquer rapidement quelques

sources de variations normales de la parole.

1. Enchaînements articulatoires et coarticulation

Parmi les différents facteurs qui occasionnent la variabilité des sons de la parole, celui qui a probablement donné

lieu au plus grand nombre d’études est la coarticulation. Elle peut être décrite comme le chevauchement et

l’interaction des différents articulateurs au cours de la production de segments phonétiques successifs (Farnetani,

1997). La vitesse de production des sons de la parole (12 sons par secondes, donc environ 700 sons par minutes)

a pour conséquence que les gestes articulatoires ne peuvent être produits indépendamment les uns des autres. Ils

sont donc souvent soient anticipés, soit persistants. Par exemple, lors de la réalisation du mot « sous » (/su/), la

configuration du conduit vocal présente, dès le début de la fricative, les caractéristiques du trait d’arrondissement

de la voyelle /u/ dont l’articulation est anticipée, alors que dans la production de /si/, les lèvres sont en position

étirées au début de l'articulation du /s/. Ces deux configurations donnent des résultats acoustiques très différents:

l'arrondissement des lèvres durant la réalisation du /s/ dans /su/ augmente la taille de la cavité buccale; la

fréquence du bruit de /s/ dans /su/ est donc plus grave que celui de /si/. Dans ce cas, on observe donc un décalage

par rapport aux valeurs prototypiques. Cet exemple n'est pas isolé. La production de la parole implique la

présence systématique de ce type de configuration. Le cas de la coarticulation est inhérent à la production de la

parole. C'est pourquoi, la prise en compte des variations dues à la coarticulation est désormais incontournable

dans les descriptions de la parole. Ces chevauchements systématiques des gestes articulatoires trouvent un cadre

3 La terminologie emprunté à la description des consonnes trouve son équivalent pour les voyelles de cette façon: palatale = antérieur; vélaire = postérieur; labio = arrondi.

hal-0

0250

272,

ver

sion

1 -

11 F

eb 2

008

privilégié au sein de la syllabe (voir chapitre 14). Toutefois, des travaux récents ont pu montré des phénomènes

d'anticipation ou de persistance dans des unités dépassant largement le cadre de la syllabe.

2. Caractéristiques du locuteur L’anatomie du conduit vocal, qui change selon le sexe et l’âge, est à l’origine d’une autre forme de variation

totalement inhérente à la production de la parole. La hauteur de la voix est le paramètre le plus apparemment

affecté par l’âge ou le sexe des locuteurs. Si la fréquence fondamentale (F0) des enfants de deux ans est autour

de 400 Hz, elle baisse continuellement pour se stabiliser après la puberté entre 200 Hz et 250 Hz pour les

femmes tandis que celle des hommes se situe entre 100 Hz et 150 Hz. Si chaque auditeur est capable d’identifier

le sexe du locuteur d’après la hauteur de la voix, il lui sera beaucoup plus difficile de prendre conscience que les

hommes et les femmes produisent des voyelles dont les valeurs acoustiques sont différentes. Pourtant, ces

variations, dues aux tailles des résonateurs (plus larges pour les hommes), sont bien réelles et engendrent des

valeurs de formant plus élevées pour les femmes (Tubach, 1989). Ainsi, alors que les trois formants de /e/ pour

un homme sont en moyenne de 365 Hz, 1961 Hz et 2644 Hz (voir tableau 1), ils augmentent pour une femme à

417 Hz, 2351 Hz et 3128 Hz en raison de la taille réduite des différentes cavités.

Indépendamment des caractéristiques anatomiques des locuteurs, il existe également des variations dues à la

spécificité de chaque locuteur, son origine géographique, ses caractéristiques sociales, etc. Par exemple, les

locuteurs du nord-est de la France produisent des /a/ (//) plus postérieurs que ceux de la moyenne des français.

3. Type de parole

On oppose depuis quelques années la parole de laboratoire à la parole "naturelle" ou "spontanée". L’analyse de la

parole produite dans des conditions réelles est relativement récente. Une des raisons majeures de cette

marginalité est la très forte variabilité des sons produits en parole spontanée, non contrôlée, mais aussi

l’identification délicate des sources de variations qui affectent le signal. Les réalisations des unités phonétiques

sont ainsi très éloignées de leurs valeurs prototypiques. Dans une étude portant sur la réalisation et la perception

des occlusives du français, Duez (1995) montre qu’en parole spontanée seulement la moitié des consonnes sont

identifiées correctement. Parler est une adaptation constante aux situations de communication (Lindblom, 1990).

L'articulation peut être soutenue si la situation le demande (contexte peu informatif, milieu bruité, etc.) ou

relâchée si la situation est peu ambiguë. Plusieurs travaux (Lindblöm, 1963, Gendrot et Adda-Decker, 2006) ont

ainsi pu montrer que, plus le débit de parole augmente, moins les cibles articulatoires sont atteintes. De même,

l'articulation des voyelles tend à se réduire en même temps que la production de la parole est contextualisé

(Meunier, 2006). Le triangle caractéristique de la représentation acoustique des voyelles montre que les voyelles

sont produites en périphérie lorsqu'elles sont prononcées isolément, tandis qu'elles se centralisent lorsqu'elles

sont produites dans un texte lu (figure 9). Cela signifie que l'articulation des voyelles en lecture de texte tend

vers une voyelle centrale //, pour laquelle les gestes articulatoires sont les plus neutres. En conséquence, la

parole très contrôlée (celle qui permet de fournir des mesures prototypiques) est caractérisée par une

hyperarticulation, alors que la parole contextualisée est sous-articulée.

hal-0

0250

272,

ver

sion

1 -

11 F

eb 2

008

Figure 9: réalisations acoustiques des voyelles /i/, /e/, /a/, /o/, /u/ prononcées isolément (à gauche) et dans un texte. On

observe la réduction considérable de la taille globale du système vocalique; les valeurs moyennes de formants observées en lecture de texte sont très éloignées des valeurs prototypiques (Meunier, 2006).

IV. Conclusion

Nous avons cherché, dans ce chapitre, à dresser un portrait des réalisations acoustiques des sons du français. Ce

portrait n'est pas toujours simple étant donnée la complexité de l'organisation des sons dans une langue. Si

certaines classes de sons semblent former un système articulatoire et acoustique organisé en français (les

voyelles, les occlusives, les fricatives), d'autres sons semblent plus isolés et n'entrent pas dans l'organisation d'un

système de traits aussi régulier. D'une certaine façon, il existe des sons très ouverts (les voyelles) et d'autres très

fermés (les occlusives et les fricatives). Entre les deux, les réalisations articulatoires semblent plus mouvantes et

moins simples à expliciter.

Nous insistons sur le fait que les réalisations acoustiques des sons d'une langue sont des phénomènes bien plus

mouvants qu'une simple description pourrait le laisser penser. La production des sons est une composante de

l'organisation plus générale de la production du langage. Cette organisation suppose des interactions complexes

entre les différents niveaux linguistiques ainsi que des contraintes cognitives mettant en relation un locuteur avec

un (ou des) auditeurs (voir chapitre 14). Aussi, la présentation de valeurs acoustiques prototypiques ne représente

que la partie émergente de l'iceberg des productions sonores du langage en condition normale. Cette partie

émergente est celle qui apparaît lorsque l'on isole la production des sons du contexte linguistique.

Références

Duez D. On spontaneous French speech : Aspects of the reduction and contextual assimilation of voiced stops .

Journal of Phonetics 1995, 23, 4 : 407-427.

Farnetani E. Coarticulation and connected speech. In Handbook of Phonetic Sciences, Hardcastle WJ. & Laver J.

eds. Blackwell. Oxford. 1997, pp 371-404.

Gendrot C, Adda-Decker M. Analyses formantiques automatiques en français: périphéralité des voyelles orales

en fonction de la position prosodique. Actes des 26èmes Journées d'études sur la Parole, Dinard, Juin 2006 :

407-410

International Phonetic Association (1999) Handbook of the International Phonetic Association. A Guide to the

Use of the International Phonetic Alphabet. Cambridge University Press. Cambridge.

hal-0

0250

272,

ver

sion

1 -

11 F

eb 2

008

Lindblom B. Spectrographic study of vowel reduction. Journal of the Acoustical Society of America 1963, 35

: 1773-1781.

Lindblom B. Explaining phonetic variation : a sketch of the hyper- and hypospeech theory. In Hardcastle WJ,

Marchal A. Speech Production and Speech Modelling. Kluwer Academic Publishers. 1990, pp 403-439.

Lisker L, Abramson AS. A cross-language study of voicing in initial stops: acoustical measurements. Word

1964, 20 : 384-422.

Meunier C. (1994). Les groupes de consonnes : problématique de la segmentation et variabilité acoustique.

Thèse de l'Université de Provence. Aix-en-provence.

Meunier C, Espesser R, Frenck-Mestre C. Aspects phonologique et dynamique de la distinctivité au sein des

systèmes vocaliques: une étude inter-langue. Actes des 26èmes Journées d'études sur la Parole, Dinard, Juin

2006 : 333-336.

Rossi M. Segmentation automatique de la parole. Pourquoi? Quel segments?. Traitement du signal 1990, 7, 4 :

315-326

Schwartz JL, Boë LJ, Vallée N. Major trends in vowel system inventories. Journal of Phonetics 1997, 25 : 233-

253.

Serniclaes W. (1987). Étude expérimentale de la perception du trait de voisement des occlusives du français.

Thèse l'Université Libre de Bruxelles. Bruxelles.

Tubach JP. (1989). La parole et son traitement automatique. Masson. Paris.

hal-0

0250

272,

ver

sion

1 -

11 F

eb 2

008

1

Denes et Pinson 1963 : 4

Phonétique articulatoire

Kent 1997 : 57

2

Clas 1983 : 35

3

Kent 1997 : 103 Kent 1997 : 103

4

Schäffler et Menche 2004 : 307

Schäffler et Menche 2004 : 309

5

Développement du contrôle moteur

Mackenzie Beck 1997 : 268

Mackenzie Beck 1997 : 279

6

MacNeilage 1997 : 314