E tablissement et relance des conseils consultatifs étudiants
par des étudiants anglicistes : l’actionnel etreaux...Contemporary English, Cambridge...
Transcript of par des étudiants anglicistes : l’actionnel etreaux...Contemporary English, Cambridge...
Collecte et Analyse de corpus d’apprenants
par des étudiants anglicistes : l’actionnel et le réflexif en interaction
Pascale Goutéraux, CLILLAC-ARP, Université Paris-Diderot
Atelier ARDAA, SAES Lyon, 2 juin 2016
Présentation
Problématique et hypothèse de départ
Le travail sur corpus dans le cadre du séminaire
Psycholinguistics and SLA (M1) à Paris-Diderot
Cadrage théorique: processus d’appropriation interactif
Travailler sur des corpus natifs
Utiliser et construire des corpus d’apprenants: les enjeux
Etude sur 4 ans: résultats et work-in-progress
Conclusion
Questionnements
Problématique: Dans quelle mesure l’analyse, la collecte,
et la présentation de corpus d’apprenants par des
anglicistes avancés (niveau C1 du CECRL) contribue-t-elle
à améliorer leurs compétences cognitives et langagières ?
Hypothèse de départ: la construction et l’analyse de
corpus favorise l’apprentissage en complétant le processus
hypothético-déductif dominant (cours magistraux, exposés
par des étudiants) par un processus inductif personnalisé
qui favorise l’émergence de la réflexion à partir de
données langagières authentiques (démarche maïeutique,
Bailly, 1998)
Séminaire Psycholinguistics and SLA (2012 - 2015)
Les acteurs
Par année, 25 à 30 étudiants (linguistique anglaise ou générale, littérature,
civilisation, Master Aspect ENS Cachan, traduction littéraire, joint Master, Erasmus
et Master MEEF ou enseignement)
Néophytes: pas ou peu de travail sur corpus et analyse statistique (2/27 en 2015-16)
Le contenu du séminaire
Thématiques psycholinguistiques: bilinguisme et multilinguisme, appropriation L1 et
L2, complexité, exactitude et fluidité (Ellis & Barkhuisen, 2005, Housen & Kuiken,
2009), interlangue, transfert et interférence, techniques de conscientisation et
Focus-on-Form.
Workshop: familiarisation avec des corpus natifs et non-natifs existants et quelques outils (Wordsmith, Antconc, Textstats, etc.) et des méthodes d’analyse simples:
concordances, mots-clés, listes de fréquences, Type-Token Ratio, réflexion sur les
paramètres pour choisir ou construire des corpus
Organisation des travaux personnels sur corpus
Les consignes de tâche privilégient la dimension collaborative (binôme)
pour susciter un étayage mutuel des compétences langagières,
technologiques et statistiques.
Les étudiants présentent en anglais aux participants du séminaire leur
méthodologie, résultats et analyse qui s’appuie sur des lectures théoriques,
à l’aide d’un Powerpoint
puis ils répondent aux réactions et questions
Les présentations Powerpoint mises à jour par leurs auteurs sont publiées sur
la partie cours en ligne du séminaire.
Certains étudiants préfèrent une présentation individuelle ou rendre un
travail écrit sur corpus (travail parfois chronophage, intérêts divergents, lien
avec le mémoire, etc.)
Critères d’évaluation des présentations orales
Powerpoint Presentation (visibility)
Content/structure of the presentation
Relevance of the choice of corpus (corpora)
Quantitative or qualitative treatment of the data
Problems and solutions, explanations or results.
Spoken proficiency (accuracy and fluency)
Communicative stance and ability to answer questions
Cadrage théorique: interaction inductive et déductive dans
les processus d’apprentissage
L1: modèle interactif ascendant et descendant avec boucles rétroactives entre les schémas
ou scripts de haut niveau et les unités ou micro-savoirs de bas niveau dans la construction de
savoirs déclaratifs et procéduraux.
L2: la situation d’apprentissage (en milieu institutionnel) modifie les paramètres de l’acquisition
spontanée où les règles procédurales implicites gouvernent la communication.
La démarche inductive nécessite l’association à des fonctionnements explicites, de la règle ou
du concept à l’exemple (Meunier, 2002). Grâce aux savoirs explicites transmis par l’enseignant
ou des pairs plus experts l’apprenant confronte les régulations qu’il a construites aux règles de
la langue naturelle (Bresson, 1970).
Démarche heuristique depuis les années 1970 en France (Aden, Bailly, Cain, Chini, Deyrich,
Goutéraux, Moulin, Voise, etc.): faire réfléchir les apprenants sur des questions linguistiques et
interculturelles à partir de textes et d’exemples authentiques.
Limites d’une conscientisation qualitative: difficile de dégager des régularités systématiques et
de différencier invariables et variations à partir d’un petit nombre d’exemples, de textes, d’
enregistrements vidéo et audio.
Pourquoi utiliser des corpus natifs en acquisition de
Langue étrangère?
Les corpus électroniques natifs (COCA, BNC, MICASE) oraux ou écrits: une composante essentielle de la recherche sur l’acquisition et l’apprentissage des langues étrangères
Dictionnaires (English Oxford Dictionary) et grammaires (Longman Grammar of Spoken and Written English, 1999) d’inspiration pragmatique et empirique, privilégient les données authentiques issues de corpus langagiers.
Une approche inductive de l’apprentissage se fonde sur l’analyse de données (Data-Driven Learning Approach)
Il s’agit de compléter les méthodes scolaires par de multiples exemples authentiques pour une analyse linguistique ciblée: grammaire et phonologie mais aussi les expressions idiomatiques et collocations souvent dispersées dans les manuels.
Favoriser l’accès des apprenants à des corpus langagiers électroniques authentiques permet de dépasser le clivage entre acquisition en milieu naturel et apprentissage en milieu scolaire (Meunier, Annual Review of AppliedLinguistics, 2012)
Pourquoi utiliser des corpus d’apprenants?
Des corpus comme le Longman Learner Corpus pour élaborer des dictionnaires
ciblant les difficultés communes aux apprenants d’anglais (Longman Dictionary of
Contemporary English, Cambridge International Dictionary of English, le Longman
Dictionary of Common Errors).
Granger et collègues ont développé le concept de Contrastive Interlanguage
Analysis (CIA, 1996) afin de comparer le traitement de phénomènes linguistiques
(syntaxe, grammaire, idiomatismes, collocations) à partir de corpus électroniques
natifs et non-natifs et entre non-natifs de langues maternelles diverses.
L’usage de grands corpus d’apprenants permet de différencier les erreurs qui
relèvent d’idiosyncrasies personnelles, les erreurs communes aux apprenants de
l’anglais LE, et celles qui relèvent de l’interférence avec une langue maternelle
spécifique.
Il favorise un fonctionnement cognitif interactif et une collecte rapide et ciblée des
données pour explorer une problématique linguistique, psycholinguistique, ou
sociolinguistique.
Quelques corpus d’apprenants existants
ICLE (3 millions de mots) The International Corpus of Learner English: essais d’apprenants d’anglais de langues maternelles multiples.
LINDSEI (1 million de mots) (Louvain International Database of Spoken English Interlanguage), ; transcriptions de conversations informellesd’apprenants d’anglais de 11 langues maternelles différentes.
DIDEROT-LONGDALE (500 000 mots), corpus longitudinal interviews et conversations, enregistrements et transcriptions sur 3 ans d’étudiants français apprenants d’anglais (non publié)
FLLOC (French Learner Language Oral Corpora): enregistrements et transcriptions de conversations d’élèves et étudiants anglophonesapprenant le français
42 présentations (62 étudiants, 20 binômes)
21 corpus conversationnels, 21 corpus écrits
Multiplicité de LM
Facteurs de choix des corpus
• Intérêt pour un domaine: analyse d’erreurs, exactitude grammaticale, lexique, alternance codique, marques discursives, dysfluence.
• Intérêt pratique, mémoire (en linguistique), formation (MEEF-ENS)
• problèmes d’Iidentité linguistique (bilingues et multilingues)
Fonctionnement cognitif: top-down, bottom-
up ou interactif?
En général choix de la
problématique premier
‘We chose our topic before
selecting our corpus (phrasal
verbs) as it poses a problem for
second language learners. Since
we are in the Master MEEF
program we wanted to apply
what we learned to our teaching
practices ‘
(questionnaires 2015)
Parfois les deux fonctionnent
simultanément
Nous avons trouvé notre 1
« public cible », à savoir les
étudiants en informatique et
notre problématique est venue
en même temps (on s’est
demandé tout de suite pourquoi
ils faisaient des anglicismes).
Exemples de thématiques en 2015-16
Spoken Discourse Markers in L2 Written Productions (ICLE)
Phrasal & Prepositional Verbs (look) in ICLE (multiple L1)
Error Analysis in L2 Reading Aloud (oral corpus, French Learners)
Phonological Errors in the Diderot-Longdale Corpus (French Learners)
Metaphors, Emotion and Language Acquisition (Emphiline-Longdale, native and non-native speakers)
Code-switching by Young Bilinguals (existing corpora)
Anglicisms in Computer Science Specialists’ Speech (original corpus, French English)
Lexical Code-mixing (interviews Mechanical Engineering students (English)
L1 Interference in L2 Mental Lexicon Acquisition (Italian-English)
Recurrent Errors in English Learning (Written Lessons, 5ème, 3ème)
Choix de Corpus: existants ou construits ?
Les corpus personnels (14)
14 étudiants décident de prendre en main toutes les étapes: conception, collecte, analyse et présentation Powerpoint
Conséquences: pour les corpus oraux, le nombre de sujets enregistrés
est limité (de six à une douzaine), le corpus personnel est transversal et
se prête à une analyse qualitative.
Corpus écrits (20 à 30 productions): Les supports sont des tests
grammaticaux, essais, histoires et traces écrites. On trouve surtout des
productions d’élèves du secondaire (Master MEEF, retour de stage
CIEP), un corpus de chats, deux corpus d’essais et d’histoires écrites par des étudiants.
Erreurs en trace écrite (5ème)
Traces écrites
Analyse d’erreurs sur 30 tests (Seconde, lycée
professionnel): Intrusive –ING
‘Students tend to add the –ING ending to every verb:
* « it scaring me »
* « are you ok for watching this film? »
* « I want always watching »
This can be explained by the overuse of –ING ending in English language.
Students know the importance of this structure and tend to overuse it, even
when it is not necessary.
They don’t get the difference in meaning between the raw form of the
verb and its structure in –ING.’
Articles in use: 20 essays B2 level students
Contrary to Master’s (1997) findings:
The is underused (28%) just as much as it is overused (28%)
But…
As expected, ∅ is more overused (30%) than a (11%)
56% of errors concerned the misuse of the, which is unusual, given
that it is used in much the same way in French.
20
Conclusions de la présentatrice
Being myself a native speaker of Arabic and native-like speaker of French, I was able to perceive and pinpoint the errors due to L1 (Arabic) and L2 (French)
The L3 learners also make use of L2 words in their L3 production if the L2 and L3 are related and have a number of common cognates ( which is the case here: French and English)
we can say that 1st year University Algerian students did commit most of the semantic errors because of a negative language transfer; however, which is most striking that their biggest number of transfer errors is due to L2 (French) interference and not the mother tongue i.e. Arabic.
Etudiants L1 arabe ou kabyle, français L2 et anglais L3):
Storytelling
21
Lexical errors:
One day my friend asked about Valentine day. في يوم مناحد اصدقائيسالني, الايام
This is the first time I write one of my stories on a sheet.
C’est la première fois que j’ écris une histoire sur papier.
She couldn’t aspirate.
Elle pouvait pas respirer.
She fell ill.
Elle est tombée malade.
It was my black point in my life.
C’ était un point noir .
Transfert sémantique (Arabe, Français, Anglais)
‘Participants were 12 young people (40% boys, 60% girls) who live in France and
speak French as a first language. The other native language is Tamil. All the participants
attended a French school since the age of three.
Each subject was asked to read a paragraph written in English which uses common English
words, but contains a variety of difficult English sounds. t’s an extract from the speech of Martin
Luther King « I have a dream ». Each subject is recorded individually in a quiet room. Subjects
were allowed to look at the paragraph for a minute before reading […]
[présentation des résultats et analyse d’erreurs: phonemes, r rhotique, etc.
]
‘Conclusion: we have seen that accents can vary greatly among people of the same origin.
Therefore, we can say that accent is not only a matter of first or native language. Many factors
should be considered, such as studies, the frequency of the use of the native language... Here,
we find one person speaking English with an accent very close to a Standard British (Received
Pronunciation) accent. It’s the case of the student in English. The others lean toward a more
'vernacular', native-tinted, accent for their English speech.
Tamil and Hindi are actually syllable-timed languages, therefore participants are more
tempted to speak with a syllabic rhythm’[…]’
Etudiante trilingue (tamoul, français et anglais):
transfert phonologique L1-L3
Extrait Interview, transcription & analyse
Questionnaire (12 étudiants non spécialistes)
Describe your life at the ENS
Please tell us about youracademic experience (past) before the ENS
What is the topic of yourresearch or what will be ?
Where do you see yourself in ten years ?
Analyse en termes d’idiomaticité et de fluidité
(euh) I spend a lot of time (euh) studying first at the beginning I didthat but now (euh) I'm more and more spending time with (euh) (euh) (euh) (euh) group (euh) I don't how to stay I forgot my word (euh) it's(euh) spending time with friends and (euh) doing my best to (euh) make(euh) every (euh) association (no?) (euh) like (euh) lives (euh) doingtheir best so it means (euh) that I'min the BDE so it's <laughs> how to sayit (euh) it took me so much time nowand at first it was really good but now (euh) I feel it more and more (euh) heavily on my... shoulders... soit's kind of complicated but I love mylife here...
Motivation: Les corpus personnels
J’’ai adoré le travail de terrain,
et travailler sur un corpus que
l’on a construit est très motivant car c’est le nôtre. De
plus, connaître les personnes
interviewées était très
motivant car on se devait de
faire quelque chose de bien
pour leur montrer qu’ils
n’avaient pas donné de leur
temps pour rien.’
‘La motivation venait aussi du
fait que c’était quelque chose
que je n’avais jamais fait et
enregistrer le langage en train
de se construire pour pouvoir y
travailler dessus, et dès
l’enregistrement prendre
conscience des analyses que l’on va pouvoir mener à
quelque chose de magique !’
Utilisations de corpus électroniques
ICLE (11), LONGDALE (10) FFLOC (2) LINDSEI (1)
Comparaison avec des corpus Natifs (7) (BNC, MICASE, COCA,
LOCNESS et LOCNEC)
Les étudiants ont utilisé des outils de fouille et d’analyse comme
WordSmith, Antconc, Praat, Texstat ou lancé des requêtes
grammaticales
Ces outils et corpus, sont à disposition des étudiants dans le cadre
du séminaire, installés au centre de ressources en langues ou
téléchargeables depuis le cours en ligne
Utilisation d’outils simples, requêtes, concordanciers, mots-clés,
pourcentages et Type-Token Ratio, ou analyses statistiques plus
sophistiquées
ICLE Spanish Learners /BNC: modaux en essais argumentatifs
Modals ICLE BNC
Can 30% 26%
Would 18% 23%
Will 17% 10%
Should 11% 10%
Could 10% 11%
Must 9% 4%
May 5% 13%
Might 1% 3%
NATIVE SPEAKER CORPUS
LOCNEC
English speakers from: England,
Lancaster University
Interviews, tasks: set topic and free discussion
country, experience, films
A and B turns
161724 words
NON-NATIVE SPEAKER CORPUS
LINDSEI
French speakers from: Belgium,
Université Catholique de Louvain
50 interviews, tasks: set topic, free discussion and picture description
country, experience, films
B turns
91552 words
Marqueurs discursifs oraux natifs et non-natifs:
Réflexion sur les Paramètres
Methodology : Speech Markers in Lindsei et Locnec
‘Finding the key words in both corpora (WordSmith Tools)
Selection of the most frequent inserts (non-exhaustive)
Defining the category (like, well, right, you know…)
Calculation of the normalized frequency (%)
Comparing the results
Calculating the ratio
Log likelihood calculator (significant frequency)
P <0,01 99% reliability’
Ce travail en binôme est un exemple de collaboration (une étudiante plus
experte en statistiques et l’autre en anglais)
Phrasal Verbs: Look dans ICLE (démarche)
« Les français font toujours beaucoup de fautes avec les phrasal
verbs, nous avons trouvé intéressant d’en étudier quelques uns (look
for, after, etc.)Puis, nous nous sommes dirigées vers ICLE pour parcourir les corpus
et illustrer notre étude. Nous voulions des erreurs qui ne soient pas
seulement faites par des français ».
« Nous ne savions pas très bien comment nous y prendre. Prendre
en main ICLE fut un peu laborieux. Le corpus nous a permis de
diriger notre analyse, de la conduire au mieux ». (questionnaire
2015)
Phrasal Verbs: look dans ICLE (LM multiples)
‘Search parameters All native languages
Argumentative essays
Occurrences of phrasal & prepositional verbs look forward tolook down onlook through look afterlook for, etc.’
Processus top down: le Powerpoint comme outil
de structuration et de réflexion
‘You have to be able to summarize your ideas in a concise, succinct manner
(which only works if you have a clear grasp on your analysis and what you
would like to get across to your audience.’
‘Oui, sinon il aurait fallu que je lise mes notes intégralement.’
‘Cela a permis d’avoir un plan clair, de sélectionner les éléments les plus
importants, d’avoir une approche didactique.’
‘le Powerpoint nous oblige à rendre visible la substantifique moelle de notre
pensée, ce qui n’est pas vraiment le même travail que lors d’un oral sans
Powerpoint. Je trouve le Powerpoint contraignant mais c’est un bon support
lors d’un oral et cela permet surtout aux auditeurs de bien suivre,
auditivement et visuellement, ce qui est démontré.’
‘Il permet de ne pas se perdre dans sa réflexion. Les différentes slides nous
servent de notes , à nous rappeler où nous en sommes dans notre explication
et réflexion.’
La motivation: confluence action et recul réflexif
‘Cela change de l’exposé type que nous faisons à l’université. Commenter les erreurs faites par
des non-native speakers of Englishfut très enrichissant (MEEF).’
‘Grâce à ce travail, je me suis rendu compte que j’aime bien travailler avec les corpus d’apprenants, de voir quel genre d’erreurs qu’ils font et d’essayer de réfléchir sur les raisons derrière ces erreurs (Linguistique).’
‘It was a very interesting project from the beginning research stage to the analysis to the final presentation (MEEF).’
‘Je n’avais jamais fait un travail pratique comme cela et ça a été intéressant de me confronter avec cette nouvelle méthodologie (English Literature).
‘Surtout car nous avons nous-même réalisé notre corpus, donc c’était motivant de se mettre dans la peau d’un chercheur/enquêteur (ENS).’
Conclusion: utilité du travail sur corpus?
Développer la motivation pour une recherche praxéologique : maîtres de leur
sujet et problématique, les étudiants choisissent leur corpus, utilisent les outils de
traitement des données en fonction du sujet, du corpus et de leurs
compétences
Favoriser le développement de compétences langagières orales (production)
et lexicales-(terminologie psycholinguistique et linguistique, structures et
collocations du discours académique.
Faire prendre conscience d’une démarche interactive dans tout processus
d’appropriation.
Entamer une construction positive de leurs représentations identitaires en tant
que locuteurs bilingues, trilingues et apprenants d’une langue étrangère.
Limites: Le temps (12 semaines, 24h) donc beaucoup de travail personnel, la
frustration parfois (ne pas pouvoir faire aboutir la recherche), le manque de
connaissance procédurale des outils, la concurrence avec les autres travaux
de M1 (cognitive overload).
Références (une sélection)
Bailly, Danielle (1998) Les Mots de la Didactique des langues: le cas de l’anglais,
Ophrys, Paris
Ellis, Rod & Barkhuizen, Gary (2005), Analysing Learner Language, OUP, Oxford-
New York.
Granger S. (1996a) From CA to CIA and back: An integrated approach to
computerized bilingual and learner corpora. In Aijmer K., Altenberg B. and
Johansson M. (eds) Languages in Contrast. Text-based cross-linguistic studies.
Lund Studies in English 88. Lund: Lund University Press, 37-51.
Housen, Alex & Kuiken, Folkert (2009), Complexity, Accuracy and Fluency in
Second Language Acquisition, Applied Linguistics 30/4,
Meunier, Fanny (2002), The Pedagogical Value of Native and Learner Corpora, In
Granger, S. et al, Computer Learner Corpora, Second Language Acquisition and
Foreign Language Teaching, Benjamins, Amsterdam, 119-131.
Meunier, Fanny (2012) Formulaic Language and Language Teaching, In Paquot,
M. and Granger, S., Annual Review of Applied Linguistics (2012), 32, 111–129.
Learner Corpus Association : http://www.learnercorpusassociation.org/