par des étudiants anglicistes : l’actionnel etreaux...Contemporary English, Cambridge...

Collecte et Analyse de corpus d’apprenants

par des étudiants anglicistes : l’actionnel et le réflexif en interaction

Pascale Goutéraux, CLILLAC-ARP, Université Paris-Diderot

Atelier ARDAA, SAES Lyon, 2 juin 2016

Présentation

Problématique et hypothèse de départ

Le travail sur corpus dans le cadre du séminaire

Psycholinguistics and SLA (M1) à Paris-Diderot

Cadrage théorique: processus d’appropriation interactif

Travailler sur des corpus natifs

Utiliser et construire des corpus d’apprenants: les enjeux

Etude sur 4 ans: résultats et work-in-progress

Conclusion

Questionnements

Problématique: Dans quelle mesure l’analyse, la collecte,

et la présentation de corpus d’apprenants par des

anglicistes avancés (niveau C1 du CECRL) contribue-t-elle

à améliorer leurs compétences cognitives et langagières ?

Hypothèse de départ: la construction et l’analyse de

corpus favorise l’apprentissage en complétant le processus

hypothético-déductif dominant (cours magistraux, exposés

par des étudiants) par un processus inductif personnalisé

qui favorise l’émergence de la réflexion à partir de

données langagières authentiques (démarche maïeutique,

Bailly, 1998)

Séminaire Psycholinguistics and SLA (2012 - 2015)

Les acteurs

Par année, 25 à 30 étudiants (linguistique anglaise ou générale, littérature,

civilisation, Master Aspect ENS Cachan, traduction littéraire, joint Master, Erasmus

et Master MEEF ou enseignement)

Néophytes: pas ou peu de travail sur corpus et analyse statistique (2/27 en 2015-16)

Le contenu du séminaire

Thématiques psycholinguistiques: bilinguisme et multilinguisme, appropriation L1 et

L2, complexité, exactitude et fluidité (Ellis & Barkhuisen, 2005, Housen & Kuiken,

2009), interlangue, transfert et interférence, techniques de conscientisation et

Focus-on-Form.

Workshop: familiarisation avec des corpus natifs et non-natifs existants et quelques outils (Wordsmith, Antconc, Textstats, etc.) et des méthodes d’analyse simples:

concordances, mots-clés, listes de fréquences, Type-Token Ratio, réflexion sur les

paramètres pour choisir ou construire des corpus

Organisation des travaux personnels sur corpus

Les consignes de tâche privilégient la dimension collaborative (binôme)

pour susciter un étayage mutuel des compétences langagières,

technologiques et statistiques.

Les étudiants présentent en anglais aux participants du séminaire leur

méthodologie, résultats et analyse qui s’appuie sur des lectures théoriques,

à l’aide d’un Powerpoint

puis ils répondent aux réactions et questions

Les présentations Powerpoint mises à jour par leurs auteurs sont publiées sur

la partie cours en ligne du séminaire.

Certains étudiants préfèrent une présentation individuelle ou rendre un

travail écrit sur corpus (travail parfois chronophage, intérêts divergents, lien

avec le mémoire, etc.)

Critères d’évaluation des présentations orales

Powerpoint Presentation (visibility)

Content/structure of the presentation

Relevance of the choice of corpus (corpora)

Quantitative or qualitative treatment of the data

Problems and solutions, explanations or results.

Spoken proficiency (accuracy and fluency)

Communicative stance and ability to answer questions

Cadrage théorique: interaction inductive et déductive dans

les processus d’apprentissage

L1: modèle interactif ascendant et descendant avec boucles rétroactives entre les schémas

ou scripts de haut niveau et les unités ou micro-savoirs de bas niveau dans la construction de

savoirs déclaratifs et procéduraux.

L2: la situation d’apprentissage (en milieu institutionnel) modifie les paramètres de l’acquisition

spontanée où les règles procédurales implicites gouvernent la communication.

La démarche inductive nécessite l’association à des fonctionnements explicites, de la règle ou

du concept à l’exemple (Meunier, 2002). Grâce aux savoirs explicites transmis par l’enseignant

ou des pairs plus experts l’apprenant confronte les régulations qu’il a construites aux règles de

la langue naturelle (Bresson, 1970).

Démarche heuristique depuis les années 1970 en France (Aden, Bailly, Cain, Chini, Deyrich,

Goutéraux, Moulin, Voise, etc.): faire réfléchir les apprenants sur des questions linguistiques et

interculturelles à partir de textes et d’exemples authentiques.

Limites d’une conscientisation qualitative: difficile de dégager des régularités systématiques et

de différencier invariables et variations à partir d’un petit nombre d’exemples, de textes, d’

enregistrements vidéo et audio.

Pourquoi utiliser des corpus natifs en acquisition de

Langue étrangère?

Les corpus électroniques natifs (COCA, BNC, MICASE) oraux ou écrits: une composante essentielle de la recherche sur l’acquisition et l’apprentissage des langues étrangères

Dictionnaires (English Oxford Dictionary) et grammaires (Longman Grammar of Spoken and Written English, 1999) d’inspiration pragmatique et empirique, privilégient les données authentiques issues de corpus langagiers.

Une approche inductive de l’apprentissage se fonde sur l’analyse de données (Data-Driven Learning Approach)

Il s’agit de compléter les méthodes scolaires par de multiples exemples authentiques pour une analyse linguistique ciblée: grammaire et phonologie mais aussi les expressions idiomatiques et collocations souvent dispersées dans les manuels.

Favoriser l’accès des apprenants à des corpus langagiers électroniques authentiques permet de dépasser le clivage entre acquisition en milieu naturel et apprentissage en milieu scolaire (Meunier, Annual Review of AppliedLinguistics, 2012)

Pourquoi utiliser des corpus d’apprenants?

Des corpus comme le Longman Learner Corpus pour élaborer des dictionnaires

ciblant les difficultés communes aux apprenants d’anglais (Longman Dictionary of

Contemporary English, Cambridge International Dictionary of English, le Longman

Dictionary of Common Errors).

Granger et collègues ont développé le concept de Contrastive Interlanguage

Analysis (CIA, 1996) afin de comparer le traitement de phénomènes linguistiques

(syntaxe, grammaire, idiomatismes, collocations) à partir de corpus électroniques

natifs et non-natifs et entre non-natifs de langues maternelles diverses.

L’usage de grands corpus d’apprenants permet de différencier les erreurs qui

relèvent d’idiosyncrasies personnelles, les erreurs communes aux apprenants de

l’anglais LE, et celles qui relèvent de l’interférence avec une langue maternelle

spécifique.

Il favorise un fonctionnement cognitif interactif et une collecte rapide et ciblée des

données pour explorer une problématique linguistique, psycholinguistique, ou

sociolinguistique.

Quelques corpus d’apprenants existants

ICLE (3 millions de mots) The International Corpus of Learner English: essais d’apprenants d’anglais de langues maternelles multiples.

LINDSEI (1 million de mots) (Louvain International Database of Spoken English Interlanguage), ; transcriptions de conversations informellesd’apprenants d’anglais de 11 langues maternelles différentes.

DIDEROT-LONGDALE (500 000 mots), corpus longitudinal interviews et conversations, enregistrements et transcriptions sur 3 ans d’étudiants français apprenants d’anglais (non publié)

FLLOC (French Learner Language Oral Corpora): enregistrements et transcriptions de conversations d’élèves et étudiants anglophonesapprenant le français

42 présentations (62 étudiants, 20 binômes)

21 corpus conversationnels, 21 corpus écrits

Multiplicité de LM

Facteurs de choix des corpus

• Intérêt pour un domaine: analyse d’erreurs, exactitude grammaticale, lexique, alternance codique, marques discursives, dysfluence.

• Intérêt pratique, mémoire (en linguistique), formation (MEEF-ENS)

• problèmes d’Iidentité linguistique (bilingues et multilingues)

Fonctionnement cognitif: top-down, bottom-

up ou interactif?

En général choix de la

problématique premier

‘We chose our topic before

selecting our corpus (phrasal

verbs) as it poses a problem for

second language learners. Since

we are in the Master MEEF

program we wanted to apply

what we learned to our teaching

practices ‘

(questionnaires 2015)

Parfois les deux fonctionnent

simultanément

Nous avons trouvé notre 1

« public cible », à savoir les

étudiants en informatique et

notre problématique est venue

en même temps (on s’est

demandé tout de suite pourquoi

ils faisaient des anglicismes).

Exemples de thématiques en 2015-16

Spoken Discourse Markers in L2 Written Productions (ICLE)

Phrasal & Prepositional Verbs (look) in ICLE (multiple L1)

Error Analysis in L2 Reading Aloud (oral corpus, French Learners)

Phonological Errors in the Diderot-Longdale Corpus (French Learners)

Metaphors, Emotion and Language Acquisition (Emphiline-Longdale, native and non-native speakers)

Code-switching by Young Bilinguals (existing corpora)

Anglicisms in Computer Science Specialists’ Speech (original corpus, French English)

Lexical Code-mixing (interviews Mechanical Engineering students (English)

L1 Interference in L2 Mental Lexicon Acquisition (Italian-English)

Recurrent Errors in English Learning (Written Lessons, 5ème, 3ème)

Choix de Corpus: existants ou construits ?

Les corpus personnels (14)

14 étudiants décident de prendre en main toutes les étapes: conception, collecte, analyse et présentation Powerpoint

Conséquences: pour les corpus oraux, le nombre de sujets enregistrés

est limité (de six à une douzaine), le corpus personnel est transversal et

se prête à une analyse qualitative.

Corpus écrits (20 à 30 productions): Les supports sont des tests

grammaticaux, essais, histoires et traces écrites. On trouve surtout des

productions d’élèves du secondaire (Master MEEF, retour de stage

CIEP), un corpus de chats, deux corpus d’essais et d’histoires écrites par des étudiants.

Erreurs en trace écrite (5ème)

Traces écrites

Analyse d’erreurs sur 30 tests (Seconde, lycée

professionnel): Intrusive –ING

‘Students tend to add the –ING ending to every verb:

* « it scaring me »

* « are you ok for watching this film? »

* « I want always watching »

This can be explained by the overuse of –ING ending in English language.

Students know the importance of this structure and tend to overuse it, even

when it is not necessary.

They don’t get the difference in meaning between the raw form of the

verb and its structure in –ING.’

Articles in use: 20 essays B2 level students

Contrary to Master’s (1997) findings:

The is underused (28%) just as much as it is overused (28%)

But…

As expected, ∅ is more overused (30%) than a (11%)

56% of errors concerned the misuse of the, which is unusual, given

that it is used in much the same way in French.

20

Conclusions de la présentatrice

Being myself a native speaker of Arabic and native-like speaker of French, I was able to perceive and pinpoint the errors due to L1 (Arabic) and L2 (French)

The L3 learners also make use of L2 words in their L3 production if the L2 and L3 are related and have a number of common cognates ( which is the case here: French and English)

we can say that 1st year University Algerian students did commit most of the semantic errors because of a negative language transfer; however, which is most striking that their biggest number of transfer errors is due to L2 (French) interference and not the mother tongue i.e. Arabic.

Etudiants L1 arabe ou kabyle, français L2 et anglais L3):

Storytelling

21

Lexical errors:

One day my friend asked about Valentine day. في يوم مناحد اصدقائيسالني, الايام

This is the first time I write one of my stories on a sheet.

C’est la première fois que j’ écris une histoire sur papier.

She couldn’t aspirate.

Elle pouvait pas respirer.

She fell ill.

Elle est tombée malade.

It was my black point in my life.

C’ était un point noir .

Transfert sémantique (Arabe, Français, Anglais)

‘Participants were 12 young people (40% boys, 60% girls) who live in France and

speak French as a first language. The other native language is Tamil. All the participants

attended a French school since the age of three.

Each subject was asked to read a paragraph written in English which uses common English

words, but contains a variety of difficult English sounds. t’s an extract from the speech of Martin

Luther King « I have a dream ». Each subject is recorded individually in a quiet room. Subjects

were allowed to look at the paragraph for a minute before reading […]

[présentation des résultats et analyse d’erreurs: phonemes, r rhotique, etc.

]

‘Conclusion: we have seen that accents can vary greatly among people of the same origin.

Therefore, we can say that accent is not only a matter of first or native language. Many factors

should be considered, such as studies, the frequency of the use of the native language... Here,

we find one person speaking English with an accent very close to a Standard British (Received

Pronunciation) accent. It’s the case of the student in English. The others lean toward a more

'vernacular', native-tinted, accent for their English speech.

Tamil and Hindi are actually syllable-timed languages, therefore participants are more

tempted to speak with a syllabic rhythm’[…]’

Etudiante trilingue (tamoul, français et anglais):

transfert phonologique L1-L3

Extrait Interview, transcription & analyse

Questionnaire (12 étudiants non spécialistes)

Describe your life at the ENS

Please tell us about youracademic experience (past) before the ENS

What is the topic of yourresearch or what will be ?

Where do you see yourself in ten years ?

Analyse en termes d’idiomaticité et de fluidité

(euh) I spend a lot of time (euh) studying first at the beginning I didthat but now (euh) I'm more and more spending time with (euh) (euh) (euh) (euh) group (euh) I don't how to stay I forgot my word (euh) it's(euh) spending time with friends and (euh) doing my best to (euh) make(euh) every (euh) association (no?) (euh) like (euh) lives (euh) doingtheir best so it means (euh) that I'min the BDE so it's <laughs> how to sayit (euh) it took me so much time nowand at first it was really good but now (euh) I feel it more and more (euh) heavily on my... shoulders... soit's kind of complicated but I love mylife here...

Motivation: Les corpus personnels

J’’ai adoré le travail de terrain,

et travailler sur un corpus que

l’on a construit est très motivant car c’est le nôtre. De

plus, connaître les personnes

interviewées était très

motivant car on se devait de

faire quelque chose de bien

pour leur montrer qu’ils

n’avaient pas donné de leur

temps pour rien.’

‘La motivation venait aussi du

fait que c’était quelque chose

que je n’avais jamais fait et

enregistrer le langage en train

de se construire pour pouvoir y

travailler dessus, et dès

l’enregistrement prendre

conscience des analyses que l’on va pouvoir mener à

quelque chose de magique !’

Utilisations de corpus électroniques

ICLE (11), LONGDALE (10) FFLOC (2) LINDSEI (1)

Comparaison avec des corpus Natifs (7) (BNC, MICASE, COCA,

LOCNESS et LOCNEC)

Les étudiants ont utilisé des outils de fouille et d’analyse comme

WordSmith, Antconc, Praat, Texstat ou lancé des requêtes

grammaticales

Ces outils et corpus, sont à disposition des étudiants dans le cadre

du séminaire, installés au centre de ressources en langues ou

téléchargeables depuis le cours en ligne

Utilisation d’outils simples, requêtes, concordanciers, mots-clés,

pourcentages et Type-Token Ratio, ou analyses statistiques plus

sophistiquées

ICLE Spanish Learners /BNC: modaux en essais argumentatifs

Modals ICLE BNC

Can 30% 26%

Would 18% 23%

Will 17% 10%

Should 11% 10%

Could 10% 11%

Must 9% 4%

May 5% 13%

Might 1% 3%

NATIVE SPEAKER CORPUS

LOCNEC

English speakers from: England,

Lancaster University

Interviews, tasks: set topic and free discussion

country, experience, films

A and B turns

161724 words

NON-NATIVE SPEAKER CORPUS

LINDSEI

French speakers from: Belgium,

Université Catholique de Louvain

50 interviews, tasks: set topic, free discussion and picture description

country, experience, films

B turns

91552 words

Marqueurs discursifs oraux natifs et non-natifs:

Réflexion sur les Paramètres

Methodology : Speech Markers in Lindsei et Locnec

‘Finding the key words in both corpora (WordSmith Tools)

Selection of the most frequent inserts (non-exhaustive)

Defining the category (like, well, right, you know…)

Calculation of the normalized frequency (%)

Comparing the results

Calculating the ratio

Log likelihood calculator (significant frequency)

P <0,01 99% reliability’

Ce travail en binôme est un exemple de collaboration (une étudiante plus

experte en statistiques et l’autre en anglais)

Phrasal Verbs: Look dans ICLE (démarche)

« Les français font toujours beaucoup de fautes avec les phrasal

verbs, nous avons trouvé intéressant d’en étudier quelques uns (look

for, after, etc.)Puis, nous nous sommes dirigées vers ICLE pour parcourir les corpus

et illustrer notre étude. Nous voulions des erreurs qui ne soient pas

seulement faites par des français ».

« Nous ne savions pas très bien comment nous y prendre. Prendre

en main ICLE fut un peu laborieux. Le corpus nous a permis de

diriger notre analyse, de la conduire au mieux ». (questionnaire

2015)

Phrasal Verbs: look dans ICLE (LM multiples)

‘Search parameters All native languages

Argumentative essays

Occurrences of phrasal & prepositional verbs look forward tolook down onlook through look afterlook for, etc.’

Processus top down: le Powerpoint comme outil

de structuration et de réflexion

‘You have to be able to summarize your ideas in a concise, succinct manner

(which only works if you have a clear grasp on your analysis and what you

would like to get across to your audience.’

‘Oui, sinon il aurait fallu que je lise mes notes intégralement.’

‘Cela a permis d’avoir un plan clair, de sélectionner les éléments les plus

importants, d’avoir une approche didactique.’

‘le Powerpoint nous oblige à rendre visible la substantifique moelle de notre

pensée, ce qui n’est pas vraiment le même travail que lors d’un oral sans

Powerpoint. Je trouve le Powerpoint contraignant mais c’est un bon support

lors d’un oral et cela permet surtout aux auditeurs de bien suivre,

auditivement et visuellement, ce qui est démontré.’

‘Il permet de ne pas se perdre dans sa réflexion. Les différentes slides nous

servent de notes , à nous rappeler où nous en sommes dans notre explication

et réflexion.’

La motivation: confluence action et recul réflexif

‘Cela change de l’exposé type que nous faisons à l’université. Commenter les erreurs faites par

des non-native speakers of Englishfut très enrichissant (MEEF).’

‘Grâce à ce travail, je me suis rendu compte que j’aime bien travailler avec les corpus d’apprenants, de voir quel genre d’erreurs qu’ils font et d’essayer de réfléchir sur les raisons derrière ces erreurs (Linguistique).’

‘It was a very interesting project from the beginning research stage to the analysis to the final presentation (MEEF).’

‘Je n’avais jamais fait un travail pratique comme cela et ça a été intéressant de me confronter avec cette nouvelle méthodologie (English Literature).

‘Surtout car nous avons nous-même réalisé notre corpus, donc c’était motivant de se mettre dans la peau d’un chercheur/enquêteur (ENS).’

Conclusion: utilité du travail sur corpus?

Développer la motivation pour une recherche praxéologique : maîtres de leur

sujet et problématique, les étudiants choisissent leur corpus, utilisent les outils de

traitement des données en fonction du sujet, du corpus et de leurs

compétences

Favoriser le développement de compétences langagières orales (production)

et lexicales-(terminologie psycholinguistique et linguistique, structures et

collocations du discours académique.

Faire prendre conscience d’une démarche interactive dans tout processus

d’appropriation.

Entamer une construction positive de leurs représentations identitaires en tant

que locuteurs bilingues, trilingues et apprenants d’une langue étrangère.

Limites: Le temps (12 semaines, 24h) donc beaucoup de travail personnel, la

frustration parfois (ne pas pouvoir faire aboutir la recherche), le manque de

connaissance procédurale des outils, la concurrence avec les autres travaux

de M1 (cognitive overload).

Références (une sélection)

Bailly, Danielle (1998) Les Mots de la Didactique des langues: le cas de l’anglais,

Ophrys, Paris

Ellis, Rod & Barkhuizen, Gary (2005), Analysing Learner Language, OUP, Oxford-

New York.

Granger S. (1996a) From CA to CIA and back: An integrated approach to

computerized bilingual and learner corpora. In Aijmer K., Altenberg B. and

Johansson M. (eds) Languages in Contrast. Text-based cross-linguistic studies.

Lund Studies in English 88. Lund: Lund University Press, 37-51.

Housen, Alex & Kuiken, Folkert (2009), Complexity, Accuracy and Fluency in

Second Language Acquisition, Applied Linguistics 30/4,

Meunier, Fanny (2002), The Pedagogical Value of Native and Learner Corpora, In

Granger, S. et al, Computer Learner Corpora, Second Language Acquisition and

Foreign Language Teaching, Benjamins, Amsterdam, 119-131.

Meunier, Fanny (2012) Formulaic Language and Language Teaching, In Paquot,

M. and Granger, S., Annual Review of Applied Linguistics (2012), 32, 111–129.

Learner Corpus Association : http://www.learnercorpusassociation.org/

par des étudiants anglicistes : l’actionnel etreaux...Contemporary English, Cambridge...

Documents

Transcript of par des étudiants anglicistes : l’actionnel etreaux...Contemporary English, Cambridge...