Introduction au capitalisme linguistique

Post on 06-May-2015

13.663 views 0 download

Transcript of Introduction au capitalisme linguistique

Introduction au capitalisme linguistique

Frédéric Kaplan

frederic.kaplan@ep!.chtwitter: @frederickaplan

... et à la nouvelle créolisation

Frédéric Kaplan

frederic.kaplan@ep!.chtwitter: @frederickaplan

ËËËËË iË Ë lE Ë+,E1ii==z

=rz i" y i i Ë i f i|= :'= lz"tz 1

ËËËËËtË 7EÊEZï21;Z;1

Ë;-g e r* E-r=EEi;l::iz7

*ËjËj1ËAZÊî1Él€ËrijÉê

iEE

sIËs!!E

rËÉ

gF

É:?

Fo

É U.E

I 6

; Ë É

ÉO€

e

Z É

ô'ù

Ê..:

ËË

iEË

ËË

eiaâgËË

{ËË

ËË

ë ËË;te iË i€ËâË

, ËË.rËË â

P.--

-.: -- o

'a

9ll

xY

Aii

. ==

.8=

?

à3

;: â=

ÎE .Ë

Ë ÊËi g

.iiË Hs:;! g;È

u F u

35ËË

ËË

ËË

ËË

ËE

ËË

iE

gËË

Ë

l= i"ËË âËi*

gË:;Ë; r

- â: EiË i:=ËiË;

+i€;Ë;i eË

ËËËËËËËâic ËË

r, iË É

=â;"t4;,î:âv?zii çË

Ë;ËË::ËçËËËï;Ëa Ëi Ëgg9€

ÊËËËËË€Ëi

|vE Ë;hË

çFs=

ËrË

E€

! : s

r ç Ë

2F.i=

âa

€H

p

ÈF

.:Ë!Ë

'Ë!s

ài

='5

3

*x;-u

çg

FE

;i9>

V?

3

^a

=;.é

o o-E

5: o

; iË s ÉtâË

r;ËË

i É

{Ëâ Ë ËiÈ

ËÈ

ËâË

ËÉ

ËÈ

Ë E:sË

ïs*ËË

s3

.4 Ë

! à ô

k É

E s

3;

: i Ê i l Ë y E g 5 6 3 E É 3

aÉË

ËfiÉÉ

Ëi:i;É

EzË

;+E

E

H-e

9

;â yE

âE

Èl

â+93

Fg

Ê

b.:È

Eii':=

-et-

ËËËËgËilrËËË =iluzzi'

ËËË: t Ëi ; Ëî ËË

Ë Ë E:{,!i1:zZz11;CzZ11ii==21*,

$-..{oa\tnlC)

EI(--C),-{d

apot4i-lFIaC)r-l'IJ(-È{d'rêJc rr)

frFar1z'-.1

(ntlFUF-.1rt)

z(J0,

X9É{lo.t{IL{À

a)\)F\)

Èil.-'rt

I-ù |

X\ù |

tslrsl.S\iG

E',:e\.IÈ'l

Ès.$\t!zo"lI::oz

L’histoire de Google tient en deux algorithmes : l’un l’a rendu populaire, l’autre l’a rendu riche.

1l’algorithme qui a

rendu Google célèbre

Altavista - 1996

Google - 1998

PageRank

Une intuition sur ce qui fait la légitimité d’une source d’information et la nature pragmatique du lien hypertexte.

PageRank

La valeur PageRank d’une page est liée au nombre de pages qui la citent et à leur propre valeur PageRank.

Beaucoup de “start-ups” proposant une valeur d’usage mais pas de valeur d’échange ne résistèrent pas à l’éclatement de la “Bulle Internet”.

Google a eu une meilleure idée que de simplement vendre de la publicité et a su transformer le capital linguistique qu’elle accumulait en un service créant de la valeur.

2l’algorithme qui a

rendu Google riche

Un algorithme qui organise automatiquement la spéculation autour des mots a permis de créer le premier marché linguistique mondial.

L’algorithme de Google a élargi et en partie libéralisé ce marché.

1

2

3

4

5

6

7

8

9

10

tous les mots peuvent donner lieu à des enchères ...

L’algorithme classe automatiquement les annonces selon un calcul en quatre étapes.

1. Enchère sur un mot clé (E)

Une entreprise choisit un mot ou une expression, par exemple “vacances” et le prix maximum qu’elle serait prête à payer en cas de clic.

Google propose une estimation du montant de l’enchère à proposer pour avoir de bonnes chances d’être dans la première page des résultats proposés.

Les acheteurs de mots peuvent aussi cibler leur publicité à des dates ou des lieux spéci"ques.

2. Calcul du score de qualité de la publicité (Q)

Google donne un score à la publicité sur une échelle de un à dix.

Ce score dépend essentiellement de la pertinence du texte de la publicité par rapport à la requête de l’utilisateur, de la qualité de la page vers laquelle la publicité pointe (qualité de son contenu et rapidité de chargement) et du nombre de clics moyen sur la publicité. En gros, ce score mesure à quel point la publicité “fonctionne”.

C’est un point essentiel car Google ne gagne de l’argent que si les internautes choisissent e#ectivement de cliquer sur le lien proposé par la publicité.

L’algorithme exact qui produit le score de qualité de la publicité reste secret et modi!able à loisir par Google.

3. Calcul du rang (R)

Le Rang est l’Enchère multipliée par le Score. Une publicité ayant un bon score peut ainsi compenser une enchère plus faible et arriver devant.

R = E * Q

4. Calcul du prix à payer en cas de clic (P)

Le prix que paye une entreprise 1 si un internaute clique sur sa publicité n’est pas le prix de l’enchère mais le prix de l’enchère 2 juste en dessous de sa propre enchère modulé par la qualité relative entre cette deuxième enchère et celle de l’entreprise.

Tout tient dans la formule : P1 = E2 * (Q2 / Q1) où P1 est le prix payé par l’entreprise, E2 est l’enchère la plus haute en dessous de l’enchère de l'entreprise 1, Q1 la qualité de l’enchère 1, Q2 la qualité de l’enchère 2.

Ce jeu d’enchères est recalculé pour chaque requête de chaque utilisateur — des millions de fois par seconde

Cet algorithme génère des dizaines de milliards de dollars par an.

10,584 milliards de dollars pour le seul quatrième trimestre 2011

40 milliards / an

Quelques éléments de comparaison :

Budget de Bibliothèque Nationale de France : 226 millions d’euros / anChi#re d’a#aire de Renault en 2011 : 42 millions...

Le marché linguistique ainsi créé par Google est déjà global et multilingue.

La “Bourse des mots” qui lui est associée donne une indication relativement juste des grands mouvements sémantiques mondiaux.

ski

sun screen

or

world cup

Google a réussi à étendre le domaine du capitalisme à la langue elle-même, à organiser la vente de “mots” à l’échelle planétaire.

L’ensemble de ses autres projets et innovations technologiques peuvent être analysés à travers ce prisme.

Quand Google corrige à la volée un mot que vous avez mal orthographié, il ne fait pas que vous rendre service : il transforme un matériau sans valeur en une ressource économique directement rentable.

Quand Google prolonge une phrase que vous avez commencée à taper dans la case de recherche, il vous ramène dans le domaine de la langue qu’il exploite, vous invite à emprunter le chemin statistique tracé par les autres internautes.

Parfois la statistiquel’emporte surl’orthographe.

Les technologies du capitalisme linguistique poussent à la régularisation de la langue.

Plus nous ferons appel aux prothèses linguistiques, laissant les algorithmes corriger et prolonger nos propos, plus cette régularisation sera e$cace.

Nous nous exprimons chaque jour un peu plus au travers d’une des interfaces de Google ; pas simplement lorsque nous faisons une recherche, mais aussi quand

- nous écrivons un courrier électronique avec GMail- un article avec Google Docs- nous signalons une information sur le réseau social Google+, - et même oralement, à travers les interfaces de reconnaissance vocale que Google intègre à ses applications mobiles.

Nous sommes déjà des millions chaque jour à écrire et à parler par le biais de Google.

C’est pourquoi le modèle statistique multilingue que Google a$ne en permanence et vers lequel il tente de ramener chaque requête est bien plus à jour que le dictionnaire publié annuellement par nos académiciens.

Google suit les mouvements de la langue minute par minute, car il a le premier découvert en elle un minerai d’une richesse extraordinaire, et s’est doté des moyens nécessaires pour l’exploiter.

la languestatistiqueexploitable

commercialement

la langue vivante

L’extension du domaine commercial de la langue est permise par deux dynamiques

(1) La régularisation de la langue par la médiation des prothèses linguistiques

(2) La multiplication et la banalisation des prothèses linguistiques

La découverte de ce territoire du capitalisme jusqu’ici ignoré ouvre un nouveau champ de bataille économique.

Google béné"cie certes d’une avance importante, mais des rivaux, ayant compris les règles de cette nouvelle compétition, "niront par se pro"ler.

Nous quittons une économie de l’attention pour entrer dans une économie de l’expression.

L’enjeu n’est plus tant de capter les regards, que d’être un médiateur de la parole et l’écrit.

Les gagnants seront ceux qui auront pu développer des relations linguistiques intimes et durables avec un grand nombre d’utilisateurs, pour modéliser et in!échir la langue, créer un marché linguistique contrôlé et organiser la spéculation sur les mots.

Une conséquence essentielle

La langue va se transformer.

Comment ?

Pas simplement en se régularisant ...

Le “Flash Crash” du 6 mai 2010 a fait prendre conscience de l’omniprésence des algorithmes dans la "nance.

Dès que les systèmes culturels proposent des fonctions précises à optimiser, les algorithmes deviennent des alternatives pertinentes à l’action humaine.

Dès que le nombre d’actions décidées par des algorithmes devient signi"catif par rapport aux actions humaines, la forme des systèmes culturels changent profondément.

Comme pour le domaine de la "nance, les algorithmes sont devenus des acteurs majeurs du capitalisme linguistique.

Principe général

Toute prothèse linguistique peut être utilisée par un “bot” plutôt qu’un humain.

Il nous fait donc désormais distinguer deux types de ressources linguistiques:

(a) les ressources primaires produites par des humains (conversations orales ou écrites, contenus de livres scannés, etc.)

(b) les ressources secondaires produites par des machines en général à partir des ressources primaires (traduction automatique, articles écrits par des algorithmes, spam). 

Malheureusement, sans connaître l’origine d’une production, il n’est souvent pas aisé de distinguer entre ressources primaires ou secondaires. Un humain peut dans certains cas faire la di#érence, mais il est di$cile de construire des algorithmes  pour faire automatiquement cette distinction.

Les acteurs du capitalisme linguistique doivent modéliser la langue le plus parfaitement possible. C’est leur capital.

Google voit les ressources secondaires comme un danger, une pollution pour ses modèles.

“La qualité se dégrade petit à petit au fur et à mesure quand on applique des algorithmes de traduction automatique”

“Quality degrades gradually as and when we measure applies algorithms to machine translation”

“Calidad degrada gradualmente a medida y cuando la medida se aplica algoritmos de traducción automática”

“Qualité se dégrade progressivement au fur et à mesure est appliquée algorithmes de traduction automatique”

La modi"cation de la syntaxe dans des chaînes de traduction automatique illustre un certain de type de pollution.

Un lecteur averti peut souvent détecter la mécanique sous-jacente et deviner parfois que ces textes ne sont pas écrits par des humains.

Leur composition syntaxique et surtout leur positionnement pragmatique sonnent parfois faux, re!étant les biais de l’algorithme qui les compose.

Un nombre croissant de textes sont maintenant directement produits par des machines

Le même contenu peut donner lieu à di#érentes formes : Articles longs ou courts, chroniques sportives, tweets, message vocal.

Il peut être exprimé en optimisant son e$cacité pour les moteurs de recherche (SEO) : choix de mots particuliers, de tournures statistiques optimales.

Comme en !nance, les algorithmes sont sans doute meilleurs que les hommes pour produire des stratégies optimales dans le milieu économique du capitalisme linguistique.

Ces textes sont optimisés pour l’univers linguistique qu’ils investissent

Les algorithmes qui archivent inlassablement le web ne font pas facilement la di#érence entre ces ressources linguistiques dégradées et les ressources primaires.

Au fur et à mesure que la quantité de ressources secondaires devient signi"cative par rapport aux ressources primaires, les modèles statistiques peuvent se modi"er pour intégrer le vocabulaire, les formulations et les tournures des algorithmes.

Ce sont ces tournures qui risquent de nous être proposées sous la forme de suggestions ou de corrections. 

Pour lutter contre cette “pollution” croissante, Google a modi"é en 2011 son service Google Translate.

Google a remplacé son service créateur de ressources secondaires en un service de traduction “on demand” qui garde toujours le texte original de la traduction, pour s’en servir pour la recherche et pour potentiellement améliorer progressivement la traduction proposée au fur et à mesure que les algorithmes de traduction progressent. 

cf. Kirti Vashee / Analysis of the Shutdown Announcements of the Google Translate API

Cela ne su$ra pas.

Il faut maintenant compter avec l’écriture des machines et tous les hybrides de ce nouvel ordre linguistique.

Sur les 30 meilleurs éditeurs de Wikipedia, les 2/3 sont des bots

> R.Stuart Geiger, “The Lives of Bots.” in Wikipedia: A Critical Point of View. 2011 > http://en.wikipedia.org/wiki/Wikipedia:List_of_Wikipedians_by_number_of_recent_edits

D’ici deux ans, une proportion signi"cative des messages sur les réseaux sociaux seront peut-être produits par des bots.

> Hwang, Pearce and Nanis (2012) Socialbots: voices from the fronts interactions Volume 19 Issue 2, March + April 2012

Ainsi, textes humains et algorithmiques se mêlent pour proposer une nouvelle forme d’écriture.

Et c’est cette nouvelle écriture que d’autres algorithmes analysent pour ensuite structurer nos propres productions linguistiques.

Avec le capitalisme linguistique, la langue elle-même se transforme pour intégrer les biais linguistiques des machines et les contraintes de l’économie linguistique planétaire.

Nous assistons peut-être une nouvelle phase de “grammatisation” de la langue, une nouvelle rétroaction de la technologie et de l’économie sur la langue naturelle.

Dans un temps intermédiaire apparait quelque chose comme une lingua franca, un pidgin ou un créole, dont la syntaxe et le vocabulaire sont liés aux capacités linguistiques des machines et aux valeurs marchandes des mots.

C’est ce phénomène inédit que j’appelle la nouvelle créolisation.

frederic.kaplan@ep!.chtwitter:@frederickaplanhttp://fkaplan.comhttp://craft.ep!.ch

http://bookapp.com