Contenus et données - IRISAcompjournalism2016.irisa.fr/slides/LeNouy.pdf · RDF Schema.org D3js...

27
Michel Le Nouy – Ouest-France – Contenus et données – Irisa –15 mars 2016 Contenus et données IRISA - Computational Journalism 15 mars 2016 Michel Le Nouy

Transcript of Contenus et données - IRISAcompjournalism2016.irisa.fr/slides/LeNouy.pdf · RDF Schema.org D3js...

Page 1: Contenus et données - IRISAcompjournalism2016.irisa.fr/slides/LeNouy.pdf · RDF Schema.org D3js Temis Semsoft. Michel Le Nouy – Ouest-France – Contenus et données – Irisa

Mic

hel L

e N

ouy

–O

uest

-Fra

nce

–C

onte

nus

et d

onné

es –

Iris

a –1

5 m

ars

2016

Contenus et données

IRISA - Computational Journalism15 mars 2016

Michel Le Nouy

Page 2: Contenus et données - IRISAcompjournalism2016.irisa.fr/slides/LeNouy.pdf · RDF Schema.org D3js Temis Semsoft. Michel Le Nouy – Ouest-France – Contenus et données – Irisa

Michel Le Nouy – Ouest-France – Contenus et données – Irisa –15 mars 2016

Ouest-F

rance ?

Page 3: Contenus et données - IRISAcompjournalism2016.irisa.fr/slides/LeNouy.pdf · RDF Schema.org D3js Temis Semsoft. Michel Le Nouy – Ouest-France – Contenus et données – Irisa

Michel Le Nouy – Ouest-France – Contenus et données – Irisa –15 mars 2016

Mais aussi …

Page 4: Contenus et données - IRISAcompjournalism2016.irisa.fr/slides/LeNouy.pdf · RDF Schema.org D3js Temis Semsoft. Michel Le Nouy – Ouest-France – Contenus et données – Irisa

Mic

hel L

e N

ouy

–O

uest

-Fra

nce

–C

onte

nus

et d

onné

es –

Iris

a –1

5 m

ars

2016

Banque de contenus

� Construire une plateforme accessible :• A l’ensemble des rédactions et services du groupe

� Présenter une vue exhaustive des contenus et données produites • Toutes thématiques• Toutes sources • Tous médias

� Favoriser les nouveaux usages

Page 5: Contenus et données - IRISAcompjournalism2016.irisa.fr/slides/LeNouy.pdf · RDF Schema.org D3js Temis Semsoft. Michel Le Nouy – Ouest-France – Contenus et données – Irisa

Mic

hel L

e N

ouy

–O

uest

-Fra

nce

–C

onte

nus

et d

onné

es –

Iris

a –1

5 m

ars

2016

Constat� Foisonnement des parutions� Multiplicité des sources et contenus� Articles, tableaux, photos, vidéos, pages …� Papier + Numérique

� Limitations vue globale et logique des documents

� Limitations des usages aux applications tierces ou externes

Page 6: Contenus et données - IRISAcompjournalism2016.irisa.fr/slides/LeNouy.pdf · RDF Schema.org D3js Temis Semsoft. Michel Le Nouy – Ouest-France – Contenus et données – Irisa

Mic

hel L

e N

ouy

–O

uest

-Fra

nce

–C

onte

nus

et d

onné

es –

Iris

a –1

5 m

ars

2016

Complexité� Production très orientée process de fabrication :

• Complexité de l’industriel• Multitude des produits et donc des contraintes• Adhérence des données, des contenus, des équipes

� Données descriptives « pauvres » :• Limitées et suffisantes aux besoins du process

� Du « Sur Mesure »• Capacité d’adaptation à l’actualité, à l’information• Réactivité aux évènements

Page 7: Contenus et données - IRISAcompjournalism2016.irisa.fr/slides/LeNouy.pdf · RDF Schema.org D3js Temis Semsoft. Michel Le Nouy – Ouest-France – Contenus et données – Irisa

Michel Le Nouy – Ouest-France – Contenus et données – Irisa –15 mars 2016

Le projet ?

Page 8: Contenus et données - IRISAcompjournalism2016.irisa.fr/slides/LeNouy.pdf · RDF Schema.org D3js Temis Semsoft. Michel Le Nouy – Ouest-France – Contenus et données – Irisa

Mic

hel L

e N

ouy

–O

uest

-Fra

nce

–C

onte

nus

et d

onné

es –

Iris

a –1

5 m

ars

2016

Google ?

� Cela eu été plus simple !

Mais …

� Algorithmes ?� Biais ?� Maitrise ?

Page 9: Contenus et données - IRISAcompjournalism2016.irisa.fr/slides/LeNouy.pdf · RDF Schema.org D3js Temis Semsoft. Michel Le Nouy – Ouest-France – Contenus et données – Irisa

Mic

hel L

e N

ouy

–O

uest

-Fra

nce

–C

onte

nus

et d

onné

es –

Iris

a –1

5 m

ars

2016

Du papier … au numérique

� Savoir faire : • Collecte de l’information• Diffusion• Choix éditoriaux• Engagement de lecture

= ADN d’un groupe de Presse

Cela implique de maitriser le traitement numérique de l’information

Page 10: Contenus et données - IRISAcompjournalism2016.irisa.fr/slides/LeNouy.pdf · RDF Schema.org D3js Temis Semsoft. Michel Le Nouy – Ouest-France – Contenus et données – Irisa

Mic

hel L

e N

ouy

–O

uest

-Fra

nce

–C

onte

nus

et d

onné

es –

Iris

a –1

5 m

ars

2016

Infobésité ?

� L’information est essentielle, mais elle est :• Partout• Tout le temps• Sous des formes multiples• En grandes quantités• D’origines diverses• De qualité variable• Pas ou peu structurée

� Le temps et les moyens disponibles pour l’exploiter sont, eux, finis.

Page 11: Contenus et données - IRISAcompjournalism2016.irisa.fr/slides/LeNouy.pdf · RDF Schema.org D3js Temis Semsoft. Michel Le Nouy – Ouest-France – Contenus et données – Irisa

Mic

hel L

e N

ouy

–O

uest

-Fra

nce

–C

onte

nus

et d

onné

es –

Iris

a –1

5 m

ars

2016

Nouvelles attentes ?

� Consommation en évolution :• Primeur de l’information (notifications, live, …)

• Personnalisation forte (adaptée, sélectionnée …)

• Pertinence (selon le lieux, le moment, le contexte …)

• Isolée du bruit ambiant, de la masse• Formes adaptées aux usages, aux devices …• Information dans laquelle je peux « creuser »• Information dont je suis acteur (commentaire, partage, tweet, …)

• Une information exclusive

Page 12: Contenus et données - IRISAcompjournalism2016.irisa.fr/slides/LeNouy.pdf · RDF Schema.org D3js Temis Semsoft. Michel Le Nouy – Ouest-France – Contenus et données – Irisa

Mic

hel L

e N

ouy

–O

uest

-Fra

nce

–C

onte

nus

et d

onné

es –

Iris

a –1

5 m

ars

2016

Comment ?

� Course et accessibilité aux technologies :• Traitement de masse de données non structurées• Analyse sémantique• Collectes et croisements des sources de données

(open data, réseaux sociaux, crawling, …)

• Machine learning• Détection de signaux faibles• Datavisualisation

Page 13: Contenus et données - IRISAcompjournalism2016.irisa.fr/slides/LeNouy.pdf · RDF Schema.org D3js Temis Semsoft. Michel Le Nouy – Ouest-France – Contenus et données – Irisa

Michel Le Nouy – Ouest-France – Contenus et données – Irisa –15 mars 2016

Convaincre !

Av

oca

t ?P

oin

t de

vu

e ?

Page 14: Contenus et données - IRISAcompjournalism2016.irisa.fr/slides/LeNouy.pdf · RDF Schema.org D3js Temis Semsoft. Michel Le Nouy – Ouest-France – Contenus et données – Irisa

Mic

hel L

e N

ouy

–O

uest

-Fra

nce

–C

onte

nus

et d

onné

es –

Iris

a –1

5 m

ars

2016

Chercher < Trouver !Résultats

Complexité

Connaissance

Analyses et

informations

enrichies

Information

Données

structurées

Document

Basique

Unitaire

basse moyenne haute très haute

Search :

Mots-clés et booléens

« Bolloré AND Renault »

« Bolloré a signé un accord avec Renault SA »

Search avec proximité :

Mots-clés proches les uns des autres

« Bolloré NEXT Renault »

Statistiques :

« Combien de documents contiennent

à la fois : Bolloré ET Renault en 2008»

Annotations de termes :

Avec l’aide de thésaurus

« Bolloré est annoté Transport et

logistique, énergie car appartenant au

thésaurus »

Annotations d’entité :

Avec l’aide de l’analyse morpho-syntaxique

« Renault SA est annoté Société, car Renault (terme) est

suivi de SA indiquant une notion de société» (pas

besoin de thésaurus)

Annotations de relation entre entité :

Avec l’analyse des verbes

« a signé (=relation) est annoté partenaire, car a signé

un accord est l’une des relations sémantiques associées à

Partenaire»

Page 15: Contenus et données - IRISAcompjournalism2016.irisa.fr/slides/LeNouy.pdf · RDF Schema.org D3js Temis Semsoft. Michel Le Nouy – Ouest-France – Contenus et données – Irisa

Mic

hel L

e N

ouy

–O

uest

-Fra

nce

–C

onte

nus

et d

onné

es –

Iris

a –1

5 m

ars

2016

Constitution d’une Equipe

� Un projet d’équipe • Multi-disciplinaire• Multi-compétences

�Journalistes�Documentalistes�Data Scientiste�Designer�Architecte�Développeur

� Avant un projet technique

Page 16: Contenus et données - IRISAcompjournalism2016.irisa.fr/slides/LeNouy.pdf · RDF Schema.org D3js Temis Semsoft. Michel Le Nouy – Ouest-France – Contenus et données – Irisa

Michel Le Nouy – Ouest-France – Contenus et données – Irisa –15 mars 2016

Donner du sens …

Page 17: Contenus et données - IRISAcompjournalism2016.irisa.fr/slides/LeNouy.pdf · RDF Schema.org D3js Temis Semsoft. Michel Le Nouy – Ouest-France – Contenus et données – Irisa

Mic

hel L

e N

ouy

–O

uest

-Fra

nce

–C

onte

nus

et d

onné

es –

Iris

a –1

5 m

ars

2016

Technos - Concepts

� Résolument : • Open Source (mais pas que)

• Sémantique• Web de données

� ES� Mongo� RDF� Schema.org� D3js� Temis� Semsoft

Page 18: Contenus et données - IRISAcompjournalism2016.irisa.fr/slides/LeNouy.pdf · RDF Schema.org D3js Temis Semsoft. Michel Le Nouy – Ouest-France – Contenus et données – Irisa

Mic

hel L

e N

ouy

–O

uest

-Fra

nce

–C

onte

nus

et d

onné

es –

Iris

a –1

5 m

ars

2016

Collecte

� Sources :• Principalement internes au groupe

�Structuration �Descriptions�Hétérogène

• Page PDF• Article TXT / Xml• Tableaux / Fichiers• Base de données• ….

• Complétude avec sources Open-Data

Page 19: Contenus et données - IRISAcompjournalism2016.irisa.fr/slides/LeNouy.pdf · RDF Schema.org D3js Temis Semsoft. Michel Le Nouy – Ouest-France – Contenus et données – Irisa

Mic

hel L

e N

ouy

–O

uest

-Fra

nce

–C

onte

nus

et d

onné

es –

Iris

a –1

5 m

ars

2016

Analyse

� Entités :• Personnes• Sociétés• Lieux• ….

� Classifications :• IPTC• Thésaurus …• Empreintes sémantique

� Signaux faibles

Page 20: Contenus et données - IRISAcompjournalism2016.irisa.fr/slides/LeNouy.pdf · RDF Schema.org D3js Temis Semsoft. Michel Le Nouy – Ouest-France – Contenus et données – Irisa

Mic

hel L

e N

ouy

–O

uest

-Fra

nce

–C

onte

nus

et d

onné

es –

Iris

a –1

5 m

ars

2016

Facilités / Difficultés / Confiance � Hétérogénéité des sources

• Page PDF / Article XML�Analyse du contexte d’extraction

• Période analysée�1899 à 2015

• Généraliste / Spécialisé�Etendue des sujets traités par les rédactions ..

� Echelle et Etendue …• Des sources / référentiels et cas d’usages demandés

� Ambiguïtés ++ = Confiance --

Page 21: Contenus et données - IRISAcompjournalism2016.irisa.fr/slides/LeNouy.pdf · RDF Schema.org D3js Temis Semsoft. Michel Le Nouy – Ouest-France – Contenus et données – Irisa

Mic

hel L

e N

ouy

–O

uest

-Fra

nce

–C

onte

nus

et d

onné

es –

Iris

a –1

5 m

ars

2016

Exploitation

� 1ere version en exploitation� Plusieurs rédactions connectées� Indexations sources et formats multiples� Annotations entités

• Personnes• Sociétés • Lieux

� 31 000 000 documents depuis 1899, • Accessibles en quelques millisecondes

Page 22: Contenus et données - IRISAcompjournalism2016.irisa.fr/slides/LeNouy.pdf · RDF Schema.org D3js Temis Semsoft. Michel Le Nouy – Ouest-France – Contenus et données – Irisa

Michel Le Nouy – Ouest-France – Contenus et données – Irisa –15 mars 2016

Page 23: Contenus et données - IRISAcompjournalism2016.irisa.fr/slides/LeNouy.pdf · RDF Schema.org D3js Temis Semsoft. Michel Le Nouy – Ouest-France – Contenus et données – Irisa

Michel Le Nouy – Ouest-France – Contenus et données – Irisa –15 mars 2016

Page 24: Contenus et données - IRISAcompjournalism2016.irisa.fr/slides/LeNouy.pdf · RDF Schema.org D3js Temis Semsoft. Michel Le Nouy – Ouest-France – Contenus et données – Irisa

Michel Le Nouy – Ouest-France – Contenus et données – Irisa –15 mars 2016

Page 25: Contenus et données - IRISAcompjournalism2016.irisa.fr/slides/LeNouy.pdf · RDF Schema.org D3js Temis Semsoft. Michel Le Nouy – Ouest-France – Contenus et données – Irisa

Michel Le Nouy – Ouest-France – Contenus et données – Irisa –15 mars 2016

Page 26: Contenus et données - IRISAcompjournalism2016.irisa.fr/slides/LeNouy.pdf · RDF Schema.org D3js Temis Semsoft. Michel Le Nouy – Ouest-France – Contenus et données – Irisa

Mic

hel L

e N

ouy

–O

uest

-Fra

nce

–C

onte

nus

et d

onné

es –

Iris

a –1

5 m

ars

2016

Conclusion

� Plus difficile et plus long• a mettre en œuvre qu’imaginé au départ

� Sans fin …• On peut toujours annoter / enrichir, plus et mieux• Autant d’interprétations que de lecteurs

� Mais surtout passionnant, et enrichissant• Quand les premiers retours d’expérience sont +++

Page 27: Contenus et données - IRISAcompjournalism2016.irisa.fr/slides/LeNouy.pdf · RDF Schema.org D3js Temis Semsoft. Michel Le Nouy – Ouest-France – Contenus et données – Irisa

Michel Le Nouy – Ouest-France – Contenus et données – Irisa –15 mars 2016

Questions ?