Post on 24-Jul-2020
Introduction aux données de la recherche
URFIST de Strasbourg /SBU
Université de Strasbourg
Noël Thiboud / Stéphanie Cheviron
Introduction aux données de la recherche URFIST de Strasbourg2
1. Contexte
2. Définition
3. Gestion des données : principes et outils
4. Ressources pour la science ouverte
Sommaire
Introduction aux données de la recherche URFIST de Strasbourg3
Définition(s)
Cosserat, F. et Ciolek_Figiel, A. Gestion et diffusion des données de la recherche, 2016
2007
2018 Plan national pour la Science ouverte
les données brutes font partie des « contributions » souhaitées à l’Open
Access
Introduction aux données de la recherche URFIST de Strasbourg
Recommandation OCDE (2007)
4
« La valeur des données réside dans leur exploitation. L’accès total et ouvert aux données scientifiques devrait devenir la norme internationale pour l’échange des données scientifiques issues de la recherche financée sur fonds publics »
Principes et lignes directrices de l’OCDE pour l’accès aux données de la recherche financée sur fonds publics OCDE, Paris, 2007. [En ligne] http://www.oecd.org/fr/science/sci-tech/38500823.pdf
Introduction aux données de la recherche URFIST de Strasbourg
Loi pour une République numérique (2016)
5
Dès lors que les données issues d’une activité de recherche financée au moins pour moitié par des dotations de l’État, des collectivités territoriales, des établissements publics, des subventions d’agences de financement nationales ou par des fonds de l’Union européenne ne sont pas protégées par un droit spécifique ou une réglementation particulière et qu’elles ont été rendues publiques par le chercheur, l’établissement ou l’organisme de recherche, leur réutilisation est libre.
Loi n°2016-1321 du 7 octobre 2016 - art. 30
Introduction aux données de la recherche URFIST de Strasbourg
Plan national pour la science ouverte (2018)
6
Introduction aux données de la recherche URFIST de Strasbourg
Enjeux politiques et sociaux
7
• renforcer la démocratie (transparence, concertation)
• Contribuer au dialogue science/société, implication des citoyens : science citoyenne
Introduction aux données de la recherche URFIST de Strasbourg
Enjeux économiques
8
• rendre l’action publique plus efficace
• optimiser la recherche : les données créées ont une forte valeur lorsqu’elles sont ensuite régulièrement réutilisées
• favoriser l’émergence d’un environnement propice à la croissance économique en stimulant l’innovation
Introduction aux données de la recherche URFIST de Strasbourg
Enjeux scientifiques
9
• garantir la qualité ́ scientifique d’une recherche :
• reproductibilité des résultats
• traçabilité des données
• Intégrité scientifique
• réutiliser des données de la recherche :
• capitaliser les savoirs et savoir-faire d’une structure de recherche
• favoriser de nouvelles recherches
Introduction aux données de la recherche URFIST de Strasbourg
Enjeux scientifiques
10
ouverture des résultats de la science
+
nouvelle façon de faire de la recherche, passant par l’ouverture des processus, des codes, des méthodes
Féret Romain, Bracco Laetitia, Cheviron Stéphanie, Lehoux Elise, Arènes Cécile et Li Ling, « Améliorer les chances de succès de son projet ANR grâce à la Science Ouverte (Version 1) », 21 avril 2020, Zenodo. URL : https://zenodo.org/record/3741666#.XqCfx1P7QWq
Introduction aux données de la recherche URFIST de Strasbourg
Verbatim
11
«[…]un projet se termine, on passe à un autre, je l'archive tant bien que mal. En fait, l'archivage c'est comme un
enterrement. C'est-à-dire que si on doit y revenir, c'est presque une exhumation, c'est vraiment très dur. Et donc ça, ça me peine un peu parce qu'en fait on n'est pas dans
une logique de valorisation des travaux antérieurs.»
« On refait la même chose parce qu'on ne sait plus ce qu'on a fait. Et on ne sait plus ce qu'on a fait parce que c'est mal
archivé, mal valorisé, mal documenté.»
« Nous, le problème (...) c'est de trouver des moyens de partager nos données à l'intérieur d'une équipe qui mène un même projet.
On a déjà du mal actuellement à avoir des outils qui nous permettent de mettre en commun nos données, même à petite
échelle, à échelle intersite.»
Introduction aux données de la recherche URFIST de Strasbourg
Enjeux scientifiques
12
Françoise Genova, directrice du Centre de données astronomiques de Strasbourg (CDS)
« l’utilisation des données de l’archive du satellite IUE (1978-1996) [a] produit cinq fois plus de publications scientifiques que l’exploitation initiale des données par les équipes qui les ont obtenues. »
Introduction aux données de la recherche URFIST de Strasbourg
Enjeux scientifiques
13
Direction de l’Information Scientifique et Technique - CNRS. Livre blanc - Une Science ouverte dans une République numérique.
« L’Open Science est une nouvelle approche transversale de l’accès au travail scientifique, des visées et du partage des résultats de la science mais aussi une nouvelle façon de FAIRE de la science, en ouvrant les processus, les codes et les méthodes. »
Introduction aux données de la recherche URFIST de Strasbourg
Définition(s)
14
OCDE (2007) :
« Les données de la recherche sont définies comme des enregistrements factuels (chiffres, textes, images et sons), qui sont utilisés comme sources principales pour la recherche scientifique et sont généralement reconnus par la communauté scientifique comme nécessaires pour valider les résultats de la recherche. »
OCDE, Organisation de Coopération et de Développement Economiques. Principes et lignes directrices de l’OCDE pour l’accès aux données de la recherche financée sur fonds publics. p. 18 [en ligne]. 2007. Disponible sur : http://www.oecd.org/fr/science/inno/38500823.pdf
Introduction aux données de la recherche URFIST de Strasbourg
Définition(s)
15
OCDE (2007) : exclut
« Les données de la recherche sont définies comme des enregistrements factuels (chiffres, textes, images et sons), qui sont utilisés comme sources principales pour la recherche scientifique et sont généralement reconnus par la communauté scientifique comme nécessaires pour valider les résultats de la recherche. »
• les données administratives (programmes ou projets de recherche, analyses préliminaires, documents financiers…)
• communications personnelles avec des collègues
• cahiers de laboratoire
• objets matériels (échantillons de laboratoire, animaux de laboratoire...),
Introduction aux données de la recherche URFIST de Strasbourg16
Définition(s)
Source : Alain Rivet, Marie-Laure Bachèlerie, Auriane Denis-Meyere et Delphine Tisserand - Traçabilité des activités de recherche et gestion
des connaissances - Guide pratique de mise en place – 2018 - http://qualite-en-
recherche.cnrs.fr/IMG/pdf/guide_tracabilite_activites_recherche_gestion_connaissances.pdf
Introduction aux données de la recherche URFIST de Strasbourg
Définition(s)
17
Une synthèse ?
« Les données de la recherche sont un ensemble d'informations factuelles enregistrées sur des supports, produites ou collectées, selon divers procédés au cours d'un processus de recherche »
REYMONET, Nathalie, « Améliorer l’exposition des données de la recherche: la publication de data papers », Archivesic, 2017, [En ligne : https://archivesic.ccsd.cnrs.fr/sic_01427978/].
Introduction aux données de la recherche URFIST de Strasbourg18
Typologie par origine
Typologie(s)
Edition
:Chloée Fabre. Gestion et utilisation des données de la recherche. Présentation stage URFIST. Toulouse, 7-8 novembre 2018.
Ex. : Corpus de textes
Ex. : mesures sismiques ; enregistrements sur le terrain
Ex. séquences de gènes,
chromatogrammes, résultats d’essais
agronomiques
Ex. : modèles climatiques, modèles économiques,
Ex. : statistiques de population
Introduction aux données de la recherche URFIST de Strasbourg19
Introduction aux données de la recherche URFIST de Strasbourg
Les principes FAIR
20
European Commission. New Guidelines on FAIR Data Management in Horizon 2020, 2016
Introduction aux données de la recherche URFIST de Strasbourg
Les principes FAIR
21
Introduction aux données de la recherche URFIST de Strasbourg
Les identifiants
22
o Définition : code numérique unique,
invariable, associé de manière permanente à
une personne (> chercheur) ou à un objet (>
donnée, article)
o pérenne quel que soit le chemin de la
ressource ou de la personne
o ouverts et interopérables = indépendants des
plateformes
o Rendent les données accessibles et citables,
permettent de les lier aux publications,
augmentent la visibilité
o Plusieurs systèmes d’identifiant (selon leur
producteur et/ou leur objet)
Introduction aux données de la recherche URFIST de Strasbourg
Exemples
23
o DOI : Digital Object Identifier, identifiant
numérique d’objet
Identifie aussi bien un article qu’un
jeu de données
o ORCID (Open Researcher and Contributor
ID ) identifie de façon univoque un
chercheur dans un environnement
numérique (Base de données, site de
dépôt de publications ou de données …)
Introduction aux données de la recherche URFIST de Strasbourg
Un outil : le DMP (Digital management plan)
24
en français : PGD ou Plan de Gestion des Données.
Document à concevoir au début d’un projet de recherche expliquant la façon dont les données de recherche recueillies ou générées seront gérées durant le projet et après son terme.
Introduction aux données de la recherche URFIST de Strasbourg25
le
modèle DMP H2020 établi par la Commission européenne
Source : :Doranum
Autres modèles : https://dmp.opidor.fr
Introduction aux données de la recherche URFIST de Strasbourg
Sécurité des données
26
« Si vous me volez mon ordi portable et mon disque dur externe, qui est là et celui qui est
à la maison, j'aurai perdu 6 ans de recherches avec aucun moyen de récupérer ces données là. Donc c'est plus de ça qu'on a
peur. »
« Dans les manipulations, une sauvegarde de l'ordinateur a écrasé ce qui était déposé sur le
disque, donc c'était une perte vraiment considérable pour moi. C'est comme après un
incendie, je repartais à zéro »
j'ai perdu toutes les données de ma thèse […] à l'époque […] j'avais enregistré et sauvegardé ça sur disquette. Et aujourd'hui, je n'ai plus les moyens de convertir ça. Données pas perdues physiquement, mais inaccessibles. Jamais pensé à les convertir » ;
Introduction aux données de la recherche URFIST de Strasbourg
Conservation et archivage des données
27
J'ai deux types de sources vidéo. J'en ai qui datent de la fin des années 1990, début
2000 et je crois que je n'arrive même plus à les lire maintenant parce qu'il y a les codecs
qui ne fonctionnent plus.»
Sur l'archivage des données une fois numérisées, c'est pareil. C'est un peu chaque collègue qui archive, soit sur son poste, soit sur un lecteur externe. Il n’y a pas d'espace d'archivage à l'échelle du labo.» ;
« avant même que les équipes de recherche n'existent, on avait déjà construit des bases de données multilingues[…], c'est un gros dossier que l'on a sur un vieux serveur qui ne fonctionne plus, on sait plus très bien qu'en faire alors que
c'était quand même de la recherche de qualité avec beaucoup de données en plusieurs langues, […], cet outil là n'est plus
utilisable. »
Introduction aux données de la recherche URFIST de Strasbourg
Conservation et archivage des données
28
o Conserver les données produites : anticiper
l’obsolescence des supports
o Organiser un espace collaboratif dédié au projet
pour le stockage, la sauvegarde, l’accès et le
partage des données entre les partenaires
o serveurs locaux (machines virtuelles), cloud
institutionnel…
o contrôle des accès et modalités de partage
des données
o Estimer, indiquer la volumétrie prévisionnelle
des données
Introduction aux données de la recherche URFIST de Strasbourg
Archivage / Partage des données
30
o Définir les règles de nommage des
fichiers de données, de gestion des
versions et de classement des données
pour un partage intelligible entre
partenaires
o Formats et outils de production, de
traitement, de conversion des données
: privilégier des formats et des logiciels
ouverts, standardisés et pérennes.
garantir au maximum la réutilisation et
la conservation des données dans le
temps (obsolescence des formats)
o Comment seront préservées les
données à long terme ?
Introduction aux données de la recherche URFIST de Strasbourg31
Source : Alain Rivet, Marie-Laure Bachèlerie, Auriane Denis-Meyere et Delphine Tisserand - Traçabilité des activités de recherche
et gestion des connaissances - Guide pratique de mise en place – 2018 - http://qualite-en-
recherche.cnrs.fr/IMG/pdf/guide_tracabilite_activites_recherche_gestion_connaissances.pdf
Le Centre Informatique National de l’Enseignement Supérieur (CINES) met à disposition un service de validation de formats destiné à vérifier l'éligibilité de documents sur sa plate-forme d’archivage (https://facile.cines.fr/ ).
Introduction aux données de la recherche URFIST de Strasbourg
Questions juridiques
33
« on a été confronté au problème il y a quelque temps. En l'occurrence j'ai écrit un article que je n'ai jamais pu soumettre parce que je risquais de m'exposer à des problèmes, j'ai préféré laisser mes résultats de côté, c'est un peu dommage parce que c'était un projet chronophage, intéressant et scientifiquement porteur »
« sur des données communes, qui a la propriété des données ? Et là, je ne parle pas des résultats scientifiques, je parle des données brutes ». […] « on s'est retrouvé bloqués pour les utiliser parce qu'on n’avait pas de réponse sur ce qu'on avait le droit de faire avec ces données »
Introduction aux données de la recherche URFIST de Strasbourg
Questions juridiques
34
o Qui a les droits ? Le chercheur,
son établissement, quelqu’un
d’autre ? Dans le cadre d’un
projet, la propriété des données
est fixée dans l’accord de
consortium. S’il n’en existe pas,
elle sera précisée dans le Plan de
Gestion des Données.
o Licences de diffusion : attribuer
une licence de diffusion lorsque
les données sont communicables
permet d’afficher clairement les
modalités de réutilisation
Introduction aux données de la recherche URFIST de Strasbourg
Questions juridiques
35
o identifier les différents droits mis
en jeu (à l’occasion d’entretiens,
de prises de vues, de collecte
d’informations, de consultation
d’archives..., etc.).
o étape cruciale pour le chercheur
parce qu’elle détermine la latitude
dont il/elle disposera ensuite pour
publier, diffuser, communiquer à
un autre chercheur (ou à un tiers)
les données et les résultats de ses
recherches.
Introduction aux données de la recherche URFIST de Strasbourg
Questions juridiques
36
o Les données produites par les
établissements de recherche et
d’enseignement dans le cadre de leur
mission de service public sont
considérées comme des documents
administratifs et sont donc
communicables à toute personne qui en
fait la demande, sauf exceptions légales.
o Cependant, la loi précise que ne peuvent
être accessibles au public que les
documents « achevés ». Par conséquent,
tous les documents préparatoires ne sont
pas communicables. On peut en déduire
que les cahiers de laboratoire sont exclus
de la réglementation sur l'ouverture des
données.
Introduction aux données de la recherche URFIST de Strasbourg
Questions juridiques
37
réutilisation de données issues d'une
activité de recherche
la loi n°2016-1321 pour une République
numérique du 7 octobre 2016 prévoit qu'elle
est libre si :
o ces données sont issues d'une activité
de recherche financée au moins pour
moitié par des fonds publics ;
o ces données ne sont pas protégées par un
droit spécifique ;
o ces données ont été rendues publiques
par le chercheur ou l'établissement.
Introduction aux données de la recherche URFIST de Strasbourg38
Exceptions légales
Source : Y, Lafosse. Initiation aux données de la recherche – Formation Urfist Paris – 27 et 28 mars 2019
Questions juridiques
39
BECARD Nicolas, CASTETS-RENARD Céline, CHASSANG Gauthier, COURTOIS Mary-Audrey,
DANTANT Martin, GANDON Nathalie, MARTIN Caroline, MARTELLETTI Andrea, MENDOZA-
CAMINADE Alexandra, MOCRETTE Nathalie.
Ouverture des données de la recherche. Guide d’analyse du cadre juridique en
France, 2017, 45 p.
Introduction aux données de la recherche URFIST de Strasbourg
Entrepôts de données
•Généralistes
•Disciplinaires
•Institutionnels
40
Source : Pline : Silos a cereales a Nemours le long du Loing, Ile de France, Francehttps://commons.wikimedia.org/wiki/File:Silos_a_cereales_a_Nemours_P1050498.JPG
Introduction aux données de la recherche URFIST de Strasbourg41
Les entrepôts généralistes
Zenodo
• Permet de déposer des ensembles de données et de les lier aux publications• Issu du projet européen OpenAIREplus, développé par le CERN• différents types de documents : jeux de données, images, posters, présentations,
publications, vidéos/audios• Affecte des DOIs aux objets déposés
En savoir plus : https://doranum.fr/depot-entrepots/depot-donnees-recherche-zenodo/
Entrepôt généraliste
Introduction aux données de la recherche URFIST de Strasbourg42
Les entrepôts disciplinaires
Sciences humaines et sociales :
• NAKALA propose deux grands types de services : des services d'accès aux données elles-mêmes et des services de présentation des métadonnées. En savoir plus https://www.huma-num.fr/services-et-outils/exposer/
Entrepôts disciplinaires
Introduction aux données de la recherche URFIST de Strasbourg43
Les entrepôts disciplinaires
Sciences sociales :
• répondre aux problématiques d’archivage, de documentation et de diffusion des données françaises pour la recherche en sciences humaines et sociales.
• Plus de 1550 jeux de données actuellement accessibles
• . En savoir plus http://www.progedo.fr/partager/donnees-francaises/
Entrepôts disciplinaires
Sciences : DRYAD
• Dryad est un référentiel disciplinaire international de données sous-jacentes aux publications scientifiques et médicales.
• . En savoir plus http://datadryad.org/pages/faq/
Introduction aux données de la recherche URFIST de Strasbourg44
Astronomie: CDS (Centre de Données astronomiques de Strasbourg)
• Services d'accès à des données publiques
• Prend en charge la conservation des données à long terme
• Évolution des métadonnées
• Identifiants pérennes ORCID et DOI
Entrepôts disciplinaires
Introduction aux données de la recherche URFIST de Strasbourg45
Les entrepôts institutionnels
UNIVOAK : plateforme de dépôt des établissements alsaciens d'enseignement supérieur et de recherche (BNU, INSA, UHA, Unistra et établissements associés) https://univoak.eu/
• Publications• Jeux de données
entrepôt institutionnel - Alsace
Introduction aux données de la recherche URFIST de Strasbourg
Rechercher des jeux de données
46
Introduction aux données de la recherche URFIST de Strasbourg
Publier ses données
47
• dans une revue scientifique traditionnelle : les données sont dans des fichiers supplémentaires associés à l’article
• dans un data journal : revue spécialisée dans les data papers
Introduction aux données de la recherche URFIST de Strasbourg
Publier ses données :les data papers
48
• les data papers ont pour but de rendre les données accessibles, interprétables et réutilisables, plutôt que de tester des hypothèses ou présenter de nouvelles analyses.
• Ils suivent la même logique de processus éditorial que les articles scientifiques classiques
Introduction aux données de la recherche URFIST de Strasbourg
Publier ses données :les data papers
49
Structure
• Partie descriptive : Éléments communs aux articles classiques : titre, résumé, mots-clés… + Éléments spécifiques aux données : types de données, formats, processus et méthodes de production, métadonnées, réutilisation…
• Accès aux données : intégrées dans l’article ou déposées dans un entrepôt
• L’identifiant des données (exemple DOI) permet d’établir le lien du data paper vers les données
Introduction aux données de la recherche URFIST de Strasbourg
Publier ses données :les data papers
50
Exemples
• En STM : https://www.nature.com/articles/sdata20
1828
• En SHS: Research Data Journal for the
Humanities and Social Sciences(Brill)
Introduction aux données de la recherche URFIST de Strasbourg
On peut vous aider ?
51
Introduction aux données de la recherche URFIST de Strasbourg
autres acteurs de la gestion des données
52
• Les bibliothécaires et documentalistes : indexation, gestion des métadonnées, participation à l'archivage, services d'appui aux chercheurs du SBU...
• Les ingénieurs-projet, les informaticiens: PUD, Dnum, interopérabilité, stockage, diffusion des données, gestion des entrepôts de données
• Les experts juristes : CIL, DPO conseils aux chercheurs pour les aspects juridiques
• Les formateurs IST :sensibilisation, formation, services, conseils aux chercheurs...
Introduction aux données de la recherche URFIST de Strasbourg53
Aide aux chercheurs
service d'appui aux chercheurs du SBU
Introduction aux données de la recherche URFIST de Strasbourg54
Aide aux chercheurs
Plateforme universitaire de données - MISHA• Accompagnement dans les travaux de recherche avec une utilisation de données quantitatives• présentation du service (Vidéo – 12’34) :
Responsable scientifique : Nicolas CAUCHI-DUVAL cauchiduval@unistra.frIngénieure d’études : Floriane VARIERAS floriane.varieras@misha.fr
C O N T A C T : PUD-S@misha.fr
http://www.misha.fr/page_pud_s.htm
MISHAMaison Interuniversitaire des Sciences de l'Homme –AlsaceBureau 1345, allée du Général RouvilloisCS 5000867084 STRASBOURG cedex
Introduction aux données de la recherche URFIST de Strasbourg55
Aide aux chercheurs
La déléguée à la protection des données (DPO – Data Protection Officer)
Introduction aux données de la recherche URFIST de Strasbourg57
Aide aux chercheurs
Formations de l’Urfist
urfist@unistra.fr
http://urfist.unistra.fr
Introduction aux données de la recherche URFIST de Strasbourg
Sites utiles
58
• DoRANum : https://doranum.fr/
• DEBOIN, Marie-Claude. S’initier en ligne aux données de la recherche. Dans : CoopIST - Coopérer en information scientifique et technique [en ligne]. 23 janvier 2020. https://coop-
ist.cirad.fr/gerer-des-donnees/s-initier-en-
ligne-aux-donnees-de-la-recherche/1-
familiarisez-vous-avec-le-concept-de-donnees-de-la-recherche
Introduction aux données de la recherche URFIST de Strasbourg
Sites utiles
59
• Modèles de DMP :https://dmp.opidor.fr
Introduction aux données de la recherche URFIST de Strasbourg
Merci de votre attention
urfist@unistra.fr
http://urfist.unistra.fr
61