Post on 03-Apr-2015
L’archivage pérenne du document numérique au CINES
Mireille Gay(CINES)mireille.gay@cines.fr
Formation STAR – 27 septembre 2013
Sommaire
I. Le CINES.
II. La problématique de l’archivage numérique pérenne
III. La plateforme d’archivage du CINES: PAC
La mission d’archivage au CINES Architecture; Principe de fonctionnement Implémentation des procédures d’assurance
qualités (techniques et organisationnelles) Les données archivées; Volumétrie
2Formation STAR, Paris – 27/09/2013
Le CINES
3
Centre Informatique National de l’Enseignement Supérieur
• Basé à Montpellier (Hérault, France)
• EPA créé en 1999, succédant au CNUSC (Centre National Universitaire Sud de Calcul) – créé en 1980
• Placé sous la tutelle de la DGRI (Direction Générale de la Recherche et de l’Innovation) et de la DGESIP (Direction Générale pour l’Enseignement Supérieur et l’Insertion Professionnelle) du Ministère de l’Enseignement Supérieur et de la Recherche
• Missions :
– Calcul numérique intensif– Archivage pérenne de documents
électroniques– Activité transversale : hébergement
d'environnements informatiques
• Plus d’information : http://www.cines.fr/
Formation STAR, Paris – 27/09/2013
La mission d’archivage du CINES
Depuis 2004, le CINES a une mission nationale d’archivage du patrimoine scientifique.
– Arrêté du 7 août 2006 relatif aux modalités de dépôt, de signalement, de reproduction, de diffusion et de conservation des thèses ou des travaux présentés en soutenance en vue d’un doctorat
– Convention du 2 mai 2007 (faisant suite à celle du 15 octobre 2003) relative à la mise en ligne et l’archivage pérenne de données numérisées dans le cadre du programme Persée
– Lettre de cadrage du 12 février 2008 recentrant les activités du CINES autour de deux missions stratégiques : le calcul intensif et l’archivage pérenne
Pour la remplir, le CINES a mis en place le projet PAC, qui a doté le CINES d’une plate-forme et d’un service d’archivage numérique pérenne
L’équipe : 1 chef de projet, 8 ingénieurs, 1 archiviste, 2 techniciens (11 ETP)
4Formation STAR, Paris – 27/09/2013
Le service d’archivage pérenne du CINES
Objectifs : la mise en place d’une solution– Performante pour la conservation à moyen et long terme du patrimoine numérique
des établissements
– Economique et sécurisée
Contraintes– Besoin d’une solution générique, basée sur les normes du domaine ;
– Adoption de standards → facilite la démarche qualité pour la conservation ;
– Veille technologique et de migration.
Les données concernées sont :– Les données scientifiques – résultats d’observations ou de calcul
– Les données patrimoniales – pédagogiques, publications, etc.
– Les données administratives – archives intermédiaires
Dans le respect du contexte législatif archivistique français
5Formation STAR, Paris – 27/09/2013
Tous les projets d’archives à long terme partagent la même plateforme– Mutualisation de l’infrastructure matérielle d’archivage ;– Protocole de versement générique ;– Diminution des coûts de mise en place et d’exploitation.
→Le service d’archivage bénéficie des infrastructure et de l’équipe d’experts d’un Centre Informatique National 4 salles machine (820 m2), 1 salle 500m2 en construction Alimentation électrique (lignes 2,6 MW et 10MW) secourue
(groupe électrogène 1,5MW) Réseau RENATER (lien 10Gbits)
La Plateforme d’archivage pérenne au CINES – PAC v2.0– Capacité actuelle 40 To + 10 To en reserve– En exploitation depuis Mai 2008– Logiciel d’archivage (Arcsys (Infotel)
+développements spécifiques CINES)– Serveurs applicatifs et baie de stockage
SUN – Oracle– Librairie de bandes IBM (2 x 1Po)
PAC: Les infrastructures, supports et moyens de PAC
Formation STAR, Paris – 27/09/20136
Le contexte, la problématique et les constats
Qu’est-ce que l’archivage électronique pérenne ?
L’archivage pérenne des documents électroniques consiste à conserver le document et l’information qu’il contient :
Dans son aspect physique comme dans son aspect intellectuel,
Sur le très long terme soit 30 ans et au-delà,
De manière à ce qu’il soit en permanence accessible et compréhensible.
7
Formation STAR, Paris – 27/09/2013
Le contexte, la problématique et les constats
Formation STAR, Paris – 27/09/2013
8
Perte compréhensionet accessibilité ?
Temps
4 risques inéluctables :
– Connaissance perdue du contenu des fichiers ;
– Format de fichier inconnu ;
– Support physique détérioré ;
– Logiciel ou matériel de lecture disparu.
Archivage pérenne = Mise en place de procédures d’assurance qualité pour atténuer l’impact des risques lorsqu’ils se réalisent
Voici un document que j’ai créé en 1998…
De quoi s’agit-il déjà ? Est-ce bien ce qui est indiqué sur la disquette ?
La disquette est-elle toujours en bon état ?
Mon portable, acheté en 2006, n’a pas de lecteur de disquette…
J’ai créé ce document avec Claris Works. Comment retrouver ce logiciel ? Quel est le format du document ?
J’ai trouvé le logiciel, mais puis-je l’installer et l’utiliser sous Windows XP ?
Ça marche ! Mais j’ai perdu toute ma mise en forme…
SUPPORT : VEILLE
+ MIGRATION
PHYSIQUEMETADONNEES DESCRIPTIVES +
IDENTIFICATION UNIQUE et PERENNE
ENVIRONNEMENT
MATERIEL : VEILLE
TECHNO et ANTICIPATION
ENVIRONNEMENT LOGICIEL :
privilégier les FORMATS DURABLES
+ MIGRATION LOGIQUE SYSTÈME
D’EXPLOITATION
INTEGRITE
AUTHENTICITE
9
Les défis, orientations et choix pour l’archivage au CINES
Les normes et standards utilisés
• OAIS - ISO 14721 : Reference model for an Open Archival Information System – Modèle purement conceptuel, ne fait aucune recommandation technique
• P2A Politique et pratiques d’archivage (sphère publique)– Recommandations en termes d’architecture, moyens, sécurité, etc.
• Standard d’échanges de données pour l’archivage électronique, versement, communication, élimination
• Normes internationales de description archivistique– ISAAR-CPF – Norme Internationale sur les notices d’autorité utilisées pour les
Archives relatives aux collectivités, aux personnes ou aux familles– ISAD-G – Norme générale et internationale de description archivistique
• Métadonnées descriptives de l’archive– DCMI – Dublin Core Metadata Initiative
• Identifiant unique et pérenne– Interne, séquentiel, basé sur le principe URI– Couplé à un identifiant persistant externe de type ARK
• Empreintes numériques– Hashing MD5, SHA-256, SHA-1
10Formation STAR, Paris – 27/09/2013
Le CINES a une démarche de certification pour valider, mettre en avant les procédures d’assurance qualité mises en œuvre :
Qualité organisationnelle: La certification
Formation STAR, Paris – 27/09/2013
11
– Plusieurs audits internes/externes depuis 2009 en collaboration avec le cabinet de consultants Ourouk
– Agrément du SIAF pour la conservation d’archives publiques intermédiaires (Arrêté du 14 décembre 2010)
– Accréditation Data Seal of Approval - attribuée aux centres de préservation numérique ayant mis en place des procédures d’assurance qualité afin de garantir l’accessibilité et l’intelligibilité des informations (15 Mars 2011) (16 critères)
– Test audit ISO 16363 pour la certification de systèmes d’archivage électronique dans le cadre du projet européen APARSEN (7 Juin 2011) dont le CINES est partenaire (48 critères)
→ Objectif de certification du service à l’horizon 2014.
• Présentant une valeur patrimoniale scientifique ou technique
• De préférence des objets dits « primaires »– Documents originaux,– Bruts de scan, etc.
• Dans un format identifié et vérifiable :
Les types de documents à archiver de façon pérenne
– Format publié– Format largement utilisé (ou promis à l’être)– Format normalisé si possibleLes formats doivent respecter les spécifications de leur format
• Le système PAC est interfacé avec les outils Jhove, ImageMagick, DROID, ODF Validator, MPlayer pour– Identifier, Valider,
Caractériser le format des fichiers transférés
Type Format
Texte HTML, PDF, TXT, XML, ODT
Image GIF, JPEG, TIFF, PNG, SVG
Audio WAV, AIFF, AAC, VORBIS
Vidéo MJPEG2000, MPEG4, THEORA
12Formation STAR, Paris – 27/09/2013
Un outil en ligne pour valider les formats de fichier
• Outil en ligne permettant de valider les fichiers par rapport aux spécifications de leur format
• Les contrôles effectués sont les mêmes que ceux effectués lors d’un dépôt de document
• Intègre les mêmes outils (Jhove, Imagemagick, DROID, Mplayer) que la plateforme d’archivage PAC
• Permet une validation des fichiers avant dépôt de la part du producteur
http://facile.cines.fr/13
FACILE – validation du Format d’Archivage du CInes par anaLyse et Expertise
Formation STAR, Paris – 27/09/2013
Fonds ou Projet d’archives
PAC: Qualité des métadonnées : Les niveaux de MD dans PAC
PPDI.XML Document
BIR,Bibliothèque d’Informations de
Représentation
formats Spécifications des
formats des fichiers archivés. Les schémas
xsd, dtd …
ProjetPPDI , profil d‘archivage, convention, élimination
…
Métadonnees_métier.XML
SIP.XML / AIP.XML
Spécifications doc techniques
La structure du document à archiver
Document à archiver composé de deux pièces :
1.La description de l’archive
– Fichier sip.xml (schéma http://www.cines.fr/pac/sip.xsd)– 3 sections décrivant :
Le document dans son projet d’archives (DocDC)
Le document proprement dit (DocMeta)
Les fichiers du document (FichMeta)
2.Le dossier contenant les documents électroniques à archiver
– Répertoire « DEPOT »– Sous-arborescence autorisée– Tout fichier présent doit être décrit dans le fichier sip.xml
15Formation STAR, Paris – 27/09/2013
Les acteurs
Le producteur– Personne physique ou morale, publique ou privée, qui a produit, reçu et conservé
des archives dans l’exercice de son activité.
Le service versant– Organisation qui transfère une archive à un service d’archives
Le service de contrôle– Personne physique ou morale qui effectue le contrôle scientifique, juridique et
technique des documents archivés, et éventuellement valide les demandes de communication d’archives
Le service d’archives– Organisation recevant le document à archiver transféré et chargée de la conserver
pour permettre à une communauté d’utilisateurs/un service demandeur d’y accéder et de l’utiliser
L’utilisateur– Toute personne ou système client en relation avec le service d’archives pour trouver
les informations archivées présentant un intérêt, et pour accéder au détail de ces informations, dans le respect de la législation applicable en matière de communication des archives.
16Formation STAR, Paris – 27/09/2013
Les échanges
Transfert d’archives– Transmission physique d’une archive ou d’un ensemble d’archives par un service
versant à un service d’archives
Modification d’archives– Modification des métadonnées et/ou du document pour en assurer la préservation
Elimination d’archives– Elimination des métadonnées et/ou du document à la demande du services
d’archives, du service versant ou du service de contrôle
Restitution d’archives– Transmission de documents par le service d’archives au service versant ou au
producteur afin de leur en restituer la garde
Communication d’archives– Transmission de copie de document à un utilisateur ayant l’autorisation du service
versant et /ou du service de contrôle
17Formation STAR, Paris – 27/09/2013
Le modèle fonctionnel OAIS
Formation STAR, Paris – 27/09/201318
SER
VIC
E V
ERSA
NT
UTILISA
TEUR
MANAGEMENT
Entrées et Contrôles Accès
Planification de la pérennisation
Stockage
Gestion de Données
AIP
SIP
DIP
AIP
Administration
L’architecture logique de la plateforme PAC
PAC : Plateforme d’archivage du CINES
ServeurdeTransfert
ServeurdeStockage
Serveurd’Accès
Producteur Service Versant
Administrateur
Utilisateur
Service de Contrôle
19Formation STAR, Paris – 27/09/2013
Les principes de fonctionnement
Serveurs Fonctions
Transfert réception des SIP détection d’un nouveau transfertenvoi d’un accusé de réception
contrôle des SIP structure informatiqueconformité des métadonnées sip.xml par rapport au schéma sip.xsdcorrespondance entre la description sip.xml et les fichiers qui composent le documentcontrôle et validation du format des fichierscalcul de l’empreinte numérique de chaque fichier
création des AIP création de l’identifiant du document archivémise à jour des métadonnées : sip.xml > aip.xmltransfert de l’AIP au serveur de stockage
Stockage archivage des AIP copie multiple de l’AIP sur les différents médias ou supports envoi du certificat d’archivage
vérification périodique de l’intégrité des AIP archivés
migration technologique
fourniture d’états et de statistiques
Accès contrôle de l’authentification de l’utilisateur
consultation du catalogue des AIP archivés
communication d’une copie d’un document archivé20
Formation STAR, Paris – 27/09/2013
Les étapes du versement d’archives
PAC – Versement de document(s)
Se
rveu
r de
V
ers
emen
tS
erv
eur
de
Sto
cka
geS
erv
ice
V
ers
ant
Soumission
Document(s)Accusé de Réception
Contrôle de validité
techniqueValide ?
Notification de Rejet
NON
OUI
Archivage
Certificat d’archivage
21Formation STAR, Paris – 27/09/2013
PAC: Qualité du stockage
22
La qualité du stockage garantit la conservation du train de bits composant les fichiers de données Copies multiples:
2 copies sur disques
1 réplication sur un site distant CC-IN2P3
2 copies sur bandes
Indépendance des supports de copies (mélange disques/bandes, localisation géographique)
Audit fréquent de l’intégrité des copies
• Au niveau matériel : vérification des contrôleurs de disques, contrôleurs réseau etc.
Migration physique.
• Au niveau logiciel : (Archeck module de supervision qui détecte les corruptions silencieuses,..)
Calcul des empreintes numériques par échantillonnage et comparaison avec l’empreinte initiale
Utilisation d’algorithme de hachage (MD5, SHA-256), etc.
Formation STAR, Paris – 27/09/2013
La stratégie de préservation des documents
La stratégie de préservation des documents archivés repose sur la migration (pas d’émulation)
• Migration physique
– La technologie évolue: changement du support de stockage
Effectuée en tâche de fond par l’application d’archivage, pas d’arrêt de service, le service versant est informé
• Migration logique
– Conversion de formats
– Expertise et veille technologique pour la détection de l’obsolescence d’un format de fichier pris en charge sur la plateforme
– Identification d’un format offrant de meilleures garanties de pérennité
– Migration après accord des services versants concernés
– Pas de modification pour le service versant de l’identifiant unique attribué lors de l’archivage
– Conservation des versions 1 (initiale), n-1 et n d’un document migré 23
Formation STAR, Paris – 27/09/2013
L’archivage au CINES en quelques dates…
2004 20082006 2010
• 1ères réflexions sur l’archivage numérique
• Prestation de conseil en AE (2005)
• Arrêté du 7 août 2006 (Thèses)
• 1ères thèses versées dans PAC_V1, une plateforme d’archivage « maison » (arrêté du 07/08/2006)
• Convention pour l’archivage du portail Persée (02/05/2007)
• Recadrage des activités du CINES (lettre du 12/02/2008)
• Mise en production de PAC_V2 (basée sur la solution Arcsys d’Infotel et un client spécifique)
« migration de plateforme »
• Archivage de HAL (Hyper Articles en Ligne), des données orales du CRDO (TGE-Adonis), de livres numérisés (Cujas, BIUS, BUPMC,BSG…)
• 2009 : 1er To archivé
• Agrément du SIAF (14/12/2010)
2013
• Archivage Cour des comptes, Inserm
• Accréditation DSA (2011)
• Certification ISO 16363 (en cours)
• 26 To archivés
Formation STAR, Paris – 27/09/2013
Les utilisateurs de PAC
2511/07/2012
Les thèses : Volumétrie
12/01/2012Formation STAR, Paris – 27/09/2013
26
Début septembre 19873 thèses déposées
Les thèses : Répartition des versions de formats
Formation STAR, Paris – 27/09/2013
27
Version Nombre Pourcentage
PDF 1.2 157 0,6%
PDF 1.3 761 2,8%
PDF 1.4 14013 51,9%
PDF 1.5 3672 13,6%
PDF 1.6 2156 8,0%
PDF 1.7 208 0,8%
XML 1.0 106 0,4%
WAV 659 2,4%
TXT 106 0,4%
PNG 1.0 3001 11,1%
PNG 1.1 20 0,1%
AAC 1796 6,7%
MPEG-4 118 0,4%
JPEG NA 97 0,4%
JPEG 1.01 20 0,1%
JPEG 1.02 34 0,1%
GIF 89a 29 0,1%
FLAC 1 0,0%
TIFF 5.0 5 0,0%
TIFF 6.0 38 0,1%
Total 26997 100,0%
29
Questions & Réponses
Plus d’information à l’adresse : http://www.cines.fr/spip.php?rubrique219
mireille.gay@cines.fr
Formation STAR, Paris – 27/09/2013