Introduction à l'informatique documentaire

54
Informatique documentaire Sylvain Machefert 12 MARS 2 0 1 0

description

Support du cours présenté aux étudiants de licence pro métier du livre, section bibliothèque de l'IUT de Bordeaux en mars 2010.

Transcript of Introduction à l'informatique documentaire

Page 1: Introduction à l'informatique documentaire

Informatique documentaireSylvain Machefert

12 MARS

2 0 1 0

Page 2: Introduction à l'informatique documentaire

2Informatique documentaire

Généralités

Identifiants

Structuration

Métadonnées

Échanges

Page 3: Introduction à l'informatique documentaire

CC-BY // Patrick Hoesly // Flickr

Généralités

Page 4: Introduction à l'informatique documentaire

4Généralités

Le document numérique

« Dans son acception courante un document est généralement défini comme le support physique d'une information. Plus précisément on peut le définir comme un ensemble de données informatives présentes sur un support, sous une forme permanente et lisible par l’homme ou par une machine (permanent par opposition à volatil). »

http://fr.wikipedia.org/wiki/Document

Page 5: Introduction à l'informatique documentaire

5

Le document numérique

Le document numérique peut être compris dans un sens plus large, comme étant un ensemble de données informatives sous forme de chiffres (= numérique) lisible par un dispositif informatique restituant les informations.

Généralités

Page 6: Introduction à l'informatique documentaire

6

Éléments de vocabulaire

● bit → le fameux 0 ou 1● octet → 8 bits → 256 combinaisons● kilooctets → 1024 octets● mégaoctet → 1024 kilooctets● gigaoctet → 1024 mégaoctets● téraoctet → 1024 gigaoctets

Généralités

Page 7: Introduction à l'informatique documentaire

7

Le codage des caractèresCodage Création bits Valeurs

possiblesCaractèresdisponibles

ASCII 1961 7 128 95ISO-8859-1 / Latin-1 1987 8 256 191 (accents)UTF-8 1993 8-32 > 2 milliards > 100 000

Généralités

Page 8: Introduction à l'informatique documentaire

8

Enjeux

● Interopérabilité des systèmes● Accessibilité des informations● Pérennité des informations

Généralités

Page 9: Introduction à l'informatique documentaire

CC-BY // Joe Shlabotnik // Flickr

Identifiants

Page 10: Introduction à l'informatique documentaire

10

Identifiants

● Différents types d'identifiants : ensemble numérique ou alpha-numérique

● Pour des unités d'information qui peuvent concerner : – une entité physique– une entité logique (article, contribution dans un périodique,

un livre, voir une partie dans un article : différents niveaux de granularité)

Identifiants

Page 11: Introduction à l'informatique documentaire

11

Identifier l'unité physique

● Numéro international normalisé du livre imprimé : ISBN978-2-7654-0954-0

● Numéro international normalisé des publications en série : ISSN

0335-1793 ● Numéro international normalisé de la musique imprimée : ISMN

M-060-11561-5

Identifiants

Page 12: Introduction à l'informatique documentaire

12

● Code international normalisé des enregistrements musicaux (sonore et audiovisuel) : ISRC

FR-AB5-07-12345● Numéro international normalisé d’œuvre audiovisuelle : ISAN

ISAN : 0000-0002-29D9-0098-U-0000-0000-L● Code international normalisé des textes : ISTC

ISTC A02-2009-000004BE-A● Serial Item and Contribution Identifier : SICI

0002-8231(199412)45:10<737:TIODIM>2.3.TX;2-M

Identifier l'unité physique

Identifiants

Page 13: Introduction à l'informatique documentaire

13

Identifier en ligne

● Enjeu important● Dépasse le cadre des identifiants « physiques »

● Principe générique des URI : ensemble des technologies et moyens permettant de– Nommer,– Adresser,– Jusqu'à un certain point, décrire les ressources du Web

Identifiants

Page 14: Introduction à l'informatique documentaire

14

URN

● Uniform Resource Name● Identifie la ressource indépendamment de son

emplacement→ nécessite un mécanisme capable de faire le lien entre l'identifiant et l'emplacement de la ressource

● Repose sur un répertoire de correspondance

urn:isbn:0-395-36341-1

Identifiants

Page 15: Introduction à l'informatique documentaire

15

URL● Uniform Resource Locator● Utilisé par le protocole HTTP pour

la localisation des pages Web● Très lié à l'institution hébergeante

→ Non pérenne

http://fr.wikipedia.org/wiki/URL

protocole sous-domaine nom de domaine de 2nd niveau nom de domaine de 1er niveau nom de la ressource

Identifiants

Page 16: Introduction à l'informatique documentaire

16

Pérennité, lisibilité des URL

● Nécessité pour un accès direct● Facilite la citation● Indexation dans les moteurs de recherche● Moissonnage OAI

Identifiants

Page 17: Introduction à l'informatique documentaire

17

ARK

● Archival Resource Key● Créé et maintenu par la California Digital Library● Faciliter la citabilité et le référencement de document

numériques● Mis en place par la BnF pour Gallica et BN Opale Plus● Différents niveau de granularité :

– Page précise d'un document– Une image dans un lot d'images

Identifiants

Page 18: Introduction à l'informatique documentaire

18

ARK

ark:/12148/bpt6k103226k/f263.pagination http://catalogue.bnf.fr/

adresse du résolveur (optionnel) espace de nom institution Identifiant unique niveau plus fin

http://gallica.bnf.fr/

Identifiants

Page 19: Introduction à l'informatique documentaire

19

DOI● Digital Object Identifier (1998)● Sous-partie d'un élément plus important : handle● Gérés par Crossref pour le domaine de la recherche● Fin 2009 : 43 millions d'enregistrements

doi:10.1045/may2006-apps

espace de nom code handle du DOI organisme gestionnaire identifiant de l'objet

http://dx.doi.org/http://hdl.handle.net/

résolveur

Identifiants

Page 20: Introduction à l'informatique documentaire

CC-BY-SA // Aloriel // Flickr

La structuration

Page 21: Introduction à l'informatique documentaire

21

HTML● Langage de structuration des pages web (1989)● Langage de présentation (peu de sémantique)● Support varié

Structuration

Page 22: Introduction à l'informatique documentaire

22

CSS● Feuille de style en cascade (~1995)● Structure // Présentation

main.css

Structuration

Page 23: Introduction à l'informatique documentaire

23

XML

● eXtensible Markup Language (1998)● Recommandation du W3C● Lié aux technologies du web● Structure arborescente● Format générique de balisage décliné en schémas

Structuration

Page 24: Introduction à l'informatique documentaire

24

Validation - DTD

● Document Type Definition● Description des éléments du XML

– Noms des éléments– Contenus– Attributs

● Peut être décrit en XML● Pas de typage

<!ELEMENT annuaire (personne*)><!ELEMENT personne (nom, sexe?, date_naiss?)>

<?xml version="1.0" encoding="UTF-8"?><!DOCTYPE annuaire SYSTEM "annuaire.dtd"><annuaire> <personne> <nom>Stéphane Dupond</nom> <sexe>Masculin</sexe> <date_naiss>1er janv. 82</date_naiss> </personne></annuaire>

DTD

XML Valide

Structuration

Page 25: Introduction à l'informatique documentaire

25

Validation - XSD

● XML Schema● Définition plus précise● Typage des données

<?xml version="1.0" encoding="UTF-8"?><!DOCTYPE annuaire SYSTEM "annuaire.dtd"><personne xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:noNamespaceSchemaLocation="personne.xsd"> <nom>Stéphane Dupond</nom> <sexe>Masculin</sexe> <date_naiss>1982-01-01</date_naiss></personne>

<?xml version="1.0" encoding="UTF-8"?> <xs:schema xmlns:xs="http://www.w3.org/2001/XMLSchema"> <xs:element name="personne"> <xs:complexType> <xs:sequence> <xs:element name="nom" type="xs:string" minOccurs="1" /> <xs:element name="date_naiss" type="xs:date"/> <xs:element name="sexe"> <xs:simpleType> <xs:restriction base="xs:string"> <xs:enumeration value="Masculin"/> <xs:enumeration value="Féminin"/> </xs:restriction> </xs:simpleType> </xs:element> </xs:sequence> </xs:complexType> </xs:element> </xs:schema>

XSD

XML valide

Structuration

Page 26: Introduction à l'informatique documentaire

26

XSL

● Extensible stylesheet language● Feuilles de styles associées au XML

– XSLT : transformation– XPath : navigation dans le document– XSL-FO : mise en forme

CC-BY-SA / / Ripounet // Wikimedia Commons

Transformation XSL//personne[@prenom='david']

Chemin XPath

Structuration

Page 27: Introduction à l'informatique documentaire

27

XML - Applications● TEI : Text Encoding Initiative

Structuration de textes électroniques en Sciences Humaines et Sociales

● EAD : Encoded Archival DescriptionEncodage des instruments de recherches archivistiques (utilisé dans Calames)

● TEF : Thèses Électroniques FrançaisesRegroupe la description et les informations de gestion

● METS : Metadata Encoding and Transmission StandardDescription de collections d'objets numériques

Structuration

Page 28: Introduction à l'informatique documentaire

28

Application émergente : EPUB● Format ouvert (1997) pour les livres électroniques : .epub● Archive de XHTML, CSS, images

CC

-BY // D

an Ta ylor // Flickr

Structuration

Page 29: Introduction à l'informatique documentaire

CC-BY // MG Shelton // Flickr

Les métadonnées

Page 30: Introduction à l'informatique documentaire

30

Généralités● Plusieurs types

– Métadonnées descriptives– Métadonnées techniques– Métadonnées juridiques

● Importance des choix de format● Suivre une norme pour ne pas s'isoler● Stockage des métadonnées

– Dans la ressource– Dans une base associée

Les métadonnées

Page 31: Introduction à l'informatique documentaire

31

Description vs Stockage

Format de descriptionDublin Core, MARC, Onix

≠Format de stockage

Iso2709, XML, Format binaire

Les métadonnées

Page 32: Introduction à l'informatique documentaire

32

Description – Formats MARC● Depuis 1965● Par et pour les bibliothécaires● Arborescence à deux niveaux● Variations nationales (Unimarc, marc-21 ...)● Principaux formats en bibliothèques

Les métadonnées

Page 33: Introduction à l'informatique documentaire

33

Description – ONIX● Première version en 2000● Initié par les acteurs commerciaux (éditeurs, libraires)● Plus de 200 champs différents (~30 constituant la base)● Passerelles vers les formats MARC pour les bibliothèques● Données enrichies :

– Résumés– Image de couverture– Prix, disponibilité

Les métadonnées

Page 34: Introduction à l'informatique documentaire

34

Description – Dublin Core● Plus récent (1995), plus connu● Dublin Core Element Sets : 15 éléments de base

– Contenu : titre, type, sujet ...– Propriété intellectuelle : créateur, éditeur ...– Instanciation : date, identifiant, format

● Étendus par le Dublin Core qualifié

Les métadonnées

Page 35: Introduction à l'informatique documentaire

35

Description – RDF● Resource Description Framework● Description des ressources du Web et leurs Métadonnées● Définition à l'aide de triplets : Sujet – Prédicat – Objet

– <Écrivain> <Auteur_de> <Livre>– <Écrivain> <Date_de_Naissance> <Année>

● Relations définies dans des vocabulaires– FOAF : pour la description des personnes et leurs relations– SKOS : relations de types thésaurus et classification

Le linked Data

Exemples d'utilisation dans DBPedia

Les métadonnées

Page 36: Introduction à l'informatique documentaire

36

Stockage : OÙ ? ● Dans le document :

– Métadonnées exif, xmp pour les photos– RDF sur une page web

● Dans une base associée, lien par un identifiant– Notice associée par un code barre– Notice associée par un DOI

Les métadonnées

Page 37: Introduction à l'informatique documentaire

37

Stockage - XML● Utilisation d'un format lisible● Nombreux formats définis (ou adaptations)

Les métadonnées

Page 38: Introduction à l'informatique documentaire

38

Stockage - iso2709● Lié aux formats MARC● Spécification ouverte● Format très spécifiques aux bibliothèques

Les métadonnées

Page 39: Introduction à l'informatique documentaire

39

Stockage – format binaire● Solution utilisée par certains éditeurs pour stocker leurs

données en base. ● Nécessite le programme de l'éditeur pour décoder● Être sûr que l'on a les outils associés

Les métadonnées

Page 40: Introduction à l'informatique documentaire

40

Choix du format

● Importance de la normalisation par rapport au domaine● Qui peut le plus peut le moins

Les métadonnées

Page 41: Introduction à l'informatique documentaire

CC-BY // JC i Nuria // Flickr

Échange & Interopérabilité

Page 42: Introduction à l'informatique documentaire

42

Échanger ses données pour ...

● Être présent sur le web● Limiter les opérations de saisie déjà faites ailleurs● Faciliter l'intégration au sein du SI● Faciliter la vie des usagers● Permettre de faire vivre le système

Échanges & Interopérabilité

Page 43: Introduction à l'informatique documentaire

43

OAI - PMH

● Format d'échange basé sur XML● Fourniture des données en Dublin Core● Protocole très simple

– Informations sur un serveur– Liste des enregistrements

● Nécessite d'avoir des urls pérennes

Échanges & Interopérabilité

Page 44: Introduction à l'informatique documentaire

44

Web services (usagers divers)

● Technologies web● Échange de données entre applications web● Pour faciliter :

– l'intégration avec d'autres outils– Les possibilités de développements annexes (mash-up)

● AJAX : Asynchronous JavaScript and XML

exemple : Disponibilité dans les B.U.

Échanges & Interopérabilité

Page 45: Introduction à l'informatique documentaire

45

Z39.50 (Interrogation)● Norme historique des bibliothèques (1970)● Protocole client-serveur● Possibilités très étendues, implantation variable● Utilisé pour

– Dériver des notices– Faire des moteurs de recherche fédérée

Échanges & Interopérabilité

Page 46: Introduction à l'informatique documentaire

46

SRU / SRW (Recherche)● Interrogation de base de données via CQL● Technologies du web, exemple de Web Services● Réponse en XML● Trois services de base

http://copac.ac.uk:3000/copac?operation=searchRetrieve&version=1.1&query=dc.title%3d%22bordeaux%22&maximumRecords=10&recordSchema=mods

Échanges & Interopérabilité

Page 47: Introduction à l'informatique documentaire

47

OpenURL● Lier les métadonnées à la ressource qu'elles décrivent en

fonction des accès dont dispose l'utilisateur● « résolveur de lien » pour fournir ce lien et/ou d'autres

services

Échanges & Interopérabilité

Page 48: Introduction à l'informatique documentaire

48

OpenURL

Notice repérée

Recherche au catalogue

Site de l’éditeur

Texte intégral

Échanges & Interopérabilité

Page 49: Introduction à l'informatique documentaire

49

OpenURL

Notice repérée

Recherche au catalogue

Site de l’éditeur

Texte intégral

Échanges & Interopérabilité

Page 50: Introduction à l'informatique documentaire

50

OpenURL

1 2

Échanges & Interopérabilité

Page 51: Introduction à l'informatique documentaire

51

COinS

● Cacher des métadonnées dans une page web<span class="Z3988" title="ctx_ver=Z39.88-2004&amp;ft_val_fmt=info:ofi/fmt:kev:mtx:journal&amp;rft.issn=1045-4438"/>

● Exemple sur un article de wikipédia : OpenURL● De plus en plus présents

– Copac– Sudoc depuis l'année dernière– ...

Échanges & Interopérabilité

Page 52: Introduction à l'informatique documentaire

52

RSS

● Really Simple Syndication / Rich Site Summary● S'abonner aux mises à jour d'un site● Centraliser les alertes sur ces mises à jour

Échanges & Interopérabilité

Page 53: Introduction à l'informatique documentaire

53

Aller plus loin

Décembre 2005ISBN : 2-7654-0915-3

Septembre 2007ISBN : 978-2-7654-0953-3

Échanges & Interopérabilité

Page 54: Introduction à l'informatique documentaire

MERCI

symac

smachefert @ u-bordeaux3.fr

Inspiré du support decours d'Anita Largouet

SCD Bordeaux 3

Support mis à disposition sous licence

Creative Commons BY SA