Articles tagués URL persistante

Le système Handle pour le référencement des objets numériques

Développé par Bob Kahn, l’un des inventeur du protocole TCP/IP, le système Handle est mis en œuvre par des archives et des bibliothèques du monde entier pour identifier de manière persistante sur le web toutes sortes d’objets numériques du type texte, image, son, vidéo, etc. Le CNRI (Corporation for National Research Initiatives) – un organisme américain à but non lucratif, gère les développements. Ceux-ci débutèrent en 1994 dans le cadre du projet NCSTRL (Networked Computer Science Technical Reports Library) soutenu par le DARPA (Defense Advanced Research Projects Agency). Une URL de type handle reste valide et permet de localiser un document même si le nom de domaine de l’archive ou l’emplacement du document changent. C’est donc un élément central pour la « citabilité » pérenne des documents numériques.

La syntaxe d’un Handle est la suivante :
<protocole><adresse><préfixe><suffixe>

Un même handle peut être résolu et noté de différentes manières :
Avec le protocole http : http://hdl.handle.net/2268/126111
Avec le protocole Handle : hdl:2268/126111
Sans spécifier le protocole : 2268/126111

L’adresse de base mise en place par le CNRI est http://hdl.handle.net. Le préfixe 2268 de l’exemple ci-dessus identifie l’archive DSpace de l’Université de Liège. Il est  attribué par le CNRI et consiste en un chiffre ou en des groupes de chiffres séparés par un point, reflétant la structure d’une archive ou d’un groupe d’archive. Dans l’exemple précédent, le suffixe  ou numéro de document 126111 est attribué de manière locale et automatiquement par le logiciel d’archivage. Lorsqu’on résoud le Handle (cliquer sur le lien http://hdl.handle.net/2268/126111), une redirection se fait vers l’URL « http://orbi.ulg.ac.be/handle/2268/126111 « . La page s’affiche, contenant les métadonnées du document et les liens vers les fichiers à télécharger.

Fonctionnement du système

Le système Handle repose sur la présence d’un réseau de serveurs jouant des rôles différents. Un serveur central appelé “Registre de Handle Global” (RHG) reçoit les requêtes. Il est basé sur le logiciel libre HANDLE.NET développé par le CNRI et s’appuie pour la résolution sur la présence de “Services de Handles Locaux” (SHL) ou Serveurs de Handle. Ces derniers paramétrés localement renseignent le RHG sur le nom de domaine de l’archive. Un même SHL peut desservir une ou plusieurs archives.

Au final, le processus de redirection est transparent pour l’utilisateur. On clique sur un Handle et la page recherchée s’affiche automatiquement dans le navigateur. Il est possible de visualiser le flux des données au niveau du navigateur à l’aide de l’extension HTTPHeaderLive de Firefox par exemple. La première page provient du RHG. Elle contient l’en-tête 303 et fournit au navigateur les instructions de redirection vers l’URL ciblée. Une page contenant le statut 200 OK s’affiche ensuite en provenance du SHL.

Mise en oeuvre

Le SHL fonctionne à l’aide d’un logiciel libre java développé par le CNRI qu’il convient d’installer. Un SHL peut devenir fonctionnel et connecté au RHG après inscription auprès du CNRI. Un numéro de préfixe est fourni moyennant un droit d’inscription de 50$ et une cotisation annuelle de 50$. L’administrateur du SHL paramètre à l’aide d’une interface dédiée l’URL de l’archive.

Utilisateurs

On peut citer parmi les principaux utilisateurs du système Handle la Bibliothèque du Congrès, la Fondation internationale DOI (Document Object Identifier). Le logiciel d’archivage DSpace implémente également les fonctionnalités de manière standard. Plutôt rarement mis en œuvre en France, mis à part par l’INIST-CNRS (iRevues, OpenGrey, Lara), par l’archive Speech & Language Data Repository (plus de 260 000 données orales pour la recherche) par la bibliothèque de Sciences Po (Spire) et par l’INSERM (iPubli), le système Handle s’avère fréquemment utilisé dans d’autres pays européens, à l’Université de Liège par exemple, au Royaume-Uni, dans les pays nordiques, et de manière principale aux États-Unis. Il s’agit généralement d’archives, de bibliothèques gouvernementales et universitaires, d’organismes de recherche, de laboratoires publics ou d’éditeurs de revues numériques localisés dans 67 pays des 6 continents. En 2012, 200 000 préfixes étaient déjà attribués par le CNRI. La résistance à la charge est remarquable. Le système DOI utilisant les mêmes logiciels gère plus de 60 millions d’identifiants pérennes.

Conclusion

Cet article n’aborde, pour faciliter la compréhension, qu’une partie des possibilités du système. Celui-ci fait l’objet des spécifications RFC 3650, 3651 et 3652 d’Internet. Handle et PURL sont tous les deux susceptibles de fournir des identifiants pérennes, mais le système Handle assure en plus l’unicité de l’identifiant. Handle et  DOIs sont basés sur les mêmes logiciels développés par le CNRI. Une traduction en français de la page anglaise de Wikipedia “Handle System” est en cours. Cette initiative ne concerne pour l’instant qu’une partie du document d’origine. L’aide d’autres bénévoles sera la bienvenue pour finaliser cet effort de traduction.

Références

Handle System : http://en.wikipedia.org/wiki/Handle_System
Handle System en français : http://fr.wikipedia.org/wiki/Handle_System
Corporation for National Research Initiatives (CNRI) : http://www.handle.net
Handle System overview; Sun S., Lannom R., Boesch B.; RFC 3650; IETF; 2003 : http://tools.ietf.org/html/rfc3650
Handle System Namespace and Service Definition; Sun S., Reilly S., Lannom L.; IETF; 2003; http://www.ietf.org/rfc/rfc3651.txt
Handle System Protocol (ver 2.1) Specification; Sun S., Reilly S., Lannom L., Petrone J.; IETF; 2003; http://www.ietf.org/rfc/rfc3652.txt

Autres articles de ce blog sur les URL persistantes

PURL, handle, DOI, ARK et autres systèmes d’URL persistantes : https://archivengines.wordpress.com/2012/07/29/purl-handle-doi-ark-url-persistantes/
Le système PURL: https://archivengines.wordpress.com/2012/08/24/systeme-purl/

1 commentaire

Le système PURL

Développé depuis 1995 par l’OCLC (Online Computer Library Center, Inc.), le système PURL (Persistent Uniform Ressource Locator) est l’un des principaux système d’URL persistante. Une adresse PURL consiste en un URL (Uniform resource locator) qui pointe vers un service de résolution appelé serveur PURL ou résolveur PURL. Suite à une requête, le résolveur envoie une page contenant l’en-tête de redirection 302 et l’URL cible. Ces éléments sont interprétés par le navigateur et conduisent à l’affichage de la ressource numérique recherchée. En cas de changement de l’URL cible, il suffit de changer les renseignements contenus dans la base de données du résolveur pour que le PURL reste valide.

On a le schéma de fonctionnement suivant (d’après Étienne Hustache et l’OCLC) :

Schéma 1

Une adresse PURL présente la structure suivante :
<protocole><adresse><nom>

Dans l’exemple réel : http://purl.oclc.org/NET/teiinlibraries , le protocole est http, l’adresse du résolveur est purl.oclc.org, le nom de la ressource est NET/teiinlibraries. On distingue dans le nom, le domaine de niveau supérieur, -NET- dans l’exemple, et le sous-domaine, -teiinlibraries-. Lorsqu’on clique sur le lien, la redirection se fait vers l’adresse renseignée dans le serveur PURL : http://www.tei-c.org/SIG/Libraries/teiinlibraries/  .

Enregistrement d’un PURL dans l’administration

Le serveur PURL

Deux autorités sont nécessaires au fonctionnement d’un serveur PURL. L’autorité principale a en charge la mise en place, la maintenance et l’administration du logiciel. L’autorité nommante renseigne le sous-domaine et le lien de redirection. L’enregistrement d’un domaine de niveau supérieur nécessite l’autorisation de l’administrateur du serveur PURL. L’OCLC accorde moyennant une inscription gratuite un service fonctionnel pour le domaine NET.

Une option dite de “redirection partielle” permet l’enregistrement aisé sous forme de PURL d’un site complet. Le serveur PURL résoud la partie de l’URL trouvée dans la base de données et ajoute en suffixe la partie non résolue.

Développé par la société Zepheira en collaboration avec l’OCLC, le serveur PURL est actuellement disponible en version 1.6. Le code source est librement accessible sous licence Apache 2.0. Tout organisme qui le souhaite peut mettre en place son propre serveur. Le développement reste actif. Une fonctionnalité de fédération de service a été ajoutée en 2010 pour permettre à plusieurs serveurs PURL de coopérer en cas de surcharge d’un des serveurs.

Exemples de serveurs PURL

Différents organismes ont mis en place de tels services. On peut citer :

  • Le serveur de l’OCLC accessible à l’adresse http://purl.oclc.org.
  • L’initiative internationale coordonnée par la Bibliothèque du Congrès PCC (Program for Cooperative Cataloging) visant au catalogage des périodiques et des monographies. Le serveur PURL est disponible à l’adresse (http://bibpurl.oclc.org ).
  • Le programme australien PANDORA mis en œuvre par le NLA (National Library of Australia) entreprend l’archivage sur le long terme d’une sélection de sites webs australiens. Il met à disposition des organismes intéressés un serveur PURL accessible à l’adresse (http://purl.nla.gov.au ).

Références

Site officiel : http://purlz.org/
PURL sur Wikipédia anglais : http://en.wikipedia.org/wiki/Persistent_Uniform_Resource_Locator
Hustache, Étienne, « Les uRL permanentes », BBF, 2002, n° 2, p. 94-97 : http://bbf.enssib.fr/consulter/bbf-2002-02-0094-001
Keith Shafer, Stuart Weibel, Erik Jul, Jon Fausey, « Introduction to Persistent Uniform Resource Locators » : http://www.isoc.org/inet96/proceedings/a4/a4_1.htm

Autres articles de ce blog sur les URL persistantes

PURL, handle, DOI, ARK et autres systèmes d’URL persistantes : http://wp.me/p1XOXY-nJ

Poster un commentaire

PURL, handle, DOI, ARK et autres systèmes d’URL persistantes

404 not found

Vous connaissez bien sûr cette chaîne qui commence par http:// ou https:// suivi d’une série de lettres et de points généralement peu lisibles et que vous entrez dans votre navigateur ou que vous suivez en cliquant sur un lien. Il se trouve que cet élément, – l’URL (Uniform Ressource Locator) – s’avère rarement constant sur le long terme. Si bien que des documents présents sur le web ou publiés sur un support papier conduisent souvent à l’affichage de la terrible erreur 404 Document not found , ou bien à un message indiquant que le document n’existe pas. Le problème peut être lié à la disparition d’un site, au changement de nom d’un organisme entraînant un changement d’URL, un document peut changer de version ou de localisation, etc. L’URL est une métadonnée descriptive assez instable, ce qui pose des problèmes pour la « citabilité » des documents sur de longues périodes.

Les bibliothèques, les universités, les centres de recherche, les éditeurs, les archives s’avèrent particulièrement concernés et sont conscients du problème depuis l’avènement du web. Différentes techniques ont été mises au point pour pallier cette faiblesse d’internet, parmi lesquelles on peut citer Archival Resource Key (ARK),  Digital Object Identifiers (DOI), Extensible Resource Identifier (XRI), HANDLE, Life Science ID (LSID),     Object Identifiers (OID), Persistent Uniform Resource Locators (PURL), URI et URN, Universally Unique Identifier  (UUID). Dans une série de billets à venir, les systèmes PURL, handle, DOI et ARK mis en place pour apporter une solution à la citabilité sur le très long terme vont être présentés.

Autres articles de ce blog sur les URL persistantes :

Poster un commentaire