User:Dipsode87/ARK

From Wikidata
Jump to navigation Jump to search

Rappels sur l'identifiant ARK

[edit]

L'objectif initial de l’identifiant ARK était de s'affranchir du système des noms de domaine, notoirement transitoires, en proposant une syntaxe qui s’appuyait sur une agence d’enregistrement internationale (la California Digital Library, maintenant un registre d’organisations autorisées à attribuer des ARK[1].

Ainsi, l’ARK <ark:/12148/cb11912592d> comporte le libellé d’identifiant, puis le numéro d’autorité nommante, qui est le code opaque attribué à chaque institution souhaitant attribuer des ARK (ici, la BnF), puis le nom ARK, c’est-à-dire la partie de l’identifiant spécifique à la ressource identifiée.

En effet, l’ARK doit être conçu comme l’identifiant d’une ressource définie et décrite, non comme un simple moyen d’accès : il est l'outil privilégié par l'institution pour la retrouver et la citer. Il consiste en l'association entre une chaîne de caractères et une ressource décrite et circonscrite par des métadonnées. Cette association est réputée (c'est du moins l'engagement que prend chaque institution) non équivoque (il est attribué à une et une seule chose) et opaque, deux qualités qui favorisent la pérennité de la ressource – celle-ci étant du ressort de chaque institution, qui prend l’engagement de gérer les ressources qu’elle identifie, et l’information de l’utilisateur sur la ressource à laquelle l’ARK est attribué. L’ARK n’offre donc en lui-même aucune garantie de pérennité, il indique seulement que l’institution fait une promesse de bonne gestion de ses identifiants à ses utilisateurs. Cette bonne gestion implique, par exemple, que si la ressource disparaît, la trace de l'association entre la chaîne de caractères et la ressource disparue perdure, sous la forme de métadonnées plus ou moins riches.

Afin de réduire la dépendance envers les noms de domaine, il avait été originellement envisagé d’enregistrer ark: comme schéma d’URI auprès de l’IANA. Idéalement, cette option aurait ouvert la voie à la résolution par les navigateurs de l’ARK sous sa forme « brute ». Cette voie n’a pourtant pas été poursuivie, ni par DOI ni par ARK. On a préféré associer à chaque identifiant un (ou plusieurs) résolveur(s) globaux : doi.org (entre autres) pour DOI et n2t.net pour ARK. Le mécanisme de résolution générique ARK étant moins connu que celui de DOI, on recommande de publier l’ARK sous sa forme d’URI http, ou sous sa forme brute portant la forme d’URI http en lien hypertexte. Le nom de domaine utilisé peut être celui du résolveur global, censé être plus durable que les noms de domaine des institutions attributrices, ou celui d’un résolveur géré par l’institution elle-même, si elle se considère capable de le maintenir tel quel sur le long terme. De ce fait, on dit que la partie qui précède l'ARK est inerte sémantiquement. Cela signifie que, en théorie, https://catalogue.bnf.fr/ark:/12148/cb11912592d et https://data.bnf.fr/ark:/12148/cb11912592d identifient la même ressource, simplement diffusée par deux services différents.

Si l’on excepte plusieurs particularités notables, l’identifiant ARK fonctionne donc sur le modèle de DOI en termes de résolution : on peut le rendre résolvable en lui adjoignant un nom de domaine générique. Ainsi, ark:/12148/cb11912592d peut être résolu sous les formes suivantes : http://ark.bnf.fr/ark:/12148/cb445071016 ou https://n2t.net/12148/cb445071016.

Les organisations qui souhaitent attribuer des identifiants ARK peuvent créer leur propre outil de gestion d’identifiants. Dans ce cas, le résolveur global de la CDL[2] se contente de rediriger l’ARK identifié comme attribué par l’institution vers le résolveur local de cette institution, à charge à l’institution de conserver la trace de l’identifiant et de la ressource et de rediriger correctement les requêtes des utilisateurs vers cette dernière ou un substitut adapté (de simples métadonnées, éventuellement), si elle a disparu. Ces fonctions de gestion d’identifiants (attribution et résolution) peuvent être prises en charge par l’institution ou déléguées à un prestataire de diffusion. C’est l’option choisie par presque toutes les institutions françaises.

Elles peuvent également, sur le modèle de l’identifiant DOI, souscrire à un service complet de gestion d’identifiants auprès de la CDL (système EZID[3]), auquel cas le résolveur global de la CDL redirige directement et unitairement l’ARK vers son URL d’accès spécifique connue par la base de données de l’outil EZID.

Représentation dans Wikidata

[edit]

Situation jusqu’en avril 2020

[edit]

Du fait de la moindre notoriété d’ARK, il a longtemps été représenté dans Wikidata sans considérer ses particularités d’identifiant commun à plusieurs centaines d’institutions. Chaque institution attribuant des ARK a reçu sa propriété individuelle d’identifiant, voire chaque réservoir de données. Ainsi, BAnQ a une propriété BAnQ work ID (P1823) tandis que la BnF en a deux : Bibliothèque nationale de France ID (P268) pour les notices de son Catalogue général[4] et Gallica ID (P4258) pour les documents numériques diffusés dans Gallica (sachant que la BnF dispose de nombreuses autres sources de données comme le catalogue BnF Archives et manuscrits[5], les archives du Web[6], etc., pour lesquelles il faudrait, suivant ce modèle, en créer de nouvelles). Toujours suivant ce modèle, la valeur de ces propriétés est une partie du nom ARK (ex. : Nicolas Bouvier (Q123518), notice ark:/12148/cb11893627z, porte un Bibliothèque nationale de France ID (P268) qui a pour valeur « 11893627z »), ce qui ne correspond pas à ce que l’institution considère comme l’identifiant complet. Le reste de l’identifiant est considéré comme un simple moyen de déréférencer la ressource, et figure dans la méta-propriété formatter URL (P1630) avec pour valeur « https://catalogue.bnf.fr/ark:/12148/cb ».

On trouvera une liste d’identifiants de ce type à l’aide de la requête SPARQL suivante :

#Propriétés portant une méta-propriété "Format de l'ARK"
SELECT ?identifiant ?identifiantLabel WHERE
{?identifiant wdt:P8054 ?FormatDeLARK.
 SERVICE wikibase:label { bd:serviceParam wikibase:language "[AUTO_LANGUAGE],en". }
  }
Try it!

Cette méthode provoque une inflation des propriétés d’identifiants ; en outre, elle doublonne la fonction de la California Digital Library, qui a pour mission de gérer le registre NAAN d’association entre un code d’organisation et un résolveur institutionnel.

Nouvelles propriétés

[edit]

En avril 2020, deux propriétés ont été créées pour gérer les ARK :

La première approche se rapproche de celle adoptée pour DOI (P356), la seconde des préfixes de l’URN (URN formatter (P7470)) (ISBN, UUID, etc.). Mais si la seconde est logique pour les URN (un ISBN 9782707179012 pourra être transformé en URN en spécifiant « urn:isbn: » devant la série de chiffres), elle n’est pas adaptée aux propriétés d’identifiants ARK spécifiques à chaque institution, pour lesquelles les formes enregistrées dans Wikidata n’ont pas de valeur telles quelles (sans leur préfixe ni leur NAAN).

Proposition fondée sur Archival Resource Key (P8091)

[edit]

Note : cette proposition porte sur l’ARK utilisé comme identifiant externe d'un item, non comme référence. On recommande l’usage de la propriété Archival Resource Key (P8091) avec deux qualificatifs optionnels :

  • issued by (P2378) : pointe vers l’autorité nommante. Il permet de limiter des recherches aux ARK attribués par une autorité nommante donnée, car, contrairement à DOI, qui est généralement attribué par une seule institution à une publication, des ARK différents sont attribués par plusieurs bibliothèques ou archives (différentes notices d’autorités, différentes numérisations).
  • online service (P2361) : pointe vers le(s) outil(s) de diffusion sur le(s)quel(s) la ressource est disponible. Ce qualificatif permet de distinguer deux ARK attribués par la même institution et correspondant à un même item dans Wikidata, mais qui sont servis par deux systèmes distincts (ainsi, les Q17352310 disposent d’un identifiant ARK pour la notice du Catalogue général et un autre pour le document numérisé dans Gallica).
Ce schéma présente le modèle de données proposé pour la représentation d'un identifiant ARK attribué à un item Wikidata.
Schéma de la représentation de l'identifiant ARK dans Wikidata

Cette représentation suppose l’utilisation du résolveur n2t.net, ce qui ajoute une étape dans la résolution, mais laisse à ce dernier le soin de rediriger vers le résolveur institutionnel. Elle permet également à toutes les institutions de conservation ayant adopté ARK de se lier à Wikidata d’une manière homogène.

Requêtes SPARQL

[edit]

Map of the ARK Name assigning authorities

[edit]

The following query uses these:

Features: map (Q24515275)  View with Reasonator View with SQID

#defaultView:Map
SELECT DISTINCT ?org ?geo ?orgLabel ?image WHERE {
  SERVICE wikibase:label { bd:serviceParam wikibase:language "[AUTO_LANGUAGE],en". }
  ?org wdt:P1870 ?naan;
    wdt:P625 ?geo.
  OPTIONAL { ?org wdt:P18 ?image. }
}

Number of ARKs in Wikidata

[edit]

The following query uses these:

  • Properties: ARK formatter (P8054)  View with Reasonator View with SQID
    SELECT ?property ?propertyLabel (COUNT(?item) AS ?numberOfARKs) WHERE {
      SERVICE wikibase:label { bd:serviceParam wikibase:language "[AUTO_LANGUAGE],en". }
      # Listing the properties that have an ARK formatter property
      ?property wdt:P8054 ?string.
      # Linking to the equivalent property in the wdt: namespace
      ?property wikibase:directClaim ?prop.
      # Listing all items that have one of the properties listed above
      ?item ?prop ?ark.
    }
    GROUP BY ?property ?propertyLabel
    ORDER BY DESC (?numberOfARKs)
    

Bubble chart of types of items to which an ARK is assigned

[edit]

The following query uses these:

Features: BubbleChart (Q24515280)  View with Reasonator View with SQID

#defaultView:BubbleChart
SELECT DISTINCT ?type ?typeLabel (count(?item) AS ?nbItems) WHERE
{
  SERVICE wikibase:label { bd:serviceParam wikibase:language "[AUTO_LANGUAGE],en". }
  ?item wdt:P31 ?type;
        wdt:P8091 ?ARK.
  }
GROUP BY ?type ?typeLabel
ORDER BY desc (?nbItems)

Notes

[edit]
  1. "Registre NAAN". n2t.net. 2021-02-24. Retrieved 2021-02-25.
  2. "Résolveur n2t.net". n2t.net. 2021. Retrieved 2021-02-25.
  3. "EZID identifier manager".
  4. "Catalogue général de la BnF". catalogue.bnf.fr (in French). 2021. Retrieved 2021-02-25.
  5. "Catalogue des archives et manuscrits de la BnF". archivesetmanuscrits.bnf.fr (in French). 2021. Retrieved 2021-02-25.
  6. "Archives de l'Internet". www.bnf.fr (in French). 2021. Retrieved 2021-02-25.

Liens externes

[edit]