Wikidata:WikiProject Biodiversity/Import de la collection des moulages d'oursins fossiles d'Agassiz

From Wikidata
Jump to navigation Jump to search
This page is a translated version of the page Wikidata:WikiProject Biodiversity/Agassiz urchin fossil cast collection import and the translation is 100% complete.


Agassiz urchin fossil cast collection import project
Import of structured data and pictures of Collection of sea urchin fossils casts created by Louis Agassiz (Q121092336) into Wikidata and Wikimedia Commons

Institution: Natural history museum of Neuchâtel (Q3330885)

Commissioned by: Wikimedia CH (Q15279140) (Contact: Flor WMCH)

Contractors: Luca Martinelli (user:Morpiz) and Léa Lacroix (user:Auregann)

Timeframe: July-December 2023


Présentation du projet

Le Muséum d'Histoire naturelle de Neuchâtel souhaitait importer les photographies d'une collection de 664 moulages d'oursins fossiles et leurs métadonnées correspondantes sur les projets Wikimedia. Dans ce contexte, nous avons importé les photographies sur Wikimedia Commons, en meme temps que leurs métadonnées, stockées sous forme de données liées, que nous avons connectées aux éléments Wikidata nouvellement créés leur correspondant. En plus du travail d'importation des fichiers sur Commons, ce projet demandait d'analyser, nettoyer, et réconcilier les données de la collection avec les données existentes sur Wikidata, avec les indications du Muséum, afin de créer les éléments manquants sur Wikidata (les entrées concernant les fossiles en eux-memes, leur espèce, les références bibliographiques), et éventuellement, d'améliorer la modélisation des données de paléontologie sur Wikidata.

Le projet était une commande de Wikimedia CH et s'est déroulé entre juillet et décembre 2023.

  • Import des fichiers et des données, OpenRefine : Luca Martinelli (user:Morpiz)
  • Coordination, contact avec le Muséum, documentation : Léa Lacroix (user:Auregann)
  • Contact à Wikimedia CH : Flor Méchain (User:Flor WMCH)

Le projet s'est déroulé en plusieurs étapes :

Conoclypus anachoreta FOS 2440 - 1
  • Analyse, nettoyage, et affinage des données afin de les préparer à l'import sur Wikidata et Wikimedia Commons (données structurées). ✓ Done
  • Analyse et amélioration du contenu existant sur Wikidata. Création de nouveaux éléments (fossiles, espèces, références bibliographiques) pour enrichir les données. Eventuelle amélioration de la modélisation des données de paléontogie. ✓ Done
  • Communication avec le Muséum pour leur transmettre les éventuelles questions, problèmes, ou demandes de clarification. ✓ Done
  • Soumettre un échantillon d'essai au Muséum pour validation : élément pour un moulage et fichier correspondant sur Commons avec données structurées. ✓ Done
  • Création d'un modèle Commons qui cherche et affiche les données de Wikidata, selon les exigences du Musée. ✓ Done
  • Import sur les projets respectifs du contenu précédemment nettoyé et raffiné : fichiers sur Wikimedia Commons, et métadonnées structurées connexes sur Wikimedia Commons et Wikidata. ✓ Done
  • Préparation de visualisations afin de donner une vue d'ensemble du contenu importé et de permettre son suivi et sa maintenance. ✓ Done
  • Création de la documentation du processus avec description des différentes étapes du projet. ✓ Done

Fichiers sur Commons

Partie du projet qui s'est déroulée sur Wikimedia Commons, avec l'importation de fichiers et de métadonnées, et la création d'un modèle pour fossiles s'appuyant sur Wikidata.

Requêtes et visualisations

Carte des lieux de découverte des spécimens codée par couleur selon la période géologique

Documentation

Dans cette partie, nous allons détailler davantage comment nous avons analysé, affiné, et importé le contenu, afin de fournir des conseils aux personnes qui travailleront sur des imports similaires. Prérequis : l'outil principal que nous avons utilisé pour nettoyer, affiner, et importer les données et les fichiers est OpenRefine . Nous n'expliquons pas ici comment utiliser OpenRefine, mais vous pouvez accéder ici à une courte présentation de cet outil, ainsi qu'un tutoriel détaillé ici. Nous avons aussi trouvé très utile cette présentation montrant comment importer des fichiers sur Commons directement à partir d'OpenRefine.

Cyathocidaris avenionensis FOS 2658 - 1

Analyse, nettoyage et affinage des données

Le nettoyage et la réconciliation des données nous ont occupé la plus longue partie du projet. Un certain nombre de points sont à retenir :

  • - Vérifier la complétion des données
    • Les lieux de découverte et la datation des fossiles n'étaient pas toujours inclus dans le premier lot de données, nous avons donc demandé une intégration. Cela nous a permis de récupérer toutes les données temporelles, et presque tous les lieux de découverte.
    • C'est seulement quand il n'y a absolument aucun moyen de la retrouver la donnée qu'il possible de mettre "inconnu" comme valeur.
  • Vérifiez à deux reprises les données que vous réconciliez.
    • Les lieux de découverte étaient particulièrement difficiles à réconcilier parce que les noms étaient en français et/ou contenaient de petites erreurs.
    • Une première solution consiste à réconcilier les données directement dans la langue dans laquelle elles vous ont été fournies (il suffit d'ajouter le lien du manifeste dans la langue en question), mais il est préférable d'effectuer éagalement un deuxième cycle de vérifications s'appuyant sur des sources externes, en particulier pour les lieux et les noms.
    • Demandez de l'aide à la personne qui vous a fourni les données d'origine si une désambiguïsation est nécessaire: elle connaît (normalement) mieux que quiconque ces données.
  • Tenez toujours compte des critères de notoriété de Wikidata pendant le processus de réconciliation.
    • Certains lieux de découverte ne remplissaient pas les critères de notoriété pour que nous puissions créer un élément lui correspondant, nous avons donc utilisé le premier niveau supérieur disponible : par exemple, nous avons réconcilié "craie de Morée" avec Morée (Q389621).
  • Demandez de l'aide au projet concerné et/ou à d'autres utilisateurs.
    • Si vous avez des difficultés à modéliser certains aspects de votre travail, demandez de l'aide à d'autres utilisateurs. Ils vous permettront de gagner beaucoup de temps.
    • Il existe des channels Telegram à la fois pour Wikidata et OpenRefine si vous avez besoin d'aide.
  • Si les données sont divisées en plusieurs colonnes, essayez de les mettre sur une seule avant de passer à la réconciliation.
    • Autrement dit, créez une nouvelle colonne dans OpenRefine et remplissez-la des données des autres colonnes. Cela peut être fait à travers la commande "Éditer la colonne" → "Joindre les colonnes", en sélectionnant toutes les colonnes à joindre, et en créant une nouvelle colonne pour le résultat.
    • Cette étape vous permettra d'économiser du temps lors de la reconciliation des données, puisque vous aurez nettoyer et réconcilier une seule colonne au lieu de plusieurs.
    • Cela vous permettra également d'économiser du temps au moment du télécharger les données: vous irez plus vite en ayant une seule combinaison de colonnes à analyser, au lieu de six ou sept combinaisons.
    • Ne supprimez pas les colonnes originales. Elles pourront toujours être utiles pour la désambiguïsation ou pour une deuxième vérification des données.
    • Ce principe fonctionne également dans l'autre sens : si vous devez diviser les données, vous pouvez le faire via "Éditer la colonne" → "Diviser en plusieurs colonnes", en définissant le(s) caractère(s) qui serviront de séparateur, et en définissant les noms des nouvelles colonnes pour les résultats.

Améliorer le contenu existant sur Wikidata

263 nouveaux éléments, correspondant aux espèces manquantes, ont été créés sur Wikidata. C'était bien sûr une étape nécessaire pour réconcilier les données sur les espèces fossiles. Il en va de même pour les références bibliographiques qui ont été plus tard incluses dans les téléversements comme source des déclarations.

La plupart des conclusions de la section précédente s'appliquent ici, mais il y en a quelques autres qui pourraient être intéressantes :

  • Si les données sur lesquelles vous travaillez sont complexes, divisez le travail en plusieurs étapes.
    • Par exemple, pour cette importation de données, nous avons commencé par créer les éléments manquants pour les espèces, les références, les types de fossiles, et tous les autres éléments nécessaires pour terminer le processus de réconciliation, puis nous avons procédé à une deuxième étape liée aux spécimens, puis une troisième étape liée aux moulages de fossiles auxquels les photos correspondaient. Une fois l'intégralité des données téléversées, nous avons téléversé les photographies.
  • Suivez les consignes de la communauté pour créer de nouveaux éléments
    • Par exemple, pour créer un élément de référence bibliographique, suivez les consignes de Wikidata:WikiProjet Livres
    • Si vous avez des doutes, demandez à la communauté comment procéder.

Importer le contenu sur Wikimedia Commons et Wikidata

L'importation de données a eu lieu en plusieurs étapes, selon le type de données à verser. La plupart des conclusions des sections précédentes s'appliquent ici, mais il y en a quelques autres qui pourraient être intéressantes:

  • N'oubliez pas de sauvegarder une copie locale du modèle de données sur OpenRefine
    • Vous pouvez effectuer cette sauvegarde en cliquant sur "Save new" à la fin de la ligne marquée "Start from an existing schema".
    • Cette étape est particulièrement utile lorsque vous passez d'une instance Wikibase à une autre (c'est-à-dire de Wikidata à Wikimedia Commons), car le passage de l'une à l'autre nettoiera votre modèle.
  • Utilisez le téléchargement direct via OpenRefine au lieu d'exporter vers QuickStatements
    • Le téléchargement direct (TD) est préférable si l'utilisateur n'est pas administrateur de Wikidata et/ou Wikimedia Commons, pour deux raisons principales:
      • Le TD réconcilie automatiquement les éléments créés avec la valeur du tableau;
      • Le TD soutient la création de déclarations à partir de plusieurs sources.
  • Faites attention aux potentielles limites de fréquence ou volume d'édition imposés par le wiki lors du téléchargement
    • Si vous atteignez la limite de modifications imposée par le système, n'interrompez pas le téléchargement, car il ne réconciliera pas automatiquement les éléments qu'il crée, et vous serez obligé de faire la réconciliation à la main.
    • La limite pour le téléchargement de fichiers sur Wikimedia Commons via OpenRefine est de ~ 370 fichiers toutes les 72 minutes. Si vous prévoyez de télécharger plus que cette quantité, divisez le téléchargement en plusieurs lots de fichiers ~ 100/150 chacun et comptez des pauses de 30 minutes tous les 2-3 lots de téléchargements.

Discussions

Vous avez des questions, des suggestions, des problèmes ? N'hésitez pas à écrire (en anglais ou en français) sur la page de discussions !