Wikidata:WikiProject Biodiversity/Agassiz urchin fossil cast collection import/nl

From Wikidata
Jump to navigation Jump to search
This page is a translated version of the page Wikidata:WikiProject Biodiversity/Agassiz urchin fossil cast collection import and the translation is 100% complete.


Project Importeren verzameling Louis Agassiz van zee-egelfossielen
Importeren van gestructureerde gegevens en afbeeldingen van Collection of sea urchin fossils casts created by Louis Agassiz (Q121092336) in Wikidata en Wikimedia Commons

Instituut: Natural history museum of Neuchâtel (Q3330885)

In opdracht van: Wikimedia CH (Q15279140) (Contactpersoon: Flor WMCH)

Uitvoerenden: Luca Martinelli (User:Morpiz) en Léa Lacroix (User:Auregann)

Tijdpad: juli-december 2023


Projectsamenvatting

Het Natuurhistorisch Museum in Neuchâtel wilde een reeks foto's importeren met betrekking tot 664 afgietsels van egelfossielen en de bijbehorende metadata op de Wikimedia-projecten. In het kader van dit project hebben we de foto's geïmporteerd op Wikimedia Commons, samen met de bijbehorende metadata, opgeslagen in een gekoppeld dataformaat en op de juiste manier verbonden met nieuw aangemaakte Wikidata-items. Naast het importeren van bestanden op Commons, vereiste dit project het analyseren, opschonen en afstemmen van de gegevens met bestaande gegevens op Wikidata, met de input van het museum, het creëren van ontbrekende items op Wikidata (specifieke items voor de fossielen, items over de soort, bibliografische referenties) en het zo nodig verbeteren van het bestaande datamodel van paleontologie op Wikidata.

Het project is uitgevoerd in opdracht van Wikimedia CH en vond plaats in juli-december 2023.

  • Importeren van gegevens en bestanden, OpenRefine: Luca Martinelli (User:Morpiz)
  • Coördinatie, contact met het museum, documentatie: Léa Lacroix (user:Auregann)
  • Contactpersoon bij Wikimedia Zwitserlandː Flor Méchain (User:Flor WMCH)

Het project vond plaats in verschillende fasen:

Conoclypus anachoreta FOS 2440 - 1
  • Analyseren, opschonen en verfijnen van de gegevens om ze klaar te maken om te importeren op Wikidata en Wikimedia Commons (gestructureerde gegevens). ✓ Done
  • Analyseren en verbeteren van de bestaande inhoud op Wikidata. Creëren van nieuwe gegevens (fossiele, soorten, bibliografische referenties) om de gegevens te verrijken. Het gegevensmodel van paleontologie indien nodig verbeteren. ✓ Done
  • Contact met het museum om vragen te stellen, problemen met de gegevens te bespreken en verzoeken om verduidelijking te geven. ✓ Done
  • Een proefmonster maken voor de validatie door het museum: cast item en bestand op Commons met gestructureerde gegevens. ✓ Done
  • Maak een sjabloon op Commons die gegevens uit Wikidata haalt en weergeeft, volgens de eisen van het Museum. ✓ Done
  • Importeer de eerder verfijnde inhoud: bestanden op Wikimedia Commons en de bijbehorende gestructureerde metadata op Wikimedia Commons. ✓ Done
  • Voorbereiden van visualisaties om een overzicht te geven van de ingevoerde inhoud en het mogelijk maken om te monitoren en te onderhouden. ✓ Done
  • De documentatie van het proces maken met een beschrijving van de verschillende stappen. ✓ Done

Bestanden op Commons

Een deel van het project vond plaats op Wikimedia Commons, met het importeren van bestanden en metadata, en het maken van een Wikidata-aangedreven sjabloon voor fossielen.

Queries en visualisatie

Kaart met de ontdekkingsplaatsen van het specimen, gecodeerd in kleur volgens geologische periode

Documentatie

In deze sectie gaan we dieper in op hoe we de inhoud hebben geanalyseerd, verfijnd en geïmporteerd, in een poging tips en advies te geven aan mensen die in de toekomst aan een soortgelijk importproject zullen werken. Vereisten: We gebruikten meestal OpenRefine om de gegevens en bestanden op te schonen, te verfijnen en te importeren. Deze sectie bevat niet de basisprincipes voor het gebruik van OpenRefine, maar u kunt een korte presentatie van het hulpmiddel als video bekijken, evenals een gedetailleerde tutorial. We vinden deze presentatie gericht op het importeren van bestanden op Commons rechtstreeks uit OpenRefine ook erg nuttig.

Cyathocidaris avenionensis FOS 2658 - 1

Analyseren, opschonen en verfijnen van de gegevens

Het opschonen en afstemmen van data was het grootste deel van het project. Er zijn een aantal aandachtspunten in dit deel:

  • Controleer de gegevens voor volledigheid
    • Plaatsen waar de fossielen zijn gevonden en de leeftijd waarop ze zijn gedateerd, waren niet altijd opgenomen in de eerste batchgegevens, dus we vroegen om een integratie. Hierdoor konden we alle tijdgegevens en bijna alle vindlocaties herstellen.
    • Alleen als er absoluut geen manier is om deze gegevens te traceren, mag hier de waarde voor onbekend worden gebruikt.
  • Doe een extra controle van de gegevens die u aan het samenstellen bent.
    • Vooral de vindplaatsen waren moeilijk te bepalen omdat de namen in het Frans waren en/of kleine fouten bevatten.
    • Een oplossing is om gegevens rechtstreeks in de taal te combineren waarin ze zijn (voeg gewoon de duidelijke link toe aan de juiste taal), maar een tweede ronde van controle met externe bronnen heeft altijd de voorkeur met plaatsen en namen in het bijzonder.
    • Vraag het na bij de oorspronkelijke aanbieder van gegevens als er een aantal onduidelijkheden zijn: zij (zullen) hun gegevens beter kennen dan wie dan ook.
  • Houd altijd rekening met deze criteria over relevantie bij het samenstellen van de gegevens
    • Sommige van de plaatsen van ontdekking waren gewoon niet relevant genoeg om een item aan te maken, dus escaleerden we naar het onmiddellijk hogere niveau van beschikbare onderverdeling (bijvoorbeeld, "craie de Morée" (Morea Krijt) werd gekoppeld met Morée (Q389621))
  • Vraag bij het betrokken project en/of andere gebruikers om hulp
    • Als u moeite hebt met het bepalen hoe u bepaalde aspecten van uw werk moet modelleren, vraag dan hulp van andere gebruikers. Dit bespaart u kostbare tijd.
    • Er zijn ook Telegram-kanalen voor Wikidata en OpenRefine voor het geval u hulp nodig heeft.
  • Als de gegevens in verschillende kolommen zijn verdeeld, probeer ze in één te condenseren voordat het samenstellen.
    • Met andere woorden, maak een nieuwe kolom in OpenRefine en vul deze met de gegevens van de andere kolommen. Dit kan worden gedaan via “Edit column” → “Join columns”, door alle toepasselijke kolommen te selecteren en een nieuwe kolom voor het resultaat in te stellen.
    • Deze stap bespaart u tijd bij het combineren van gegevens, omdat u gewoon één kolom in plaats van meerdere moet opschonen en combineren.
    • Dit bespaart u ook tijd wanneer uw de gegevens gaat uploaden: met slechts één combinatie van kolommen om door te gaan, in plaats van zes of zeven combinaties.
    • Verwijder de oorspronkelijke kolommen niet. Zij kunnen altijd nuttig zijn voor het terugkijken bij problemen en om gegevens dubbel te controleren.
    • Dit werkt ook andersom: als u gegevens moet splitsen, kunt u dit op een soortgelijk manier na het instellen van het karakter(s) dat als scheiding dient, en het instellen de namen van de nieuwe kolommen.

Verbeteren van de bestaande inhoud op Wikidata

Er zijn 263 nieuwe items over ontbrekende soorten op Wikidata gemaakt. Dit was natuurlijk een noodzakelijke stap om te nemen bij het vergelijken van de gegevens over de soorten van de fossielen. Hetzelfde geldt voor de bibliografische referenties die later in de uploaden werden opgenomen als bronnen van de verklaringen.

De meeste van de punten uit het vorige deel zijn hier van toepassing, maar er zijn nog een paar die voor ons interessant waren:

  • Als de gegevens waarmee u werkt complex zijn, verdeel het werk in verschillende fasen.
    • Voor dit importeren zijn we bijvoorbeeld begonnen met het maken van de ontbrekende items over soorten, referenties, soorten fossielen en alle andere benodigde items om het samenvoegingsproces af te ronden, vervolgens gingen we door met een tweede fase met betrekking tot exemplaren en vervolgens een derde fase met betrekking naar de werkelijke fossielen. Pas nadat alle gegevens geüpload waren, gingen we de foto's uploaden.
  • Volg de richtlijnen voor het maken van nieuwe items
    • Als u bijvoorbeeld een item over een bibliografische referentie wilt maken, volg dan de richtlijnen in WikiProject Boeken
    • Als u twijfelt, vraag de gemeenschap dan hoe u moet handelen.

Importeer de inhoud op Wikimedia Commons en Wikidata

Het importeren van gegevens gebeurde in verschillende stappen, afhankelijk van het soort gegevens dat moest worden geüpload. De meeste punten uit de vorige secties zijn hier van toepassing, maar er zijn er nog een paar die voor ons interessant waren:

  • Vergeet niet om een lokale kopie van het gegevensmodel op OpenRefine te bewaren
    • U kunt dit doen door te klikken op "Save new" aan het einde van de regel die zegt "Start from an existing schema:".
    • Dit is vooral handig wanneer u van Wikibase-instantie waar u mee werkt (dat wil zeggen van Wikidata naar Wikimedia Commons) overstapt, omdat het overstappen uw model zal wissen.
  • Gebruik direct uploaden via OpenRefine in plaats van te exporteren naar QuickStatements
    • Direct uploaden is voordelig als de gebruiker geen beheerder is van Wikidata en/of Wikimedia Commons, om twee belangrijke redenen:
      • De gecreëerde items worden automatisch in overeenstemming gebracht met de waarde in de tabel;
      • Het ondersteunt het maken van verklaringen met meer dan één bron.
  • Houd rekening met mogelijke limieten die door het project worden opgelegd bij het uploaden
    • Als u de door het systeem opgelegde bewerkingslimiet bereikt, onderbreek dan niet de upload, want het zal de items die het creëert niet automatisch samenvoegen, en u zult dat dan met de hand moeten doen.
    • De limiet voor het uploaden van bestanden op Wikimedia Commons via OpenRefine is ~370 bestanden per 72 minuten. Als u van plan bent meer dan die hoeveelheid te uploaden, verdeel de upload in verschillende batches van ~ 100/150 bestanden elk en doe 30 minuten pauze na elke 2-3 uploads.

Discussies

Vragen, suggesties, problemen? Gebruik de overlegpagina!