Wikidata:Tools/OpenRefine/Editing/Tutorials/Third-party reconciliation/nl

From Wikidata
Jump to navigation Jump to search
This page is a translated version of the page Wikidata:Tools/OpenRefine/Editing/Tutorials/Third-party reconciliation and the translation is 100% complete.

Soms is de bron waar u gegevens uit wilt importeren enorm. Zo houden gegevensbronnen zoals bedrijfsregistraties bijvoorbeeld veel meer gegevens bij dan Wikidata ooit in het overeenkomstige domein zal hebben. In dat geval is de gebruikelijke werkstroom van het laden van de brondatabase in OpenRefine en het afstemmen met Wikidata volledig onpraktisch - de databases zijn te groot, de afstemming zal eeuwen duren en zal zeer zelden goede overeenkomsten opduiken (omdat de overgrote meerderheid van de gegevens uit de brondatabank niet in Wikidata thuis horen voor het doel).

Deze tutorial legt uit hoe u het probleem kunt omdraaien: in plaats daarvan extraheren we bestaande Wikidata-items met een SPARQL-query die gericht is op het bijbehorende domein, en stemmen we deze items af met onze gegevensbron. Ons doel is om autoriteit controle identifiers zoals VIAF ID (P214) en GND ID (P227) toe te voegen aan items over personen. We gebruiken de LOBID-afstemmingsservice, waarmee we records kunnen vergelijken met de Integrated Authority File (Q36578) (GND).

Doelitems extraheren met een SPARQL-query

Stel dat we geïnteresseerd zijn in het verbeteren van de koppeling van Duitse onderzoekers. We kunnen een lijst van Duitse onderzoekers die een GND ID (P227) missen als volgt opvragen:

SELECT ?item ?itemLabel WHERE {
  ?item wdt:P31 wd:Q5;
        wdt:P106 wd:Q1650915;
        wdt:P27 wd:Q183.
  FILTER NOT EXISTS { ?item wdt:P227 ?gnd }
  SERVICE wikibase:label { bd:serviceParam wikibase:language "[AUTO_LANGUAGE],en". }
} LIMIT 100
Try it!

Natuurlijk is deze query (en de limiet) willekeurig - we kunnen evengoed naar Braziliaanse organisaties of Latijnse plaatsen zoeken. Het doel is eenvoudig het domein te beperken tot items die waarschijnlijk een vermelding in de doeldatabase zullen hebben.

Afstemmen met GND

Importeer de resultaten van deze query in OpenRefine. De eerste kolom bevat Qids, die direct kunnen worden afgestemd op Wikidata (ReconciliërenStart reconciling en kies de Wikidata-service). We zullen ook de tweede kolom afstemmen, maar deze keer tegen GND zelf. Om dat te doen, klikt u op AfstemmenBegin met afstemmen en Standaardservice toevoegen. Gebruik het adres van de GND-afstemmingsservice van LOBID: https://lobid.org/gnd/reconcile

Schermafbeelding van het dialoogvenster om een nieuwe afstemmingsservice toe te voegen

Net als bij Wikidata kunt u de reconciliatie beperken per type en vervolmaken via eigenschappen (zie de documentatie van de service voor meer details). U kunt dan items vergelijken met GND:

Schermafbeelding van het afstemmingsservice met LOBID

De identifiers ophalen

Zodra u overeenkomende items heeft, kunt u de GND-id verkrijgen door een kolom toe te voegen met de expressie cell.recon.match.id en kunt u de referentienaam in GND verkrijgen met cell.recon.match.name. U kunt deze informatie (en nog veel meer) ook verkrijgen met behulp van de bewerking Kolommen toevoegen van afgestemde waarden:

Schermafbeelding van het dialoogvenster om gegevens van GND op te halen

De ID's toevoegen aan Wikidata

We kunnen dan een schema maken om de identifiers aan Wikidata toe te voegen. U kunt ook de referentienaam van GND toevoegen als alias aan de items:

Voorbeeldschema om de id's toe te voegen

Dit geeft als mogelijk te bewerken recordsː

Voorvertonen van de uitgevoerde bewerkingen

Deze bewerkingen kunnen vervolgens worden geüpload naar Wikidata.

Andere bronnen waarmee afgestemd kan worden

Verscheidene andere gegevensbronnen kunnen worden geraadpleegd via afstemmingsservices. Hier zijn er een paar:

Andere dergelijke services vindt u hier.

Het is mogelijk om uw eigen interface voor andere databases te maken, bijvoorbeeld via reconcile-csve, conciliator of door zelf [https:github. com/OpenRefine/OpenRafine/wiki/Reconciliation-Service-API de reconciliation API] te implementeren.