Wikidata:Tools/OpenRefine/Editing/Tutorials/Third-party reconciliation/nl
Soms is de bron waar u gegevens uit wilt importeren enorm. Zo houden gegevensbronnen zoals bedrijfsregistraties bijvoorbeeld veel meer gegevens bij dan Wikidata ooit in het overeenkomstige domein zal hebben. In dat geval is de gebruikelijke werkstroom van het laden van de brondatabase in OpenRefine en het afstemmen met Wikidata volledig onpraktisch - de databases zijn te groot, de afstemming zal eeuwen duren en zal zeer zelden goede overeenkomsten opduiken (omdat de overgrote meerderheid van de gegevens uit de brondatabank niet in Wikidata thuis horen voor het doel).
Deze tutorial legt uit hoe u het probleem kunt omdraaien: in plaats daarvan extraheren we bestaande Wikidata-items met een SPARQL-query die gericht is op het bijbehorende domein, en stemmen we deze items af met onze gegevensbron. Ons doel is om autoriteit controle identifiers zoals VIAF ID (P214) en GND ID (P227) toe te voegen aan items over personen. We gebruiken de LOBID-afstemmingsservice, waarmee we records kunnen vergelijken met de Integrated Authority File (Q36578) (GND).
Doelitems extraheren met een SPARQL-query
Stel dat we geïnteresseerd zijn in het verbeteren van de koppeling van Duitse onderzoekers. We kunnen een lijst van Duitse onderzoekers die een GND ID (P227) missen als volgt opvragen:
SELECT ?item ?itemLabel WHERE {
?item wdt:P31 wd:Q5;
wdt:P106 wd:Q1650915;
wdt:P27 wd:Q183.
FILTER NOT EXISTS { ?item wdt:P227 ?gnd }
SERVICE wikibase:label { bd:serviceParam wikibase:language "[AUTO_LANGUAGE],en". }
} LIMIT 100
Natuurlijk is deze query (en de limiet) willekeurig - we kunnen evengoed naar Braziliaanse organisaties of Latijnse plaatsen zoeken. Het doel is eenvoudig het domein te beperken tot items die waarschijnlijk een vermelding in de doeldatabase zullen hebben.
Afstemmen met GND
Importeer de resultaten van deze query in OpenRefine. De eerste kolom bevat Qids, die direct kunnen worden afgestemd op Wikidata (Reconciliëren → Start reconciling en kies de Wikidata-service). We zullen ook de tweede kolom afstemmen, maar deze keer tegen GND zelf. Om dat te doen, klikt u op Afstemmen → Begin met afstemmen en Standaardservice toevoegen. Gebruik het adres van de GND-afstemmingsservice van LOBID: https://lobid.org/gnd/reconcile
Net als bij Wikidata kunt u de reconciliatie beperken per type en vervolmaken via eigenschappen (zie de documentatie van de service voor meer details). U kunt dan items vergelijken met GND:
De identifiers ophalen
Zodra u overeenkomende items heeft, kunt u de GND-id verkrijgen door een kolom toe te voegen met de expressie cell.recon.match.id en kunt u de referentienaam in GND verkrijgen met cell.recon.match.name. U kunt deze informatie (en nog veel meer) ook verkrijgen met behulp van de bewerking Kolommen toevoegen van afgestemde waarden:
De ID's toevoegen aan Wikidata
We kunnen dan een schema maken om de identifiers aan Wikidata toe te voegen. U kunt ook de referentienaam van GND toevoegen als alias aan de items:
Dit geeft als mogelijk te bewerken recordsː
Deze bewerkingen kunnen vervolgens worden geüpload naar Wikidata.
Andere bronnen waarmee afgestemd kan worden
Verscheidene andere gegevensbronnen kunnen worden geraadpleegd via afstemmingsservices. Hier zijn er een paar:
- Virtual International Authority File (Q54919):
http://refine.codefork.com/reconcile/viaf
(documenten, overweeg om de interface lokaal uit te voeren bij intensief gebruik)
Andere dergelijke services vindt u hier.
Het is mogelijk om uw eigen interface voor andere databases te maken, bijvoorbeeld via reconcile-csve, conciliator of door zelf [https:github. com/OpenRefine/OpenRafine/wiki/Reconciliation-Service-API de reconciliation API] te implementeren.