Wikidata:Databasedownload

Wikidata tilbyder kopier af det tilgængelige indhold, som alle kan downloade.
Bemærk, at der også findes adskillelige andre metoder til at tilgå struktureret indhold fra Wikidata på, som muligvis kræver et fuldstændigt databasedump.
Database-dumps
Der er flere forskellige typer af tilgængelige datadumps. Bemærk, at JSON- og RDF-dumps anses som stabile grænseflader, hvilket ikke gør sig gældende for XML-dumps. Ændringer i dataformater, som anvendes af stabile grænseflader er underlagt Politikken om stabil grænseflade.
JSON-dumps (anbefales)
JSON-dumps, som indeholder alle Wikidatas entiteter i en enkelt JSON-matrix, kan findes under https://dumps.wikimedia.org/wikidatawiki/entities/. Entiteterne i matrixen ligger ikke nødvendigvis i nogen særlig rækkefølge, f.eks. kommer Q2 ikke nødvendigvis efter Q1. Disse dumps dannes ugentligt.
Dette er det anbefalede dump-format. Der henvises til JSON strukturdokumentationen for oplysninger om, hvordan entiteter på Wikidata gengives.
Hjælp: Hvert entitetsobjekt (dataemne eller egenskab) placeres på en separat linje i JSON-filen, så filen kan læses linje for linje og hver linje kan afkodes separat som et individuelt JSON-objekt. Bemærk, at indholdet i dumpet ikke nødvendigvis er ordnet efter rækkefølge: Q2 følger ikke nødvendigvis Q1.
Bemærk, at filerne anvender parallel kompression, hvilket betyder, at visse afkompressorer ikke kan pakke filerne ud på en pålidelig måde. Hvis du anvender Windows, kan du bruge for eksempel Bzip2.
You can currently download a fairly recent dump using a torrent.
wikidata-20240101-all.json.gz (130.53 GiB) on academictorrents.com ( magnet)
JsonDumpReader er et PHP-bibliotek til at aflæse dumpene med.
RDF-dumps
For det første kan kanoniske RDF-dumps, som anvender Turtle-formatet findes under https://dumps.wikimedia.org/wikidatawiki/entities/. Mapningen er beskrevet her. Disse fulde udsagn angives som "all".
For det andet stilles sande dumps til rådighed. De anvender nt-formatet. De findes i samme format som de fulde dumps, men er begænset til direkte, sande udsagn. Derfor indeholder de ikke metadata så som kvalifikator og referencer.
De fuldstændige dumps indeholder samlet set al entitetsinformation på Wikidata med undtagelse af rækkefølge (af aliasser, af udsagn etc.), som ikke naturligt gengives i RDF. Simplificerede dumps afkoder udsagn, som ikke har nogen kvalifikatorer, som enkeltstående RDF-tripletter (referencer udelades).
The dumps of Wikidata Lexeme namespace in Turtle and NTriples formats can be found in the same place with lexemes suffix.
For details on the RDF dump format please see the page RDF Dump Format. Also note the section WDQS data differences which explains the differences in the RDF formats of these dumps and the WDQS.
Partial RDF dumps
WDumper is a third-party tool to create custom Wikidata RDF dumps. Entities and statements may be filtered.
XML-dumps
Fulde XML-dumps fra Wikidata findes på https://dumps.wikimedia.org/wikidatawiki/.
Advarsel: Formatet for de JSON-data, som er indlejret i XML-dumpene er genstand for ændringer uden forvarsel, og kan være inkonsistent mellem revisioner. Det skal behandles som ugennemsigtige, binære data. Det anbefales på det kraftigste, at man i stedet anvender JSON- eller RDF-dumps, som gør brug af kanonisk repræsentation af data!
Delvise dumps af data på Wikidata (eller Add/Change-dumps) er også tilgængelige til download. Disse dumps indeholder data, som blev tilføjet i de seneste 24 timer, hvilket nedsætter behovet for at downloade hele databasedumpet. De delvise dumps er betydeligt mindre end det fulde databasedump.
De findes på https://dumps.wikimedia.org/other/incr/wikidatawiki/.
Gamle JSON- og RDF-dumps
Gamle RDF- og JSON-dumps findes på Internet Archive (Q461):
Datamodel
Datamodellen kan slås op her. Datamodellen beskriver de grundlæggende byggesten for Wikidatas data.
Databaseskema
Et overblik over databaseskemaet findes på denne side. (Dette er ikke skemaet for data på Wikidata.)
Licens
Disse databaser kan anvendes til personlig eller kommerciel brug, til sikkerhedskopier eller til brug offline. Alle strukturerede data fra hovednavnerummet og egenskabsnavnerummet er tilgængelige under Creative Commons CC0-licensen. Tekst i de andre navnerum er tilgængelig under Creative Commons Attribution/Share-Alike-licensen; yderligere vilkår kan forekomme. Medieemner og andet indhold er tilgængeligt under andre licenser som beskrevet på disses beskrivelsessider.
Se også
- Wikipedia:Big data
- For instructions on retrieving RDF for individual items see the Data access page.
- Wikibase REST API