Wikidata:Datenbank-Download
Wikidata bietet Kopien des verfügbaren Inhalts zum Herunterladen für jeden.
Es gibt weitere andere Methoden um auf die Datenbank zuzugreifen, die keinen kompletten Dump der Datenbank benötigen.
Datenbank Dumps
Es sind unterschiedliche Arten von Datenband-Dumps verfügbar. Beachte, dass JSON- und RDF-Dumps als stabile Schnittstellen gelten, XML-Dumps hingegen nicht. Änderungen an den Datenformaten, die von stabilen Schnittstellen genutzt werden, unterliegen der Stable Interface Policy.
<span id="JSON_dumps_(recommended)_">
JSON Dumps (empfohlen)
JSON Dumps die alle Wikidata Datensätze als eine Liste enthalten, finden sich auf https://dumps.wikimedia.org/wikidatawiki/entities/. Sie werden wöchentlich erstellt. Die Entitäten im Array sind nicht zwangsläufig in einer bestimmten Reihenfolge, z.B. folgt Q2 nicht unbedingt Q1. Diese Dumps werden wöchentlich erstellt.
Dieses ist das empfohlene Format für Dumps. Bitte siehe die JSON-Struktur-Dokumentation für Informationen darüber, wie dort Wikidata-Entitäten dargestellt werden.
Hiweis: Jeder Datensatz (Objekt oder Eigenschaft) bekommt eine eigene Zeile in der JSON Datei, so dass die Datei Zeile für Zeile gelesen und jede Zeile separat als eigenständiges JSON-Objekt dekodiert werden kann.
Beachte, dass einige Dateien parallele Komprimierung nutzen, weshalb einige Dekomprimierer die Dateien nicht zuverlässig entpacken können. Wenn du Windows nutzt, kannst du z. B. Bzip2 verwenden. Nutze auf *nix-Systemen lbzip2, was Bzip2 parallel dekomprimieren kann. pbzip2 ist keine gute Wahl, da es nicht parallel Dateien dekomprimieren kann, die nicht mit pbzip2 komprimiert wurden.
Sie können derzeit einen relativ aktuellen Dump mit einem Torrent herunterladen: wikidata-20240101-all.json.gz (109.04 GiB) on academictorrents.com ( magnet)
- JsonDumpReader ist eine PHP-Bibliothek zum Lesen der Dumps.
- gitlab.com/tozd/go/mediawiki ist eine Go-Bibliothek zum Verarbeiten von Wikipedia- und Wikidata-Dumps.
- WDSub ist eine Scala-Bibliothek, die JSON-Wikibase-Dumps verarbeitet und Teilmengen mithilfe von Entitätsschemata als Eingaben generieren kann
RDF Dumps
Erstens finden sich kanonische RDF-Dumps im Turtle-Format finden unter https://dumps.wikimedia.org/wikidatawiki/entities/. Das Mapping wird hier beschrieben. Diese vollständigen Datensätze werden mit all markiert.
Zweitens werde sogenannte truthy Dumps zur Verfügung gestellt. Sie benutzen das nt-Format. Sie sind im selben Format wie die vollständigen Dumps, aber beschränkt auf direkte, "truthy" Aussagen. Sie enthalten keine Metadaten wie Qualifier und Referenzen.
Die -all-Dump-Dateien enthalten alle Information in Wikidata mit Ausnahme der Reihenfolge (der Alternativnamen, der Eigenschaften etc.), was in RDF normalerweise nicht dargestellt wird. Die -truthy-Dump-Dateien kodieren die *besten* Aussagen (d.h. diejenigen mit dem höchsten Rang für das gegebene Paar (Subjekt, Eigenschaft)) als einzelne RDF-Tripel (Qualifikatoren und Quellennachweise werden weggelassen).
Die Dumps des Wikidata-Lexem-Namensraums im Turtle- und NTriples-Format können mit dem Suffix lexemes an der gleichen Stelle gefunden werden.
Für Details zum RDF-Dump-Format siehe bitte die Seite RDF-Dump-Format.
Partielle RDF-Dumps
WDumper ist ein Tool eines Drittanbieters zum Erstellen von benutzerdefinierten Wikidata-RDF-Dumbs. Datenobjekte und Aussagen können gefiltert werden.
XML dumps
Komplette XML dumps von Wikidata finden sich unter http://dumps.wikimedia.org/wikidatawiki.
Warnung: Das Format der JSON Daten, die eingebettet sind in die XML Dumps kann sich jederzeit ändern ohne dass dieses bekannt gemacht wird, und kann inkonsistent zwischen den Versionen sein. Es sollte als opake binäre Daten behandelt werden. Es wird stark empfohlen die JSON- oder RDF- Dumps zu verwenden, die eine festgelegte Darstellung der Daten bieten.
Es gibt ebenfalls inkrementelle Sicherungen von Wikidata zum Herunterladen. Diese Sicherungen enthalten alle Änderungen der letzten 24 Stunden. Dadurch ist es nicht notwendig, die komplette Sicherung herunter zu laden, zudem benötigen diese erheblich weniger Speicherplatz.
Sie können gefunden werden auf https://dumps.wikimedia.org/other/incr/wikidatawiki/.
Alte JSON- und RDF-Dumps
Alte RDF- und JSON-Dumps sind im Internet Archive (Q461) zu finden:
Datenmodell
Das Datenmodell kann hier eingesehen werden. Das Datenmodell beschreibt die grundlegenden Bausteine der Daten auf Wikidata.
Datenbankschema
Einen Überblick über das Schema der Datenbank findet sich auf dieser Seite. (Dieses ist nicht das Schema der Daten auf Wikidata.)
Lizenz
Wikidata stellt Kopien der verfügbaren Inhalte zum Herunterladen bereit. Diese Datenbanken können für privaten oder kommerziellen Nutzen sowie für backups oder offline genutzt werden. Alle strukturierten Daten des Haupt-, Eigenschaften-, Lexem- und EntitySchema-Namensraums sind unter der Creative Commons CC0 Lizenz verfügbar. Text in den anderen Namensräumen ist unter der Creative Commons Attribution/Share-Alike Lizenz Creative Commons Attribution/Share-Alike Lizenz verfügbar; weitere Lizenzen können beantragt werden. Medien und andere Inhalte sind unter verschiedenen Lizenzen verfügbar, wie es auf ihrer Beschreibungsseite angegeben ist.
Siehe auch
- Wikipedia:Big Data
- Für Anleitungen zum Abrufen von RDF für einzelne Datenobjekte siehe die Datenzugriffsseite.