Wikidata:Unduhan basis data
Wikidata menyediakan salinan data untuk diunduh siapapun.
Perhatikan bahwa ada beberapa Wikidata:Data access|metode lainnya untuk mengakses konten terstruktur dari Wikidata, yang mungkin tidak memerlukan timbunan basis data yang lengkap.
Timbunan basis data
Ada beberapa jenis timbunan data berbeda yang tersedia. Ingatlah bahwa timbunan JSON dan RDF dianggap sebagai "antarmuka yang stabil", sedangkan XML tidak. Perubahan format daya yang digunakan oleh antarmuka stabil bergantung pada Kebijakan Antarmuka Stabil.
<span id="JSON_dumps_(recommended)_">
Timbunan JSON (disarankan)
Timbunan JSON mengandung semua entitas Wikidata dalam jajaran JSON tunggal yang dapat ditemukan di https://dumps.wikimedia.org/wikidatawiki/entities/. Entitas tersebut dalam jajaran tidak selamanya dalam susunan tertentu, seperti Q2 tidak selalu setelah Q1. Timbunan itu dibuat setiap minggu.
Ini adalah format timbunan yang disarankan. Silakan merujuk pada dokumentasi struktur JSON untuk informasi mengenai bagaimana entitas Wikidata ditampilkan.
Kiat: Setiap objek entitas (butir data atau atribut) terletak pada baris terpisah dalam berkas JSON, sehingga data dapat dibaca per baris, dan tiap baris dapat didekode secara terpisah sebagai sebuah kesatuan objek JSON.
Ingatlah bahwa berkas tersebut menggunakan kompresi paralel, yang artinya beberapa dekompresor tidak dapat diandalkan untuk membuka berkas itu. Apabila Anda menggunakan Windows, gunakan seperti Bzip2. Di sistem *nix, gunakan lbzip2 yang bisa mendekompres Bzip2 secara paralel. pbzip2 bukanlah pilihan yang baik karena tidak dalam mendekompres secara paralel berkas yang tidak dikompres oleh pbzip2.
Anda saat ini bisa mengunduh timbunan yang cukup mutakhir menggunakan sebuah torrent. wikidata-20240101-all.json.gz (109.04 GiB) di academictorrents.com ( magnet)
- JsonDumpReader adalah pustaka PHP untuk membaca isi timbunan.
- gitlab.com/tozd/go/mediawiki adalah pustaka Go untuk memproses timbunan Wikipedia dan Wikidata.
- WDSub adalah sebuah pustaka Skala yang memproses timbunan basis data JSON dan dapat membuat subset dengan menggunakan skema entitas sebagai masukannya.
Timbunan RDF
Pertama, timbunan RDF kanonikal menggunakan format Turtle yang dapat ditemukan di https://dumps.wikimedia.org/wikidatawiki/entities/. Pemetaan tersebut dijelaskan di sini. Pernyataan lengkap dicatat sebagai all.
Kedua, apa yang disebut timbunan truthy disediakan. Semuanya menggunakan format nt. Semua itu memiliki format yang sama seperti timbunan seluruhnya, tetapi terbatas pada pernyataan langsung dan truthy. Oleh sebab itu, mereka tidak berisi metadata seperti kualifikasi dan referensi.
Berkas-berkas timbunan -all berisi semua informasi entitas di Wikidata dengan pengecualian susunan (nama lain, pernyataan, dll.), yang tidak umum mewakili dalam RDF. Berkas-berkas timbunan -truthy mengenkode pernyataan *terbaik* (yangrank-nya paling tinggi untuk setiap pasangan (subjek, atribut)) sebagai sebuah tripel RDF tunggal (referensi diabaikan).
The dumps of Wikidata Lexeme namespace in Turtle and NTriples formats can be found in the same place with lexemes suffix.
Untuk detail mengenai format timbunan RDF, tolong lihat halaman Format Timbunan RDF.
Timbunan RDF parsial
WDumper adalah sebuah peralatan pihak ketiga untuk membuat timbunan RDF Wikidata yang disesuaikan. Entitas dan pernyataan bisa disaring
Timbunan XML
Unduhan dalam format XML dapat diperoleh di sini.
Penting: Format untuk data JSON di keluaran XML dapat diubah sewaktu-waktu tanpa pemberitahuan sebelumnya, dan dapat tidak konsisten antar revisi. Ini harus diperlakukan sebagai data biner yang buram. Sagat direkomendasikan untuk menggunakan keluaran JSON atau RDF, yang menggunakan representasi tunggal data!
Berisi penambahan dalam 24 jam terakhir, sehingga tidak perlu mengunduh secara keseluruhan.
Unduhan ini tersedia di https://dumps.wikimedia.org/other/incr/wikidatawiki/.
Timbunan lama JSON dan RDF
Timbunan lama RDF dan JSON dapat ditemukan di Internet Archive (Q461):
Model data
Model data dapat dicari di sini. Model data menjelaskan blok bangunan fundamental dari data Wikidata.
Skema basis data
Gambaran luas skema basis data dapat ditemukan di halaman ini. (Ini bukanlah skema data di Wikidata.)
Lisensi
Basis-basis data ini dapat digunakan baik untuk keperluan pribadi maupun komersial, mencadangkan data, maupun penggunaan secara luring. Semua data terstruktur dari ruang nama utama, Property, Lexeme, dan EntityScheme tersedia di bawah lisensi Creative Commons CC0. Teks dalam ruang nama lain tersedia di bawah Lisensi Creative Commons Atribusi/Pembagian Serupa; ketentuan tambahan mungkin berlaku. Item media dan konten lainnya tersedia di bawah lisensi lain, seperti yang dijelaskan pada halaman deskripsinya.
Lihat pula
- Wikipedia:Mahadata
- Untuk instruksi cara memperoleh RDF untuk butir individu, lihat halaman Akses data.