Вікідані:Завантаження бази даних
Вікідані дозволяють скопіювати наявні дані всім охочим.
Зверніть увагу, що існують декілька інших методів доступу до структурованого вмісту Вікіданих, котрі не вимагають звантаження всієї бази даних.
Дампи бази даних
Існує кілька різних типів дампів даних. Зверніть увагу, що дампи JSON і RDF вважають «стабільними інтерфейсами», у той час як XML-дампи такими не є. Зміни у форматах даних, використовуваних стабільними інтерфейсами, підлягають Політиці стабільності інтерфейсу.
<span id="JSON_dumps_(recommended)_">
Дампи у форматі JSON (рекомендовано)
Дампи JSON, що містять усі сутності Вікіданих в одному масиві JSON, можна знайти за адресою https://dumps.wikimedia.org/wikidatawiki/entities/. Сутності в масиві не обов'язково мають певний порядок, наприклад, Q2 не обов'язково є після Q1. Дампи створюються щотижня.
Це рекомендований формат дампа. Будь ласка, зверніться до документації структури JSON для отримання інформації про те, як представлені сутності Вікіданих.
Підказка: Кожен об'єкт сутності (елемент даних або властивість) розміщується в окремому рядку у файлі JSON, тому файл можна читати рядок за рядком, і кожен рядок можна декодувати окремо як окремий об'єкт JSON.
Зверніть увагу, що файли використовують паралельне стиснення, а це означає, що деякі декомпресори не можуть надійно розпакувати файли. Якщо ви використовуєте Windows, ви можете використовувати напр. Bzip2. У системах *nix використовуйте lbzip2, який може паралельно розпаковувати Bzip2. pbzip2 не є гарним вибором, оскільки він не може розпаковувати паралельні файли, які не стиснуті за допомогою pbzip2.
You can currently download a fairly recent dump using a torrent. wikidata-20240101-all.json.gz (130.53 GiB) on academictorrents.com ( magnet)
- JsonDumpReader is a PHP library for reading the dumps.
- gitlab.com/tozd/go/mediawiki is a Go library for processing Wikipedia and Wikidata dumps.
- WDSub is a Scala library that processes JSON Wikibase dumps and can generate subsets using entity schemas as inputs
- simple-wikidata-db is a JSON dump parser written in Python
- qwikidata supports JSON dumps and is written in Python
Дампи у форматі RDF
First, canonical RDF dumps using the Turtle and NTriples formats can be found under https://dumps.wikimedia.org/wikidatawiki/entities/. The mapping is described here. These full statements are noted as all.
Dec
The -all dump files contain all entity information in Wikidata with the exception of order (of aliases, of statements, etc.), which is not naturally represented in RDF. The -truthy dump files encode the *best* statements (i.e. the ones with the highest rank of each given (subject, property) pairs) as single RDF triples (qualifiers and references are omitted).
The dumps of Wikidata Lexeme namespace in Turtle and NTriples formats can be found in the same place with lexemes suffix.
For details on the RDF dump format please see the page RDF Dump Format.
Partial RDF dumps
WDumper is a third-party tool to create custom Wikidata RDF dumps. Entities and statements may be filtered.
Дампи у форматі XML
Повні дампи Вікіданих у форматі XML можна знайти тут.
Warning: The format of the JSON data embedded in the XML dumps is subject to change without notice, and may be inconsistent between revisions. It should be treated as opaque binary data. It is strongly recommended to use the JSON or RDF dumps instead, which use canonical representations of the data!
Накопичувальні дампи (або Add/Change dumps) Вікіданих також доступні для завантаження. Ці дампи містять матеріали, додані за останні 24 години, що зменшує потребу завантаження повної бази даних дампів. Ці дампи значно менші, ніж повні дампи бази даних.
Вони доступні тут.
Старі дампи JSON і RDF
Old RDF and JSON dumps can be found on the Internet Archive (Q461):
Модель даних
Модель даних можна знайти тут. Модель даних описує основні будівельні блоки даних Вікіданих.
Схема бази даних
Огляд схеми бази даних можна знайти на цій сторінці. (Це не схема даних у Вікіданих.)
Ліцензія
Ці бази даних можуть використовуватись для особистого або комерційного використання, створення бекапів чи використання офлайн. Усі структуровані дані з основного простору назв і просторів назв властивостей, лексем і EntitySchema доступні під ліцензією Creative Commons CC0. Текст з інших просторів назв доступний під ліцензією Creative Commons Attribution/Share-Alike; можуть застосовуватись додаткові умови. Файли та інший вміст доступний під іншими ліцензіями, як вказано на їхніх сторінках опису.
Див. також
- Вікіпедія:Великі дані (en)
- Інструкції щодо отримання RDF для окремих елементів див. сторінку доступу до даних.