Shortcut: WD:JSON

ウィキデータ:データベースのダウンロード

From Wikidata
Jump to navigation Jump to search
This page is a translated version of the page Wikidata:Database download and the translation is 93% complete.

Other languages:
Bahasa Indonesia • ‎Bahasa Melayu • ‎Deutsch • ‎English • ‎Esperanto • ‎Frysk • ‎Lëtzebuergesch • ‎Nederlands • ‎Ripoarisch • ‎Türkçe • ‎català • ‎dansk • ‎dolnoserbski • ‎español • ‎français • ‎hornjoserbsce • ‎italiano • ‎latviešu • ‎norsk bokmål • ‎occitan • ‎polski • ‎português do Brasil • ‎suomi • ‎svenska • ‎čeština • ‎Ελληνικά • ‎беларуская • ‎македонски • ‎русский • ‎српски / srpski • ‎українська • ‎հայերեն • ‎עברית • ‎العربية • ‎فارسی • ‎پښتو • ‎বাংলা • ‎ગુજરાતી • ‎ไทย • ‎ქართული • ‎中文 • ‎日本語 • ‎한국어

Crystal Project Db update.png

ウィキデータの内容は全てダウンロードできます。

なお、データベース全体のダンプ以外にも、ウィキデータの構造化データにアクセスする他の方法もあります。

データベースのダンプ

データダンプにはいくつかの種類があります。JSONダンプとRDFダンプは「安定版のインターフェイス」と見なされますが、XMLダンプは違います。「安定版のインターフェイス」で使用されるデータ形式の変更は、安定版のインターフェイスの方針の対象となります。

JSONダンプ(推奨)

https://dumps.wikimedia.org/wikidatawiki/entities/にて全てのWikidataの内容を一つのJSONの配列として含むJSONダンプをダウンロードできます。 内容の配列は必ずしも順番に並んでいるとは限りません。例えば、Q2はQ1の次にあるとは限りません。 これらは毎週更新されます。

これは推奨されるダンプの形式です。Wikidataのデータ構造についてはJSONの構造についてのドキュメントを参照してください。

ヒント:JSONファイルの内容は一行につき一つのJSONオブジェクトを含むため、ファイルの内容を改行コードで分割すれば一行をJSONオブジェクトにデコードできます。なおダンプは番号順で並べておらず、Q2がQ1の後にあるとは限りません。

ダンプファイルはパラレル圧縮を使っているため、解凍ソフトによってはうまく解凍できません。例えば、WindowsではBzip2が使えます。

JsonDumpReaderはPHPで書かれたJSONダンプ読込用のライブラリです。

RDFダンプ

まず、Turtleという簡易表記方法が使われた標準的なRDFダンプはhttps://dumps.wikimedia.org/wikidatawiki/entities/でダウンロードできます。そのマッピングはこちらを参照。これらの全文は"all"と注記されています。

次に、truthyダンプと呼ばれる形式が提供されています。これはnt フォーマットを使っているものです。これらは完全なダンプと同様のフォーマットになっていますが、直接的な、真なる文に限定されています。そのため、修飾子や参照といったメタデータは含みません。

完全ダンプは全てのWikidataのデータが含まれていますが、順番はRDFでは表しないため含まれません。簡易ダンプは修飾子のない文をRDFのトリプル一つで表しています(つまり、リファレンスは含まれません)。

XML ダンプ

完全なXMLダンプはhttps://dumps.wikimedia.org/wikidatawiki/から入手できます。

警告:XMLダンプの中に埋め込まれたJSONデータは通知なく改変される可能性があり、バージョンによって違うかもしれないため、不透明なバイナリデータとして扱われるべきである。また、JSONダンプまたはRDFダンプはデータ構造が標準的であるため、推奨されます。

Wikidataでは、インクリメンタル・ダンプ(増分ダンプ、または追加/変更ダンプ)もダウンロードできます。これらのダンプには直近の24時間に追加されたものが含まれています。インクリメンタル・ダンプを使うと、完全なデータベース・ダンプをダウンロードする必要性が少なくなります。インクリメンタル・ダンプは完全なデータベース・ダンプよりはるかに小さいです。

https://dumps.wikimedia.org/other/incr/wikidatawiki/でダウンロードできます。

Lexicographical data

Lexical data dumps are not yet available for download. See corresponding Phabricator ticket.

旧 JSON ・ RDF ダンプ

古い RDF と JSON ダンプは Internet Archive (Q461) にあります:

データモデル

データモデルはこちらで見つけられます。データモデルはWikidataのデータの基本単位を記述します。

データベースのスキーマ

データベースのスキーマの概要はmw:Wikibase/スキーマで見つけられます。(ただし、これはWikidataのデータのスキーマではありません)

ライセンス

これらのデータベースは、個人利用または商用利用、バックアップ目的またはオフラインでの利用が可能です。標準およびプロパティ名前空間にある全ての構造化データは、クリエイティブ・コモンズCC0ライセンスの下で利用可能です。その他の名前空間にあるテキストはクリエイティブ・コモンズ表示-継承ライセンスの下で利用可能です(追加の条件が適用される場合があります)。メディア項目とその他のコンテントは、他のライセンスの下で利用可能です(それらの説明ページに詳細があります)。