Wikidata:データベースのダウンロード
ウィキデータの内容は全てダウンロードできます。
なお、データベース全体のダンプ以外にも、ウィキデータの構造化データにアクセスする他の方法もあります。
データベースのダンプ
データダンプにはいくつかの種類があります。JSONダンプとRDFダンプは「安定版のインターフェイス」と見なされますが、XMLダンプは違います。「安定版のインターフェイス」で使用されるデータ形式の変更は、安定版のインターフェイスの方針の対象となります。
<span id="JSON_dumps_(recommended)_">
JSONダンプ(推奨)
https://dumps.wikimedia.org/wikidatawiki/entities/ にて全てのウィキデータの内容を一つのJSONの配列として含むJSONダンプをダウンロードできます。 内容の配列は必ずしも順番に並んでいるとは限りません。例えば、Q2はQ1の次にあるとは限りません。 これらは毎週更新されます。
これは推奨されるダンプの形式です。ウィキデータのデータ構造についてはJSONの構造についてのドキュメントを参照してください。
ヒント:JSONファイルの内容は一行につき一つのJSONオブジェクトを含むため、ファイルの内容を改行コードで分割すれば一行をJSONオブジェクトにデコードできます。
ダンプファイルはパラレル圧縮を使っているため、解凍ソフトによってはうまく解凍できません。例えば、WindowsではBzip2が使えます。*nix システムでは、並列で Bzip2 を解凍できる lbzip2 を使用します。pbzip2 は、pbzip2 で圧縮されていない並列ファイルで解凍できないため、良い選択ではありません。
最新に近いダンプをtorrentでダウンロードすることもできます。 wikidata-20240101-all.json.gz (130.53 GiB) / academictorrents.com ( magnet)
- JsonDumpReaderはPHPで書かれたJSONダンプ読込用のライブラリです。
- gitlab.com/tozd/go/mediawikiはウィキペディアとウィキデータのダンプを処理するためのGoライブラリです。
- WDSubはJSONウィキベースダンプを処理し、エンティティスキーマを入力として利用してサブセットを生成することができるScalaライブラリです。
- simple-wikidata-dbはPythonで書かれたJSONダンプパーサー(解析器)です。
- qwikidataはJSONダンプをサポートし、Pythonで書かれています。
RDFダンプ
TurtleおよびNTriples形式の標準的なRDFダンプは https://dumps.wikimedia.org/wikidatawiki/entities/ でダウンロードできます。そのマッピングはこちらを参照。これらの全文は「all」と注記されています。
次に、truthyダンプと呼ばれるダンプが提供されています。これはnt形式を使っているものです。これらは完全なダンプと同様のフォーマットになっていますが、直接的な、真なる文に限定されています。そのため、修飾子や情報源といったメタデータは含みません。
「-all」ダンプファイルには、ウィキデータ内のすべてのエンティティ情報が含まれますが、(別名、文などの)順序は例外で、当然これはRDFでは表現できません。「-truthy」ダンプファイルは、*最良*の文(つまり、指定された(subject, property)のペアで最高ランクの文)を、単一のRDFトリプルとしてエンコードします (修飾子と情報源は省略されます)。
TurtleおよびNTriplesフォーマットの語彙素名前空間のダンプは、「lexemes」接尾辞が付いた同じ場所にあります。
RDFダンプのフォーマットについては、RDFダンプフォーマットのページをご覧ください。
部分的なRDFダンプ
WDumperは、カスタムしたウィキデータRDFダンプを作成するためのサードパーティツールです。 エンティティと文はフィルタリングすることができます。
XMLダンプ
完全なXMLダンプは https://dumps.wikimedia.org/wikidatawiki/ から入手できます。
警告:XMLダンプに埋め込まれたJSONデータの形式は、予告なく変更されることがあり、リビジョン間で一貫性がない場合があります。そのためこれは不透明なバイナリデータとして扱われるべきものです。代わりに標準表現のデータであるJSONダンプまたはRDFダンプの使用が強く推奨されています。
ウィキデータでは、インクリメンタル・ダンプ(増分ダンプ、または追加/変更ダンプ)もダウンロードできます。これらのダンプには直近の24時間に追加されたものが含まれています。インクリメンタル・ダンプを使うと、完全なデータベース・ダンプをダウンロードする必要性が少なくなります。インクリメンタル・ダンプは完全なデータベース・ダンプよりはるかに小さいです。
https://dumps.wikimedia.org/other/incr/wikidatawiki/ でダウンロードできます。
旧 JSON ・ RDF ダンプ
古いRDFダンプとJSONダンプは Internet Archive (Q461) にあります:
データモデル
データモデルはこちらにあります。データモデルはウィキデータのデータの基本単位を記述します。
データベースのスキーマ
データベースのスキーマの概要はこのページにあります(ただし、これはウィキデータのデータのスキーマではありません)。
ライセンス
これらのデータベースは、個人利用または商用利用、バックアップまたはオフラインでの利用が可能です。標準名前空間、プロパティ名前空間、語彙素名前空間、エンティティスキーマ名前空間にある全ての構造化データは、クリエイティブ・コモンズCC0ライセンスの下で利用可能です。その他の名前空間にあるテキストはクリエイティブ・コモンズ表示-継承ライセンスの下で利用可能です(追加の条件が適用される場合があります)。メディアファイルとその他のコンテンツは、別のライセンスの下で利用可能です(それらの説明ページに詳細があります)。
関連項目
- Wikipedia:Big data
- 個々の項目のRDFを取得する方法については、データへのアクセスをご覧ください。
- Wikibase REST API