위키데이터:데이터베이스 다운로드

From Wikidata
Jump to navigation Jump to search
This page is a translated version of the page Wikidata:Database download and the translation is 49% complete.
Outdated translations are marked like this.

위키데이터는 누구에게나 이용가능한 콘텐츠를 다운로드할 수 있도록 제공합니다.

전체 데이터베이스 덤프를 필요로 하지 않는 위키데이터의 구조화된 콘텐츠에 접근할 여러가지 다른 방법들이 있다는 점 또한 주목하기 바랍니다.

데이터베이스 덤프

There are several different kinds of data dumps available. Note that while JSON and RDF dumps are considered stable interfaces, XML dumps are not. Changes to the data formats used by stable interfaces are subject to the Stable Interface Policy.

<span id="JSON_dumps_(recommended)_">

JSON 덤프 (추천)

JSON dumps containing all Wikidata entities in a single JSON array can be found under https://dumps.wikimedia.org/wikidatawiki/entities/. The entities in the array are not necessarily in any particular order, e.g., Q2 doesn't necessarily follow Q1. The dumps are being created on a weekly basis.

This is the recommended dump format. Please refer to the JSON structure documentation for information about how Wikidata entities are represented.

Hint: Each entity object (data item or property) is placed on a separate line in the JSON file, so the file can be read line by line, and each line can be decoded separately as an individual JSON object.

Note that the files are using parallel compression, which means that some decompressors cannot reliably unpack the files. If you are using Windows you can use e.g. Bzip2. On *nix systems, use lbzip2 which can decompress Bzip2 in parallel. pbzip2 is not a good choice because it is not able to decompress in parallel files not compressed with pbzip2.

You can currently download a fairly recent dump using a torrent. wikidata-20220103-all.json.gz (109.04 GiB) on academictorrents.com ( magnet)

  • JsonDumpReader is a PHP library for reading the dumps.
  • gitlab.com/tozd/go/mediawiki is a Go library for processing Wikipedia and Wikidata dumps.
  • WDSub is a Scala library that processes JSON Wikibase dumps and can generate subsets using entity schemas as inputs
  • simple-wikidata-db is a JSON dump parser written in Python
  • qwikidata supports JSON dumps and is written in Python

RDF 덤프

First, canonical RDF dumps using the Turtle and NTriples formats can be found under https://dumps.wikimedia.org/wikidatawiki/entities/. The mapping is described here. These full statements are noted as all.

Secondly, so called truthy dumps are provided. They use the nt format. They are in the same format as the full dumps, but limited to direct, truthy statements. Therefore, they do not contain meta data such as qualifiers and references.

The -all dump files contain all entity information in Wikidata with the exception of order (of aliases, of statements, etc.), which is not naturally represented in RDF. The -truthy dump files encode the *best* statements (i.e. the ones with the highest rank of each given (subject, property) pairs) as single RDF triples (qualifiers and references are omitted).

The dumps of Wikidata Lexeme namespace in Turtle and NTriples formats can be found in the same place with lexemes suffix.

For details on the RDF dump format please see the page RDF Dump Format.

Partial RDF dumps

WDumper is a third-party tool to create custom Wikidata RDF dumps. Entities and statements may be filtered.

XML 덤프

전체 XML 덤프본은 https://dumps.wikimedia.org/wikidatawiki/ 에서 찾으실 수 있습니다.

Warning: The format of the JSON data embedded in the XML dumps is subject to change without notice, and may be inconsistent between revisions. It should be treated as opaque binary data. It is strongly recommended to use the JSON or RDF dumps instead, which use canonical representations of the data!

추가덤프 (또는 변경덤프)도 또한 다운로드하여 사용하실 수 있습니다. 이러한 덤프들은 지난 24시간동안 추가된 데이터들을 포함하고 있으며, 모든 데이터베이스를 다운로드하여 데이터베이스를 사용하는 불편함을 줄여줍니다. 이러한 덤프들은 데이터베이스 전체본보다 훨씬 크기가 적습니다.

이러한 덤프들은 https://dumps.wikimedia.org/other/incr/wikidatawiki/ 에서 확인하실 수 있습니다.

오래된 JSON과 RDF 덤프

오래된 RDF와 JSON 덤프는 Internet Archive (Q461)에서 찾을 수 있습니다:

데이터 모델

데이터 모델에 대해서는 이 곳에서 확인할 수 있습니다. 데이터 모델은 위키데이터의 데이터들의 기초적인 구성 블록을 설명합니다.

데이터베이스 개요

데이터베이스 개요에 대한 개괄 또한 이 링크에서 확인할 수 있습니다(이 것은 위키데이터 내 데이터에 대한 개요가 아닙니다).

라이선스

이러한 데이터베이스는 개인적으로나 상업적으로 이용할 수 있으며 오프라인에서 사용될 수도 있고 백업할 수도 있습니다. 모든 속성, 어휘소, 개체구조 이름공간 안에 있는 구조화된 데이터들은 크리에이티브 커먼즈 CC0 라이선스에 따라 이용할 수 있습니다. 다른 이름공간에 있는 텍스트들은 크리에이티브 커먼즈 저작자표시-동일조건변경허락 라이선스에 따라 이용할 수 있지만, 경우에 따라 추가적인 이용조건이 적용될 수 있습니다. 미디어 데이터나 다른 컨텐츠 데이터들은 설명 문서에서 표시된 별도의 라이선스에 따라 이용할 수 있습니다.

See also