Wikidata:Descàrrega de base de dades

From Wikidata
Jump to navigation Jump to search
This page is a translated version of the page Wikidata:Database download and the translation is 71% complete.
Outdated translations are marked like this.

Wikidata ofereix còpies del contingut disponible, i que tothom es pot descarregar.

Tingueu en compte que també hi ha altres mètodes per a accedir al contingut estructurat de Wikidata, que poden no necessitar un buidatge complet de la base de dades.

Buidatges de la base de dades

Hi ha disponibles diverses menes diferents de buidatges de dades. Tingueu en compte que, mentre els buidatges JSON i RDF es consideren interfícies estables, els buidatges XML no ho són. Els canvis en els formats de dades utilitzats per interfícies estables segueixen la Política d'interfície estable.

<span id="JSON_dumps_(recommended)_">

Buidatges JSON (recomanats)

A https://dumps.wikimedia.org/wikidatawiki/entities/ es poden trobar buidatges JSON que contenen totes les entitats de Wikidata en un únic array de JSON. Les entitats no estan disposades necessàriament en cap ordre en particular. Per exemple, potser Q2 no està just després de Q1. Aquests buidatges es creen cada setmana.

Aquest és el format de buidatge recomanat. A [la documentació d'estructura JSON https://doc.wikimedia.org/Wikibase/master/php/docs_topics_json.html] trobareu informació sobre com hi estan representades les entitats de Wikidata.

Consell: cada objecte d'entitat (element de dades o propietat) es troba en una línia separada del fitxer JSON; per tant, el fitxer es pot llegir línia per línia i cada línia es pot descodificar per separat com un objecte JSON individual.

Nota que els fitxers estan utilitzant compressió paral·lela, quins mitjans que alguns decompressors pot no de manera fiable desempaquetar els fitxers. Si estàs utilitzant Finestres et pot utilitzar p. ex. Bzip2. Damunt *nix sistemes, utilitzar lbzip2 quins poden descomprimir Bzip2 en paral·lel. pbzip2 no és una elecció bona perquè no és capaç de descomprimir en paral·lel els fitxers no comprimits amb pbzip2.

Actualment podeu descarregar un buidatge força recent mitjançant un torrent. wikidata-20240101-all.json.gz (130.53 GiB) a academictorrents.com ( magnet)

  • JsonDumpReader és una biblioteca PHP per llegir els buidatges.
  • gitlab.com/tozd/go/mediawiki és una biblioteca Go per processar buidatges de Wikipedia i Wikidata.
  • WDSub és una biblioteca Scala que processa els buidatges de Wikibase JSON i pot generar subconjunts utilitzant esquemes d'entitats com a entrades
  • simple-wikidata-db és un intèrpret de buidatges JSON escrit en Python
  • qwikidata pot treballar amb buidatges JSON i està escrit en Python

Buidatges RDF

En primer lloc, a https://dumps.wikimedia.org/wikidatawiki/entities/ es poden trobar buidatges RDF canònics que utilitzen els formats Turtle i NTriples. El mapatge es descriu aquí. Aquestes declaracions completes s'indiquen com totes.

Secondly, so called truthy dumps are provided. They use the NTriples format. They are in the same format as the full dumps, but only contain direct ("truthy", wdt: and wdtn:) values of best-rank statements. This also means they do not contain meta data such as qualifiers and references.

Els fitxers de buidatge -all contenen tota la informació de les entitats de Wikidata, amb l'excepció de l'ordre (dels àlies, de les declaracions, etc.), la representació del qual no està contemplada a RDF. Els fitxers de buidatge -truthy codifiquen les *millors* declaracions (és a dir, aquells amb el rang més alt de cada parell determinat (tema, propietat)) com a triplets RDF únics (s'ometen els qualificadors i les referències).

The dumps of Wikidata Lexeme namespace in Turtle and NTriples formats can be found in the same place with lexemes suffix.

For details on the RDF dump format please see the page RDF Dump Format. Also note the section "WDQS data differences" which explains the differences in the RDF formats of these dumps and the WDQS.

Buidatges RDF parcials

WDumper is a third-party tool to create custom Wikidata RDF dumps. Entities and statements may be filtered.

Buidatges XML

Podeu trobar buidatges XML complets de Wikidata a https://dumps.wikimedia.org/wikidatawiki/.

Atenció: El format de les dades JSON contingudes als buidatges XML pot canviar sense avís previ, i podria ser inconsistent entre revisions, així que s'hauria de tractar com un format de dades binàries opaques. En comptes dels buidatges XML, és molt més recomanable utilitzar els buidatges JSON o RDF, que utilitzen representacions canòniques de les dades!

Els buidatges incrementals (o buidatges d'addicions i canvis) de Wikidata estan disponibles per descarregar. Aquests buidatges contenen les dades afegides en les últimes 24 hores, reduint així la necessitat de descarregar la base de dades sencera. Aquests buidatges són considerablement més petits que la base de dades sencera.

Els trobareu a https://dumps.wikimedia.org/other/incr/wikidatawiki/.

Old JSON and RDF dumps

Model de dades

El model de dades es pot consultar aquí, i descriu els blocs fonamentals amb què es construeixen les dades de Wikidata.

Esquema de la base de dades

En aquesta pàgina podreu trobar una visió general de l'esquema de la base de dades. (No es tracta de l'esquema de les dades de Wikidata.)

Llicència

Aquestes bases de dades poden ser utilitzades per a ús personal o comercial, còpies de seguretat o ús fora de línia. Totes les dades estructurades dels espais de noms principal, de propietats, de lexemes i d'esquemes d'entitats estan disponibles sota la [llicència //creativecommons.org/publicdomain/zero/1.0/ Creative Commons CC0]. El text dels altres espais de noms està disponible sota la [llicència //creativecommons.org/licenses/by-sa/3.0/ Creative Commons Attribution/Share-Alike]; s'hi poden aplicar termes addicionals. Els elements multimèdia i altres continguts estan disponibles en altres llicències, com es detalla a les pàgines de la seva descripció.

See also