Jump to content

Wikidata:Herramientas/OpenRefine

Shortcut: WD:OR
From Wikidata
This page is a translated version of the page Wikidata:Tools/OpenRefine and the translation is 100% complete.

WikidataCon Award 2019
Coolest Tool Award 2022 logo

Open Refine

2022 Coolest Tool
Award Winner

in the category
Eggbeater

Logotipo de OpenRefine
Logotipo de OpenRefine
Comienza con un videotutorial
Tutorial de OpenRefine para principiantes por Emma Carroll

OpenRefine es una herramienta libre de manejo de datos que se puede utilizar para limpiar tablas de datos y conectarlas con bases de conocimiento tales como Wikidata. Fue desarrollada anteriormente por Google (bajo el nombre Google Refine), pero en la actualidad ha pasado a ser un proyecto sostenido por la comunidad.

Esta página recopila recetas para OpenRefine que pueden servir para importar conjuntos de datos a Wikidata, o para enriquecer conjuntos de datos con datos adicionales extraídos de Wikidata. No dudes en usar la página de discusión para pedir que te echen una mano con este software. Si te gusta usar esta herramienta, puedes hacer correr la voz mediante la userbox {{User loves OpenRefine}}.

Actualmente, OpenRefine solo admite cotejamientos de elementos. Los lexemas no son compatibles a partir de septiembre de 2022.

Instalar y ejecutar OpenRefine

OpenRefine se puede descargar como aplicación. Funciona en computadoras de escritorio y portátiles con sistemas operativos Windows, Mac y Linux. Se ejecuta un pequeño servidor en su computadora y luego se utiliza un navegador web para interactuar con él. Funciona mejor con navegadores basados en Webkit, como Google Chrome, Chromium, Opera y Microsoft Edge, y también es compatible con Firefox.

OpenRefine tiene una interfaz gráfica de usuario disponible en más de 15 idiomas.

Instalar OpenRefine en tu computadora de escritorio o portátil

Puedes encontrar y descargar la última versión estable de OpenRefine aquí.

Ejecutar OpenRefine en PAWS

Desde mayo de 2021, cualquier persona con una cuenta Wikimedia registrada puede ejecutar OpenRefine en PAWS en los servicios en la nube de Wikimedia. Tenga en cuenta que esta es una característica experimental que no es apoyada por el propio equipo OpenRefine, y que puede romperse o funcionar mal. Sin embargo, es una opción interesante para las personas que no pueden instalar software en su computadora local.

PAWS es una herramienta de Wikimedia Cloud que proporciona acceso alojado a cuadernos Jupyter y otras herramientas sin necesidad de instalación local.

Puedes acceder a tu propia instalación de OpenRefine con este enlace: https://hub-paws.wmcloud.org/hub/user-redirect/openrefine. Tendrás que iniciar sesión con tus credenciales wiki, pero no marques la casilla Recuérdame: dado que todos los archivos escritos en PAWS están a disposición del público, no querrás que tus credenciales sean accesibles. También es posible que aparezca un mensaje de error; si es así, actualiza la página y debería funcionar.

Por favor, ponte en contacto con YuviPanda si tienes preguntas sobre OpenRefine a través de PAWS.

Características principales

Cotejo con Wikidata

En la terminología de OpenRefine, el cotejo es el proceso en el que se enlazan datos tabulares brutos con identificadores de bases de conocimiento. Las funcionalidades nativas de OpenRefine lo convierten en una herramienta versátil para cotejar datos tabulares con una amplia gama de bases de datos, entre las cuales se encuentra Wikidata.

Cotejo semiautomático de universidades en OpenRefine

El wiki de OpenRefine cuenta con una guía detallada del proceso de cotejo. Aquí se muestran las características principales:

  • Restricción del cotejo a una clase de Wikidata. Solo se tomarán en consideración los elementos de subclases de esta clase de Wikidata;
  • Como alternativa, selecciona "Cotejas contra ninguna clase en particular", donde el elemento puede ser de cualquier clase (por ejemplo, cuando se cotejan con las etiquetas de los elementos o los títulos de los artículos de Wikipedia);
  • Uso de varias columnas del conjunto de datos para corresponderlas a valores de propiedades de Wikidata, lo cual refina la puntuación de reconciliación y sirve para discriminar entre elementos homónimos;
  • Uso de identificadores externos compartidos por el conjunto de datos y Wikidata para cotejar los elementos;
  • Uso de los enlaces de sitio proporcionados por el conjunto de datos como identificadores externos: si estas páginas de Wikimedia están enlazadas a un elemento de Wikidata, se cotejarán directamente con este;
  • Si la herramienta encuentra varios candidatos, puede recorrer la tabla hasta encontrar el elemento de Wikidata correcto.

Si deseas usar las funcionalidades de cotejo, plantéate ver los siguientes materiales instructivos:

Las API pueden ser, por ejemplo, una búsqueda en frlabels con wikidata gracias a este enlace https://wikidata.reconci.link/fr/api.

Enriquecimiento de datos

Esta grabación de pantalla muestra cómo añadir columnas a partir de una columna cotejada en OpenRefine 2.8.

Esta funcionalidad está disponible a partir de OpenRefine 2.8.

Cuando una columna de tu tabla esté cotejada con Wikidata, podrás sacar datos de Wikidata para crear columnas nuevas en tu conjunto de datos. Si hay varias afirmaciones para una propiedad dada, los valores se agruparán como registros: se almacenarán en filas adicionales donde la columna cotejada original está vacía. El modo registro de OpenRefine podrá por tanto ser más apropiado para transformar esos valores a posteriori. El acceso a las etiquetas de los elementos, las descripciones de los elementos y los enlaces de sitio de los elementos se realiza mediante las propiedades Lxx, Dxx and Syyyy, donde xx es un código de idioma (en, fr, yue, etc.) e yyyy es un ID de sitio (enwiki, ptwikisource, etc.).

Puedes usar esta funcionalidad de forma recursiva sobre las columnas recién creadas si corresponden a elementos de Wikidata. Esto permite explorar el grafo de Wikidata siguiendo las propiedades elegidas. También es posible configurar la forma de recuperación de propiedades (por ejemplo, filtrar por rango o por referencia).

Edición de Wikidata

Esta funcionalidad está disponible a partir de OpenRefine 3.0.

OpenRefine permite transformar datos tabulares en declaraciones de Wikidata. La transformación está regida por un «esquema» (schema) - un patrón de modificación de Wikidata que se aplicará a cada una de las filas de tu tabla. Una vez creado el esquema, podrás:

  • previsualizar las ediciones de Wikidata edits e inspeccionarlas manualmente;
  • analizar y corregir cualquier asunto planteado automáticamente por la herramienta;
  • subir tus cambios a Wikidata iniciando sesión en tu cuenta;
  • exportar los cambios en formato QuickStatements v1.

Véase la subpágina de edición para más información. Hay muchos tutoriales para comenzar.

Recetas

Es posible compartir flujos de trabajo de OpenRefine copiando la representación en JSON del historial de ediciones. Esto representa las operaciones que has realizado en OpenRefine, y puede ser reutilizado por otros sobre conjuntos de datos similares. Esta sección muestra algunas recetas que pueden ser útiles al trabajar con Wikidata. Véase también Recetas de OpenRefine.

  • Obtener identificadores Q de Wikidata. Una vez hayas cotejado una columna con Wikidata, podrás obtener los Q en una columna nueva. Para ello, tendrás que utilizar la operación «Añadir columna basada en esta columna» con la siguiente expresión de GREL: cell.recon.match.id
  • Más variables. Puedes acceder a varias variables diferentes para la celda cotejada. Consulta la página de referencia sobre variables.
  • ¡Comparte aquí tu receta!

Ayuda a OpenRefine

¡OpenRefine necesita tu ayuda! Hay muchas cosas que puedes hacer:

Tenemos un proyecto de Phabricator para hacer seguimiento a la actividad relacionada a OpenRefine dentro de Wikimedia. Siéntete libre de etiquetar cualquier tarea relacionada.

Durante 2021-22, OpenRefine se está ampliando con el apoyo de Datos Estructurados en Wikimedia Commons (SDC). Este proyecto está financiado por una subvención para proyectos de la Fundación Wikimedia.