Shortcut: WD:OR

Wikidata:Ferramentas/OpenRefine

From Wikidata
Jump to navigation Jump to search
This page is a translated version of the page Wikidata:Tools/OpenRefine and the translation is 96% complete.
Outdated translations are marked like this.

Prêmio WikidataCon de 2019
Coolest Tool Award 2022 logo

Open Refine

2022 Coolest Tool
Award Winner

in the category
Eggbeater

logo do OpenRefine
logo do OpenRefine
Comece com um tutorial em vídeo
Tutorial para iniciantes no OpenRefine por Emma Carroll

OpenRefine é uma ferramenta gratuita de organização de dados que pode ser usada para limpar dados tabulares e conectá-los a bases de conhecimento, incluindo Wikidata. Ele foi desenvolvido anteriormente pelo Google (sob o nome Google Refine) e agora fez a transição para um projeto apoiado pela comunidade.

Esta página reúne receitas do OpenRefine que podem ser úteis para importar conjuntos de dados para o Wikidata ou aumentar conjuntos de dados com dados adicionais extraídos do Wikidata. Sinta-se à vontade para usar a página de discussão para pedir ajuda com o software. Se você gosta de usar esta ferramenta, pode comentar com a caixa de usuário {{User loves OpenRefine}}.

Atualmente, o OpenRefine oferece suporte apenas à reconciliação de itens. Lexemes não são suportados a partir de setembro de 2022.

Instalar e executar o OpenRefine

O OpenRefine pode ser baixado como um aplicativo. Ele funciona em computadores desktop e laptop com sistemas operacionais Windows, Mac e Linux. Ele executa um pequeno servidor em seu computador e você usa um navegador da Web para interagir com ele. Funciona melhor com navegadores baseados em Webkit, como Google Chrome, Chromium, Opera e Microsoft Edge, e também é compatível com Firefox.

O OpenRefine possui uma interface gráfica do usuário disponível em mais de 15 idiomas.

Instalar o OpenRefine em seu computador desktop ou laptop

Você pode encontrar e baixar a versão estável mais recente do OpenRefine [1].

Executar o OpenRefine no PAWS

Desde maio de 2021, todos com uma conta registrada da Wikimedia podem executar o OpenRefine no PAWS em Wikimedia's Cloud Services. Observe que este é um recurso experimental que não é suportado pela própria equipe do OpenRefine e que pode quebrar ou funcionar mal. No entanto, é uma opção interessante para pessoas que não podem instalar software em seu computador local.

[2] é uma ferramenta Wikimedia Cloud que fornece acesso hospedado a notebooks Jupyter e outras ferramentas sem a necessidade de qualquer instalação local.

Você pode acessar sua própria instalação do OpenRefine com este link: https://hub-paws.wmcloud.org/hub/user-redirect/openrefine. Você terá que fazer login com suas credenciais wiki. É possível que você receba uma mensagem de erro; se for esse o caso, atualize a página e ela deve funcionar.

Entre em contato com YuviPanda com perguntas sobre o OpenRefine via PAWS.

Características principais

Reconciliação do Wikidata

Na terminologia do OpenRefine, reconciliação é o processo de vincular células tabulares de texto livre a identificadores em bases de conhecimento. Os recursos integrados de reconciliação do OpenRefine o tornam uma ferramenta versátil para reconciliar dados tabulares com uma ampla variedade de bancos de dados, incluindo Wikidata.

Reconciliação semiautomática de universidades em OpenRefine

wiki do OpenRefine contém um guia detalhado para o processo de reconciliação. Aqui estão as principais características:

  • Restrinja a reconciliação a uma classe Wikidata. Somente itens de subclasses desta classe Wikidata serão considerados;
  • Use várias colunas em seu conjunto de dados e compare-as com valores de propriedades no Wikidata, o que refina a pontuação de reconciliação e atua como um desempate entre nomes homônimos;
  • Use os identificadores externos compartilhados por seu conjunto de dados e Wikidata para reconciliar seus itens;
  • Use os sitelinks fornecidos em seu conjunto de dados como identificadores externos - se essas páginas da Wikimedia estiverem vinculadas a um item Wikidata, elas serão automaticamente reconciliadas com isso.

Se você quiser usar os recursos de reconciliação, considere usar os seguintes materiais de instrução:

As APIs podem ser, por exemplo, uma pesquisa em frlabels com wikidata graças a este link https://wikidata.reconci.link/fr/api.

Aumento de dados

Este screencast demonstra como adicionar novas colunas com base em uma coluna reconciliada no OpenRefine 2.8.

Este recurso está disponível a partir do OpenRefine 2.8.

Depois que uma coluna de sua tabela é reconciliada com o Wikidata, você pode extrair dados do Wikidata, criando outras colunas em seu conjunto de dados. Se houver várias reivindicações para uma determinada propriedade, os valores serão agrupados como registros no OpenRefine: eles são armazenados em linhas adicionais onde a coluna reconciliada original está em branco. O modo de gravação do OpenRefine pode, portanto, ser mais adequado para as transformações posteriores que você deseja realizar em sua tabela.

Você pode usar esta função recursivamente nas colunas recém-criadas se elas corresponderem a itens do Wikidata. Isso permite que você explore o gráfico do Wikidata ao longo das propriedades selecionadas. Também é possível configurar a forma como você recupera as propriedades de várias maneiras (por exemplo, filtrando por classificação ou referências).

Editando no Wikidata

Este recurso está disponível a partir do OpenRefine 3.0.

O OpenRefine pode ajudá-lo a transformar dados tabulares em declarações Wikidata. Isso funciona criando um esquema - um modelo de edição do Wikidata que é aplicado a cada linha de sua tabela. Depois de criar um esquema, você pode:

  • visualizar as edições do Wikidata e inspecioná-las manualmente;
  • analisar e corrigir quaisquer problemas levantados automaticamente pela ferramenta;
  • carreguar suas alterações no Wikidata fazendo login com sua própria conta;
  • exportar as alterações para o formato QuickStatements v1.

Veja a subpágina de edição para mais detalhes. Muitos tutoriais estão disponíveis para você começar.

Fórmulas

Os fluxos de trabalho do OpenRefine podem ser compartilhados copiando a representação JSON do histórico de edição. Isso representa as operações que você fez no OpenRefine e pode ser reutilizado por outras pessoas em conjuntos de dados semelhantes. Esta seção lista algumas fórmulas que podem ser úteis ao trabalhar com Wikidata. Veja também OpenRefine Recipes.

  • Obtendo números Q do Wikidata. Uma vez que você reconciliou uma coluna para o Wikidata, você pode obter os Qids em uma nova coluna, usando a operação Adicionar coluna com base nesta coluna com a seguinte expressão GREL : cell.recon.match.id
  • Mais variáveis. Você pode acessar muitas variáveis ​​diferentes para a célula reconciliada. Veja a página de referência para variables.
  • Compartilhe sua fórmula aqui!

Ajude o OpenRefine

O OpenRefine precisa da sua ajuda! Há muitas coisas que você pode fazer:

Temos um projeto Phabricator para rastrear a atividade em torno do OpenRefine dentro da Wikimedia; sinta-se à vontade para marcar qualquer tarefa relacionada com ele.

Ao longo de 2021-22, o OpenRefine será estendido com suporte Dados Estruturados no Wikimedia Commons (SDC). Este projeto é financiado pela Concessão de Projeto da Wikimedia Foundation.