Wikidata:MOOC/Course outline/Évaluer la qualité des données

From Wikidata
Jump to navigation Jump to search

Objectifs pédagogiques :

  • Identifier une page de données bien renseignée, savoir quand modifier les données des pages mal renseignées
  • Gérer les contraintes liées aux éléments renseignés dans Wikidata
  • Utiliser l'outil de suivi pour identifier les modifications constructives et les non-constructives

Durée totale : 45 minutes

  • 10 minutes de vidéo explicative avec captures d'écran dynamiques
  • 8 minutes de texte + images décrivant les caractéristiques d'une page de données bien renseignée
  • 8 minutes de texte + BD décrivant le principe des contraintes liées aux données
  • 8 minutes d'exemples de gestion des contraintes liées aux données (en patrimoine et littérature)
  • 4 minutes d'explications en vidéo du suivi des modifications récentes
  • 7 minutes d'explication en texte + schéma du suivi des modifications récentes
  • Pour aller plus loin : ORES

C'est quoi, la qualité des données ?[edit]

Dans le monde professionnel, ce mot de « qualité » est utilisé un peu partout. En informatique, donc dans Wikidata, la qualité des données désigne la conformité des données aux usages prévus, ainsi que leur traçabilité. Les données de Wikidata sont considérées comme « de qualité » si elles décrivent et représentent correctement la réalité (du concept, du sujet, de l’événement...) à laquelle elles font référence, le tout appuyé sur des sources fiables, correspondant à l'origine des données.

Garantir la qualité des données consiste en grande partie à traquer des erreurs ! Il est évident, par exemple, qu'une page de données qui décrirait une pomme avec une photo de cerise dans son champ « image » contient une erreur (et, même potentiellement, un vandalisme, si cette erreur a été ajoutée délibérément). La difficulté, c'est que les données de mauvaise qualité ne seront pas toujours aussi simples à repérer. La qualité des données est parfois sources de longs débats entre contributeurs et contributrices afin de déterminer quelles sont les bonnes pratiques.

<renvoi vers module "communauté">.

Nous avons déjà vu des exemples de bonnes pratiques déterminées par consensus parmi la communauté de Wikidata. Par exemple, la bonne qualité des données relatives aux livres repose en partie sur le fait de distinguer une œuvre littéraire d'une édition de cette oeuvre littéraire.

<remettre exemple visuel vu en chapitre précédent>

Il existe de très nombreuses règles permettant d'assurer la qualité des données de Wikidata, dans tous les domaines. Leur connaissance vient naturellement avec l'expérience de la contribution et la prise en compte de ses propres erreurs. La plupart des contributeurs et contributrices de Wikidata ont commis des erreurs en qualité des données à leurs débuts (les créateurs de ce MOOC y compris).

Comment assurer la qualité des données ?[edit]

Il existe deux manières d'assurer la qualité des données de Wikidata :

  • ajouter des données pertinentes
  • supprimer des données non-pertinentes ou des erreurs

Il est toujours possible d'annuler les modifications non-pertinentes, même celles effectuées par d'autres contributeurs.

La plus grande partie du travail en qualité des données consiste à ajouter des informations pertinentes dans des pages d'éléments de Wikidata.

Cette déclaration (sujet : Akhal-Teké ; propriété : nature ; valeur : race de chevaux) est sourcée par 14 références. Cependant, la quantité de références n'est pas forcément synonyme de qualité. Il peut être utile de vérifier si chacune de ces références est elle-même une source de qualité (encyclopédie, dictionnaire...).

Si ajouter de nouvelles références constitue la manière la plus simple d'aborder et de définir le sujet de la qualité des données, il faut s'assurer que ces références ajoutées proviennent elles-mêmes de sources fiables. Par exemple, une déclaration sourcée par une encyclopédie ou un dictionnaire est considérée comme plus fiable qu'une déclaration sourcée par un article de presse.

Pourquoi c'est important, la qualité des données ?[edit]

Imaginons qu'une personne lise une erreur dans un magazine. Par exemple, elle lit qu'un être humain utilise seulement 10 % de son cerveau. Si cette personne répète cette erreur à des chercheurs en neurosciences, sa crédibilité sera entamée. Plus dommageable, si cette erreur des 10 % du cerveau est répétée à beaucoup d'autres personnes qui la croient vraie, au final, une part importante de la population aura de fausses croyances à propos du fonctionnement du cerveau humain.

Les erreurs dans Wikidata, c'est le même principe. Si des erreurs sont présentes dans les pages d'éléments, non seulement cela entame la crédibilité de Wikidata, mais en plus, cela fausse les résultats des requêtes dans Wikidata, ainsi que les données partagées dans les divers projets qui réutilisent des données de Wikidata.

Imaginons que vous fassiez, par exemple, une requête pour connaître le nombre de monuments historiques en Bretagne. Si des maisons non-classées sont renseignées par erreur comme étant des monuments historiques, les résultats de votre requête seront faux. Si cette requête sert, par exemple, de base à un travail de recherche et d'analyse, la mauvaise qualité des données met en péril l'entièreté du travail d'analyse subséquent, et donc la fiabilité des connaissances qui en découlent.

En plus de l'analyse des résultats de requêtes, la qualité des données est extrêmement importante pour permettre leur interopérabilité, c'est à dire leur bonne réutilisation par d'autres projets, d'autres bases de données ou d'autres bases de connaissances que Wikidata.

Script vidéo qualité des données[edit]

Durée : 11 min. Intervenant : VIGNERON

Vidéo qualité des données
Séquence ! Contenu ! Effets ! Audio ! Temps
Ré-introduction Nicolas Face caméra Sous-titrage fr. (Se présenter rapidement) + rappel rapide du précédent cours (communauté, présenté par Georges Fodouop)

Bonjour, je suis Nicolas Vigneron. Je contribue aux projets Wikimédia depuis 2004, d'abord sur Wikipédia puis très vite sur les autres projets. Je suis présent sur Wikidata depuis sa création ; dès ses débuts en 2012, j'ai tout de suite été convaincu et enthousiaste à l'idée de structurer les données. La structuration permet de plus facilement les ré-utiliser ensuite.

15-20 s.
Importance des données de qualité sur Wikidata Face caméra sous-titrage fr. + Mots en surbrillance Quand on utilise des données, il est important qu'elles soient de qualité. La qualité passe par plusieurs points, principalement la conformité et la traçabilité. C'est-à-dire qu'elles correspondent bien à la source d'origine et donc que la source soit indiquée. Vous ne mangeriez pas un produit sans savoir d'où il vient ni ce qu'il contient ; pour les données c'est pareil et Wikidata fait particulièrement attention à cela. 2 min
Comparaison élément bien renseigné / mal renseigné Capture dynamique : un élément mal renseigné et un bien renseigné (deux monuments) Comparaison écran + sous-titrage Prenons par exemple ce premier élément (Q21252532). Celui est plutôt vide, on connait son nom "dolmen de Montnoël" et on sait que c'est un dolmen situé à Guémené-Penfao en France et c'est tout. On a aucune information plus précises et surtout aucune source. Difficile de faire quoique ce soit avec cela.

À l'inverse, sur ce second élément (Q1799090), on a beaucoup plus de données et de références. On a des images, un plan, ses coordonnées, plusieurs identifiants, etc. La plupart des informations sont supportés par des sources qui permettent d'attester de la véracité de ces informations et de les vérifier en cas de doute.

2 min.
Qu'est-ce qu'une structuration correcte ? Face caméra + incrustation images fixes résultats recherche Incrustation image moitié d'écran La bonne façon d'utiliser une propriété est défini dans la propriété elle-même. Souvent les règles sont définies a minima (pour éviter trop de faux-positif) et en creux en se focalisant sur les relations que l'on sait être impossible. Par exemple, un élément sur un prénom ne peut pas avoir la propriété "père" (P22), cela permet d'éviter la confusion entre l'élément d'une personne connue seulement sous son prénom et l'élément homonyme sur le prénom, par exemple l'empereur romain Claude et le prénom Claude. 3 min
Contraintes liées aux données Capture vidéo d'écran sous-titre + mise en évidence des 3 icônes d'erreur Pour vérifier la qualité, le principal outil sont ce que l'on appelle les contraintes. Ce sont des règles prédéfinies à la main sur la façon dont les propriétés doivent être utilisées. Il en existe une trentaine, par exemple la contrainte de format : une image doit se terminer par ".jpg" ou équivalent ou bien la contrainte d'incompatibilité : un être humain ne peut pas avoir de pays (P17, car il existe la propriété plus approprié "pays de citoyenneté P27").

Visuellement, elles sont représentées par 3 icônes présentes à droite d'une valeur qui pose un problème. Elles correspondent au 3 degrés différents : un drapeau pour une suggestion, un point d'interrogation dans un cercle pour un problème potentiel et un éclair pour un problème grave (insérer les icônes).

3 min
Mot conclusif Face caméra sous-titres fr. Synthèse conclusive rappel de ce qui a été vu.

La qualité est donc essentiel et plusieurs outils sont disponibles pour l'assurer.

Pour en savoir plus sur les contraintes, vous pouvez voir le Portail des contraintes de propriété

30 s.

Qu'est-ce qu'une page de données bien renseignée ?[edit]

Une page avec de nombreuses déclarations, avec de nombreux triplets RDF (associations sujet-propriété-valeur) bien renseignés, donc bien reliés à des références !

<comparer ici une page de données bien renseignées et une mal renseignées, prendre un autre exemple que celui de la vidéo afin d'enrichir les exemples>

Un guide-qualité[edit]

On peut considérer qu'une page de donnes est bien renseignée si elle comporte les déclarations suivantes :

  • La propriété Nature de l'élément (P31) et/ou la propriété Sous-classe de (P279) et/ou la propriété Partie de (P361), avec au moins une référence renseignée sur chaque valeur.
  • Une image, s'il s'agit d'un sujet "illustrable".

Pour vous aider à trouver quelles propriétés d'un élément pourraient être renseignées, il est possible d'utiliser le gadget Recoin ("Relative Completeness Indicator").

<démonstration du gadget Recoin>

Erreurs les plus fréquentes[edit]

  • valeurs homonymes
  • propriétés non-adaptées à la nature de la page d'élément

Bande dessinée (explication contraintes ?)[edit]

Script vidéo modifications récentes[edit]

Intervenant : VIGNERON. Durée : 4 min 40-50

Vidéo modifications récentes
Séquence ! Contenu ! Effets ! Audio ! Temps
Ré-introduction Nicolas Face caméra Sous-titrage fr. (Se re-présenter rapidement) + rappel de ce qui a été vu précédemment, en qualité des données. Importance du suivi des modifcations récentes pour assurer la qualité des données. 15-20 s.
Pourquoi le suivi des modifications récentes Face caméra sous-titrage C'est un wiki dynamique ouvert et n’importe qui peut accéder, il est important de suivre... 30 s.
Comment accéder au suivi des modifications récentes ? Capture écran vidéo sous-titrage fr. + pointage Montrer les différentes options de filtre et en particulier les filtres de qualité (basé sur ORES) en cliquant sur "Fortement susceptibles d’avoir des problèmes". Par exemple cette modification n'est pas pertinente, on peut cliquer sur le lien "diff" pour visualiser précisément la différence et cliquer sur "annuler" pour revenir à la version antérieure à la modification que vous annulez. 3 min
Conclusion Face caméra sous-titrages fr. Mot de conclusion + motivationnel. "Vous avez tous les outils en main pour créer de nouveaux éléments dans Wikidata, et les amener au meilleur niveau de complétude. 1 min