Wikidata:MOOC/Course outline/Définition donnée ouverte

From Wikidata
Jump to navigation Jump to search

Durée : 20 minutes consacrées aux données ouvertes

  • 5 minutes de vidéo explicative à propos des données ouvertes (Poslovitch)
  • 5 minutes d'explication texte + BD : données ouvertes, droits, licence d'utilisation
  • 10 minutes d'exemples d'usages vertueux des données ouvertes + des exemples de données soumises au droit d'auteur / à la propriété intellectuelle, et de données sensibles devant rester fermées.

Prérequis[edit]

Savoir ce qu'est une donnée, un jeu de données et une base de données. Si ce n'est pas le cas, nous vous invitons à suivre le cours « Initiation aux bases de données » avant celui-ci.

Durée[edit]

Environ 20 minutes.

Avec ce cours, vous saurez[edit]

  • Définir ce qu'est une donnée ouverte et une base de données ouverte.
  • Dans quels cas il est légitime d'ouvrir les données et dans quels cas il est dangereux de le faire.
  • Déterminer l'intérêt des bases de données ouvertes, tout particulièrement dans le secteur GLAM (bibliothèques et musées)

Données ouvertes ?[edit]

Donnée ouvertes est synonyme d’open data (en anglais), ces deux formulations co-existent. Nous parlons ici par défaut de « données ouvertes ». Ces donnée ouvertes sont des données stockées informatiquement, dont l'accès et l'usage sont laissés libres aux usagers. Tout le monde peut :

  • les consulter,
  • les utiliser (par exemple, en les citant sur un site web),
  • les compléter,
  • et les partager.

Pour être « ouvertes », ces données doivent non seulement être consultables par chacun (on parle alors d'« accès ouvert »), mais aussi être partageables. D'après leur définition officielle donnée par l'Open Knowledge Foundation en 2005, ces données doivent être disponibles, accessibles (par exemple, par téléchargement sur internet), modifiables, réutilisables (y compris dans un mélange avec d'autres données) et permettre une participation universelle.

Il existe de nombreux logo permettant d'identifier les pages web contenant des données ouvertes, généralement visibles au bas des pages d'accueil des bases de données ouvertes. Peut-être avez-vous déjà déjà repéré celui-ci :

Ou un autre logo du même type :

D'où viennent les données ouvertes ?[edit]

Les sources de données ouvertes sont multiples, mais en général, l'origine des données ouvertes est publique. Par exemple, ces données peuvent provenir de :

Les données ouvertes permettent ainsi à chacun d’accéder à son patrimoine littéraire, iconographique, ou encore géographique, à la seule condition de disposer d'un accès à internet. Il existe désormais des plate-forme de données étatiques ouvertes dans de très nombreux pays :

etc.

Les jeux de données disponibles peuvent prendre plusieurs formes. Généralement, il s'agit de données rangées dans un tableau, comme nous pouvons le voir ici avec ce jeu de données d'auteurs provenant de la BnF :

Jeu de données classées dans un tableau, croisant des informations à propos d'auteurs, disponibles à la Bibliothèque national de France.

Il peut aussi s'agit de graphiques, ou bien de données modélisées sur une carte, comme ici :

Nombre de fichiers téléversés dans Wikimedia commons, en millions par année.

Cette carte provient de Wikimedia commons, qui est l'un des projets soutenus par la Wikimedia Foundation. Comme vous vous en doutiez, certains projets de la Wikimedia Foundation permettent de stocker des données ouvertes et de les partager, puis de créer des modélisations permettant de visualiser ces données, comme ici. Nous verrons en détail ce qu'est la visualisation des données (ou datavisualisation) durant la suite de ce MOOC.

À quoi servent les données ouvertes ?[edit]

Les données ouvertes servent potentiellement à tant de choses qu'en dresser la liste nous prendrait un temps infini ! Elles sont utilisées aussi bien par des gouvernements que par des entreprises (par exemple, de livraison) et par des services publics ; accéder à ces données permet entre autres de consulter les subventions accordées par un gouvernement donné à diverses associations. L'ouverture des données est à ce titre, à la fois une philosophie de l'accès à l'information, un mouvement de défense des libertés et une politique publique.

Gardons deux domaines d'application :

  • les données du patrimoine culturel
  • les données du patrimoine bâti.

Un exemple : les ksour du Maghreb[edit]

Pour citer un exemple d'usage de ces données ouvertes, dans le Maghreb, un recensement des ksour (habitations fortifiées traditionnelles) est en cours, pour géolocaliser et documenter l'état de ces habitations par écrit et via des photographies placées en accès ouvert. Vous pouvez consulter ces données ouvertes via ce lien :

Si les données collectées à propos de ces ksour étaient fermées, l'accès à la documentation de leur état ne serait pas possible pour le grand public, limitant d'autant les possibilités pour les habitants de connaître l'état de restauration de leur patrimoine.

Et pour vous ?[edit]

À titre plus personnel, que ce soit pour vos études, pour votre travail ou par curiosité, vous pouvez être amenés à consulter des données ouvertes dans une foule de contextes. Avez-vous besoin, de la liste de tous les livres écrits par l'écrivain français Jules Verne, celle de tous les films réalisés par le cinéaste guinéen Cheik Doukouré, ou bien encore de la liste de toutes les récompenses reçues par la sculptrice et peintre québécoise Betty Goodwin ? Vous pouvez consulter une base de données ou effectuer une requête sur une telle base de données, et obtenir toutes ces informations.

Avant de plonger parmi des milliards de données, il reste à résoudre une question cruciale : en avez vous la possibilité et l'autorisation? Pouvez-vous accéder à ces données, rédiger votre requête et en interpréter les résultats ? Ce droit vous est garanti par l’ouverture des données, qui permet de combiner les informations entre elles pour en tirer de nouvelles connaissances et de nouvelles idées.

Données ouvertes, données fermées[edit]

L'inverse d'une donnée ouverte est une donnée fermée. Par extension, la notion de données sensibles, ou de données à caractère personnel, désigne des données qui doivent absolument rester fermées pour garantir la confidentialité et la sécurité des personnes, des organisations et des entreprises concernées. Les données fermées sont celles auxquelles l'accès est restreint (par exemple, par des autorisations limitées à quelques personnes, ou bien aux membres d'une entreprise ou d'une organisation).

=> Ajouter exemple visuel d'accès restreint aux données (par exemple, un site médical ?)

Dans la pratique, permettre l'accès de chacun aux données n'est pas toujours une « bonne idée », et cacher de l'information au grand public, donc avoir des données fermées, n'est pas toujours une « mauvaise idée ». Tout dépend du type de données considérées, du contexte, et de l'usage envisagé pour ces données.

Certaines données gagnent à être ouvertes, car elles font partie des biens communs (œuvres littéraires, œuvres d'art, données géographiques, données de populations d'animaux sauvages, relevés de taux de pollution...), alors que des données dites « sensibles », qui identifient des personnes (diagnostics médicaux, sensibilités politiques et religieuses, orientation sexuelle...) pourraient être exploitées à des fins malveillantes contre les individus.

Un autre élément entre en compte, en plus de la nature des données, pour déterminer si ces données devraient être ouverte ou fermées. Il s'agit du contexte. Des données financières peuvent ainsi être ouvertes ou fermées, en fonction de l'organisme qui les collecte. Si une grande entreprise privée ouvrait ses données financières, ses concurrents en profiteraient pour l'affaiblir et pour tenter de s'approprier ses parts de marché. À l'inverse, les données financières des gouvernements démocratiques devraient être ouvertes, permettant à la population d'un pays d'avoir connaissance des dépenses et collectes d'un gouvernement élu. C'est dans cette optique, entre autres, que l'ouverture des données relève de la défense des libertés et des politiques publiques.

Vidéo[edit]

Total : 5 min. Florian 'Poslo' Cuny

Texte de la légende
Séquence Contenu Effets Audio Temps
... Face caméra, ton dynamique Sous-titrage fr. ? ?
? Capture d'écran vidéo Sous-titrage fr. (parler de...) temps à définir

Droit et licence d'utilisation[edit]

Pour vérifier si des données sont ouvertes ou fermées, il faut se référer à leur licence.

Si cette licence spécifie que l’usage des données est libre et que les utilisateurs sont autorisés à transformer, combiner et re-partager ces données, même à des fins commerciales, alors, il s'agit de données ouvertes. La licence ouverte garantit leur libre accès et leur réutilisation par tous, sans restriction technique, juridique ou financière.

L'accès aux données vise à permettre aux citoyens de les consulter, d'une part, et à leur permettre d'exploiter ces données, d'autre part. Cela implique que le droit d'accès s'accompagne d'un droit à la réutilisation des données. Ces droits d'accès et de réutilisation s'inscrivent dans la pensée qui considère l'information publique comme un bien commun, dont la diffusion est d'intérêt public et général.

Des licences de données ouvertes, il en existe beaucoup. En voilà quelques-unes :

Par exemple, le contenu de data.bnf.fr est disponible sous cette licence.

Wikidata : un exemple de base de données ouvertes[edit]

Wikidata est un exemple de base de données ouvertes. Il suffit d'avoir accès à internet pour lire des pages de données structurées dans Wikidata. En cliquant sur le lien : Special:Random, vous accédez à des milliers de pages de données structurées. Ce lien ouvre une page de données de Wikidata au hasard. Vous pouvez vérifier l'ouverture des données de Wikidata en ouvrant de nouveaux onglets à partir de ce lien : si vous pouvez toujours ouvrir et lire ces pages de données, même sans avoir créé de compte sur Wikidata, c'est, entre autres, parce qu’elles sont ouvertes.

Si un thème vous intéresse particulièrement, n'hésitez pas à effectuer une recherche avec le moteur.

Pour ce petit exercice, si vous le souhaitez, nous vous proposons de rechercher :

  • la page de données de votre film préféré
  • la page de données de votre ville ou village préféré
  • la page de données de votre espèce animale préférée

Bases de données ouvertes, bases de données fermées : le partage des données[edit]

Comme vous le savez, il est possible de transférer des données d'une base de données à une autre. C'est la licence qui détermine s'il est possible de le faire, ou pas. Le transfert des données d'une BDD fermée (licence fermée) vers une BDD ouverte (licence ouverte) n'est pas possible  :


... Par contre, le transfert de données d'une BDD ouverte (licence ouverte) vers une BDD fermée (licence fermée) est possible, mais il s'agit d'un procédé que l'on pourrait qualifier de... « vampire », dans la mesure où la BDD sous licence fermée s'approprie les données libres d'autres bases sans partager en retour les siennes, et donc, s'approprie du contenu relevant des biens communs sans contribuer elle-même à ces biens communs :


Pour permettre le partage des données entre deux bases, il ne suffit pas que les données de ces deux bases soient ouvertes. Il faut aussi que ces deux bases de données soient en mesure de communiquer entre elles de manière cohérente et sans erreur, comme nous l'avons déjà vu. 'Le meilleur moyen d'y parvenir, c'est d'utiliser une colonne contenant un identifiant unique commun (par exemple, un numéro d'ISBN) aux deux jeux de données.

Récapitulatif des points de vocabulaire[edit]

  • Donnée ouverte ou open data: Donnée stockée informatiquement, dont l'accès et l'usage sont laissés libres ;
  • Donnée fermée ou donnée à caractère personnel : Donnée stockée informatiquement dont l'accès et l'usage sont restreints à un petit groupe d'utilisateurs ;
  • Licence ouverte : licence d'utilisation des données autorisant toute personne à consulter, transformer, combiner et re-partager ces données, même à des fins commerciales ;
  • Licence fermée : licence d'utilisation des données interdisant de les transformer, combiner et re-partager.

Synthèse du cours[edit]

Nous avons vu :

  • que les données sont dites ouvertes si elles sont consultables par toute personne, mais aussi partageables, modifiables et fusionnables
  • que les données ouvertes proviennent généralement d'organismes publics, et peuvent porter sur des thématiques très variées, de la culture à l'environnement, en passant par la géographie.
  • que la fermeture de l'accès aux données vise à protéger les personnes d'une utilisation potentiellement dangereuse de ces mêmes données
  • que la nature ouverte ou fermée des données est déterminée par leur licence d'utilisation
  • qu'il est possible de partager des données entre deux bases de données ouvertes, et qu'une base de données fermée ne peut pas partager ses données
  • que Wikidata est un exemple de base de données ouverte

Évaluation libre[edit]

  • 2 à 3 minutes de quiz, avec un nombre d'essais autorisés illimité.