Wikidata:MOOC/Course outline/Initiation au web sémantique

From Wikidata
Jump to navigation Jump to search

Prérequis[edit]

Savoir ce qu'est une donnée, et avoir visité quelques sites web durant sa vie.

Durée estimée[edit]

Environ 25 minutes.

Avec ce cours, vous saurez[edit]

  • Définir le web 3.0 ou web sémantique
  • Définir et reconnaître le format RDF
  • Reconnaître les principes de base du partage des données.
  • Ce que sont les 5 étoiles du Linked Open Data.
  • Ce qu'est une ontologie

Script vidéo[edit]

  • Durée totale : 3 - 5 min
  • Doit aborder : définition web sémantique ou web 3.0 / les ontologie / une introduction au format RDF (sans entrer dans des détails techniques superflus)
Script vidéo web sémantique
Séquence Contenu Effets Audio Temps
Ré-introduction Face caméra, ton dynamique Sous-titrage fr. Bonjour à tous et toutes, c'est Florian. Pour cette nouvelle initiation aux concepts qui rendent Wikidata possible, je vous présente le web sémantique. 15 s
Définition web sémantique Face caméra + Incrustations images et surbrillance Sous-titrage fr. Plan toile d'araignée [SP1] Rien qu'à son nom, on peut deviner de quoi il s'agit. Le mot web, vous le connaissez pour internet. En anglais, c'est un mot qui désigne une toile d'araignée [image fond toile d'araignée]. Quand on regarde une toile d'araignée, on voit qu'elle est composée de fils reliés entre eux [fin image toile d'araignée]. Le web sémantique sert à relier des données les unes avec les autres. C'est comme une immense toile, qui relierait toutes ces données. Et pourquoi « sémantique » ? Parce qu'il s'agit d'aller plus loin que de relier les données. Le web sémantique, c'est donner du sens à ces données reliées, rendre ces données compréhensibles, aussi bien pour des machines que pour des êtres humains comme vous et moi. 50 s ~
Définition ontologies Capture d'écran vidéo + images fixes Sous-titrage fr. Il existe plusieurs façons d'organiser des données, ou ontologies. Une ontologie, c'est une façon humaine de classer des choses. Vous avez tous et toutes fait appel à des ontologies dans votre vie. Si, si ! Par exemple, pour [image bibliothèque] ranger votre bibliothèque, [image armoire à vêtements] votre armoire à vêtements ou [image bureau ordinateur] vos dossier sur votre bureau d'ordinateur. Ces rangements-là ne suivent pas tous la même ontologie, vous ne rangez pas une armoire à vêtements comme vous rangez une bibliothèque. Avec le web sémantique, les données reliées respectent toutes la même ontologie : le format RDF [Incruster logo RDF]. 45 s
Définition rapide format RDF ? Sous-titrage fr. Le format RDF suit des règles, un peu comme des règles de grammaire du français. En plus simple. C'est comme une phrase, avec un sujet, un verbe et un complément [Incruster image grammaire phrase]. En format RDF, on va parler de sujet, de prédicat et d'objet [remplacer sujet, verbe et complément par sujet, prédicat et objet]. Le sujet, c'est la donnée que l'on décrit. Le prédicat, c'est comme l'étiquette dans une colonne de tableur excel [Incruster une colonne de tableau Excel], une propriété de ce que l'on décrit. Et l'objet, c'est la valeur associée au prédicat. Bon, ok, c'est un peu abstrait tout ça. Si je veux décrire la couleur d'un éléphant [incruster image d'éléphant] au format RDF, mon sujet c'est l'éléphant [ranger l'éléphant sous l'étiquette sujet], mon prédicat est couleur, et mon objet est gris. On peut décrire presque tout dans ce format RDF. Depuis la couleur de mes cheveux, jusqu'à la masse présumée de la plus lointaine planète connue dans l'univers 1 min

Le web sémantique, c'est quoi ?[edit]

Voir : https://fr.wikipedia.org/wiki/Web_s%C3%A9mantique

Le Web sémantique, la « toile sémantique » ou le « Web 3.0. », c'est le même concept. Utiliser le web sémantique pour communiquer sur internet, c'est un peu comme faciliter la communication parmi un groupe d'êtres humains en utilisant une langue qui permettrait, tout à la fois, à chaque membre de ce groupe de comprendre ce que disent les autres, et à chaque membre de réutiliser les informations transmises par les autres.

Cette extension du Web est standardisée par le World Wide Web Consortium (ou W3C), qui encourage l'utilisation de formats de données et de protocoles d'échange normés sur le web, en s'appuyant sur le modèle dit Resource Description Framework (abrégé RDF). Ce modèle fourni par le web sémantique rend possible le partage et la réutilisation des données entre plusieurs applications et groupes d'utilisateurs, en faisant en sorte que tous ces groupes d'utilisateurs structurent leurs données de la même façon.

Vous connaissez sans doutes déjà le sens du mot « web » (nommé ainsi en référence à une « toile d'araignée » si l'on traduit ce mot en français), pour désigner des pages reliées sur internet par leurs liens hypertextes (comme ceci : https://fr.wikipedia.org/wiki/World_Wide_Web).

Une toile pour les relier toutes...

Le mot « sémantique », lui, désigne l'étude du sens et de la signification des signes. Le web sémantique est donc un standard qui permet de donner du sens aux informations reliées entre elles sur internet.

Ce nom de « web sémantique » est une invention de Tim Berners-Lee, plus connu pour être le principal inventeur du web (et oui, rien que cela !). Il est aussi le principal superviseur du développement des technologies du web sémantique. L'idée, c'est d’organiser le web de manière à permettre le traitement direct et indirect des données par les machines, et d'en tirer de nouvelles connaissances. Pour cela, il faut structurer les informations présentes sur internet, afin de les rendre plus accessibles à ces machines, mais aussi aux êtres humains. Par exemple, des pages structurées selon les standards de bonne qualité du web sémantique seront plus accessibles aux personnes aveugles qui accèdent à ces pages web avec leur synthèse vocale (autrement dit, via un « robot » qui leur lit ces pages).

Vous avez sans doutes déjà visité des sites web qui cherchent à donner du sens à l'information et à la rendre plus accessible. Peut-être même avez-vous déjà vu les logos « W3C » et « RDF » au bas de ces pages web :

Logo W3C
Logo RDF

Ces logos indiquent, respectivement, des pages web répondant aux standards du W3C, et des pages web utilisant le format RDF. Le principe de fonctionnement même du web sémantique repose en effet sur le respect de ce format RDF.

Le format RDF et ses triplets : comme une phrase[edit]

Le web sémantique existe grâce à des triplets RDF. Ce concept informatique peut sembler compliqué. En fait, il fonctionne à la manière des règles de grammaire. Vous vous rappelez avoir entendu parler de sujets, de verbes, de compléments d'objets directs ou indirects, au moins durant votre enfance, n'est-ce pas ? Heureusement, nous n'allons pas vous torturer avec de la grammaire française !

En format RDF, pour structurer une information, il faut la découper en trois. C'est ce qu'on appelle un triplet (ou association ordonnée de trois éléments). Ce triplet RDF organise notre information en la séparant entre sujet, prédicat et objet.

  • le « sujet » représente la ressource à décrire ;
  • le « prédicat » représente un type de propriété applicable à cette ressource ;
  • l'« objet » représente la valeur de la propriété (du prédicat)
Et les éléphants roses, alors ?

Pour décrire la couleur grise d'un éléphant dans le format RDF par exemple, nous structurons notre format RDF en sujet-prédicat-objet, comme suit :

  • Sujet : Éléphant
  • Prédicat : couleur
  • Objet : gris

Dans Wikidata, la structure correspondant à ce triplet est la suivante :

  • Élément (Q7378) : Éléphant
  • Propriété (P462) : couleur
  • Valeur (Q42519) : gris

Cette structure est citée ici à titre indicatif, car vous verrez un peu plus loin et en détail comment les données sont structurées dans Wikidata. Les noms utilisés pour décrire ce triplet changent, mais tout repose sur le principe de la structuration RDF. La terminologie employée n'a que peu d'importance tant que le principe du triplet RDF reste le même.

Ressources à décrire Éléphant Couleur Gris
Terminologie RDF Sujet Prédicat Objet
Terminologie Wikidata Élément Propriété Valeur
Identifiants unique des ressources à décrire dans Wikidata Q7378 P462 Q42519

... tout cela équivaut à structurer l'information contenue dans la phrase « Un éléphant (sujet / élément) est caractérisé par une couleur (prédicat / propriété) grise (objet / valeur) ». Cette information en devient ainsi lisible et compréhensible par des machines qui traitent un grand volume de données, et non uniquement par un être humain doté d'une paire d'yeux en état de fonctionnement !


Voici un autre exemple : comment exprimer le fait qu'un livre a pour matériel de constitution le papier, en format RDF ?

Pour transformer cette affirmation en triplet RDF, il faut trouver où se trouve le sujet, où se trouve le prédicat (nommé « propriété » dans Wikidata), et où se trouve l'objet (ou « valeur »). Le sujet est ici le livre, puisque c'est lui que l'on décrit. Le prédicat / la propriété est le matériau qui le constitue. L'objet / la valeur de la propriété est... le papier.

Un dernier exemple ? Comment structureriez-vous la phrase « un musée peut conserver des collections » ? Ici, le sujet est le musée, puisque c'est lui qui est décrit à travers son rôle de conservation (prédicat / propriété) de collections (objet / valeur). Nous pourrions aussi construire un triplet en inversant le sujet et l'objet / la valeur, en disant « Les collections (sujet) peuvent être conservées (prédicat / propriété) dans un musée (objet / valeur) ».

Enfin, les triplets RDF ne sont pas isolés les uns des autres. Un même sujet peut générer plusieurs triplets, ce qui donne une structure « en arc » ou encore « en ramifications »

Les triplets en schéma
Les triplets RDF en schéma

Les triplets RDF permettent de mieux relier des pages web entre elles.

Que sont les 5 étoiles du linked open data ?[edit]

Pour mesurer le degrés d'intégration d'une page web contenant des données dans le web sémantique, Tim Berners-Lee a créé un outil de mesure en 2001, les 5 étoiles du Linked Open Data (« données ouvertes liées », en français). Elles servent désormais de référence pour travailler sur des données ouvertes. Ces étoiles mesurent :

  • l'accessibilité des données
  • leur facilité d'utilisation technique

Cette mesure se détaille de 1 étoile (si l'information est simplement disponible en ligne) jusqu'à 5 étoiles (si l'information est pleinement intégrée au web des données). Ces données doivent être publiées sous une licence libre, afin que des liens soient facilement faits entre elles. Au plus haut niveau (4 et 5 étoiles), chacun de ces liens repose sur le modèle de description RDF, en sujet-prédicat-objet.

Prenons des exemples !

  • 1* : Données publiées sous licence ouvertes (Open licence, OL)

La première étoile est octroyée automatiquement aux données ouvertes, à tout contenu disponible sous n'importe quelle licence ouverte, quelle que soit la qualité de ces donnés et quelle qu'en soit l'accessibilité. Pour reprendre notre exemple avec la nouvelle Le cheval de Léon Tolstoï, ce fichier image très laid, griffonné sur une feuille classeur d'écolier :

... vaudrait une étoile, même si sa présentation le rend très difficile à réutiliser. Il est publié sous une licence ouverte (licence creative commons 4.0), comme stipulé ici, dans ses métadonnées. Ce fichier serait totalement illisible par une machine. Cela le rend tout aussi inaccessible aux personnes qui ont un handicap visuel, et qui tenteraient de le lire via une synthèse vocale.

  • 2* : Données ouvertes et réutilisables

Si les données sont structurées sous un format largement réutilisable, lisible par une machine et compréhensible par un être humain, la deuxième étoile est attribuée. Ce format réutilisable peut être un format propriétaire ou bien un format fermé, par exemple un fichier Excel (.xls) ou Numbers (.numbers).

  • 3* : Données ouvertes et réutilisables, publiées sous un format non-propriétaire

Si les données sont publiées sous un format non-propriétaire, par exemple un format CSV (.csv), la troisième étoile est atteinte ! Du point de vue de la personne qui publie les données, la différence entre la deuxième et la troisième étoile peut sembler minime. Cette différence est appréciable du côté des utilisateurs des données : passer d'un format de publication propriétaire à un format libre permet à m'importe qui de réutiliser ou bien de manipuler les données ainsi publiées.

  • 4* Données ouvertes, réutilisables, publiées sous un format non-propriétaire, structurées au format RDF et identifiées par des url

La quatrième étoile arrive lorsque les données sont structurées au format RDF , et accessibles via des url. Cela permet aux utilisateurs de faire référence à une page de données précise en utilisant cette url.

  • 5* Données ouvertes, réutilisables, publiées sous un format non-propriétaire, structurées au format RDF, identifiées par des url, et liées à d'autres données

Lorsque les données de la page structurée au format RDF, et identifiée par une url, sont liées à d'autres pages de données qui les complètent et y ajoutent du contexte, alors, nous avons nos cinq étoiles !

Exemple d'un nuage de données reliées entre elles : chaque cercle représente une page de données répondant aux cinq étoiles du Linked Open Data.

Wikidata répond aux cinq étoiles du linked open data[edit]

Les pages de données de Wikidata sont réutilisables, publiées sous un format non-propriétaire (en l’occurrence, sous une licence CC0), structurées au format RDF, identifiées par des url, et enfin elles sont liées à d'autres pages de données, extérieures à Wikidata.

L'ontologie : comment gérer des projets peuplés par une communauté[edit]

Nous avons déjà vu que la gestion des données dans les bases de données induit des contraintes. Dans une base de données classique, ces contraintes sont créées par le système lui-même, et résolues, pour ainsi dire, « informatiquement ». La manière dont les données sont organisées et classées dans Wikidata peut relever de ces contraintes, mais aussi de l′ontologie.

L'ontologie, c'est l'organisation humaine des données. En informatique, une ontologie est un « ensemble structuré des termes et concepts représentant le sens d’un champ d'informations ». Il est possible de définir une ontologie, dans le monde des données, comme l’« équivalent de ce que la grammaire est au langage ». Il existe ainsi deux grandes différences entre une contrainte et une ontologie :

  • les ontologies sont définies par les êtres humains, plutôt que par les systèmes informatiques
  • les contraintes ont un impact direct sur la qualité des données et doivent impérativement être respectées, tandis qu'une ontologie ne sera pas forcément définie comme bonne ou comme mauvaise par nature, mais comme bonne ou comme mauvaise au regard de la cohérence de l'ensemble du classement des données.

De même que vous avez certainement déjà effectué du classement de données sans aucun recours à une base de données, il est très probable que vous ayiez déjà recouru à une ontologie durant votre vie ! Avez-vous déjà créé un herbier (https://fr.wikipedia.org/wiki/Herbier) ? Organiser vous-même votre propre base de données de plantes, décider par quelle plante débute un herbier, puis comment classer ces plantes (par espèce, par couleur, par lieu de cueillette...), toutes ces tâches relèvent d'une ontologie.

Classement de végétaux sur une base géographique

Aucun de ces deux classement n'est par nature « bon » ou « mauvais », ils relèvent simplement de choix différents, chacun ayant ses avantages et ses défauts.

Classement de végétaux sur une base d'espèces

Si vous possédez une bibliothèque chez vous et que vous avez organisé son rangement, cette tâche relève elle aussi d'une ontologie : vous pouvez classer vos livres par taille, par nom d'auteur ou d'autrice, par thématique, par maison d'édition et collection, ou encore par couleur de couverture... Peut-être qu'une personne qui ne connaît pas la manière dont vous rangez votre bibliothèque a placé un livre par erreur à la « mauvaise » place, tout en croyant bien faire ? Peut-être que cette personne ne se référait pas à la même ontologie que vous, ou n'a pas compris quelle est votre ontologie.

Même le simple rangement d'un placard ou d'une armoire met des ontologies en pratique. Rangez-vous vos vêtements par similarité (par exemple : créer une pile de T-shirts) ou par tenues complètes (par exemple, poser sur cintre un ensemble comportant T-shirt, pantalon et paire de chaussettes de couleurs assorties) ?

Dans Wikidata et dans les bases de données, l'ontologie est définie par la communauté des contributeurs et des contributrices, après proposition et recherche d'un consensus sur la manière de classer les données.

Récapitulatif des points de vocabulaire[edit]

  • Format RDF : modèle de graphe destiné à décrire formellement les ressources Web et leurs métadonnées, afin de permettre le traitement automatique de telles descriptions.
  • Triplet RDF : grammaire basique du format RDF, structurée sous la forme « sujet - prédicat - objet »
  • Linked Open data : intégration d'une page web contenant des données au Web sémantique, grâce à une structuration au format RDF et à des liens entre pages
  • Ontologie : ensemble structuré des termes et concepts représentant le sens d’un champ d'informations

Synthèse du cours[edit]

Nous avons vu :

  • Que le web sémantique est un standard permettant de donner du sens aux informations reliées entre elles sur internet
  • Que le respect de ce standard est rendu possible grâce à des triplets RDF structurés sous la forme Sujet-Prédicat-Objet, permettant de décrire les propriétés d'un sujet donné en y accolant une valeur.
  • Que les 5 étoiles du Linked Open Data permettent d'évaluer le degrés d'intégration au web sémantique d'une page web contenant des données, allant d'un premier niveau dès qu'il y a usage d'une licence libre, jusqu'à un cinquième niveau pour une page web structurée au format RDF et pleinement intégrée au web des données grâce à des liens vers d'autres pages web.
  • Que l'organisation des données peut reposer sur des contraintes du système, mais aussi sur une ontologie décidée par des êtres humains

Évaluation libre[edit]

5 minutes, nombre d'essais illimité