Wikidata:MOOC/Course outline/Initiation aux bases de données

From Wikidata
Jump to navigation Jump to search

Prérequis

Une bonne connexion à internet, un lieu calme pour apprendre, rien d’autre !

Durée estimée

Environ 30 minutes.

Avec ce cours, vous saurez

  • Définir ce qu’est une donnée (data), une base de données (database), une valeur et un jeu de données (dataset).
  • Définir ce qu’est un identifiant unique, et décrire à quoi il sert.

Qu’est-ce qu’une valeur ?

Une valeur ? Vous avez déjà entendu ce mot, n'est-ce pas ?
Qu'est-ce qu'une valeur ? Le plus simple est d'en montrer. Voilà quelques exemples de valeurs alphanumériques :

  • 1886
  • Empire russe
  • domaine public

On les appelle alphanumériques, car elles sont composées de lettres de l’alphabet et de chiffres. « Alpha » désigne l'alphabet, et « numérique », les chiffres.

Ces valeurs constituent de l′information brute. Sans contexte et sans organisation de ces valeurs, il est impossible de deviner à quoi elles se réfèrent. Il est également impossible de les utiliser comme point de départ à la résolution d’un problème. Le nombre 1886 correspond-il à une date ? Et si oui, à la date de naissance d’un être humain, celle de la création d’une œuvre, ou encore à la date d’une guerre ? Si l’on vous demande quel sens vous en tireriez, vous auriez bien de la peine à répondre. Le mieux que l’on puisse en dire, c’est que… l’on lit « 1886 », « Empire russe » et « domaine public » !

Imaginons maintenant que quelqu’un vous pose la question « Quand la nouvelle Le Cheval a-t-elle été écrite ? »

Avec les trois valeurs brutes citées plus haut, sans contexte, personne ne pourrait répondre à cette question sans risquer de commettre une erreur. Mais si on présente ces mêmes valeurs d’une manière organisée et contextualisée, c’est possible :

Pourquoi organiser les valeurs ?

(cliquer sur l’image pour l’agrandir)

Vous pouvez aussi les visualiser ici, dans cette page de Wikidata : https://www.wikidata.org/wiki/Q649889

Pourquoi organiser les valeurs en données ?

Donnée et jeu de données : deux petits points de vocabulaire

Nous ne souhaitons pas vous assommer avec des dizaines de nouveaux termes et expressions d’informatique pendant ce cours. Cependant, en base de données comme sur Wikidata, il existe des mots bien précis pour désigner… des concepts tout aussi précis. Une valeur organisée s'appelle une donnée ; nous emploierons donc ce nom pour désigner les valeurs organisées. Une autre notion importante est celle de « jeu de données » (en anglais, dataset). On parle de jeu de données pour désigner un ensemble de données organisées et contextualisées, par exemple dans un tableau (format d'un tableur tel que Excel ou Calc). Organiser les données dans des jeux de données permet de les réutiliser, et d'en titrer des connaissances.

Exemple de jeu de données organisées dans un tableau en colonnes.
En résumé
  • Une donnée est une valeur organisée (par exemple, dans un tableau)
  • Un jeu de données est un ensemble de données mises en contexte (par exemple, dans un tableau organisé en colonnes, dont chacune porte un titre)

Pourquoi organiser nos données dans un tableau ?

Grâce à l’organisation et à la contextualisation des données, l’information devient compréhensible. Il vous serait impossible de présenter et d’utiliser les valeurs « 1886 », « Empire russe » et « domaine public » sans les organiser au préalable. Le titre figurant en haut du jeu de données permet de comprendre que ces données se réfèrent à une œuvre littéraire de Léon Tolstoï, et la colonne gauche du tableau, ou colonne des propriétés, permet de savoir que « 1886 » correspond à la date de création de cette œuvre, que « Empire russe » correspond au lieu de l’action, et que « domaine public » correspond au statut de ses droits d’auteur.

Le Cheval (œuvre littéraire)
Date de création 1886
Lieu de l’action Empire russe
Statut des droits d’auteur domaine public

Désormais, si quelqu’un vous interroge verbalement à propos de ces données, vous êtes en mesure de transmettre l’information, par exemple sous la forme :

  • « Le Cheval est une œuvre littéraire écrite en 1886, son action se déroule sous l’empire russe, le statut de ses droits d’auteurs est « domaine public » »

D’accord, ces informations ne vous seront pas forcément utiles dans la vie, sauf si vous avez l’occasion de montrer vos connaissances des œuvres littéraires russes du XIXe siècle ! Que diriez-vous d’organiser ces données dans de gigantesques bases qui contiendraient toutes les œuvres littéraires jamais écrites ? Et d’accéder ainsi à la connaissance de tous les livres de l’humanité ?

C’est un idéal possible grâce à des personnes qui, comme vous, contribuent à Wikidata.

Pourquoi a-t-on besoin des bases de données ?

Organiser les données ne sert pas qu’à les rendre présentables et verbalisables pour un être humain. Cela les rend également lisibles par des machines, qui peuvent en stocker des quantités phénoménales.

Un besoin d’organisation

Le travail d’organisation fourni par ces machines n’est pas très différent d’un travail d’organisation humain. Sans forcément en être conscients, vous effectuez mentalement du classement de données pour organiser votre journée, sans aucun recours à l’informatique. Et ce, grâce à une « machinerie » aussi formidable que complexe, votre cerveau.

Imaginons une personne adulte qui vit dans une grande ville, et qui a prévu d’accomplir ces actions durant son vendredi après-midi :

Choses à faire le vendredi après-midi

  • rendre un objet électroménager dysfonctionnel au magasin dans lequel il a été acheté
  • rendre une autorisation de sortie scolaire pour son enfant, signée, à son enseignante au collège
  • acheter un billet de cinéma
  • consulter la liste des projections de films et demander à son enfant quel film il veut voir le samedi
  • aller chercher son enfant au collège, après ses cours
  • acheter de la nourriture pour le repas du samedi midi
Localisation des lieux dans lesquels se rendre le vendredi après-midi : collège, magasin et cinéma.

Cette personne doit se rendre dans trois lieux différents : une école, un magasin, et un cinéma. Réaliser ces tâches sans les organiser serait particulièrement inefficace, car certaines tâches se réalisent dans un même lieu d’une part, et certaines taches doivent être réalisées avant d’autres, d’autre part. Cette personne adulte va donc organiser mentalement les données relatives à l’organisation de sa demi-journée, de manière à structurer son temps et à effectuer ces tâches plus efficacement. Si nous visualisons ces données de manière organisée, dans un tableau :

Organisation du vendredi après-midi
à faire à l’école (dans l’ordre)  à faire au cinéma (dans l’ordre)  à faire au magasin (dans l’ordre)
Venir chercher son enfant après ses cours Consulter la liste des films et demander à son enfant lequel il veut voir Rendre un objet électroménager dysfonctionnel
Donner l’autorisation de sortie scolaire de son enfant, signée, à son enseignante Acheter un billet de cinéma Acheter de la nourriture pour le repas du lendemain

… l’organisation de sa journée devient beaucoup plus efficace !

À quoi peut servir une base de données ?

Un cerveau humain ne peut pas traiter un nombre de données très élevé, ni mémoriser absolument tout. Chacun d’entre nous est confronté à des oublis. Il serait impossible de planifier mentalement l’organisation de ses journées, par exemple, durant les trois prochaines années, en intégrant toutes les données nécessaires. Heureusement, pour nous aider à traiter les grands volumes de données, nous avons inventé… des bases de données ! Car s’il est un point sur lequel les bases de données sont meilleures que notre cerveau, c’est bien concernant la quantité de données qu’elles peuvent stocker.

Une base de données (en abrégé : BdD, vous connaissez sans doute aussi l’anglais database) est un système informatique permettant de stocker, d’organiser et d’analyser des données. De nos jours, les bases de données sont omniprésentes pour nous aider à gérer notre quotidien. Elles permettent, entre autres :

  • de suivre les réservations de billets de train,
  • de planifier le nombre de places vendables pour assister à une projection de film au cinéma,
  • d’effectuer le suivi médical d’un patient (par exemple en évitant de prescrire une molécule à laquelle le patient est allergique),
  • de gérer les entrées et les sorties des livres empruntés dans une bibliothèque.
  • etc.

Rendre l’information disponible

Les bases de données rendent les données qu’elles stockent davantage disponibles. Peut-être que les plus anciens parmi vous se souviennent du temps où il fallait chercher, par exemple, la hauteur du mont Kilimandjaro dans une encyclopédie au format papier, alors qu’il suffit désormais d’écrire « hauteur Kilimandjaro » dans un moteur de recherche sur internet, pour voir s’afficher la donnée « altitude » du Kilimandjaro !

Vous pouvez effectuer le test : Rechercher « Altitude Kilimandjaro » sur votre moteur de recherche préféré.

Les bases de données permettent enfin de multiplier les usages et les utilisateurs.

Mettre des jeux de données en relation

Les bases de données servent aussi à des tâches plus abstraites. Par exemple, à exploiter et à mettre en relation des informations, pour donner du sens aux données. Imaginons, par exemple, un jeu de données 1 issu d'une base de données qui contient des informations relatives à la présence d’espèces d’oiseaux dans une région, et un jeu de données 2 issu d'une base de données qui contient des informations relatives à la pollution des sols et des eaux de cette même région : en mettant ces deux jeux de données en relation, il est possible de tirer de nouvelles informations relatives à la présence de telle ou telle espèce d’oiseau dans telle ou telle zone précise de la région étudiée, en fonction du niveau de pollution relevé.

Jeu de données 1
Répartition de l'espèce Prunella modularis
Lieu-dit truc 10
Lieu-dit machin 0
Lieu-dit bidule 5
Jeu de données 2
Résidus de pesticides relevés au sol
Lieu-dit truc 0,60 µg/kg
Lieu-dit machin 4 µg/kg
Lieu-dit bidule 1,2 µg/kg

Mettre ces deux jeux de données en relation permet cette observation : Au lieu-dit truc, où les résidus de pesticides relevés au sol sont de 0,60 µg/kg, il a été possible d'observer 10 oiseaux de l'espèce Prunella modularis , alors qu'au lieu-dit machin, où les résidus de pesticides relevés au sol sont de 4 µg/kg, il n'a pas été possible d'observer l'espèce Prunella modularis.

Comment une base de données fonctionne-t-elle ? Contraintes et cohérence

Une base de données sert donc à stocker et à classer des données de manière structurée. Afin de structurer correctement, les bases de données respectent toutes des contraintes, visant à donner de la cohérence aux données. Si n’importe qui écrivait n’importe quoi dans une base de données, très vite, toute la base deviendrait inutile à cause de ses nombreuses erreurs.

Pour limiter les erreurs, il existe ces fameuses contraintes, qui constituent, en quelque sorte, une liste de règles inviolables.

Par exemple, imaginons une propriété « date de naissance », qui peut être associée à certaines valeurs. Pour limiter les erreurs dans la base et pour créer de la cohérence, donc pour obtenir des dates de naissances qui aient toutes le même format, il est possible de définir une contrainte disant que la valeur associée à la propriété « date de naissance » doit être composée de chiffres.

Lorsque l’on tente d’entrer une date de naissance dans Wikidata en utilisant un mauvais format, Wikidata rappelle qu’il existe une contrainte de format pour entrer une date de naissance dans la base.

En plus de créer de la cohérence sur de grands volumes de données en faisant en sorte que toutes les dates de naissance soient entrées sous le même format, les contraintes permettent d’assurer la qualité des données. Nous verrons ce qu’est la qualité des données en détail durant la suite de ce MOOC.

Script de la vidéo

Total : 5 minutes – Florian Cuny – Poslovitch.

Texte de la légende
Séquence  Contenu  Effets  Audio  Temps
Présentation de Florian Cuny et du début du MOOC Face caméra, plan rapproché taille Sous-titrage fr. Bonjour à tous et à toutes, je suis Florian Cuny, actuellement étudiant en informatique. Je suis l’un des nombreux bénévoles qui vous enseigneront durant ce MOOC Wikidata. Nous allons découvrir ensemble des notions fondamentales à propos des données. 20 s
Présentation de la première partie Face caméra, plan rapproché taille Écrire Données et Bases de données sur les mains, synchro avec audio. Sous-titrage fr. En particulier, nous allons voir ce qu’est une donnée et comment fonctionne une base de données. 10 s [32 s]
Définition d’une donnée : valeur et étiquette Incruster [SP1], [SP2] et [SP3] + incruster le tableau Date de construction 1770 Sous-titrage fr. Prenons ce nombre par exemple : 1770 [SP1]. Nous appelons ce nombre une "valeur" [SP2]. Le problème, c’est que cette valeur pourrait représenter n’importe quoi. Ce pourrait être le nombre de modifications cumulées sur une page de Wikipédia en français ; ou… la date de naissance d'une personne. Ou la date de construction d'un monument... [SP3]. Ce qui nous permet de donner du sens à cette valeur, c’est son étiquette. Ici, cette valeur est la date de construction d'un monument. Je vais la ranger dans un tableau, sous l'étiquette « date de construction ». 32 s [1 min 4 s]
De la donnée au jeu de données Incruster [SP4] et [SP5] Sous-titrage fr. Bien organisée, ma valeur est devenue une donnée. Elle a déjà son étiquette : « date de construction » dans mon tableau [SP4]. Ce n'est pas ma seule donnée avec cette étiquette, dans mon tableau. J'ai d'autres dates de constructions à organiser de la même façon [SP5]. C'est bien de collectionner des dates de construction, mais il manque des informations importantes. Je parie même que vous vous êtes posé la question : ces données, c'est la date de construction de quoi ? 25 s [1 min 29 s]
Définition d’un jeu de données : c’est une « feuille » du tableur Incruster [SP6], [SP7 - jeu de données] et [SP8 - feuille de tableur] Sous-titrage fr. Ce sont des dates de construction de monuments ! Pour savoir à quel monument appartient chaque date de construction, j'ajoute ici une colonne « Nom du monument » [SP6]. J'indique le nom de chaque monument sur la ligne correspondant à sa date de construction [SP6]. Mes données organisées constituent désormais un jeu de données, ou dataset [SP7]. Cette organisation vous rappelle peut-être quelque chose ? Une feuille de tableur ! Un jeu de données peut être comparé à une feuille de tableur [SP8]. Que faire avec ce jeu de données, au juste ? 20 s
Définition d’une donnée : étiquette + valeur + type Face caméra, plan rapproché taille Sous-titrage fr. Je ne sais pas vous, mais je n'ai aucune envie d'apprendre ces dizaines de dates de construction et ces noms de monuments français par cœur ! Je vais plutôt ranger mon jeu de données quelque part. Là où je pourrai retrouver chaque date de construction à partir du nom du monument concerné, quand j'en aurai besoin. 24 s [1 min 53 s]
Définition d’une base de données : intro Sous-titrage fr. Et ça tombe bien, il existe un système fait pour stocker et organiser des données comme celles-là. Une base de données [SP9]. Je vais pouvoir y stocker mon jeu de données. Ce jeu de données, qui correspond à cette feuille de tableur, je vais pouvoir le ranger dans une base de données en lui conservant son organisation, celle que vous voyez ici, en lignes et colonnes. 35 s
Définition d’une base de données : deux piliers importants, cohérence et réutilisabilité Sous-titrage fr. Avant de ranger mon jeu de données dans ma base de données, je dois m'assurer que mes données soient cohérentes et réutilisables. 20 s
Définition d’une base de données Sous-titrage fr. S'il est bien organisé, mon jeu de données sera réutilisable par d'autres personnes et par des machines. Les dates de construction et les noms des monuments y seront organisés et associés de la même façon. Il existe différentes manières de s'en assurer. Par exemple, je dois vérifier que la colonne "date de construction" contienne uniquement des données composées de chiffres, c'est à dire des données numériques. 20 s
Identifiant unique Sous-titrage fr. Je dois aussi vérifier que ma base ne risque pas de confondre deux monuments qui portent le même nom. L'une de ses contraintes, c'est qu'à un seul monument corresponde une seule date de construction. Et là, j'ai un problème. Deux entrées correspondent à la valeur "Château de Chaumont" dans ma colonne "Monument". Vous imaginez, si quelqu'un demande à ma base de données "donne-moi la date de construction du château de Chaumont, elle ne pourra pas répondre si deux châteaux portent le même nom alors que ce sont deux châteaux différents, situés dans des régions de France différentes. Je ne peux pas expliquer ça à ma base de données avec des mots. Par contre, je peux lui expliquer avec un identifiant unique. 40 s
Identifiant unique 2 Sous-titrage fr. Et cela tombe bien, il existe un identifiant unique pour chaque monument historique en France. C'est fourni par la base Mérimée. La base Mérimée contient un identifiant unique pour chacun de ces deux châteaux. L'un a l'identifiant PA00098410 [Ne pas prononcer : incrustation], et l'autre a l'identifiant PA00113543 [Ne pas prononcer : incrustation]. Nous allons intégrer une troisième colonne avec ces identifiants uniques dans mon jeu de données. Vous avez remarqué qu'un identifiant unique permet d'identifier chaque ligne de mon tableau de manière unique ? Dans cette liste de monuments classés par date de construction, vous n'en trouverez jamais deux avec le même identifiant unique. 30 s
Et dans Wikidata ? Sous-titrage fr. Voilà à quoi ressemble la ligne correspondant au château de Chaumont avec l'identifiant PA00113543 [Ne pas prononcer : incrustation] dans Wikidata. Une page de données de Wikidata correspond à une ligne de mon jeu de données. 30 s

Tableaux et images à intégrer dans la vidéo

« Château de Chaumont » identifié PA00113543 dans la base Mérimée
« Château de Chaumont » identifié PA00098410 dans la base Mérimée.

Donnée organisée

Texte de la légende
Date de construction
1770


Données organisées

Dates de construction
Date de construction
1770
1469-1481
1887
Ier siècle

Jeu de données avec deux colonnes (+ nom du monument)

Exemple de feuille de tableur :

Dates de construction de monuments historiques en France
Nom du monument Date de construction
Château de Chaumont 1770
Château de Chaumont 1469-1481
Tour Eiffel 1887
Pont du Gard Ier siècle

Jeu de données avec trois colonnes (+ identifiants uniques)

Exemple de feuille de tableur :

Dates de construction de monuments historiques en France
Identifiant Mérimée Nom du monument Date de construction
PA00113543 Château de Chaumont 1770
PA00098410 Château de Chaumont 1469-1481
PA00088801 Tour Eiffel 1887
PA00103291 Pont du Gard Ier siècle

Les identifiants uniques, à quoi ça sert ?

Les machines sont plus douées que nous autres êtres humains pour stocker de grandes quantités de données. Il est un point sur lequel, en revanche, nous les surpassons toujours : pour contextualiser les données et trier automatiquement les informations en fonction de ce contexte.

En tant qu’être humain, vous comprenez par exemple que si quelqu’un vous parle d’une personne nommée Marie Dupont, il existe plusieurs personnes dans le monde portant ce prénom et ce nom de famille, mais vous pouvez déduire de quelle Marie Dupont l'on vous parle : vous avez automatiquement accès au contexte qui vous permet de trier les homonymes. Vous pouvez aussi poser des questions à votre interlocuteur ou votre interlocutrice pour vérifier que vous vous référez bien à la même « Marie Dupont ». Si l’on vous parle de « Marie Dupont », et que vous connaissez plusieurs personnes portant ce prénom et ce nom de famille, vous n’avez pas besoin de chercher dans une liste ou dans un annuaire pour vérifier de qui l’on vous parle !

Tout cela, une base de données (ou une base de connaissance comme Wikidata) ne sait pas le faire intuitivement.

Comment la base de données répond à une recherche ?

Par exemple, si vous lui demandez de trouver « Le Cheval », la base vous donnera en réponse… la liste de toutes les entrées qui contiennent la suite de caractères alphabétiques « le cheval » avec des lettres majuscules ou minuscules :

Si vous cherchez « Le Cheval » dans la base de connaissances Wikidata, elle vous trouve des livres, des sculptures, un récif, une montagne suisse…

Et si vous lui demandez le « Château de Chaumont », la base vous donnera la liste de tout ce qu'elle a enregistré et qui contient la suite de caractères « Château de Chaumont ».

Il existe plusieurs monuments nommés « Château de Chaumont » en France.

Les identifiants uniques pour trier sans accès au contexte

Pour que ses données soient bien classées, la base de données utilise des identifiants uniques. C’est le meilleur moyen d’éliminer les ambiguïtés et les homonymes. Un identifiant unique, c’est une chaîne de caractères numériques ou alphanumériques associée à une seule entité au sein d’un système donné. Cet identifiant unique permet de s’adresser à cette entité, afin d’y accéder et d’interagir avec elle.

Par exemple, dans ce tableau dont chaque ligne représente une édition d'un livre, l'identifiant unique est la colonne de données qui permet d'identifier chaque ligne du tableau de manière unique.

Les livres de ma bibliothèque
Auteur Titre éditeur Année d'édition Numéro d'ISBN Nombre d'exemplaires dans la bibliothèque
Félix Catophilus L'encyclopédie du chat Les éditions du félin 2012 978-9-9999-9999-9 1
Canem Caniphilus L'encyclopédie du chat Rigolagri éditions 2012 978-9-8888-8888-8 1
Félix Catophilus L'encyclopédie du chat Les éditions du félin 2021 978-9-9999-9999-7 3
Félix Catophilus Bien-être du tigre de salon Rigolagri éditions 2021 Texte de la cellule 2

Pour repérer cette colonne d'identifiants uniques, il faut chercher quelle colonne ne peut pas contenir deux fois la même valeur.

Un exemple : les numéros d'ISBN

<Insérer logo parcours bibliothèques dans ce passage>

Imaginons que deux bases de données contenant des informations de bibliothèque cherchent à dialoguer entre elles pour savoir si elles contiennent le jeu de données d’une même édition d’un livre. Comment ces deux bases sauront-elles qu’elles se réfèrent bien à la même édition d’un livre ?

  • Avec le titre ? De nombreux livres peuvent porter le même titre, comme le montre l'exemple ci-dessus, dans lequel trois ouvrages arrivent en réponse à la requête « Le cheval »
  • Avec le nom de l’auteur ? Là aussi, un même auteur peut avoir écrit plusieurs livres ; par exemple, Léon Tolstoï, auteur de la nouvelle Le Cheval, a aussi écrit, entre autres, Guerre et Paix et La Sonate à Kreutzer.
  • Avec le nom de l’éditeur ? Encore moins, car un même éditeur peut publier des centaines, voire des milliers de livres.

Il existe une donnée qui sera toujours différente dès que l’on se réfère à des éditions différentes d’un livre : son International Standard Book Number (ou numéro d’ISBN, pour les intimes). Deux éditions différentes d’un même livre ne peuvent pas porter le même numéro d’ISBN. Si deux bases de données partagent un jeu de données, et que ce jeu de données contient un ISBN, nos deux bases de données sauront immédiatement si elles se réfèrent à la même édition d’un livre, ou pas.


D'autre exemples : les codes barre et le numéro d'IBAN

L'identifiant unique fonctionne ainsi dans tous les domaines, en permettant d'identifier un jeu de données de manière unique. Pour savoir si deux bases de données gérant les stocks d’un magasin contiennent le même produit, là aussi, le nom commercial du produit et la société qui le fabrique peuvent être les mêmes. Par contre, le code barre sera toujours différent dès que l’on parle de produits différents : c'est un identifiant unique du produit.

Ce code barre identifie un produit spécifique, et un seul (ici, il s'agit d'un jeu vidéo). Il est présent sur toutes les jaquettes de ce jeu vidéo, mais jamais sur un produit différent.

Et pour différencier plusieurs monuments historiques portant le même nom, comme « Château de Chaumont », il est possible de se référer à leur identifiant dans la base Mérimée.

Les identifiants uniques sont utilisés dans de très nombreux domaines, pour éviter de confondre des données. Un exemple que vous connaissez, c’est celui de votre numéro de code bancaire : il existe un numéro international nommé IBAN (International Bank Account Number, soit « Numéro international de compte bancaire »), unique à chaque compte, qui permet d’éviter de confondre deux comptes bancaires lors de transferts de fonds. Il serait fâcheux qu'en voulant, par exemple, transférer des fonds à Marie Dupont, ces fonds arrivent chez l'une de ses homonymes !

Wikidata a aussi ses propres identifiant uniques, qui lui permettent d'éviter de confondre toutes les choses qui s'appellent, par exemple, « Le Cheval » ou bien « Château de Chaumont ». Ces identifiants uniques lui sont spécifiques, ils n’existent que dans Wikidata. Nous les verrons en détail un peu plus tard.

Récapitulatif des points de vocabulaire

  • Valeur : Toute suite de chiffres, de lettres, ou d'autres caractères
  • Donnée : Représentation conventionnelle d’une information permettant d’en faire le traitement automatique. Information connue et organisée qui sert de point de départ à un raisonnement ayant pour objet la détermination d’une solution à un problème en relation avec cette donnée.
  • Jeu de données : Ensemble de données organisées
  • Base de données : système informatique permettant de stocker, d’organiser et d’analyser des données.
  • Contrainte : liste de règles inviolables permettant d’assurer la qualité des données insérées dans la base de données.
  • Identifiant unique : Suite de caractères qui permet d’identifier un sujet (ou un élément de Wikidata) de manière unique

Synthèse du cours

Nous avons vu :

  • qu’une valeur n’est pas d'une grande utilité si elle n’est pas organisée (par exemple dans un tableau), et qu’une valeur organisée, nommée donnée, permet au contraire d’accéder à de nombreuses connaissances ;
  • que les usages des bases de données sont très nombreux, depuis la réservation des billets de train jusqu’aux gestions des bibliothèques, et que plusieurs bases de données peuvent « dialoguer » entre elles et partager leurs informations ;
  • que pour bien organiser les informations qu’elle contient, une base de données doit respecter un certain nombre de contraintes visant à empêcher que n'importe qui puisse y enregistrer n'importe quoi ;
  • qu’une base de données peut stocker des quantités phénoménales d’informations, mais doit recourir a des identifiants uniques pour organiser ces informations en éléminant les ambiguïtés et homonymes, ainsi que pour dialoguer avec d’autres bases de données.

Quiz

Quiz de 5 minutes : reconnaître un identifiant unique, définir une donnée et une base de donnée