Wikidata:Données lexicographiques/Développement/Proposition/2013-08

From Wikidata
Jump to navigation Jump to search
This page is a translated version of the page Wikidata:Lexicographical data/Development/Proposals/2013-08 and the translation is 100% complete.

Voici une ébauche de proposition sur la manière dont Wikidata pourrait soutenir le Wiktionnaire. Cette proposition résume un ensemble de vue exprimées dans les discussions précédentes. Les propositions et discussions passées sont listées dans : Proposition 2013-02.

Merci d'utiliser la page de discussion pour proposer des changements à cette proposition.

Terminologie

Malheureusement, la terminologie des dictionnaires et des ressources lexicales est très complexe. Du coup, nous proposons une terminologie qui sera utilisée strictement et avec consistance dans la suite des discussions. Dans un soucis de clarté, nous indiquerons les termes techniques en italique, comme ça.

  • Un lexème, aussi appelé mot ou entrée lexicale est ce qui est décrit sur une page de la partie lexicale de Wikidata. Un lexème se compose d'un lemme, d'une catégorie grammaticale, d'une langue, d'un ensemble de formes, d'un ensemble de sens, et d'un ensemble de déclarations.
    • Le lemme est la forme canonique ou forme de citation apparaissant dans un dictionnaire, par exemple pour un verbe il s'agit en français de l'infinitif, pour un nom du nominatif singulier.
    • La catégorie grammaticale, aussi appelée partie du discours ou classe de mot, définie la nature d'un lexème (nom, verbe, adjectif,etc.). L'ensemble des valeurs possibles est ouvert et sera prélevé dans les éléments Wikidata.
    • La langue d'un lexème est prise parmi les éléments Wikidata, et forme donc un ensemble ouvert.
    • Une forme est une forme spécifique, conjuguée ou fléchie d'un lexème. Une forme consiste en une représentation, une ensemble de propriétés grammaticales et un ensemble de déclarations. Une forme appartient toujours à un (et un seul) lexème.
      • Une représentation est la partie concrète, la valeur de chaîne qui réalise une forme, par exemple la valeur de chaîne "chevaux" pour le pluriel du lexème "cheval". Toutes les représentations sont indexées pour la recherche.
      • Une propriété grammaticale décrit la forme, par exemple en indiquant le temps, le nombre, le cas, etc. C'est un ensemble ouvert qui piochera dans les éléments Wikidata.
    • Un sens est décrit par une glose et a un ensemble de déclarations. Un sens appartient toujours à un (et seulement un) lexème (et les lexèmes appartiennent à une seule langue). Les sens ne sont pas indépendant des lexèmes.
      • Une glose est une courte description (traduisible dans toutes les langues de l'UI de Wikidata) d'un sens d'un lexème donné.

Les termes élément Wikidata, valeur de chaîne, qualificateur et affirmation sont pris dans le glossaire Wikidata et ont le même sens ici.

Notes

  • Les translittérations dans d'autres systèmes d'écriture pourraient être gérées dans deux lexèmes ou dans un seul lexème avec une déclaration de chaque forme avec une propriété translittération pointant vers une valeur de chaîne, avec un descripteur décrivant le système d'écriture. Dans ce second cas, les translittérations pourraient être indexées pour la recherche également.
  • Les variantes orthographiques pourraient former deux lexèmes distincts ou un seul lexème avec une déclaration appropriée et des qualificateurs expliquant la variation. Dans ce dernier cas, les variations pourraient être indexées pour la recherche également.
  • Les traductions peuvent être gérées d'un sens vers un sens, ou d'un sens de référence vers un élément Wikidata. Dans ce second cas, les traductions pourraient être affichées automatiquement et gardées à jour. C'est possible uniquement lorsque les traductions sont symétriques, ce qui n'est pas si courant — mais suffisamment pour mériter un développement particulier.

Exemple d'entrée

  • (lexème) L123 (ne sera pas affiché)
  • (lemme) pommier
  • (langue) français (c'est-à-dire Q150)
  • (catégorie lexicale) nom (c'est-à-dire Q1084)
  • (déclaration) prononciation → API \pɔmje\
  • (déclaration) syllabe pom-mier
  • (forme) F272 (ne sera pas affiché)
    • (représentation) pommiers
    • (propriété lexicale) pluriel (c'est-à-dire Q146786)
    • (déclaration) rime avec → sommier (F404)
  • (sens/signification) S2011 (ne sera pas affiché)
    • (glose) (fr) arbre du genre Malus qui produit des pommes
    • (glose) (en) tree of the genus Malus that bears apples
  • (sens/signification) S1989 (ne sera pas affiché)
    • (glose) (fr) fruit du pommier
    • (glose) (en) fruit of the apple tree
    • (glose) (de) Frucht des Apfelbaumes
    • (déclaration) traduction → Apfel (c'est-à-dire S9000, qui est connecté à W234, qui a le lemme « Apfel » et la langue « allemand »)
    • (déclaration) hyperonyme → fruit (c'est-à-dire S239)
  • (mots apparentés linguistiquement)

etc.

À noter que cette seule entrée, c'est-à-dire les formes et les sens n'ont pas leur propre page mais sont une partie du lexème dont ils dépendent.

Modifier Wikidata

Les utilisateurs de Wikidata n'ont pas besoin d'être polyglottes et ils peuvent voir n'importe quel élément ou lexème dans leur langue d'interface préférée et également les modifier. C'est principalement la même chose que les modifications qui sont déjà faites dans Wikidata. Le plus compliqué sera de faire fonctionne les sens, étant donné qu'ils peuvent potentiellement nécessiter un grand nombre de traductions. Ici des améliorations sur les langues de repli et le travail sur le type de données texte multilingue fournira une aide supplémentaire.

Il n'y aura pas de site propre aux données du Wiktionnaire mais ce sera enregistré dans Wikidata lui-même.

Utilisation dans le Wiktionnaire

Liens interwikis (phase 1)

  • Si on a la notion que les liens devrait exister entre les lexèmes, alors le problème devient : alors que Wikipédia et Wikidata ont basiquement une correspondance 1 à 1 des articles de Wikipédia en éléments de Wikidata, ce n'est pas le cas pour le Wiktionnaire. Les pages du Wiktionnaire contiennent tous les lexèmes qui ont la même représentation ou lemme parmi les langues et les catégories lexicales, tandis que d'un autre coté, les formes spécifiques pourraient avoir leur propre page Wiktionnaire, mais il n'existe aucun lexème sur Wikidata pour ça. Il s'ensuit que si l'on désire lier les lexèmes, les liens de langue pour les mots dans le Wiktionnaire ne devrait pas être déplacés vers Wikidata et provenir de là. D'un autre côté, il y a un grand nombre de pages qui peuvent être liées via Wikidata, en particulier en dehors de l'espace de nom principaln comme l'équivalent sur le Wiktionnaire à Bistro, etc. Cela ne peut pas être fourni par une telle extension.
    Dans le but de résoudre ces problèmes potentiels, deux fonctionnalités doivent être développées :
    • une extension qui crée des liens de langue automatiquement pour le Wiktionnaire. Seulement après, ce sera déployé sur le Wiktionnaire, la fonctionnalité de la phase 1 de Wikidata devrait être activée (afin d'éviter la motivation de créer des éléments pour les pages actuelles de l'espace de nom principal)
    • développer Wikidata avec la fonctionnalité pour fournir un accès arbitraire à n'importe quel élément de Wikidata depuis n'importe quelle page sur le client. Actuellement, l'accès aux données est restreint aux seuls éléments connecté : bogue 47930.
  • Si, d'un autre côté, on a la notion que les liens interwikis devraient être entre les pages, comme c'est le cas actuellement, alors il est trivial d'héberger les liens inter-Wiktionnaire sur Wikidata, parce que tous les liens de l'espace de nom principal peuvent être faits trivialement en liant simplement la page avec le même nom sur les autres Wiktionnaires.

Utiliser les données (phase 2)

Une fois que le Wiktionnaire sera connecté en tant que client à Wikidata, il sera possible d’accéder et d’afficher n’importe quelles données en provenance de Wikidata sur n’importe quel article du Wiktionnaire. À noter que c’est explicitement une possibilité : n’importe quel projet Wiktionnaire peut décider d’un mot à un autre ou d’une langue à l’autre si et comment ils voudraient utiliser une donnée ou toutes en provenance de Wikidata.

Particulièrement pour les autres que les langues maternelles dans les petits Wiktionnaires, il est prévu qu'ils devraient décider de visualiser les données du Wiktionnaire d'une façon plus appropriée. Wikidata n'atteindra pas avant un moment le fait d'être aussi cohérent et concis qu'une page du Wiktionnaire peut l'être. Pour les communautés plus grandes, en particulier au regard de leur langue maternelle, on s'attend à ce qu'elles l'utilisent pour vérifier des parties d'entrées qu'ils ont déjà, et créent des rapports automatiques listant les erreurs. De cette façon, une couche d'assurance qualité est fournie par Wikidata pour les Wiktionnaire ce qui est plus difficile à ébrécher que simplement des entrées isolées.

On ne s'attend également pas à ce que tout ce qui est représenté dans le Wiktionnaire puisse être ajouté à Wikidata. Les étymologies complexes, les notes d'usage, les discussions pourraient être absentes de Wikidata pendant un long moment, si ce n'est pour toujours.

Le Wiktionnaire reste le mode préférentiel de Wikimedia de dissémination des connaissances lexicales dans les langues disponibles, tout comme Wikipédia reste évidemment le primat sur les éléments Wikidata respectifs. Wikidata est un projet support, qui offre quelques nouveaux modes d'aide pour les projets Wiktionnaires, qu'ils peuvent utiliser s'ils le souhaitent.

Possibles plans pour la suite

La première passe de mise en œuvre ne devrait pas prendre trop de temps sur l'apport des formes dans une version trop compacte de l'interface utilisateur. Une fois que nous disposerons de quelques données et verrons certains type d'usage, cela pourra être utiliser pour la création des vues tabulaires par langue et par catégorie lexicale. Une création automatique des formes fondée sur les classes morphologiques du lexème pourrait ensuite être tentée. Les deux extensions devraient attendre d'avoir suffisamment de données afin de prendre les décisions techniques appropriées.

Détails de l'implémentation technique

Les lexèmes, formes et sens sont des entités mais les formes et les sens ne sont pas décrits par leur propre page wiki mais comme une partie du lexème les contenant. Ils sont connectés avec le lexème via une affirmation de a la forme ou a le sens. Un lemme est (une affirmation nécessaire avec une valeur de chaîne sur un lexème) ou (le libellé monolingue). Ils n'ont pas de description qui peut être régler par l'utilisateur, mais en possède une générée automatiquement à partir de la catégorie lexicale et de la langue. La catégorie lexicale et la langue sont deux propriétés qui sont utilisées dans les affirmations du lexème, mais il est nécessaire de les régler à une valeur concrète. Les propriétés lexicales sont également des affirmations sur les formes. Le glose est (une affirmation avec une valeur de texte multilingue) ou (une description multilingue) d'un sens. La représentation est (une affirmation nécessaire avec une valeur de chaîne) ou (un libellé monolingue) d'une forme. Il peut aussi y avoir uniquement un lemme, une catégorie lexicale, une langue par lexème. Il peut y avoir uniquement une représentation par forme et un glose par sens. Peut-être faudrait-il des restrictions similaires pour les translittérations et les références de sens (comme pour les notes).

Remerciements

Sérieusement, énormément. La proposition a été fortement influencée par les discussions avec Duesentrieb, Micru, Francis Tyers, Lavour, Markus Krötzsch, Eloquence, EncycloPetey, 23PowerZ, User:-sche, et beaucoup d'autres. Elle se fonde également sur le travail précédent réalisé pour OmegaWiki (merci à GerardM and Kipcool) dans les Wiktionnaires, WordNet, etc., et analysé par un grand nombre de chercheurs. Enfin, le résultat final est grandement inspiré du modèle citron (en anglais) ; et merci aux chercheurs impliqués pour le temps qu'ils ont prise à répondre à nos questions. En résumé, ce travail n'est pas ma réalisation de quelque sorte que ce soit, je modifie et essaie simplement de l'apporter dans une forme concise. Et maintenant, on est dans un wiki, sentez-vous libre de discuter et de le modifier. --Denny (talk) 12:01, 2 August 2013 (UTC)[reply]