Topic on Wikidata:Bistro/Archives des discussions structurées

Jump to navigation Jump to search
Nouill (talkcontribs)

Bonjour,

Suite à le transfert de pas mal d'information de la wikipedia en français, il y a énormément d'Alias qui ont été créé sur wikidata, et le français est la seule langue qui est dans ce cas de figure si je me trompe pas. Et dans ces très nombreux alias, il y a un certain nombre pas pertinents, notamment des alias en Caplock. Il y a d'autres cas qui sont plus ambiguë mais le caplock ça doit être facilement listable voir peut être traitable par bot non ?

J'ai regardé vite fait mes contributions récentes : je peux lister que le problème était présent sur : Q8423370, Q16683212, Q2996659, Q3427275, Q17177282, Q124287632, Q49271419.

Ayack (talkcontribs)

Il s'agit essentiellement des libellés SIREN importés par @Arpyia. Est-ce un problème ? Je ne sais pas trop...

VIGNERON (talkcontribs)

Ce n'est pas un gros problème mais c'est tout de même un problème (redondance, inutilité, etc.) et c'est contraire à la page Help:Aliases.

VIGNERON (talkcontribs)

Bonjour,

Pas sûr que cela viennent de Wikipédia, la plupart de tes exemples viennent d'un import depuis le SIREN par Arpyia (discussioncontributionsjournaux).

Voici une requête où le libellé et l'alias en français sont exactement le même à la casse près : https://qlever.cs.uni-freiburg.de/wikidata/knSeEs (2254 résultats avec QLever car la requête est trop lourde pour WDQS). Sauf objection, je propose de les retirer automatiquement.

Nouill (talkcontribs)

Il y a pas de cas qu'il faudrait garder dans la liste, donc je ne suis pas sur que automatiquement cela marcherait.

VIGNERON (talkcontribs)

Je ne vois pas de cas où l'alias serait à conserver dans ma requête (qui est volontairement très stricte, elle ne regarde pas les variations d'accent et diacritique par exemple).

Je vais attendre un peu si quelqu'un repère un contre-exemple ou a d'éventuelles objections.

Nouill (talkcontribs)

Et bien il y a des pages d'homonymes comme Q1024512 ou des œuvres comme Q10268796.

Dans ce dernier cas, la forme en caplock est une forme "stylisé". Alors je suis pas forcément favorable de l'alias en caplock dans ce cas de figure, mais je pense qu'il y a potentiellement des gens favorable à cela.

Nouill (talkcontribs)

Par contre, je me rend compte que ces alias en Caplock sur les entreprises sont vraiment très nombreux...

Arpyia (talkcontribs)

Bonjour,

J'ajoute régulièrement en alias les noms sous lesquels des organisations sont connues dans les sources et notamment la base SIRENE. Cela sert à pouvoir les rechercher plus facilement. Je pense que les suppressions comme ici et là ne sont pas pertinentes.

VIGNERON (talkcontribs)

Bonjour Arpyia,

Merci pour ta réponse, mais en quoi « Cela sert à pouvoir les rechercher plus facilement. » ? Si on parle du moteur de recherche interne de Wikidata (ou de la plupart des moteurs externes), il est capable de trouver l'élément concerné même sans la présence de l'alias (d'abord parce que - par défaut - il ne tient pas compte de la casse donc "XXX" ou "xxx" renvoient les mêmes résultats et aussi parce que le nom selon le SIRENE est déjà présent dans l'élément en qualificatif).

La suppression de la redondance me semble plus que pertinente, vu les problèmes de stockage de Wikidata, elle me semble nécessaire. En plus, c'est une vieille règle et habitude de Wikidata de ne pas ajouter de casse alternative, cf. Help:Aliases.

Arpyia (talkcontribs)

Bonjour @VIGNERON, je pense que nous n'avons pas le même usage. Je mets des alias parce que je veux pouvoir copier-coller "AMBASSADE DE L EQUATEUR" ou "ASSOCIATION WIKIMEDIA FRANCE" dans la barre de recherche, parce que je l'ai vu écrit comme ça dans la source, et tomber sur le bon élément, ce qui n'est plus le cas actuellement. Je pense que c'est une utilisation sensée de Wikidata qui devrait faciliter la vie d'autres personnes aussi.

VIGNERON (talkcontribs)

Bonjour,

Tu parles bien de Special:Search ? Parce que l'on trouve évidemment et très facilement le résultat attendu avec "AMBASSADE DE L EQUATEUR" : https://www.wikidata.org/w/index.php?search=AMBASSADE+DE+L+EQUATEUR&title=Special:Search&profile=advanced&fulltext=1&ns0=1&ns120=1 et même : https://www.wikidata.org/w/index.php?search=%22AMBASSADE+DE+L+EQUATEUR%22&title=Special:Search&profile=advanced&fulltext=1&ns0=1&ns120=1 (si on force).

Il y a plusieurs arguments valides pour ajouter divers alias (on pourrait par exemple discuter d'ajouter "de l'Équateur" pour distinguer de "d'Équateur" pour moultes raisons) mais "changer la casse pour améliorer la recherche" ne me semble pas un argument valide.

Astirmays (talkcontribs)

Les problèmes de stockage de Wikidata ? Tu peux en dire plus ?

Qu'il faille chercher à faire du travail propre, j'en suis bien persuadé, mais j'aurais pensé que Wikidata était par nature (base de donnée) assez sobre en ressource. Ou bien il s'agit de l'exportation de la base de donnée ou ses traitements qui s’alourdissent trop vite si on surcharge les éléments ?

fr:Wikipédia:Ne vous préoccupez pas de la performance ne s'appliquerait plus ou pas ici ?

Parfois, je mets beaucoup d'alias, voir Q123014824, seulement j'hésite quant à mettre le ou les intitulés au pluriel parmi les alias.

VIGNERON (talkcontribs)

Ce n'est pas tant un problème technique mais plutôt intellectuel (pour reprendre un vieil adage : « le mieux est l'ennemi du bien »). Stocker plusieurs fois la même information à travers des données similaires voire identiques est une mauvaise chose pour une base de données. Cela cause des problèmes lors de la réutilisation (qui est un des buts principaux de Wikidata contrairement à Wikipédia qui est plutôt faite pour être lu directement). Comme je le disais, ce n'est pas forcément un gros problème mais cela reste problématique. Surtout quand le doublon est en alias (qui est une donnée moins structurée que les déclarations), quand "ASSOCIATION WIKIMEDIA FRANCE" est placé en qualificatif du SIREN, on sait que c'est le nom dans le SIREN (et on a une source pour vérifier et fiabiliser la donnée), quand il est placé en alias, on sait que c'est un nom alternatif mais pas pour qui ni pourquoi.

Pour les bonnes pratiques des alias, je redonne le lien ad hoc : Help:Aliases (qui n'est pas très éloigné des règles de création des redirections pour les personnes habituées à Wikipédia).

Nouill (talkcontribs)

Après je ne suis pas sur que si tout les entrées avaient pour chaque langue autant d'alias qu'en français cela serait pertinent tant en terme de performance, que de rapport quantité/qualité, etc.

Parce que les alias, avec majuscule sur chaque première lettre de mot mais sans accent; la même avec accent, la même sans accent mais sans majuscule, la même sans accent mais avec majuscule, et ainsi de suite avec tel ou tel accent ou majuscule, c'est une situation assez courante. Et je passe mon temps à les enlever.

Reply to "Alias en Caplock"