Topic on User talk:VIGNERON

Jump to navigation Jump to search
Simon Villeneuve (talkcontribs)

Salut,
J'aimerais faire des requêtes concernant les articles scientifiques, mais leur quantité fait en sorte que je timeout systématiquement, même avec COUNT. Par exemple, cette requête, en tout ou en partie, ne fonctionne pas :

select distinct (COUNT(?item) AS ?count) where {?item wdt:P31 wd:Q13442814 ; wdt:P1433 ?pub ; wdt:P407 ?lang .}

Try it!
J'ai aussi essayé avec https://ldfclient.wmflabs.org/, mais ça ne marche pas (d'ailleurs, ça ne marche jamais sur ce site).
As-tu une idée de ce que je peux faire ? S'il n'y a rien à faire, serons-nous toujours condamnés à ne pouvoir aborder qu'une fraction des articles scientifiques ?

VIGNERON (talkcontribs)

Salut,

Oui, malheureusement on ne peux pas utiliser Query pour cela (le problème est réel, connu et ne concerne pas que les publications scientifiques d'ailleurs).

Pour LDF, c'est logique que ça ne marche pas non plus mais par contre, je suis surpris par ton « ça ne marche jamais sur ce site », sur une requête simple LDF fonctionne bien (je viens de tester).

La seule solution que je vois est de télécharger le dump et de travailler directement dessus (mais là je ne pourrais pas te guider, désolé).

VIGNERON (talkcontribs)

PS: Ooups, je n'ai rien dit, il y a aussi cet endpoint SPARQL qui semble fonctionner : https://wikidata.demo.openlinksw.com/sparql (je pensais que c'était SPARQL lui-même le problème mais visiblement c'est plutôt du côté de Blazegraph puisque Virtuoso réussit à renvoyer des résultats).

Simon Villeneuve (talkcontribs)

Yahoo ! Merci pour le lien. C'est surprenant car mes requêtes donnent une réponse quasi-instantanée ! Pour LDF, à chaque fois que j'y ai tenté une requête, j'ai jamais obtenu de résultat. Il faut dire que je ne l'essaie que lorsque Query timeout.

Simon Villeneuve (talkcontribs)
VIGNERON (talkcontribs)

Je n'ai pas les détails de fonctionnement (la doc est très générale et généraliste) mais comme le dit l'URL c'est une démo donc il est probable que ce soit moins souvent mis à jour.

Seb35 (talkcontribs)

Je me joins à la conversation puisqu’on en a parlé avec VIGNERON hier.

J’ai fait quelques tests pour savoir ce qu’était ce endpoint et notamment la date de la mise à jour du jeu de données. Ils ont retiré les propriétés schema:dateModified et il ne semble pas y avoir toutes les wikibase:timestamp (indiquant la date de dernière modif d’un item). Du coup j’ai procédé par dichotomie du plus grand item créé et je suis arrivé aux alentours de Q64749123 (existant dans le dataset, item créé le 21 juin 2019) et Q64849123 (inexistant dans le dataset, item créé le 27 juin 2019), la date de ce dump est donc vers fin juin 2019 et on voit donc que ce n’est pas du temps réel mais plus probablement des imports de dumps tous les quelques mois.

Simon Villeneuve (talkcontribs)

Ok. Merci !
Je ne sais pas à quel point cela s'est discuté, mais à défaut, pour le moment, d'être capable de faire des requêtes "en temps réel" sur les corpus dépassant (environ) 100 000 éléments, ou dépassant 3 millions avec COUNT, ne pourrait-on pas avoir un outil de requête semblable à celui de Virtuoso, mais qui utiliserait le dernier dump disponible ?
Sinon, on a un début d'idée de solution pour le problème des requêtes en temps réel sur les gros échantillons ?

Reply to "Articles scientifiques"