Topic on User talk:VIGNERON

Articles scientifiques

8 comments • 12:47, 4 October 2019 4 years ago

8

Salut,
J'aimerais faire des requêtes concernant les articles scientifiques, mais leur quantité fait en sorte que je timeout systématiquement, même avec COUNT. Par exemple, cette requête, en tout ou en partie, ne fonctionne pas :

select distinct (COUNT(?item) AS ?count) where {?item wdt:P31 wd:Q13442814 ; wdt:P1433 ?pub ; wdt:P407 ?lang .}

Try it!
J'ai aussi essayé avec https://ldfclient.wmflabs.org/, mais ça ne marche pas (d'ailleurs, ça ne marche jamais sur ce site).
As-tu une idée de ce que je peux faire ? S'il n'y a rien à faire, serons-nous toujours condamnés à ne pouvoir aborder qu'une fraction des articles scientifiques ?

Reply Edited 13:27, 2 October 2019 4 years ago

VIGNERON (talkcontribs)

Salut,

Oui, malheureusement on ne peux pas utiliser Query pour cela (le problème est réel, connu et ne concerne pas que les publications scientifiques d'ailleurs).

Pour LDF, c'est logique que ça ne marche pas non plus mais par contre, je suis surpris par ton « ça ne marche jamais sur ce site », sur une requête simple LDF fonctionne bien (je viens de tester).

La seule solution que je vois est de télécharger le dump et de travailler directement dessus (mais là je ne pourrais pas te guider, désolé).

Reply 13:38, 2 October 2019 4 years ago

VIGNERON (talkcontribs)

PS: Ooups, je n'ai rien dit, il y a aussi cet endpoint SPARQL qui semble fonctionner : https://wikidata.demo.openlinksw.com/sparql (je pensais que c'était SPARQL lui-même le problème mais visiblement c'est plutôt du côté de Blazegraph puisque Virtuoso réussit à renvoyer des résultats).

Reply 13:44, 2 October 2019 4 years ago

Simon Villeneuve (talkcontribs)

Yahoo ! Merci pour le lien. C'est surprenant car mes requêtes donnent une réponse quasi-instantanée ! Pour LDF, à chaque fois que j'y ai tenté une requête, j'ai jamais obtenu de résultat. Il faut dire que je ne l'essaie que lorsque Query timeout.

Reply 19:35, 2 October 2019 4 years ago

Simon Villeneuve (talkcontribs)

Pour Virtuoso, se peut-il qu'il fonctionne avec un dump ? Sinon, sais-tu son taux de "rafraîchissement" ? Par exemple, ce chiffre n'a pas changé en plusieurs heures, alors que plusieurs Q5 ont été créés depuis.

Reply 21:00, 3 October 2019 4 years ago

VIGNERON (talkcontribs)

Je n'ai pas les détails de fonctionnement (la doc est très générale et généraliste) mais comme le dit l'URL c'est une démo donc il est probable que ce soit moins souvent mis à jour.

Reply 21:09, 3 October 2019 4 years ago

Seb35 (talkcontribs)

Je me joins à la conversation puisqu’on en a parlé avec VIGNERON hier.

J’ai fait quelques tests pour savoir ce qu’était ce endpoint et notamment la date de la mise à jour du jeu de données. Ils ont retiré les propriétés schema:dateModified et il ne semble pas y avoir toutes les wikibase:timestamp (indiquant la date de dernière modif d’un item). Du coup j’ai procédé par dichotomie du plus grand item créé et je suis arrivé aux alentours de Q64749123 (existant dans le dataset, item créé le 21 juin 2019) et Q64849123 (inexistant dans le dataset, item créé le 27 juin 2019), la date de ce dump est donc vers fin juin 2019 et on voit donc que ce n’est pas du temps réel mais plus probablement des imports de dumps tous les quelques mois.

Reply Edited 12:34, 4 October 2019 4 years ago

Simon Villeneuve (talkcontribs)

Ok. Merci !
Je ne sais pas à quel point cela s'est discuté, mais à défaut, pour le moment, d'être capable de faire des requêtes "en temps réel" sur les corpus dépassant (environ) 100 000 éléments, ou dépassant 3 millions avec COUNT, ne pourrait-on pas avoir un outil de requête semblable à celui de Virtuoso, mais qui utiliserait le dernier dump disponible ?
Sinon, on a un début d'idée de solution pour le problème des requêtes en temps réel sur les gros échantillons ?

Reply 12:47, 4 October 2019 4 years ago

Reply to "Articles scientifiques"

Topic on User talk:VIGNERON

Articles scientifiques

Navigation menu

Search