User talk:Jneubert

From Wikidata
Jump to navigation Jump to search

I've added lately information about economists and their identifiers in various catalogs. Please let me know when you have comments.

Empty items[edit]

Hello Jneubert, I write you because you created 40 items without any content. Those items I have deleted. I think you have misunderstood the QuickStatements tool. Perhaps next time you should try with one item only, just to see how it works out. But I see you have done more successful additions of items as well, so you might not need my advise... Good luck. Kind regards, Lymantria (talk) 06:52, 26 April 2017 (UTC)

Hi @Lymantria:, Thanks a lot for cleaning up! I accidentally did not replace delimiters when copy&pasting data from my linux terminal for these items, and was not aware that the CREATE statement worked despite anything else did not - sorry. Thanks again, Jneubert (talk) 07:26, 26 April 2017 (UTC)
No problem. :) Lymantria (talk) 07:32, 26 April 2017 (UTC)

Dubletten[edit]

Hallo Joachim, dein Botlauf hat offenbar mehrere Dubletten produziert. Kannst du bitte mal unter:

nachschauen? Pierre M. Picard (Q30073171) habe ich von Pierre Picard (Q30073175) getrennt (nur bei einem scheint der Mittelname "M." und die dazugehörige GND korrekt zu sein). Gruß --Kolja21 (talk) 15:48, 2 June 2017 (UTC)

Hallo @Kolja21:, vielen Dank für den Hinweis auf die Merge-Candidates-Liste, die kannte ich noch nicht. Auch die übergeordnete Seite Wikidata:Database_reports scheint einiges an verborgenen Schätzen zu bergen.
Im Konkreten habe ich keinen einfachen Merge-Fall gefunden, sondern ein erstaunlich vielfältiges Bestiarium. Es wäre klasse, wenn du da nochmal drauf schauen könntest (ich bin ziemlich neu in Wikidata, und viele Verfahrensweisen lerne ich erst Schritt für Schritt):
  • Weißt du etwas genaueres über die Kriterien, nach der KRbot die Liste erstellt? (identical GND allein müsste gefühlt sehr viel umfangreicher sein)
  • Bei der Disambiguierungsseite Richard Harris (Q438571) habe ich die GND gelöscht.
  • Bei dem Bildhauer Peter Hayes (Q7174593), der offenbar über VIAF mit Peter Hayes (Q1703746) gleichgesetzt wurde, habe ich die GND durch "unknown value" ersetzt.
  • Bei John B. Williamson (Q6220167) hat mein Bot anscheinend bei zwei Läufen die GND mit der für John Williamson (Q1347901) überschrieben (die du offenbar zwischenzeitlich schon händisch korrigiert hattest - sorry!). Das habe ich nun korrigiert, die VIAF-Cluster scheinen inzwischen auch ok zu sein.
  • Bei John Hagan (Q6237200), der über eine falsche VIAF-ID mit John Hagan (Q1700343) gleichgesetzt war, habe ich VIAF- und GND-ID auf "unknown value" gesetzt. Zudem habe ich bei letzterem die korrekte VIAF-ID eingetragen und die dort schon eingetragene VIAF-ID (offenbar ein Dublette in VIAF) auf deprecated gesetzt - korrekt?
  • Marcel Boyer (Q3288726) und M. Martin Boyer (Q30084289) sind offenbar zwei verschiedene Personen mit unterschiedlicher RePEc-ID und Publikationsgeschichte, die aber in der GND vermischt werden. (Einen ähnlichen, noch nicht korrigierten Fall von Vermischung scheint es bei Efthymios G. Tsionas (Q30071049) zu geben. Der von dir dankenswerterweise aufgesplitte Pierre (M.) Piccard scheint ein ebensolcher Fall zu sein). Eine GND-Korrektur kann ich versuchen anzustoßen, aber was solange tun mit den Wikidata-Einträgen?
(Efthymios) M(ike) Tsionas war tatsächlich zweimal mit verschiedenen Vornamen in RePEc - ist schon vor einiger Zeit dort gemergt und von mir im Item mit korrekter RePEc ID eingetragen worden. Jneubert (talk) 09:19, 1 September 2017 (UTC)
Was mich bei der Arbeit mit Wikidata positiv überrascht hat, ist, dass die verstreuten hier verfügbaren Tools auf ziemlich vielfältige Weise zur Verbesserung der Qualität der unterschiedlichen Normdateien eingesetzt werden könnten (auch wenn das dann ggf. nur schleppend abgearbeitet werden kann, wie Wikipedia:GND/Fehlermeldung zeigt). Weißt du, ob dazu schon mal jemand systematisch gearbeitet hat? Jneubert (talk) 09:25, 6 June 2017 (UTC)
Danke für die detaillierte Fehleranalyse. Ich bin zzt. nur selten auf Wikidata und habe den Überblick verloren, da die Fehlerlisten zu umfangreich geworden sind. User:Gymel kennt sich besser aus. Womit ich gute Erfahrung gemacht habe, ist VIAF auf die Sprünge zu helfen, indem wir fehlende GNDs ergänzen (s. Beispiele unter de:Benutzer:APPER/VIAF). GNDs können wir mittlerweile selbst anlegen und müssen nicht mehr auf die Bearbeitung durch die DNB warten. --Kolja21 (talk) 21:24, 8 June 2017 (UTC)
Danke für die Hinweise und für's Anlegen von M. Martin! Dass VIAF anscheinend Wikidata als Input-Schnittstelle für Korrekturen nutzt, ist natürlich auch klasse (und ziemlich clever, weil sie sich damit Ausnahmelisten zum Tuning ihrer Clustering-Algorithmen sparen). In Thoms blog war das noch nicht erwähnt, aber vielleicht ist das auch eine neuere Entwicklung. In den Bibliotheken (wie z.B. BnF/BL scheint diese Art von Workflow noch gar nicht auf dem Schirm zu sein. Jneubert (talk) 11:13, 9 June 2017 (UTC)

Wikidata:Property proposal/broader concept[edit]

Given your background in knowledge organization systems, authorities, and Linked Open Data; and also your earlier participation in the proposal discussion for narrower external class (P3950), I think your opinions would be interesting and useful on the value (or not) of Wikidata:Property proposal/broader concept, to record where broader/narrower links are given in external ontologies between objects which do have Wikidata items. Jheald (talk) 20:59, 11 February 2018 (UTC)

@Jheald: Thank you for making me aware of that discussion. I will look into it. Cheers, Jneubert (talk) 09:57, 12 February 2018 (UTC)

GND SPARQL endpoint (was: Property talk:P227#GND ID count by GND Ontology class)[edit]

Hey Jneubert, a while ago you’ve provided that interesting “GND ID count by GND Ontology class” on Property talk:P227. May I ask how you evaluated the numbers? Dankeschön und Viele Grüße, MisterSynergy (talk) 10:27, 18 October 2018 (UTC)

Hi @MisterSynergy:, these are the fetched results of a federated SPARQL query on our experimental GND endpoint. It takes more than an hour, and depends on getting all GND IDs from WD in one service call - so I hope infrastructure can keep up with the increasing number of P227 assignments :) Cheers, Jneubert (talk) 12:23, 18 October 2018 (UTC)
Okay thanks. Do I have access to the experimental endpoint as an external user as well? Recently I was trying to evaluate such numbers locally from the GND RDF dumps from here. Unfortunately, my hardware (2012 notebook with Core i5 CPU, 12G memory and an SSD) is apparently by far not powerful enough to read the entire graph in reasonable time, neither to memory nor to disc, so I did not succeed :-/ If you happen to be experienced with local RDF graph software, I’d be interested a lot. I was trying to use Python+RDFlib first and RDF4J later, but I’m not really bound to any software yet.
In case I have no access to the experimental GND endpoint, can you please run other queries against it? I would be interested in:
Thanks, MisterSynergy (talk) 14:07, 18 October 2018 (UTC)
The endpoint is publicly accessible at http://zbw.eu/beta/sparql/gnd/query. It has been created for our own experiments and is provided without any warranty - feel free to use. The current data state is 2018/06, from time to time it is rebuild from the lod dumps.
Your use cases sound interesting. Would you consider publishing the queries, perhaps in an own Github repository, or via pull request to https://github.com/zbw/sparql-queries?
Cheers, Jneubert (talk) 14:27, 18 October 2018 (UTC)
Oh that’s really great! Looks like I don’t need to set up a local graph software any longer Face-smile.svg. I’m still testing as I’ve never used SPARQL federation, and I will share queries later (although they are not very complex, tbh…). Some observations:
  • It looks that the retrieval of data from WDQS is not the bottleneck here, even if you ask for all ~700k identifiers. The equivalent query executes quite quickly in the WDQS UI (order of 10 sec), and I don’t think it will take much longer when using federation. Try for instance this one, which, to my knowledge, needs to retrieve all gnds from Wikidata to output 10 of them.
  • Even if you let Wikidata's endpoint make the GND IRIs from GND IDs, the query executes in about 40 sec, similarly as if you directly did it in WDQS.
  • Things become more inefficient when there are many matches on GND side. Not yet sure exactly how this comes.
  • On redirects: they can be identified with such a query, but from my experience one needs to use "LIMIT 1000" or so in order to keep it executable in reasonable time. The listed Wikidata items have the redirecting GND ID set, but the target GND ID may or may not be there. Question is: what to do with the redirects? Asking @Kolja21, Wurgl here as well. We could either replace them with the target GND, or add the target GND additionally to the items, with preferred rank.
  • I will later try to identify Tn's in Wikidata. Further ideas would be to compare GND types with instance-of information from Wikidata, which would probably be a little more complicated due to the very different ontologies (rather simple in GND, rather chaotic in Wikidata).
Anyways, it’s really great to see that there is a possibility to query GND. —MisterSynergy (talk) 19:55, 18 October 2018 (UTC)
IMHO storing redirecting GNDs is of no help, they might just be useful for some historical reasons. I would simple replace them by the redirect-target. --Wurgl (talk) 20:03, 18 October 2018 (UTC)
+1. A former Tn for example can be changed into a redirect, so deleting outdated IDs saves us a lot of trouble. --Kolja21 (talk) 20:09, 18 October 2018 (UTC)
Apropo löschen: @MisterSynergy: Du schreibst: "I will later try to identify Tn's in Wikidata." Ich arbeite gerade die 2015‎ von User:Pasleim erstellte Liste Wikidata:WikiProject Authority control/Tn ab. In den meisten Fällen wurde der Tn bereits entfernt, aber nur selten durch einen Tp ersetzt. (Das sind jene Fälle, wo der VIAF-Cluster bessere Treffer enthält als vor drei Jahren.) Trotzdem liegt häugig bereits a) ein schwach indivualisierter Tp vor, den man per Hand recherchieren muss, oder b) ein Tn mit verknüpfter Literatur, den man auf de:WP:GND/F melden kann. Ideal wäre daher, wenn ein Bot zwar einerseits die Tns löscht, aber gleichzeitig die Fälle, in denen ein Tn nicht durch einen Tp ersetzt wird, in einer Wartungsliste erfasst. --Kolja21 (talk) 22:01, 18 October 2018 (UTC)
  • Problem ist, dass wir kaum Möglichkeiten haben, in solchen Fällen automatisch eine Tp zu ermitteln. Bei VIAF nachschauen ist tatsächlich möglich, aber das habe ich gerade versucht und da sind mit ganz wenigen Ausnahmen dieselben Tn's verlinkt, die ich gerade erst entfernt hatte. VIAF ist diesbezüglich bestenfalls in Einzelfällen hilfreich.
  • Tn's haben in Wikidata und Wikipedia verschiedenen Problemcharakter. Hier sind sie tatsächlich einfach falsch, bei Wikipedia haben sie für Leser potenziellen Nutzen (verlinkte Literatur); sie werden aber auch dort in einem separaten Feld festgehalten.
  • Am einfachsten wäre es wohl, alle entfernten Tn's samt ihrer Q-IDs aufzulisten, so ähnlich wie auf Deiner Wartungsliste. Dann sind sie hier nicht im Wege, und wer interessiert ist kann sie durchgehen und ggf. zur Individualisierung anmelden. Ich weiß leider gerade noch nicht, ob man die zu Tn's verlinkte Literatur irgendwie automatisch ermitteln kann.
MisterSynergy (talk) 22:40, 18 October 2018 (UTC)
Zweiter Punkt: Der unangemeldete User sieht Tn's nicht! Könnte man aber ändern, siehe dazu auch de:Wikipedia_Diskussion:Normdaten#GND_Kollateralnutzen?. --Wurgl (talk) 22:47, 18 October 2018 (UTC)
Hauptsache, die Tns gehen nicht verloren, auch wenn die Liste vermutlich umfangreich ausfallen und lange vor sich hinschmoren wird. Wie MisterSynergy schon sagte, gehören Tns nicht in Wikidata, aber falls sie "blind" gelöscht würden, fallen alle Personen, die keinen Artikel in deWP haben, durch das im Laufe der Jahre eng gestrickte Wartungsraster. --Kolja21 (talk) 22:57, 18 October 2018 (UTC)
Ich bin ehrlich gesagt nicht sicher, ob der Aufwand den Nutzen wert ist. In anderen Wikimedia-Projekten wird man tendenziell nicht so an der aus Tn's verlinkten Literatur interessiert sein (weil Publikum nicht deutschsprachig). Da wurde halt der Tn ergänzt, weil der Name passte; hier in Wikidata wurden die Tn's automatisiert ergänzt, weil sie bei VIAF verlinkt ist, wo man da in verschiedener Weise auf den Cluster zugreifen kann, ohne den Tn-Charakter der GND-ID zu bemerken. Die Liste mache ich trotzdem, wobei die mit dem GND-Endpoint eigentlich recht einfach zu ermitteln sein müsste. Ich schaue mir das morgen nochmal an. —MisterSynergy (talk) 23:26, 18 October 2018 (UTC)
Danke für deine Mühe! Wenn du willst, kopiere die Treffer in Wikidata:WikiProject Authority control/Tn, dann ist die Liste leicht zu finden. Und zur Klarstellung: Es geht mir nicht um den Erhalt der Tns, sondern um die bereits vorhandenen oder noch anzulegenden Tps, die in Wikidata fehlen. Auch VIAF ist darauf angewiesen, dass die Datengrundlage sauber ist; nur so kann der Algorithmus fehlerfrei arbeiten. --Kolja21 (talk) 23:49, 18 October 2018 (UTC)
Ich habe da jetzt längere Listen ergänzt, auch von der Juni-Aktion. —MisterSynergy (talk) 19:09, 19 October 2018 (UTC)
Sieht aus, als haben wir gerade tatsächlich keine Tn's mehr in Wikidata [1] (basierend auf dem Juni-Dump der GND). Dann schaue ich jetzt nach den redirects… —MisterSynergy (talk) 08:43, 20 October 2018 (UTC)
+1 for removing redirecting GND IDs. Thank you for the all the work you are putting into this! 07:37, 19 October 2018 (UTC)
Auch von mir herzlichen Dank! @MisterSynergy: Wenn ich es richtig sehe, kann jetzt die Liste User:KasparBot/GND Type N, letztmalig Oktober 2016 aktualisiert, gelöscht weren. Richtig? --Kolja21 (talk) 19:18, 19 October 2018 (UTC)
Wenn ich durch bin, versuche ich die ganzen Listen einmal zu konsolidieren (doppelte Einträge entfernen, und solche wo das Wikidata-Objekt mittlerweile wieder eine GND-ID hat). —MisterSynergy (talk) 20:03, 19 October 2018 (UTC)
Just updated the GND dataset to 2018-10. Jneubert (talk) 12:09, 21 November 2018 (UTC)

Queries[edit]

MisterSynergy (talk) 12:12, 20 October 2018 (UTC)

When you look at de:Benutzer:Wurgl/Fehler_GND#V-475_erl. you see "… und 16566 weitere". All these are GND-IDs for Persons where the DNB holds a link to Wikipedia but no GND in the corresponding article or where the article holds a VIAF-Id and that VIAF-Id is also contained in the DNB-dump. About 1 out of 20 links is incorrect (or I am not sure). I expect a new dump next week, so I will regenerate that list again. It seems that those links in the DNB-dump come from wikidata via VIAF. Maybe not all of them, VIAF is still a miracle.
BTW: In http://viaf.org/viaf/data/ you find a file viaf-20181007-clusters.xml.gz I tried to download, but it take 7(!) hours for lousy 15GB. And no, I have a fast internet connection (150 MBit download), it should load within less than half an hour. So I refused that one. --Wurgl (talk) 15:08, 20 October 2018 (UTC)
The last query with the missing links IDs in Wikipedia is wellknown. Most of them are okay, but 5-10% of the links are not okay. Just one example: http://d-nb.info/gnd/138606668 (click on "Zugehöriger Artikel in Wikipedia"). So please, no bot-job! --Wurgl (talk) 17:14, 16 November 2018 (UTC)
I consider to import with a cross-check to VIAF: loop over all Wikidata items of the query result; if the item has a VIAF ID: check whether the GND ID associated to the item in the query is also listed in the VIAF cluster; if so, import with a reference to the VIAF cluster. Otherwise no import. There is of course still potential for mistakes, but I guess I can use the saved time compared to a full manual import to fix those mistakes, and do a lot of other things. —MisterSynergy (talk) 23:11, 16 November 2018 (UTC)

open questions[edit]

  • Jneubert, I have a question regarding the GND ontology and the dump. I was trying to output preferred names for different GND types, and it turns out that several subproperties of gndo:preferredName are typically used as predicates, depending on the GND type. Unfortunately I don’t manage to bind all of them to a variable ?p in order to do ?gnd ?p ?preferredName. Since these two queries result empty sets, I assume that the GND ontology (current RDF) itself is not contained in the dumps. Is this correct? Do you think it would be possible at some point in the future to change this, similarly as we have Wikidata properties completely accessible in the Wikidata Query Service (simple example)? It would make querying much more efficient and flexible in many situations. Viele Grüße, MisterSynergy (talk) 20:14, 20 October 2018 (UTC)
Hi @MisterSynergy:, there was already an issue for this. Your use case tipped the balance - I've loaded the gndo version which was probably in use at creation time. Thank you for your great work, I'm happy that I can support it. Cheers, Joachim
Thanks a lot; it worked perfectly this morning, but throughout the day I have problems to use the endpoint. Seems like there is some kind of a problem with the federation part of the query. I will update and tweak the queries above once it is fine again. —MisterSynergy (talk) 17:15, 22 October 2018 (UTC)
Hi @MisterSynergy:, I could reproduce the issue. In the frontend, after ca. 15 min I receive a Gateway Timeout (#504) by www-cache.rz.uni-kiel.de (squid). This is part of the univerity infrastruktur we use, but unfortunately I don't know at what point in the pipeline. In the Fuseki log, the query is received, but does not return anything, neither a result nor an error message.
After restarting fuseki, your simpele query with federation works, and also "Tn's in Wikidata" (52 results, takes reasonable time).
Actually, I have no idea what caused the issue, and no time to dive deeper. If it occurs again, please let me know. Cheers, Jneubert (talk) 12:01, 23 October 2018 (UTC)
It is working right now. However, I think it is worth to keep an eye on: maybe there is some filter somewhere that sees “a lot of traffic” from the Wikidata endpoint (~10-15M for “all items with their GND” per request), which is then blocked for some reason. If I experience this again, I will report here. —MisterSynergy (talk) 13:43, 23 October 2018 (UTC)

Handelsregister[edit]

Hallo Joachim Neubert, habe die schönen Items via 20th century press archives (Q36948990) gesehen - gibt es eine sinnvolle Möglichkeit, auch Handelsregisternummern als Identifier zu taggen ? (z.B. via company register (Q1394657) Viele Grüße, Matthias --Erfurth (talk) 12:02, 28 November 2018 (UTC)

Hallo Matthias, m.W. gibt es kein Property für das deutsche Handelsregister, wie es das für das niederländische Handelsregister gibt (KvK company ID (P3220)). Das könnte ganz wesentlich daran liegen, das das niederländische offene Daten hat, die von Wikidata verlinkt werden können, während es beim deutschen eigentlich Aktenzeichen der einzelnen Registergerichte sind, so dass die ID nur mit dem Gericht zusammen unique ist, die Daten dahinter nur sehr eingeschränkt offen zugänglich und - by Design - nicht verlinkbar sind (falls sich daran im letzten Jahr nichts geändert hat). Schöne Grüße, Jneubert (talk) 16:35, 28 November 2018 (UTC)
Vielen Dank für die umfassende Antwort und das war in etwa schon meine Vorahnung. Was die Firmen von vor 1945 betrifft, gibt es immerhin für Dresden über das Adressbuchprojekt der SLUB relativ lückenlos jeweils pro Jahr ein "gedrucktes" Handelsregister. Gruß Matthias --Erfurth (talk) 09:21, 29 November 2018 (UTC)