Topic on User talk:MisterSynergy

Jump to navigation Jump to search
Steak (talkcontribs)

Hi. Ich würde gerne die Elo-Zahlen sämtlicher Schachspieler (mit Wikidata-Item) importieren (scheitere aber mal wieder an meinen technischen Kenntnissen). Teilweise wurde das schon von Wesalius und dem EloBot erledigt, und zwar mit Datenbasis von ratings.fide.com und nur im Zeitraum 2001 bis 2016. Eine Möglichkeit, sämtliche Zahlen zurück bis 1970 zu importieren, wäre benoni.de. Die Elozahlen von Karpov sind z. b. hier: http://www.benoni.de/schach/elo/elohis.html?id=4100026, wobei die ID am Ende einfach die FIDE-ID ist. Die Frage wäre jetzt, ob es (ohne riesigen Aufwand) möglich ist, diese Tabelle auszulesen und die Spalten "Jahr", "Monat" und "Elo-Zahl" (und als i-Pünkten auch noch Weltranglistenplatz, aber das wäre definitiv sekundär) in ein Elo-Statement zu übersetzen?

MisterSynergy (talkcontribs)

Mh, sieht aus als müsse man da HTML scraping betreiben, und die HTML-Struktur ist da nicht gerade günstig für ausgelegt. Das ginge sicher irgendwie, aber so ganz einfach wäre das nicht. Blöde ist auch, dass da (bis zu) drei verschiedene Tabellen mit sehr unterscheidlicher Struktur auf einer Seite sind, für verschiedene Zeiträume augenscheinlich.

Um wieviele Items geht es hier überhaupt, und wäre ein Import überhaupt rechtlich erlaubt?

Viele Grüße!

Steak (talkcontribs)

Die Anzahl der Items wäre ungefähr die Anzahl der Verwendungen von Property:P1440, also zur Zeit rund 12.000. Rechtlich sollte das kein Problem sein, Elo-Zahlen sind ja nicht urheberrechtlich geschützt und werden auf dutzenden Internetseiten veröffentlicht. Ob man das jetzt von der FIDE direkt oder von Benoni oder von einer anderen Seite importiert, ist ja egal. Als Quelle sollte man imho unabhängig davon die FIDE angeben, und nicht Benoni oder etwas anderes. Grundsätzlich müsste man auch nur die zweite und, sofern vorhanden, dritte Tabelle auslesen, die erste ist für uns unnötig. Die Struktur der zweiten und dritten Tabelle ist ja immerhin identisch, wobei bei der dritten Tabelle kein Weltranglistenplatz enthalten ist, aber das wäre wie gesagt sekundär.

MisterSynergy (talkcontribs)

Dürfte dann machbar sein. Ich muss aber ein bisschen reinschauen, und melde mich dann wieder…

Steak (talkcontribs)

Gibt es schon Fortschritte?

MisterSynergy (talkcontribs)

Der Crawler ist fertig, der war aber auch kein Problem. Ich könnte also schonmal alle Seiten laden und lokal speichern. Den HTML-Scraper zum rausfischen der Informationen aus dem Quelltext hab ich in Python noch nie in dem Umfang gemacht, deshalb ist das etwas komplizierter.

Das eigentliche „Problem“ war aber allerdings, dass ich zwischenzeitlich im Urlaub war :-) Vergessen ist das hier jedenfalls nicht, ich melde mich hier wieder. Viele Grüße!

Steak (talkcontribs)

Gibt es mittlerweile Fortschritte? :)

MisterSynergy (talkcontribs)

Ähm.

Nein, leider bisher nicht. Das steht tatsächlich auf meiner to-do-Liste und ist nicht vergessen. Ich schieb das jetzt weiter nach vorn.

Viele Grüße!

Steak (talkcontribs)

Ich hab jetzt eventuell eine Möglichkeit gefunden, mich selbst darum zu kümmern, also du kannst es jetzt gerne an das Ende deiner Todo-Liste schieben. Wichtiger wäre erstmal, die Titelverleihungsjahre und Verbände von den FIDE-Profilen zu extrahieren.

Steak (talkcontribs)

Mittlerweile erledigt.