User talk:JAn

From Wikidata
Jump to navigation Jump to search

Duplicity

[edit]

@JAn Dudík:Ahoj, jen tě upozorňuji, že sekáš poměrně hodně duplicit. ([1], [2], [3]) Zdraví — Draceane talkcontrib. 21:31, 2 June 2022 (UTC)[reply]

@Draceane: Ano, bohužel je to asi nejjednodušší způsob, jak sem naimportovat památky, které zatím nebyly spárovány, když jediné, podle čeho by šlo potenciálně párovat, jsou souřadnice, které se budou lišit o centimetry až desítky metrů. O duplicity půjde odhadem v polovině případů. Doufal jsem, že @Vojtěch Dostál: třeba import provede sám (máto lépe zmáknuté), ale nakonec jsme jej proved já s vědomím duplicit, které bude potřeba vyčistit - s tím, ře DP mají obvykle přesnější souřadnice. JAn Dudík (talk) 06:10, 3 June 2022 (UTC)[reply]

@JAn Dudík Mohu se pokusit návrhy na duplicity najít nějak strojově, jestli je zájem. Pro první představu se dá použít toto query:

The following query uses these:

  • Properties: Drobné památky ID (P6736)  View with Reasonator View with SQID, coordinate location (P625)  View with Reasonator View with SQID
    SELECT ?item ?itemLabel ?place ?placeLabel ?distance WHERE {
      {
        SELECT ?item ?itemLabel ?place ?placeLabel ?distance WHERE {
          {
            SELECT ?item ?coord {
              BIND( (19 - 12) * RAND() + 12 AS ?rand ) .
              ?item wdt:P6736 []; p:P625 [ ps:P625 ?coord; psv:P625/wikibase:geoLongitude ?long ] .
              bind(substr(str(?item),33) as ?no ) filter((xsd:integer(?no)) > 111268976).
              
              FILTER ( ABS( ?long - ?rand ) < 1 ) . # feel free to play with this...
            } 
          } .
          SERVICE wikibase:around {
            ?place wdt:P625 ?location .
            bd:serviceParam wikibase:center ?coord .
            bd:serviceParam wikibase:radius "0.05" .
            bd:serviceParam wikibase:distance ?distance .
          } .
          minus {?place wdt:P6736 [] . }
          FILTER ( ?item != ?place ) .
          SERVICE wikibase:label { bd:serviceParam wikibase:language "cs" } .
        }
      } .
      FILTER( SUBSTR( STR( ?itemLabel ), 1, 1 ) = SUBSTR( STR( ?placeLabel ), 1, 1 ) ) .
    } ORDER BY ?itemLabel ?placeLabel
    

Vojtěch Dostál (talk) 07:12, 3 June 2022 (UTC)[reply]

@Vojtěch Dostál, JAn Dudík: Snad to nebude tak hrozné, ukazuje to nižší stovky duplicit, něco jsem ručně poslučoval, JAn se taky činil. Je ale zvláštní, že při každém běhu query mi to vyhazuje jiný počet (někdy 300, pak 600, pak třeba jen 30 a teď zas 400). Nevím, čím je to způsobeno. Tady případně s kosmetickou úpravou (ORDER BY distance), tj. nejbližší navrch. (Vzdálenost jsou metry, kilometry, nebo nějaká "jednotka"?) — Draceane talkcontrib. 13:35, 3 June 2022 (UTC)[reply]
Vzdálenost upravena na 0.025, vyšší hodnoty už jsou v drtivé většině chybně spárované. — Draceane talkcontrib. 14:07, 3 June 2022 (UTC)[reply]
SPARQLu ani za mák nerozumím, ale tipuji, že to bude ovlivňovat to random číslo – to je přece divnej konstrukt, ne? — Draceane talkcontrib. 14:06, 3 June 2022 (UTC)[reply]
@Draceane To se nakonec v tom dotazu vůbec nepoužívá. Je to tam pro případy, že by to timeoutovalo a bylo potřeba nastavit limit (aby to pak nevybíralo vždy stejných 500 výsledků). Jinak dotaz nepostihne vše, ukazuje jen dvojice které se shodují na prvním písmenu, což je samozřejmě úplně arteficielní požadavek. Ale bez něj je hitů mnohem míň. Pro zachycení většiny duplicit je na to potřeba jít jinak a dalo by to více práce, tak to asi udělám až ve chvíli, kdy import bude hotov, aby se to pak nemuselo dělat znovu. A i pak to bude spousta manuální práce, tohle nejde zcela zautomatizovat. Vojtěch Dostál (talk) 15:19, 3 June 2022 (UTC)[reply]

@Dracenae, Vojtěch Dostál: Dočistil jsem asi většinu duplicit v obcích, které mají hotové seznamy Kdysi jsi mi psal podobný dotaz, ale ten mi teď timeoutuje

The following query uses these:

  • Properties: Drobné památky ID (P6736)  View with Reasonator View with SQID, located in the administrative territorial entity (P131)  View with Reasonator View with SQID, coordinate location (P625)  View with Reasonator View with SQID, instance of (P31)  View with Reasonator View with SQID
    SELECT ?item ?itemLabel ?place ?placeLabel ?distance WHERE {
      {
    SELECT ?item ?place ?distance WHERE {
      {
        SELECT ?item ?itemLabel ?place ?placeLabel ?distance WHERE {
          {
            SELECT ?item ?coord {
              BIND( (19 - 12) * RAND() + 12 AS ?rand ) .
              ?item wdt:P6736 []; wdt:P131* wd:Q757240 ; p:P625 [ ps:P625 ?coord; psv:P625/wikibase:geoLongitude ?long ] .
              FILTER ( ABS( ?long - ?rand ) < 1 ) . # feel free to play with this...
            } 
          } .
          SERVICE wikibase:around {
            ?place wdt:P625 ?location .
            bd:serviceParam wikibase:center ?coord .
            bd:serviceParam wikibase:radius "0.05" .
            bd:serviceParam wikibase:distance ?distance .
          } .
          minus {?place wdt:P6736 [] .}
          FILTER ( ?item != ?place ) .
        }
      } .
    } 
    
    }
    values ?instance {
    wd:Q2309609
    wd:Q179700
    wd:Q14552192
    wd:Q575759
    wd:Q12661150
    wd:Q860861
    wd:Q721747
    wd:Q5003624
    wd:Q12029081
    wd:Q108325
    wd:Q2713614
    wd:Q4989906
    wd:Q1640496
    wd:Q38395546
      }
    ?place wdt:P31 ?instance .
    SERVICE wikibase:label { bd:serviceParam wikibase:language "cs,en". }
    } order by asc(?distance)
    

JAn Dudík (talk) 09:18, 4 June 2022 (UTC)[reply]

Dobrý den,
jsem zděšen, k čemu importem došlo. Neměly by být strojové importy schvalovány?
Budete řešit vzniklé duplicity? V opačném případě je tohle zralé na revert. V Brně, Černých Polích to nevypadá vůbec dobře, viz tyto duplicity jen na 100 metrech náhodného poměrně nezajímavého místa:
- Q30105548, Q112218711
- Q112218712, Q96797091
- Q63049934, Q112218713
- Q112218709, Q96799133 Kudlav (talk) 15:14, 6 June 2022 (UTC)[reply]
@Kudlav Ještě to by scházelo, abychom si každý import museli nechat schvalovat. V klidu, tohle se časem vyřeší. Pomáhám s tím. Vojtěch Dostál (talk) 08:47, 8 June 2022 (UTC)[reply]
@Kudlav: Duplicity budou vznikat vždy. Aby by nedošlo k importu duplicit, bylo by potřeba předem projít seznam a ručně vyházet duplicitní položky a přidat jejich ID k existujícím památkám. Což může dělat v zásadě jen ten, co se na import chystá, Kdežto po importu může slučovat kdokoliv. Aktuální import zahrnoval asi 4700 položek, zdá se, že duplicit bude jen několik stovek. JAn Dudík (talk) 11:37, 8 June 2022 (UTC)[reply]
@Vojtěch Dostál, JAn Dudík: Nějaké dvě, tři stovky položek jsem už poslučoval. Díky tomu query to jde celkem dobře, jen je třeba ohlídat si případy jako "Socha sv. Jana Nepomuckého" proti "Socha sv. Floriána a sv. Jana Nepomuckého", i když jsou třeba jen metr od sebe. Pak mám ale dotaz, jestli slučovat položky typu "Socha Panny Marie" a "Sloup Panny Marie se sochou" (tj. jestli považujeme sloup se sochou a sochu za dvě odlišné entity)? Zatím jsem takové případy pro jistou nechával být, tak se ptám, jak k tomu přistoupit, napadají mě argumenty pro i proti (socha může být samostatná část většího díla, tj. mít to odděleně × sloup sám o sobě bychom za samostatné dílo spíš nepovažovali, tudíž by to byl asymetrický případ, otázka také, jestli v DP/PK uvažují pojem "socha" za přenesený pojem pro celý soubor, či nikoliv). — Draceane talkcontrib. 09:24, 8 June 2022 (UTC)[reply]
@Draceane: Bývá častý případ, že na WD je položka kulturní památky, která sdružuje více objektů, třeba dvě sochy. A na DP pak jsou buď obě nebo jedna jako samostatná socha. V takovém případě je dobré původní položku označit jako ensemble of small monuments (Q47008262) a označit, že se skládá z jednotlivých soch. U sloupu bych to viděl podobně, leckdy je každé jiného původu, ale asi záleží případ od případu.
DP má jen omezený "sortiment", takže klidně dodatečně upřesnit socha -> sousoší, kříž -> misijní/hřbitovní kříž atp. JAn Dudík (talk) 10:53, 8 June 2022 (UTC)[reply]
Označuji @Ben Skála, jak bys řešil ty "sloupy se sochou" ty? Vojtěch Dostál (talk) 10:57, 8 June 2022 (UTC)[reply]
@Vojtěch Dostál: Sloupy a sochy bych rozhodně slučoval. Jasně, může se stát, že starý sloup je osazen druhotně novější sochou atp., což by stálo za to udělat tomu dvě položky, ale to teď při slučování duplicit po importu z DP stejně nemáme ambice řešit, žejo. Nehledě na to, že na DP tím taky určitě myslí celou tu památku, ne jen sochu nahoře.--Ben Skála (talk) 11:14, 8 June 2022 (UTC)[reply]

@Draceane, Ben Skála, Kudlav: Vygenerovaný seznam možných duplicit : User:Vojtěch Dostál/možné duplicity DP 2022. Našli jste nějakou duplicitu, která v tabulce ale není? Napište mi, ať mohu vylepšit algoritmus :). Vojtěch Dostál (talk) 12:29, 8 June 2022 (UTC)[reply]

Jo a v historii je toho více (kvůli načítání stránky jsem tam dal jen prvních pár hitů, kdybyste to měli hotové a chtěli pracovat dál, z historie se to dá vyvolat) Vojtěch Dostál (talk) 12:29, 8 June 2022 (UTC)[reply]
Pro úplnost dodám, že nově založené položky začínají Q112. Naopak položky začínající Q3 jsou obvykle kulturní památky. JAn Dudík (talk) 19:32, 8 June 2022 (UTC)[reply]

@JAn Dudík, Vojtěch Dostál:Dobry den, v techto technikaliich se moc nevyznam, ale nahodne jsem narazil na par duplicit, kde uz ta starsi polozka Wikidat mela ID z drobnepamatky.cz: [4], [5], [6], [7] Tipuju, ze tohle by melo jit snadno zkontrolovat... --JiriMatejicek (talk) 08:57, 13 June 2022 (UTC)[reply]

@JiriMatejicek: Díky za upozornění, nenapadlo mne zkontrolovat, zda v mezičase mezi březnem (kdy proběhlo první kolo importu) a červnem někdo nepřidal nějaká ID ručně. Při příštím importu na to budu pamatovat.
Ještě může nastat druhý případ, který se hůře automaticky odhaluje - památka na drobnýchpamátkách existovala, její ID je přiřazeno. následně došlo k jejímu smazání a znovuzaložení na DP a novému importu na WD. Konkrétně se to bude týkat systematicky hřbitovních křížů, náhodně pak památek, které jsou na hranici drobné a velké památky (větší kaple, větší zvonice) JAn Dudík (talk) 12:13, 13 June 2022 (UTC)[reply]
Pri pohledu napr. do Strasnic [8] me napada - delal jste pred importem vubec nejakou kontrolu, zda uz prislusne WD polozky existuji? JiriMatejicek (talk) 08:56, 15 June 2022 (UTC)[reply]
@JiriMatejicek: dělal jsem kontrolu, zda neexistují položky se stejným ID drobných památek, s výjimkou oněch několika desítek vzniklých v mezičase. Jinou kontrolu udělat hromadně neumím.
Pokud jsem měl volbu neimportovat / importovat včetně určitého množství duplicit, byl import rozhodně lepší volbou. Už proto, že vím, že v příapdě položek založených ručně vs. položek importovaných z DP mají DP obvykle přesnější souřadnice.
Pro vyřešení určité obce/čtvrti může pomoci založení obecního seznamu viz w:cs:Wikipedie:WikiProjekt_Drobné_památky. JAn Dudík (talk) 06:42, 16 June 2022 (UTC)[reply]
@Frettie: Prosím, koukej na to, zda náhodou nemají obě slučované položky rozdílné IDDP (pokud ano, koukni se na jejich fotky). Našel jsem několik dvojic, které jsi sloučil i když šlo o různé entity stejného typu kousek od sebe. Naopak některé jsou duplicitní na DP - stačí tam napsat do komentáře, že jde o duplicitu a odkázat na druhou z nich. JAn Dudík (talk) 12:50, 27 June 2022 (UTC)[reply]
No jo, i to se může stát, projel jsem Vojtův seznam, kam kouknu do mapy, tam jsou duplicity, v tom obřím množství duplicit se těch chyb holt pár udělá. --Frettie (talk) 20:13, 1 July 2022 (UTC)[reply]

@JAn Dudík:Dobry den, dekuji za import dalsiho baliku drobnych pamatek. K rade z nich jsem doplnil existujici fotky. Vsiml jsem si taky rady duplicit - napr. Q123724793, Q123724826, Q123724825, Q123724779, Q123724833, Q123724832, Q123724776, Q123717442, Q123719346, Q123723257, Q123723360, Q123721661, Q123731355, Q123720276, Q123725100. Narazil jsem na ne vicemene nahodou, jakozto dvojice cerveneho a zeleneho puntiku na stejnem miste na Wikishootme. Z toho usuzuju, ze bylo mozno je odhalit pomoci blizkosti souradnic (netusim, jak se to dela, ale uz zde padlo, ze to jde). Pokud jste tuto kontrolu nedelal, tak ji prosim priste delejte; pokud ano a nevyslo to, zkuste se prosim zamyslet, jestli by nesla jeste vyladit. Chapu, ze hromadny import se vyplati oproti pomalemu rucnimu pridavani, i za cenu jistych nedokonalosti... --JiriMatejicek (talk) 09:59, 19 April 2024 (UTC)[reply]

@JiriMatejicek Dělali jsme kontrolu - tabulka obsahující blízké památky (+ její historie), ale podmínkou bylo, že ty existující na WD nemají ID drobné památky. A zde se jedná hlavně o sochy na budovách - ty už jednou importovány byly, pak se na drobných památkách smazaly a teď tam jsou znovu, byť nepublikované. A místní položky tak měly přiřazené ID a byly ze seznamu vyloučeny (viz též). JAn Dudík (talk) 19:13, 19 April 2024 (UTC)[reply]
A kdyz uz tedy vite, jak ty duplicity vznikly, nedalo by se to jeste nejak (hromadne) napravit)? JiriMatejicek (talk) 12:53, 22 April 2024 (UTC)[reply]
@Vojtěch Dostál: Mohl bys, prosím, vygenerovat seznam potenciálně duplicitních DP, kde je vzdálenost mezi památkami do 20 m a jde o sochy? Další podezřelé už budou spíš ojedinělé případy. JAn Dudík (talk) 20:12, 22 April 2024 (UTC)[reply]
Ano, ozvu se až to budu mít, zkusím brzy :) Vojtěch Dostál (talk) 07:43, 23 April 2024 (UTC)[reply]
@JiriMatejicek @JAn Tady: User:Vojtěch Dostál/drobnepamatky new sync 2023/after import - je to ono? V prvním sloupci jsou vždy položky soch, které vznikly v posledním batchi importu. Jako návrhy se nabízí sochy, které mají ID Drobné památky, ale nevznikly v posledním batchi. Je to takto dostatečné nebo by se to mělo nějak rozšiřit? Čím více položek se bere v úvahu, tím déle párování trvá, takže jsem to takto okleštil na minimum. Vojtěch Dostál (talk) 04:28, 24 April 2024 (UTC)[reply]
@Vojtěch Dostál Hned první řádek je vzdálenost mezi sochami 5 km. V takovém případě na 99% nepůjde o duplicity. Myslím, že by měly stačit desítky metrů, tím se omezí soubor na opravdu potenciální duplicity. JAn Dudík (talk) 08:18, 24 April 2024 (UTC)[reply]
To máš ale asi na mysli návrh č. 3. Primárně má smysl řešit jen návrh č. 1. Ostatní dva návrhy jsou doplňky. Celá tabulka je seřazená podle blízkosti sochy od návrhu č.1 (nahoře jsem ty nejtěsnější tipy), na návrzích č.2 a 3 jsem už žádné filtrování nedělal. Vojtěch Dostál (talk) 10:36, 24 April 2024 (UTC)[reply]
@Vojtěch Dostál OK, tak to potom dává smysl. @JiriMatejicek Ale koukám, že kromě slučování bude třeba vyřešit seskupené památky - typicky skupina dvou soch vs. socha 1 a socha 2. (např.) JAn Dudík (talk) 18:55, 24 April 2024 (UTC)[reply]
@JAn Dudík: @Vojtěch Dostál: OK, diky.
1. Jaky je ted dalsi postup? Projit ten seznam a duplicity rucne 'vycistit'? Nebo mate nejaky sofistikovanejsi grif? Vycistit asi znamena spis sloucit stare a nove polozky + odstranit redundantni info, nez smazat nove polozky, ze? Je to vic prace, ale u novych jsou ty aktualni ID z Drobnych pamatek, zatimco ve starych tu zrusene...
2. Pokud jde o ty skupiny a jednotlive sochy, jsem spis pro zachovani vsech stavajicich variant, i kdyz je to mozna nekdy redundantni. Jednak je podle me tezke urcit jasnou hranici, kdy ma smysl skupina a kdy jednotlive sochy, jednak je to na bezpecnejsi strane, tzn. nehrozi, ze by se ztratily nejake informace pri pokusu o redukci.
3. P.S. Tyto duplicity Q123717457, Q123717456, Q123717458 nezapadaji do vyse popsaneho schematu vzniku, tj. sochy na budovach se zrusenym ID z DP. JiriMatejicek (talk) 15:14, 30 April 2024 (UTC)[reply]
Jen poznámka k (3) To jsou zase místa, která typicky za drobné památky nepovažujeme (instance: pavilon, to je spíš barák) a tím pádem byly z potenciálních drobných památek vyřazeny a pro hledání duplicit nebrány v úvahu. Drobné památky typicky definuji skupinou instancí a nadtříd, ale žádná definice prostě není dokonalá :) Vojtěch Dostál (talk) 17:07, 30 April 2024 (UTC)[reply]
@JiriMatejicek
Ad 1) ano, projít seznam, duplicity sloučit.
Ad 2) Případ od případu. Památkový katalog často mívá třeba "dvojice soch", pak je třeba mít pro každou sochu zvláštní položku. Naopak, když jde o "kaple s křížem", lze teoreticky mít pod touto položkou kapli a kříž zvlášť. Ale mít jednu položku "sochy Petra a Pavla" a z ní odkazovat na "Socha sv. Pavla" na DP a k tomu druhou položku "Socha sv. Petra" s odkazem na DP je chyba, už se míchají skupina a socha. Prvních 16 řádků už jsem projel, na dalším je Q38193040, což je kulturní památka a typický kandidát na rozdělení - skupina + Matouš + Barbora + kříž.
Ad 3) Sochy na budovách byly největší balík, ale DP zahrnují třeba altány a zvonice a někdy se na DP usoudí, že už je to moc velké na zahrnutí do DP a smaže se to, pak to zase někdy někdo vytvoří znovu - poslední import obsahoval i věci, které nejsou na DP oficiálně publikovány, ale jsou tam v databázi. V minulosti byly na DP smazány i hřbitovní kříže, aby se posléze rozhodlo, že tam vlastně patří. A pak jsou věci, které jsou duplicitně i na DP. Duplicity budou vznikat vždy. JAn Dudík (talk) 09:29, 1 May 2024 (UTC)[reply]
Tak jsem to prošel, poslučoval a založil několik nových. @Vojtěch Dostál Díky, po dalším importu to bude vhodné opět udělat. JAn Dudík (talk) 19:11, 4 May 2024 (UTC)[reply]

P971 insertions

[edit]

Hello, I think all the edits like this one should be rollbacked in case we already have category combines topics (P971)association football players who play in this club (Q56465024). Do you agree? Horcrux (talk) 10:56, 11 March 2023 (UTC)[reply]

@HorcruxOK, I didn't know about this item and czech labes wasn't mentioning person ;-) JAn Dudík (talk) 18:47, 11 March 2023 (UTC)[reply]

Kolíny

[edit]

Ahoj, kde se tady vzaly ty Kolíny v množném čísle (Kolínů)? ŠJů (talk) 08:33, 6 September 2024 (UTC)[reply]

@ŠJů Jednoduše :-) Tabulka měla sloupec popis skládaný z [druh památky] na území [genitiv názvu sídla]. Ale proč mi to zrovna v případě Kolína dalo jednotné i množné číslo ti teď neřeknu - nejsem si už jistý, zda skloňování procházelo z Wikidat nebo z nějaké offline tabulky, zkusím zapátrat na druhém počítači. Narazil jsi ještě na nějaký jiný případ než Kolín? Já zatím ne, a to jsme to tehdy přidával k tisícům položek... JAn Dudík (talk) 12:00, 6 September 2024 (UTC)[reply]
Tak jednalo se o výsledek query (na vědomí @Vojtěch Dostál:. Může se to ještě vyskytnout u sídel: Beroun, Bukovina, Diana, Kateřina, Lhota, Loket, Mladá Boleslav, Opava, Polka, Příbor, Rakovník, Zdislava, Čeperka. JAn Dudík (talk) 19:06, 6 September 2024 (UTC)[reply]
Hmm, Query nepočítalo s tím, že by kdokoliv vyplňoval skloňování obcí v množném čísle. Asi by to šlo z query odfiltrovat, kdyby byl zájem, příležitostně se na to podívám... Vojtěch Dostál (talk) 09:38, 7 September 2024 (UTC)[reply]
Pro moje budoucí použití to asi nebude potřeba, data už mám a když vím, že tam je tenhle problém, ošetřím si to. Ale množná čísla u obcí je kapitola sama pro sebe, třeba u Lhoty je to naprosto nutné :-) JAn Dudík (talk) 12:27, 8 September 2024 (UTC)[reply]