Navody a postupy

Sťahovanie súpisných hárkov zo Slovakiana


Tento n8vod už nie je funkčný odkedy Slovakiana prepracovala web. Tým ktorým postup pomohol gratulujem. Ak máte vyextrahované pôvodné url k jp2 obrázkom tak sťahovanie je naďalej možné. Nový postup stiahnutia už nie je tak jednoduchý pre verejnosť a tak nemá zmysel ho publikovať. Vyhľadávanie už majú na lepšej úrovni takže pokračujte Slovakiana

Stránka Slovakiana uvoľnila sčítacie hárky z roku 1930 bez začiernenia a z roku 1940 so začiernením citlivých informácii. Keďže prehliadanie obcí bolo pre mňa zdĺhavé potreboval som mať snímky uložené na lokálnom disku. Dlhšiu dobu som uvažoval, ako sa k snímkom dostať, aby som nemusel robiť printscreeny obrazovky a jednotlivo ich ukladať. Po konzultácii s priateľom som zistil, ako sú snímky pomenované a následne som vytvoril postup, ako ich viem stiahnuť. Postup uvádzam nižšie. Keďže sú obrázky vo formáte JPEG 2000 a nie je možné zobraziť ich priamo vo Windowse používam na prezewranie Irfan View s nainštalovaným pluginom JPEG2000. Slovakina urobila veľký kus práce pri naskenovaní hárkov. Je však veľkou škodou, že vyhľadávanie cez web nie je ľahké a prehliadanie rýchlejšie.

Ak by bol v budúcnosti web slovakiana rýchlejší tak tento postup by nebol potrebný. Ďalšou nevýhodou je, že snímky nie sú uložené podľa súpisného čísla, čo pri väčších obciach spôsobuje problém pri prezeraní.

Ako prvé potrebujete stiahnuť zoznam snímkov. Ja na to používam prehliadač Mozilla Firefox, kde sa po slačení F12 dostanem k analýze sieťovej aktivity. Podľa prvého snímku si nastavím filter na zobrazenie obrazových súborov a výsledok po načítaní uložte ako HAR. Toto urobím pre všetky stránky, kde mám zapnutý najvyžší počet súborov.

nastavenie firefoxu pre stiahnutie har súboru

Po stiahnutí HAR súborov vyextrahujem všetky URL k obrázkom. Možností je viacero, a ja rád používam bash v linuxe. Tí z vás, ktorí nie ste v linuxe zbehlí možno budete vedieť napísať iný postup ktorý by som tu mohol uverejniť.
Z HAR súborov vyextrahujem príkazom cat a grep url snímkov a uložím ich ako front.txt:

extrakcia url k obrázkom

Pomocou programu vim editujem súbor front.txt a vymažem všetko, čo je pred http. V druhom kroku v tom istom súbore zmažem v-tile.jpg a nahradím ho v.jp2. Zmeny zapíšem a uložím.

úprava pre hromadnú dávku

V tomto kroku potrebujem skopírovať front.txt na rear.txt. Substitúciou nahradím _v.jp2 na _r.jp2 a uložím. Oba textové súbory uložím do jedného s názvom dávka.

pripravena dávka

Teraz mi už nič nebráni, aby som s príkazom wget stiahol všetky snímky, ktoré obsahuje súbor dávka.

proces sťahovania

Zoznam miest

Nižšie uvádzam zoznam miest s uvoľnenými sčítacími hárkami. V pomenovaniach obcí je viacero záludnosti, ktoré vedú k podobnému alebo zhodnému výsledku.

Mestá sú uvádzané podľa vtedajšej štruktúry miest pod väčšie okresné mestá. Ak nejaké mesto neviete nájsť, pretože v roku 1930 bol názov úplne odlišný hľadajte pod väčšími mestami po rozkliknutí.