Navody a postupy
 

Sťahovanie súpisných hárkov zo Slovakiana


Stránka Slovakiana uvolnila sčítacie hárky z roku 1930 bez začiernenia a z roku 1940 so začiernením citlyvých informácii. Keďže prehliadanie obcí bolo pre mňa zdĺhavé potreboval som mať snímku uložené na lokálnom disku. Dlhšiu dobu som uvažoval ako sa k snímkom dostať aby som nemusel robiť printscreeny obrazovky a jednotlivo ich ukladať. Po konzultácii s prateľom som zistil ako sú snímky pomenované a následne som vytvoril postup ako ich viem stiahnuť. Postup uvádzam Nižšie. Keďže sú obrázky vo formáte JPEG 2000 nie je možné ich zatiaľ zobraziť vo Windowse. Ja prezeranie je vhodné použiť Irfan View s nainštalovaným pluginom. Tento postup tu zatiaľ neuvádzam.

Ako pré potrebujete stiahnuť zozanm snímkov. Ja na to používam prehliadač Mozilla Firefox kde po slačení F12 sa dostanete k analýze sieťovej aktivity. Podľa prvého snímku si nastavte fiter na zobrazenie obrazových súborov a výsledok po načítaní uložte ako HAR. Toto urobte pre všetky stránky kde doporučujem mať zapnutý najvyžší počet súborov.

Po stiahnutí HAR súborob je potrebné vyextrahovať všetky URL k obrázkom. Možností je viacero, ja však rád používam bash v linuxe. Tí z vás ktorí nie ste v linuxe zbehlí možno budete vedieť upopísať iný postup ktorý by som tu mohol uverejniť.
Z HAR súborov vyextrahujem príkazom cat a grep url snímkov a uložím ich ako front.txt:

Pomocou programu vim editujem súbor front.txt a vymažem všetko čo je pred http. V druhom kroku v tom istom súbore zmažem v-tile.jpg a nahradím ho v.jp2. Zmeny zapíšem a uložím.

V tomto kroku potrebujem skopírovať front.txt na rear.txt. Substitúciou nahradím _v.jp2 na _r.jp2 a uložím. Oba textové súbory uložím do jedného s názvom dávka.

Teraz mi už nič nebráni aby som s príkazom wget stiahol všetky snímky ktoré obsahuje súbor dávka.

Ak by mal niekto problém so stahnutím konkrétneho mesta/obce môže sa na mňa obrátit.