Navody a postupy

Sťahovanie súpisných hárkov zo Slovakiana


Keďže ste mi viacerí písali aby som sem umiestnil návod ako sťahovať súpisné hárky zo Slovakiana tak som sa rozhodol vašej žiadosi vyhovieť. Návod nie je ľahký ako som vám tvrdil ale je funkčný. Pokoaľ vás pre genealogický výskum zaujíma iba jeden hárok, pokojne tento návod vynechajte a sníku si stiahnite inak. Ak ale spracúvate celé mestá a obce tak ako ja, v takom prípade oceníte keď máte snímky offline u seba. Výhodou je rýchlejšie listovanie medzi obrázkami. Po dohode vám viem súbory stiahnuť a vyzdieľať.

vyhľadanie obce alebo mesta o ktoré máte záujem

Z tohto oka je pre shiahnutie potrebné iba URL počet snímkov, v tomto prípade 199 a samozrejme názov obce. Týmito hodnotami vhodne naplňte nasledujúci skript.

curl -s -G -H "User-Agent: Mozilla/5.0 (X11; Linux x86_64; rv:109.0) Firefox/115.0"
      -H "Accept: application/json, text/plain, */*"
      -H "Referer: https://slovakiana.sk/"
      -H "Origin: https://slovakiana.sk"
      -H "DNT: 1"
      --data-urlencode "searchText=Limbach - Hliník"
      "https://wcm.slovakiana.sk/censussheet/search?size=200&page=0&onlyUnBlackened=true"
      -o Limbach.json

Súbor Limbach.json je teraz plný údajov ktoré v zásade nepotrebujeme ale zato sú tam aj identifikátory ktoré sú potrebné k ďalšiemu postupu.

grep -o '"key":"cair-[^"]*"' Limbach.json | sed -E 's/"key":"(cair-[^"]*)"/https:\/\/slovakiana.sk\/scitacie-harky\/\1/' > import.txt

Týmto postupom získame súbor import.txt s kompletnými podstránkami pre danú obec v tvare "https://www.slovakiana.sk/scitacie-harky/cair-ko1d0rw"

vzorka podstránky

Vytvorte si spustitelný bash skript napriklad slovakiana.sh vložte nižie umiestnený kód a spustite. Získate tak súbor export.txt obsahujúsi všetky url

	
	#!/bin/bash

	input_file="import.txt"
	output_file="export.txt"

	# Vycisti export.txt pred zapisom
	echo "" > "$output_file"

	while IFS= read -r line; do
	    # Ziskanie ID z URL
	    object_id=$(basename "$line")

	    # Ziskanie doid-XXXXX
	    doid=$(curl -s "https://wcm.slovakiana.sk/culturalobject/$object_id" | jq -r '.digitalObjects[].id')

	    if [[ -n "$doid" ]]; then
	        # Ziskanie URL adries
	        urls=$(curl -s "https://wcm.slovakiana.sk/digitalobject/$doid" | jq -r '.content[] | select(.type=="IMAGES") | .images[].full.fileUrl')

	        # Zapis do suboru
	        echo "$urls" >> "$output_file"
	    else
	        echo "Chyba: Nepodarilo sa ziskat doid pre $line" >&2
	    fi
	done < "$input_file"
	
	

Teraz už iba posledný krok a to stiahnuť súbory.

wget -i export.txt

Stiahnuté obrázky viete prezerať cez IrfanView a pluginom na zobrazenie jpeg2000

Strarý už nefunkčný postup

Tento návod už nie je funkčný odkedy Slovakiana prepracovala web. Tým ktorým postup pomohol gratulujem. Ak máte vyextrahované pôvodné url k jp2 obrázkom tak sťahovanie je naďalej možné. Nový postup stiahnutia už nie je tak jednoduchý pre verejnosť a tak nemá zmysel ho publikovať. Vyhľadávanie už majú na lepšej úrovni takže pokračujte Slovakiana

Moravská obdoba je napríklad: Horavský zemský archív. Ten je v mnohom lepší a rýchlejší. Navyše obsahuje aj sčítacie operáty z 19-tého storočia.

Stránka Slovakiana uvoľnila sčítacie hárky z roku 1930 bez začiernenia a z roku 1940 so začiernením citlivých informácii. Keďže prehliadanie obcí bolo pre mňa zdĺhavé potreboval som mať snímky uložené na lokálnom disku. Dlhšiu dobu som uvažoval, ako sa k snímkom dostať, aby som nemusel robiť printscreeny obrazovky a jednotlivo ich ukladať. Po konzultácii s priateľom som zistil, ako sú snímky pomenované a následne som vytvoril postup, ako ich viem stiahnuť. Postup uvádzam nižšie. Keďže sú obrázky vo formáte JPEG 2000 a nie je možné zobraziť ich priamo vo Windowse používam na prezewranie Irfan View s nainštalovaným pluginom JPEG2000. Slovakina urobila veľký kus práce pri naskenovaní hárkov. Je však veľkou škodou, že vyhľadávanie cez web nie je ľahké a prehliadanie rýchlejšie.

Ak by bol v budúcnosti web slovakiana rýchlejší tak tento postup by nebol potrebný. Ďalšou nevýhodou je, že snímky nie sú uložené podľa súpisného čísla, čo pri väčších obciach spôsobuje problém pri prezeraní.

Ako prvé potrebujete stiahnuť zoznam snímkov. Ja na to používam prehliadač Mozilla Firefox, kde sa po slačení F12 dostanem k analýze sieťovej aktivity. Podľa prvého snímku si nastavím filter na zobrazenie obrazových súborov a výsledok po načítaní uložte ako HAR. Toto urobím pre všetky stránky, kde mám zapnutý najvyžší počet súborov.

nastavenie firefoxu pre stiahnutie har súboru

Po stiahnutí HAR súborov vyextrahujem všetky URL k obrázkom. Možností je viacero, a ja rád používam bash v linuxe. Tí z vás, ktorí nie ste v linuxe zbehlí možno budete vedieť napísať iný postup ktorý by som tu mohol uverejniť.
Z HAR súborov vyextrahujem príkazom cat a grep url snímkov a uložím ich ako front.txt:

extrakcia url k obrázkom

Pomocou programu vim editujem súbor front.txt a vymažem všetko, čo je pred http. V druhom kroku v tom istom súbore zmažem v-tile.jpg a nahradím ho v.jp2. Zmeny zapíšem a uložím.

úprava pre hromadnú dávku

V tomto kroku potrebujem skopírovať front.txt na rear.txt. Substitúciou nahradím _v.jp2 na _r.jp2 a uložím. Oba textové súbory uložím do jedného s názvom dávka.

pripravena dávka

Teraz mi už nič nebráni, aby som s príkazom wget stiahol všetky snímky, ktoré obsahuje súbor dávka.

proces sťahovania

Zoznam Slovenských miest

Nižšie uvádzam zoznam miest s uvoľnenými sčítacími hárkami. V pomenovaniach obcí je viacero záludnosti, ktoré vedú k podobnému alebo zhodnému výsledku.

Mestá sú uvádzané podľa vtedajšej štruktúry miest pod väčšie okresné mestá. Ak nejaké mesto neviete nájsť, pretože v roku 1930 bol názov úplne odlišný hľadajte pod väčšími mestami po rozkliknutí.