Dátové registre - zdroje údajov

Cieľom projektu bizdata.sk je poskytnúť konzistentné a aktuálne údaje o firmách, podnikateľoch a organizáciách pôsobiacich v podnikateľskom prostredí SR. Na tento účel sú použité údaje z nasledovných verejne dostupných databáz: Najnovší Register právnických osôb - RPO nie je využitý, nakoľko praktická využiteľnosť jeho API rozhrania je obmedzená registráciou subjektu, viazanosťou na statickú IP adresu ako aj minimálnou pridanou hodnotou. Charakter a rozsah údajov v jednotlivých registroch zobrazuje obrázok a ich prednosti resp. nedostatky sú z pohľadu tvorcov softwaru stručne popísané nižšie.

Obr. 1 - Verejne dostupné databázy prevádzkované štátnymi inštitúciami SR


ORSR - Obchodný register SR orsr.sk

Obchodný register je spolu so Živnostenským registrom historicky najstaršou prevádzkovanou databázou s verejne dostupnými údajmi o podnikateľských subjektoch. Obsahuje údaje len o firmách, družstvách a zahraničných (európskych) subjektoch. Jeho obsah vytvárajú tzv. "registrované súdy" príslušné podľa jednotlivých krajov .
Výhody
  • pomerne presné a aktuálne údaje
  • poskytuje zoznam denných zmien
  • historická platnosť záznamov od - do
  • zainteresované osoby - štatutári, spoločníci..
  • údaje o likvidácii, konkurze, likvidátoroch a nástupných subjektoch
  • imanie spoločnosti - podiely, vklady, akcie
  • rozhodnutia orgánov spoločnosti - valného zhromaždenia..
Nedostatky
  • absencia verejného API rozhrania
  • nezverejnený identifikátor osoby - znemožňuje presnú identifikáciu hľadanej osoby v registri
  • absentujú údaje o prevádzkach - nutné (nelogicky) dohľadať v živnostenskom registri
  • množstvo preklepov v textoch (napr. predmet činnosti) a dátumoch - neošetrené vstupy
  • nejasné pravidlá pre odosielanie požiadaviek (rate limit) - stránku často nevygeneruje
  • absencia fulltext vyhľadávania
  • neumožňuje systematické sťahovanie napr. podľa číselnej rady alebo identifikátorov
  • absencia moderných výstupov - PDF, MS Word, CSV, ..

ŽRSR - Živnostenský register SR zrsr.sk

Spolu s Obchodným je Živnostenský register historicky najstaršou prevádzkovanou verejnou databázou podnikateľských subjektov. Obsahuje údaje o podnikateľoch a firmách, ktoré majú otvorené prevádzky (prevádzkarne). V roku 2023 prešiel register zásadnou dizajnovou a funkčnou zmenou, ktorá si vyžiadala kompletné prepísanie parsera. Zo záhadných dôvodov register neumožňuje priamy prístup ku subjektom (permalinks) tak ako ostatné registre, ale každé vyhľadanie musí byť prevedené z vyhľadávacieho formulára na úvodnej strane. Zbytočne sa tým zvyšuje záťaž servera, nakoľko stiahnutie subjektu musí načítavať dve namiesto jednej URL linky.
Výhody
  • pomerne aktuálne údaje
  • obsahuje primárne údaje o prevádzkach - identifikovateľné adresy, predmet činnosti a zodpovedný vedúci, platnosť od - do
  • obsahuje údaje o SZČO ako aj právnych subjektoch s prevádzkou (rozsiahla databáza)
  • len základné identifikačné údaje o subjekte - IČO, meno, adresa, štatutárny orgán
  • fulltext vyhľadávanie
Nedostatky
  • absentuje zoznam denných zmien
  • absencia permaliniek
  • u niektorých typov záznamov chýba časová presnosť
  • absencia API rozhrania
  • absencia výstupov - PDF, MS Word, CSV..
  • nejasné pravidlá pre odosielanie požiadaviek (rate limit) - stránku niekedy nevygeneruje
  • neumožňuje systematické sťahovanie napr. podľa číselnej rady alebo identifikátorov, tzn. subjekt nemusí existovať v RUZ, hoci existuje v ŽRSR

RÚZ - Register účtovných závierok registeruz.sk

Najkvalitnejší zdroj údajov, ktorý ako prvý umožnil systematický prístup ku všetkým podnikateľským subjektom - firmám, podnikateľom a organizáciám. Vznikol cca v roku 2015 v rámci snahy o zvýšenie transparentnosti podnikateľského prostredia a boja proti korupcii. Prevádzkuje ho MF SR . Obsahuje údaje o viac ako 1,7 mil. subjektov, poskytuje verejné API rozhranie a štandardizované číselníky pre rôzny typy vyhľadávania. Dostupnosť a rýchlosť služby je veľmi dobrá, avšak príležitostne sa vyskytujú odstávky aj v priebehu pracovného dňa v nepredvídateľnej dĺžke.
Výhody
  • umožňuje systematické sťahovanie subjektov
  • poskytuje finančné údaje - účtovné závierky
  • zjednotené klasifikačné číselníky - predmet činnosti, kód okresu, kód veľkosti..
  • verejne dostupné API
  • prehľadná API dokumentácia
  • dobrý výkon servera
  • jasne popísané pravidlá pre početnosť požiadaviek (rate limits)
Nedostatky
  • často neaktuálne alebo odlišné údaje voči ORSR/ŽRSR (získané zo závierky), pokiaľ ich subjekt neaktualizoval aj v ORSR/ŽRSR
  • zmeny v dátach sa zverejňujú v dlhých intervaloch občas ako hromadné dávky (napr. 1x mesačne 80.000 zmien), čo znemožňuje rovnomerne rozložiť záťaž servera, je to technická výzva
  • dlhý cyklus aktualizácie údajov - typicky raz ročne po podaní účtovnej závierky
  • len základné identifikačné údaje subjektu - IČO, DIČ, NACE, adresa, meno, sídlo, predmet..
  • zneprístupnenie určitých typov údajov a typov subjektov z dôvodu ochrany údajov (GDPR od 2021 a ďalšie legislatívne zmeny), čo znemožňuje verejnú kontrolu činnosti subjektov

RPO - Register právnických osôb RPO

Register právnických osôb je najnovším spomedzi všetkých registrov a je súčasne najväčšou premárnenou príležitosťou na zjednotenie údajov o podnikateľskom prostredí v rámci elektronizácie verejnej správy. Prevádzkuje ho Štatistický úrad SR . Je nadstavbou Obchodného registra z ktorého preberá všetky údaje (aj s chybami) a pridáva ku nim jediný zaujímavý - konečného užívateľa výhod (KUV). Oficiálne poskytuje API rozhranie, ašak je prakticky nepoužiteľné, nakoľko vyžaduje nahlásenie IP adresy, z ktorej sa budú odosielať požiadavky. Je to podmienka výrazne limitujúca využitie služby pre tvorcov software, keďže množstvo poskytovateľov internetového pripojenia prideľuje IP adresy náhodne, napr. po resete routera. Vhodnejším riešením mohla byť autentifikácia prostredníctvom prideleného užívateľského API kľúča.
Výhody
  • je nadstavbou ORSR - preberá všetky údaje (vrátane chýb :-(o) a vracia ich v štruktúrovanej forme
  • obsahuje naviac údaje o KUV - konečných užívateľoch výhod
  • verejné API
Nedostatky
  • neprehľadná služba a nedoladená dokumentácia a bez praktických príkladov na implementáciu
  • vyžaduje registráciu a uvedenie IP adresy, z ktorej budú odosielané API požiadavky - nepraktické obmedzujúce pravidlo, vzniká dojem o snahu čo najviac obmedziť využívanie služby
  • server vracia odpovede s nepotrebne veľkým počtom subjektov a veľkosťou dát (400 - 500 kB v čase testovania 06/2024), čo naznačuje nevyladený výkon bez prevedenia záťažových testov - službu pravdepodobne využíva minimum subjektov

Zoznam chýb v dátových registroch / The Book Of Sins

Pri importe údajov z dátových registrov denne identifikujeme chyby. Väčšinou sa jedná o opakujúce sa preklepy v textoch alebo dátumoch. Mnohé z nich pripomínajú situáciu, keď sa úradník ešte len učí pracovať s počítačom a nevie správne zadať mäkčeň alebo dĺžeň. Taktiež pridanie kontroly na správny dátumový formát je triviálna záležitosť. S miernou dávkou irónie a vtipu sme preto nazvali vygenerovaný zoznam ako "Knihu hriechov" :-)