Jednou ze známek úspěšného výzkumu je publikace výsledků v uznávaném časopise, díky čemuž se o něm dozví široká vědecká obec. Nedávno se to podařilo našemu kolegovi, výzkumnému pracovníkovi Rudolfovi Wittnerovi, jehož článek zveřejnili v prestižním časopise Scientific Data vydávaném společností Nature Publishing Group.
Článek s názvem „Lightweight Distributed Provenance Model for Complex Real–world Environments“ se věnuje oblasti provenance information s cílem zvýšení reprodukovatelnosti výzkumu v oblasti živých věd.
Automatizované generování spolehlivé a důvěryhodné dokumentace
Jednou z hlavních charakteristik moderního výzkumu je, že zkoumané objekty jsou typicky předávané mezi organizacemi. Příkladem může být odebrání a zpracování biologického materiálu, z kterého jsou následně vygenerována data, která mohou být integrovaná s daty z jiných zdrojů a dále zpracována. Jednotlivé kroky celého procesu jsou typicky realizované různými typy organizací, jako jsou nemocnice, biobanky, analytické laboratoře, univerzity, výpočetní centra anebo soukromé společnosti (například farmaceutické firmy), mezi kterými jsou zkoumané objekty předávány.
Současným problémem je ověření původu a kvality předávaných objektů – biologických vzorků, dat anebo SW nástrojů. Protože dokumentace jednotlivých částí životního cyklu těchto objektů vzniká samostatně a v jiném časovém období (prodleva může být až několik roků), je velmi náchylná na chyby, často je neúplná, vůbec neexistuje nebo ji nelze dohledat. Jedním ze způsobů, jak je možné tento problém vyřešit, je automatizované generování spolehlivé a důvěryhodné dokumentace celého procesu, jinak označované také jako provenance information – a to je přesně cílem výzkumu Rudolfa Wittnera a jeho kolegů.
V publikované práci navrhli datový model pro dokumentaci experimentů v živých vědách, který umožní vytváření distribuované provenance pro relevantní procesy a související objekty a který následně umožní integraci z různých heterogenních zdrojů. Hlavní charakteristikou vytvořeného datového modelu je, že umožní prohledávání vytvořené provenance pomocí jednotného algoritmu, což dříve nebylo možné. Navrhnutý model taktéž počítá s případy, kdy části provenance nebudou existovat. Takové situace mohou nastat například v případě, že daná organizace nebude vytvářet dokumentaci podle vytvořeného modelu, anebo třeba přestane sama existovat.
Dalšími vlastnostmi modelu jsou možnost použít jej na popis digitálních i fyzických objektů, doménová i technologická nezávislost, a díky jeho jednoduchosti je možné jej využít pro širokou škálu oblastí od odběru biologického materiálu až po zpracování dat anebo trénink modelu umělé inteligence. Důležitou součástí publikované práce je navrhnutý postup pro verzování a správu provenance, což tvoří základ pro zajištění její autenticity, integrity a nepopiratelnosti, čímž se zajistí její důvěryhodnost. Navrhnutý datový model také počítá s ochranou citlivých údajů. Nemusí se přitom jednat jen o údaje týkající se dárců a jejich zdravotního stavu, ale i o informace provozní, týkající se například převozu patogenů (nakažlivých látek).
Model aplikovatelný v různých oblastech biomedicínského výzkumu
Ačkoli je datový model v rámci publikované práce prototypovaný pro konkrétní příklad z oblasti digitální patologie, cílem je jeho široké uplatnění v různých oblastech živých věd. Už v současnosti je model aplikovaný v projektu BY-COVID, jehož cílem je navrhnutí platformy pro integraci a zpracování výzkumných a zdravotnických dat týkajících se virových onemocnění, zahrnující například covid-19 anebo opičí neštovice. V plánu je pak ověření použitelnosti modelu v různých oblastech biomedicínského výzkumu, jako je třeba zpracování genetických dat, biologického materiálu nebo tkáňové inženýrství. A postupně budou přibývat i další oblasti, ve kterých bude datový model aplikován. Díky tomu, že je model taktéž předmětem standardizace v rámci Mezinárodní organizace pro standardizaci (ISO) pro oblast biotechnologií, má také velký potenciál pro budoucí uplatnění v průmyslu.
Vytvoření kompletní dokumentace relevantních procesů ve výzkumu by mohlo kromě možnosti ověření kvality, původu a vhodnosti (tzv. fitness-for-purpose) předávaných objektů přinést i další benefity. V závislosti od obsahu výsledné provenance by mohlo být možné ji použít například na určení propagace chyb ve výzkumu (třeba v případě odhalení chyby u odběru biologického materiálu chceme vědět, které další objekty jsou touto chybou ovlivněny), dohledávání původních dárců biologického materiálu v případě náhodných nálezů týkajících se jejich zdravotního stavu anebo na určení dotknutých dat v případě odvolání anebo aktualizace souhlasu se zpracováním osobních údajů.
Rudolf Wittner se výzkumu v oblasti provenance information věnuje třetím rokem, není tak divu, že má – dle svých slov – stále pocit, že je teprve na začátku cesty. Pokud by vás zajímalo dozvědět se více o jeho výzkumu, můžete si poslechnout nedávno natočený podcast, kde o práci vypráví se svým školitelem dizertační práce Petrem Holubem.
RNDr. Rudolf Wittner
Výzkumný a vývojový pracovník z divize kyberbezpečnosti a správy dat, absolvent Fakulty informatiky MU oboru bezpečnost informačních technologií a současný Ph.D. student. Zaměřuje se na výzkum v oblasti provenance information.