#PAGE_PARAMS# #ADS_HEAD_SCRIPTS# #MICRODATA#

Strojové učení v digitální patologii


Machine learning in digital pathology

With the advancing digitalization of pathology, the application of machine learning and artificial intelligence methods is becoming increasingly important. Research and development in this field are progressing rapidly, but the clinical implementation of learning systems still lags behind. The aim of this text is to provide an overview of the process of developing and deploying learning systems in digital pathology. We begin by describing the fundamental characteristics of data produced in digital pathology. Specifically, we discuss scanners and sample scanning, data storage and transmission, quality control, and preparation for processing by learning systems, with a particular focus on annotations. Our goal is to present current approaches to addressing technical challenges while also highlighting potential pitfalls in processing digital pathology data. In the first part of the text, we also outline existing software solutions for viewing scanned samples and implementing diagnostic procedures that incorporate learning systems. In the second part of the text, we describe common tasks in digital pathology and outline typical approaches to solving them. Here, we explain the necessary modifications to standard machine learning methods for processing large scans and discuss specific diagnostic applications. Finally, we provide a brief overview of the potential future development of learning systems in digital pathology. We illustrate the transition to large foundational models and introduce the topic of virtual staining of samples. We hope that this text will contribute to a better understanding of the rapidly evolving field of machine learning in digital pathology and, in turn, facilitate the faster adoption of learning-based methods in this domain.

Keywords:

artificial intelligence – machine learning – Image processing – Digital Pathology – Whole-slide images


Autoři: Tomáš Brázdil 1;  Vít Musil 1;  Karel Štěpka 1;  Adam Kukučka 1;  Rudolf Nenutil 2;  Adam Bajger 1;  Petr Holub 3
Působiště autorů: Fakulta informatiky, Masarykova univerzita, Brno 1;  Oddělení onkologické patologie, Masarykův onkologický ústav, Brno 2;  Ústav výpočetní techniky, Masarykova univerzita, Brno 3
Vyšlo v časopise: Čes.-slov. Patol., 61, 2025, No. 2, p. 58-69
Kategorie: Přehledový článek

Souhrn

S postupující digitalizací patologie se do popředí zájmu dostávají i aplikace metod strojového učení a umělé inteligence. Výzkum a vývoj v této oblasti je velmi rychlý, ale aplikace učících systémů v klinické praxi stále zaostávají. Cílem tohoto textu je přiblížit proces tvorby a nasazení učících systémů v digitální patologii. Začneme popisem základních vlastností dat produkovaných v rámci digitální patologie. Konkrétně pojednáme o skenerech a skenování vzorků, o ukládání a přenosu dat, o kontrole jejich kvality a přípravě pro zpracování pomocí učících systémů, zejména o anotacích. Naším cílem je prezentovat aktuální přístupy k řešení technických problémů a zároveň upozornit na úskalí, na která lze narazit při zpracování dat z digitální patologie. V první části také naznačíme, jak vypadají aktuální softwarová řešení pro prohlížení naskenovaných vzorků a implementace diagnostických postupů zahrnujících učící systémy. Ve druhé části textu popíšeme obvyklé úlohy digitální patologie a naznačíme obvyklé přístupy k jejich řešení. V této části zejména vysvětlíme, jak je nutné modifikovat standardní metody strojového učení pro zpracování velkých skenů a pojednáme o konkrétních aplikacích v diagnostice. Na závěr textu poskytneme rychlý náhled dalšího možného vývoje učících systémů v digitální patologii. Zejména ilustrujeme podstatu přechodu na velké základní modely a naznačíme problematiku virtuálního barvení vzorků. Doufáme, že tento text přispěje k lepší orientaci v rapidně se vyvíjející oblasti strojového učení v digitální patologii a tím přispěje k rychlejší adopci učících metod v této oblasti.

Klíčová slova:

umělá inteligence – strojové učení – Digitální patologie – Zpracování obrazu – Virtuální histologická skla

Cílem tohoto textu je přiblížit pracovní postupy při tréninku a použití učících modelů v digitální patologii. Navazujeme v tomto na předchozí článek, ve kterém jsme přiblížili strojové učení v obecné rovině. V tomto článku se více zaměříme na aplikace učících metod v patologii.

Mnoho problémů digitální patologie je zdánlivě řešitelných pomocí přímočarých postupů strojového učení. Většina diagnostiky se odehrává s použitím optického mikroskopu, který není příliš obtížné nahradit skenerem, s jehož pomocí patologové hledají známé morfologické vzory tkání. Naivně řečeno se jedná o standardní úlohy zpracování obrazu, které se vyvíjejí mnoho desítek let. Takto alespoň vypadala oblast umělé inteligence v digitální patologii zhruba před osmi lety.

Nicméně od té doby informatici společně s patology zjistili, že situace není tak jednoduchá, jak se zdá. Existuje mnoho problémů, které je nutné řešit. Nejprve je nutné si uvědomit, že samotné skenování preparátů není tak jednoduché, jak by se laikovi mohlo zdát. Následně je nutné naskenované obrázky ukládat, což je komplikováno jejich nadměrnou velikostí. Poté je nutné řešit mnoho problémů s kvalitou dat, jejich variabilitou s ohledem na různé skenery, postupy v jednotlivých zdravotnických zařízeních apod. Pro mnoho učících úloh je také nutné dodat anotace, tedy alespoň částečné vzorové řešení daného problému (např. přítomnost/nepřítomnost nádoru v daném vzorku).

Jakmile jsou data připravena, je možné trénovat učící modely. Ani to není tak jednoduché, přestože velká část úloh je skutečně standardního charakteru. Předně velké obrázky nelze naráz vložit jako vstupy současným učícím modelům. Analýza těchto obrázků je sama o sobě náročná na výpočetní zdroje, navíc mnoho úloh je mnohem obtížněji řešitelných, než na první pohled vypadají (například z důvodu nejasného zaměření na detail skenu oproti širšímu kontextu).

Nicméně předpokládejme, že se výše uvedené problémy podařilo vyřešit a dostali jsme systém relativně zdatně řešící naši úlohu. Co s ním ovšem můžeme dělat? Musíme jej dostat přímo na pracoviště patologů, pro které nesmí být použití takového systému další zátěží, ale pomocí. Zde se dostáváme k velmi náročné problematice nasazení učících systémů v praxi.

 

Navíc diagnostika onemocnění z mikroskopických obrázků tkání je sice nejdůležitější, ale zdaleka ne jedinou činností, kterou je nutné v patologii vykonávat. Mnoho času a úsilí zabere psaní lékařských zpráv, organizace laboratoří a koordinace s klinickými lékaři. I tyto činnosti lze alespoň částečně automatizovat, zejména s použitím současných velkých modelů, a učící metody v nich mohou přinést užitek.

V tomto textu se zaměříme na výše zmíněné problémy. Pojednáme detailně o sběru, ukládání a využití dat v typickém postupu digitální patologie. Následně se podíváme na aplikace učících metod pro analýzu obrazových dat. Nejprve obecně, jaké úlohy lze očekávat a jak se obvykle řeší, poté v kontextu konkrétních aplikací. Na závěr textu podáme stručný náhled na současný stav vývoje v digitální patologii, zejména ilustrujeme použití velkých základních modelů, metod pro virtuální barvení preparátů a 3D skenování, tedy digitální patologii bez klasických „skel”.

DATA V DIGITÁLNÍ PATOLOGII

Základem pro pochopení role strojového učení v digitální patologii je jeho zapojení ve workflow digitální patologie. Zejména se jedná o zajištění přísunu vhodných dat na vstupní straně a odečtení výstupů učících modelů na straně druhé. V této kapitole probereme základy digitální patologie s přihlédnutím k integraci systémů umělé inteligence.

Formulace úlohy

Vývoj učícího modelu začíná definicí konkrétního problému k řešení. Cílem je přesně specifikovat, jaký diagnostický nebo analytický úkol má model řešit a na jaké úrovni granularity má dávat odpovědi. Důležité je také předem stanovit metriky úspěšnosti, případně kritéria pro integraci učícího systému do diagnostického provozu. Od těchto požadavků se poté odvíjí správný výběr dat a případně tvorba anotací. V této části je nezbytná spolupráce a porozumění patologů a informatiků, aby byl daný problém na základě vybraných dat vůbec řešitelný. Podle požadované funkcionality systému a dostupnosti dat pak informatici mohou navrhnout různé způsoby řešení.

Základním a majoritním typem úloh jsou úlohy zpracování obrazu, konkrétně digitalizovaných mikroskopických snímků tkání. Těmto úlohám budeme v textu věnovat nejvíce pozornosti. Mezi další úlohy řešené v rámci digitální patologie patří zpracování nestrukturovaných dat, zejména čtení a generování lékařských zpráv, zpracování klinických a genetických dat, případně řízení workflow a řešení organizačních problémů. Otázek spojených s řešením těchto problémů se také v textu dotkneme, ale primárně se zaměříme na zpracování obrazu, což je nejdůležitější oblast z hlediska výzkumu i aplikací v digitální patologii.

Mezi typické obrazové úlohy patří úlohy segmentační, jako je vyznačení typu tkáně (epitel, nervová tkáň, sval, atd.), nebo konkrétní struktury (glomerulus, pankreatický ostrůvek), případně komplexnějších a vágněji definovaných struktur (nádor oproti nenádorové tkáni). Výstupy segmentačních úloh lze použít buďto přímo k navedení pozornosti patologa (detekce karcinomu prostaty v punkčních biopsiích, detekce uzlinových mikrometastáz), nebo jako výchozí anotace pro morfometrické aplikace. Pro trénink jsou typicky potřeba více či méně přesné anotace daných objektů. Pokud není požadována přílišná detailnost modelem vytvořené segmentační masky, pak může stačit velmi hrubá anotace, či dokonce jen globální informace, zda se přítomný objekt na snímku vyskytuje či nikoliv (např. při detekci nádoru). Při málo přesných anotacích pak typicky potřebujeme mnohem více dat pro dosažení podobné přesnosti výstupu.

Dalším typem úloh jsou úlohy klasifikační či regresní, které poskytují rozšiřující hodnocení vyšetřovaného preparátu jako např. míra rizika u luminálního karcinomu prsu, pravděpodobnost brzkého biochemického relapsu u karcinomu prostaty, pravděpodobnost pozitivní odpovědi na neoadjuvantní léčbu, přítomnost genomických aberací, atd. Pro řešení je třeba určit úroveň přesnosti (rozdělení do několika tříd, predikce číselné hodnoty). Kromě anotací jsou tedy potřeba ještě hodnoty cílených veličin.

Příprava dat vhodných pro trénink

Kvalita učícího systému v digitální patologii je silně závislá na kvalitě vstupních dat. Data musí být pečlivě vybrána, připravena a správně organizována. Pro úspěšný trénink učících modelů je potřeba dostatečně velká a reprezentativní datová sada. Pokud jsou v datech zastoupeny pouze určité typy patologií, model se naučí rozeznávat pouze tyto konkrétní případy a může selhávat u vzorků, které se mírně liší. Proto je důležité zajistit, aby dataset obsahoval široké spektrum biologických alterací a vzorků od různých pacientů. Důraz se klade na vyváženost mezi třídami (např. u nádorových onemocnění musí být zastoupeny benigní i maligní případy v dostatečném množství), aby se předešlo zkreslení modelu.

Dalším důležitým faktorem je standardizace barvení. Různé laboratoře používají různé barvicí protokoly a nastavení skenerů, čímž může mezi snímky vznikat značná variabilita. Ta může být pro učící systém problémem, protože modely se mohou naučit rozlišovat spíše rozdíly v barvě než skutečné patologické změny. Standardizace barvicích postupů, korekce skenerů nebo algoritmická normalizace barev je proto důležitým krokem v přípravě dat. Vždy je vhodné napřed zkonzultovat několik naskenovaných vzorků s informatiky před zahájením přípravy datasetu.

Kromě toho je třeba zvážit, zda bude výsledek použit pouze pro výzkumné účely, nebo zda se výhledově počítá s aplikací v rutinním provozu. Takový záměr je podstatně náročnější z hlediska potřebné kvality, množství a morfologické heterogenity dat. Ideální jsou v tomto případě multicentrická data kombinující preparáty z různých laboratoří s variabilními protokoly pro přípravu vzorků a různými skenery.

Data by měla být systematicky strukturována. Správné pojmenování souborů a uchovávání metadat (např. typ barvení, použitý skener, přítomnost artefaktů) může být zásadní pro pozdější analýzu a interpretaci výsledků. Pro vyhodnocení funkce učících systémů je zásadní korektní rozdělení datasetu na trénovací a testovací. Například by obě sady měly obsahovat podobné distribuce dat a nesmí obsahovat různá data téhož pacienta. Na to je dobré myslet již ve fázi výběru dat a metadat.

Kromě dat získaných přímo v laboratořích lze využít i veřejně dostupné databáze, jako je The Cancer Genome Atlas (TCGA) (1), která obsahuje tisíce histopatologických snímků s doprovodnými klinickými a genetickými informacemi. Tyto externí zdroje mohou pomoci při tréninku a testování učících modelů, zejména pokud není k dispozici dostatek vlastních dat. Při jejich využití však musíme dbát na konzistenci s interními daty, například sjednocením barevnosti nebo anotací.

Zásadní je samozřejmě kvalita snímků, metadat a případně anotací. I při pečlivém výběru dat je nutné provést další kontrolu a předzpracování. Detailněji se těmto krokům budeme věnovat v následujících kapitolách.

Všechny tyto kroky vedou k tomu, že učící model bude mít co nejkvalitnější vstupy, které mu umožní dosáhnout dobrých výsledků. Patologové hrají v tomto procesu klíčovou roli, protože mohou pomoci nejen s výběrem kvalitních snímků a anotací a identifikací potenciálních problémů v datech. Pokud jsou data špatně připravena, i sebelepší model nebude podávat spolehlivé výsledky. Proto je nezbytné, aby patologové a vývojáři učících modelů úzce spolupracovali na tvorbě datasetů, které budou co nejlépe odrážet reálné klinické scénáře.

Skenování

Skenery pro digitální patologii jsou specializovaná zařízení postavená na základě optického mikroskopu. Musí se vyrovnat s extrémními nároky na rychlost a přesnost snímání i na průběžné zpracování mohutného datového toku při vytváření souvislého obrazu skládáním snímků jednotlivých zorných polí. Oproti výchozím motorizovaným mikroskopům s videokamerou a digitalizační kartou v PC používají po třicetiletém vývoji dnešní skenery speciální technologie, jako posun preparátů na magnetickém poli (KFBIO), průběžné ultrarychlé automatické ostření a dedikované objektivy s extrémně přesnou korekcí distorze zorného pole (Leica), nebo expozici pomocí stroboskopické výbojky při kontinuálním posunu preparátu (3DHISTECH). V neposlední řadě je u nich vyžadována vysoká mechanická spolehlivost při zátěži stovkami histologických preparátů denně s uvažovanou životností 5-10 let.

Standardem pro skenování je použití objektivu 20x 40x s výsledným rozlišením kolem 0,25 mikrometru na pixel při jedné rovině ostření. Běžná rychlost skenování se v takovém případě pohybuje kolem 1-3 minut pro průměrný preparát. Taková virtuální skla jsou dobře použitelná pro rutinní bioptickou diagnostiku. Některé skenery nabízí i vyšší rozlišení, případně snímání ve více rovinách ostrosti. Vzhledem k násobnému prodloužení doby skenování a velkému objemu dat je jejich použití reálné pouze pro speciální účely. Existují i skenery s objektivy 100x a automatickým dávkováním imerze, použitelné pro skenování signálů fluorescenční in-situ hybridizace, snímání ve více kanálech a rovinách při delších expozicích je však enormně časově náročné.

Skenery určené pro plně digitalizovaný rutinní provoz laboratoře jsou zpravidla plně automatické, mají kontinuální plnění a používají nosiče preparátů kompatibilní s běžnými montovacími automaty. Součástí digitalizace bývá i průběžná analýza kvality skenů založená na metodách umělé inteligence, upozorňující uživatele na problematická skla. Z hlediska tvorby učících modelů je důležité správné nastavení barevných profilů.

Poslední věcí, na kterou je nutné myslet, je fyzické umístění skeneru, který musí být součástí celkového workflow a jeho propojení s úložištěm snímků, které mají být analyzovány. Tyto zdánlivě banální otázky mohou přímo ovlivnit použitelnost skeneru v provozu.

Anotace

Anotace jsou klíčovým prvkem v procesu trénování a validace učících modelů. Anotace mohou zahrnovat různé typy dat, od pouhého zhodnocení celého případu, případně zhodnocení jednotlivých v případu zahrnutých snímků, přes jednoduché označení oblastí zájmu až po komplexní segmentace celých struktur. Typem dat může jít pouze o binární informaci (pozitivní/negativní), číselný údaj na nějaké škále, slovní zhodnocení, či vyznačení regionů. Podle úrovně přesnosti rozlišujeme různé typy anotací.

Anotace na úrovni případu (case-level)

Jde typicky o přiřazení diagnózy pacientovi. Například při detekci karcinomu prostaty můžeme mít o pacientovi 5-10 snímků, které patolog prohlédl a stanovil výslednou diagnózu. Pokud však zároveň nezaznamenal přítomnost karcinomu na jednotlivých snímcích, víme pouze, že některé snímky jsou pozitivní, ale zdaleka to nemusí být všechny. Tento typ informace je samozřejmě z hlediska strojového učení nejméně konkrétní a trénink s tímto typem informace bude vyžadovat největší množství dat.

Anotace na úrovni snímku (slide-level)

V tomto případě jsou vyšetřeny jednotlivé snímky a je pro ně zaznamenán nález. Podobně platí, že pokud je snímek označen za pozitivní, nemusí to znamenat, že celý snímek obsahuje pouze karcinom. Tento typ anotací spolu s anotacemi na úrovni případu jsou typicky dostupné z rutinního provozu a nevyžadují další práci patologů navíc.

Hrubé lokální anotace (oblasti, polygony)

Pro jemnější označení struktur na snímku je již typicky třeba ruční práce v nějakém prohlížeči, který je pro takové anotování vybaven anotačními nástroji (viz kapitole Aplikační prostředí). Zde pak máme opět volbu mezi různě přesnými nástroji. Podle typu úlohy a požadované přesnosti mohou postačit pouze velmi hrubá vyznačení oblastí např. pomocí polygonů nebo použitím štětců s velkým průměrem.

Detailní lokální anotace (segmentace na úrovni pixelu)

Pokud to daná úloha vyžaduje, může být výhodné ručně označit velmi jemné struktury. Tento typ je pochopitelně časově velmi náročný a je na místě zvážit, zda nejde danou segmentaci vytvořit poloautomaticky či pomocí dvojího barvení.

Bodové anotace

Jde o specifický případ, kdy patolog označuje struktury pouze umístěním jednoho bodu. Často se používá v kombinaci s automatizovanou segmentací, kdy například patolog umisťuje body dovnitř jader a rozděluje je pouze na pozitivní a negativní.

Automatické anotace

Při tvorbě anotací můžeme využít i nástrojů, které používají obecné segmentační modely pro automatické obtažení souvislých struktur. Dále je možné využít již existujících specializovaných segmentačních modelů pro zjemnění hrubých anotací poskytnutých patology. Například, pokud máme pouze informaci o přítomnosti karcinomu na úrovni snímku, můžeme segmentováním epitelu zjevně vyloučit z pozitivní třídy neepitelové oblasti. Dalším typem je použití vícenásobného barvení téhož preparátu (či sousedního řezu), které se na sebe následně softwarově zarovnají (viz. například (2)). Můžeme tak například získat podkladové H&E snímky a cytokeratinové masky označující epitel (obr. 1).

 

Obr. 1. Epitelová maska (zelená) vygenerovaná na skenu H&E barveného preparátu modelem natrénovaným pomocí sekvenčního barvení H&E-cytokeratin.

 

Obr. 2. Pyramidová struktura digitálních snímků. Obrazová data jsou uspořádána v několika úrovních rozlišení od náhledů po maximální přiblížení umožňující plynulé přibližování vybraných částí snímku. Obrázek převzatý z (5).

Ukládání dat

Digitální patologie generuje obrovské objemy dat, které je nutné efektivně ukládat a spravovat.

Základem jsou snímky whole-slide imaging (WSI), které mají vysoké rozlišení v řádu stovek megapixelů a desítek gigapixelů, dle rozlišení a nastavení skeneru a vlastností skenovaného preparátu. Výsledné soubory, do nichž se sken ukládá, mohou zabírat několik gigabajtů dle použitého formátu a způsobu komprese dat.

Historicky se ukládání dat v patologii začala věnovat od roku 2006 skupina DICOM, etablovaná standardizační skupina v oblasti digitalizace radiologie. V důsledku řady problémů, od patentových práv (3) a ochrany duševního vlastnictví (DICOM declarace “Intelectual Property”: https://dicom.nema.org/dicom/ dicomwsi/#IntellectualProperty) až po některé technické problémy (ukládání z-stacků či komplexních anotací) byla ale adopce standardu minimálně do roku 2020 chabá. Mezitím došlo k rozvoji proprietárních formátů různých výrobců, což přineslo řadu problémů s interoperabilitou a uzamčením uživatelů u jednotlivých dodavatelů (vendor lock-in). V současnosti se konsensus směrem k využití DICOMu (4) zesiluje a velké mezinárodní iniciativy jej začínají podporovat.

Ukládání obrazových dat

V první řadě je třeba ukládat samotná obrazová data, tj. informace o jednotlivých obrazových bodech. Prakticky je třeba uložit pro každý obrazový bod informaci o intenzitě v jednotlivých barevných kanálech. Běžně pracujeme s modelem RGB (červená – zelená – modrá) a data se ukládají v 8, 10, 12, 14, nebo 16 bitech na barevný kanál, tj. pro 8 bitů je možno uložit 256 úrovní jasu v daném kanálu, pro 16 bitů je to už 65 535 úrovní. Celkový počet barev je pak dán součinem těchto čísel a počet kanálů – při 8 bitech RGB lze vyjádřit až 16,8 milionu barev, při 16 bitech RGB pak 281,5 bilionu barev. Jakkoli se tato čísla mohou jevit nesmyslně velká, jejich význam se projeví zejména při následném zpracování obrazu, kdy je nutné udržet dostatečně jemnou informaci o přechodech barev. Pro zpracování barev je také důležité mapování čísel do reálného prostoru barev – kde se pracuje s barevnými profily, s ohledem na gamut zařízení, na němž jsou data snímána nebo zobrazována. Gamut určuje, jak velkou část kompletního rozsahu barev je schopno dané zobrazení sejmout nebo zobrazit.

Dalším aspektem specifickým pro ukládání velkých obrazových dat je využití pyramidové struktury obrazu, v rámci které se ukládá více verzí téhož snímku v různých rozlišeních a v každé vrstvě se z důvodu efektivity ukládá pouze rozdíl proti vrstvám předchozím (obr. 2). Tato struktura umožňuje rychlejší prohlížení a zoomování, protože je možné pro náhled používat menší verze obrazu a detailní zobrazení načítat až v případě potřeby.

Podstatný je rovněž výběr kompresních algoritmů. Zatímco bezeztrátová komprese (např. PNG nebo bezeztrátový režim JPEG2000) garantuje naprostou shodu s původním obrazem, prakticky se využívá zejména ztrátová komprese, aby se objem ukládaných dat udržel na prakticky zvládnutelné úrovni. Ztrátovost kompresí využívá možnosti zredukovat množství ukládané informace, která je pro lidské oko méně podstatná. U ztrátových kompresních algoritmů je možno nastavit cílovou kvalitu obrazu a je potřeba zvážit vhodné nastavení nejen s ohledem na lidské oko, ale i na algoritmické využití obrazové informace ve zpracování obrazu. Zde je nutné zdůraznit, že učící algoritmy mohou v obrázcích hledat zcela odlišné vzory od těch, které k diagnostice používají patologové. To znamená, že i když komprimovaný obrázek vypadá (téměř) stejně jako originál z pohledu člověka,  může mít drasticky odlišný význam z pohledu učícího algoritmu. Toto vlastně platí pro libovolné obrazové transformace a je třeba brát tento problém v potaz při práci s učícími metodami.

Výsledná obrazová informace se pak ukládá do „obálkového formátu”, ať už formátu s otevřenou specifikací, jako je TIFF nebo DICOM, tak i do proprietárních formátů, které se v digitální patologii zabydlely, např. SVS (Aperio), NDPI (Hamamatsu), MRXS (dříve Zeiss a dnes 3DHISTECH). Běžné formáty jako JPEG nebo PNG mají i vlastní obálkové formáty, které ale povětšinou nejsou ideální pro ukládání skutečně rozsáhlých obrazových dat, protože nepodporují ukládání formou obrazové pyramidy. U proprietárních formátů je bohužel riziko jejich dlouhodobé neudržitelnosti. V odborné komunitě byly pomocí reverzního inženýrství vytvořeny knihovny OpenSlide (6) a Bio-Formats (7), s jejichž pomocí je možné většinu proprietárních formátů číst a kterou využívá řada otevřeného i uzavřeného softwaru pro zpracování dat v digitální patologii. Je třeba však pracovat s rizikem, že pokud výrobce změní specifikaci formátu, čtení pomocí této knihovny může přestat fungovat nebo se stane nespolehlivým.

Ukládání metadat

Během procesu digitalizace sklíček se zaznamenávají četné technické parametry, které jsou klíčové pro zachování kvality a přesnosti výsledných snímků. Mezi tato metadata patří informace o uložení dat, jako barevný prostor, hloubka bitů, použité kompresní algoritmy, ale také rozlišení skenování (v µm/px), specifické nastavení optiky a osvětlení. Tyto informace nejen umožňují správné zobrazení a reprodukci obrazu, ale také slouží k následnému srovnání a analýze dat v rámci různých systémů. Učící algoritmy jsou obecně velmi citlivé na nastavení různých parametrů, zejména rozlišení. Například pokud je rozlišení dat v tréninkové a testovací množině odlišné od rozlišení dat použitých v provozu, systém může dosahovat mnohem horších výsledků, než bylo deklarováno autory systému, protože učící systém je jednoduše adaptován pouze na jedno přesné rozlišení.

Do metadat lze také zahrnout i náhledy, jež slouží jako rychlý vizuální přehled bez nutnosti načítat celý soubor, které jsou v digitální patologii někdy generovány specifickou kamerou.

Dalším typem metadat, resp. souvisejících dat jsou anotace. Anotace mohou být typicky buď vektorové, např. objekty typu bodů či polygonů, nebo mohou být rastrové, např. obrázky překrývající sken znázorňující pravděpodobnosti výskytu daného jevu (např. karcinomu).

Ukládání a přenos dat

Ukládání dat je možné lokálně, ale typicky se pro objemy dat produkovaných v rámci digitální patologie řeší formou ukládání dedikovanou výkonnou infrastrukturu, která může být buď součástí laboratoře, nebo může být sjednána externě, například do cloudových služeb poskytující úroveň zabezpečení potřebnou pro zpracování citlivých dat. V každém případě je třeba mít na paměti, že digitálně patologické snímky je třeba považovat za osobní data s odpovídající úrovní zabezpečení technickými a organizačními prostředky. V případě externích kontraktů v rámci Evropy se jedná o relativně standardizovaný vztah správce-zpracovatel, který je řízený v rámci GDPR, ale je třeba dbát opatrnosti v případě globálních cloudových poskytovatelů, u nichž by data mohla skončit mimo země, pro něž je GDPR závazné.

Návaznost na pacientská data

Důležitou roli hrají také data, která propojují samotný digitálně skenovaný materiál s identifikačními informacemi o vzorku a pacientovi. Tato vazba může být součást dat např. formou čárového nebo QR-kódu nebo vložena formou strukturovaných metadata např. ve formátu DICOM. Díky těmto propojením lze snímky snadno integrovat do laboratorních a nemocničních systémů, což umožňuje efektivní vyhledávání, sledování historie a podporu klinických rozhodnutí.

Kontrola kvality dat

Důležitým aspektem práce s rozsáhlými datovými soubory je řízení kvality (quality control, QC, (8)). V případě digitální patologie se setkáváme s datovými sadami pocházejícími z různých pracovišť, pořizovanými v různých časech a různými variacemi protokolů. Podle zlidovělého rčení „smetí dovnitř, smetí ven“ mohou být výstupy systému pouze tak kvalitní jako jeho vstupy, a proto je důležité kvalitu vstupních dat prověřit a případná nekvalitní data označit nebo přímo odfiltrovat. Při použití umělé inteligence se nabízí dvojí základní použití QC: Ve fázi tréninku modelů je žádoucí modely trénovat na kvalitních datech, a i ve fázi inference je vhodné se vyhnout poškozeným oblastem snímků se sníženou nebo žádnou diagnostickou hodnotou, které jsou pro učící modely neočekávané (tzv. „mimo distribuci“).

Vzhledem k tomu, jak komplexní je proces přípravy digitalizovaného histopatologického snímku, může se vyskytnout celá škála problémů s kvalitou. Ve fázi fyzické přípravy vzorku může dojít k potrhání nebo přeložení částí tkáně přes sebe (obr. 3C, 3D), ke kontaminaci vzorku nečistotami (obr. 3H), případně ke vzniku bublin pod krycím sklíčkem (obr. 3F). V některých případech může být část preparátu značena barvivem, které slouží jen pro orientaci a nemá přímé diagnostické využití (obr. 3B, 3C).

Během samotného procesu barvení vzorku může dojít k variacím způsobeným odchylkami v použitém protokolu, rozdíly v barvení mohou být způsobeny i proměnlivými koncentracemi chemikálií nebo okolními podmínkami (např. teplotou). I při použití shodné tkáně, barviv a protokolu mohou různé laboratoře vyprodukovat snímky s rozdílnou barevností (9). Může se také stát, že se použitá barviva na část tkáně dostatečně nenavážou a část WSI zůstane neobarvená (obr. 3G).

K dalším problémům může dojít během samotného snímání a digitalizace. Různé modely skenerů produkují WSI s rozdílnou barevností, záleží také na nastavení konkrétního přístroje. Nevhodné nastavení může způsobit nejen rozdíly v barevnosti, ale i přímo vynechání některých dlaždic snímku. Během snímání se dále mohou objevit problémy se zaostřením (obr. 3E), a to jak globální, tak lokalizované (způsobené např. tím, že zvlněná tkáň neleží celá v rovině zaostření). V této fázi se už také často na sklíčku vyskytují značky natištěné nebo ručně dopsané patologem (obr. 3A).

Je až překvapivé, jak tyto nežádoucí artefakty mohou nepříznivě ovlivnit výkon učícího systému. Učící modely jsou například dosti citlivé i na relativně malé rozdíly v barevnosti, přestože lidské oko je registruje jen okrajově. Proto je důležité tyto artefakty detekovat a zasažené oblasti z datové sady vyloučit, korigovat, nebo alespoň označit a případně kvantifikovat (např. vyjádřit odchylku zjištěného barvení od ideálního). Při používání rozsáhlých datových sad je možné tyto doprovodné informace vygenerovat při prvotním zařazení WSI do datové sady. Údaje o kvalitě (např. seznam dlaždic zasažených artefakty nebo skóre zaostření v jednotlivých částech snímku) pak mohou dané WSI doprovázet v celém procesu a být k dispozici učícím modelům.

Kontrolou kvality musejí projít rovněž všechna metadata a anotace. Informace o případech a snímcích jsou v rámci výzkumu často uchovávána a sdílena jako excelovské tabulky. Je potřeba dbát na správné verzování těchto dokumentů, aby bylo zřejmé, která data jsou aktuální. V případě obrazových formátů ukládajících data napříč několika soubory je také nezbytné, aby byly vždy přenášeny a uchovávány všechny k sobě patřící soubory společně a byla tak zachována integrita snímku.

 

 

Obr. 3. A) Kontaminace (vlákno). B) Barevně označený okraj preparátu. C) Barevně označený okraj preparátu, pokrčená tkáň. D) Přehnutá tkáň. E) Zaostření mimo rovinu preparátu. F) Bubliny pod krycím sklíčkem. G) Špatně přichycené barvivo. H) Jinak nastavený nebo jiný skener, nečistoty.

Naprosto klíčové je, aby snímky a jejich metadata (údaje z tabulek) a případně lokální anotace byly jednoznačně spárovatelné. Je klíčové, aby informatici správně porozuměli všem použitým značkám a popisným zvyklostem. Musí se eliminovat snahy něco „uhodnout”, vždy by mělo dojít k vyjasnění pojmů mezi patology a informatiky, jakkoliv může jedna ze stran danou věc považovat za „zřejmou”.

Jelikož jsou tabulky většinou vytvářeny ručně, obsahují nevyhnutelně množství chyb či překlepů, která znemožňují automatizované zpracování. Například údaj o negativitě může být zároveň označen jako No, 0 (číslo), „0” (řetězec), O (velké písmeno o), v názvech a popiscích se mohou vyskytovat spojovníky a mínusy místo pomlček atd.

Explorace a předzpracování dat

Explorace dat je první krok při analýze datasetu, který pomáhá pochopit jeho strukturu, kvalitu a případné problémy ještě před trénováním učících modelů. V digitální patologii zahrnuje vizuální i statistické metody pro zkoumání snímků, metadat a anotací. Základní explorace zahrnuje kontrolu rozložení tříd (např. poměr benigních a maligních vzorků), případně distribuce veličin (Ki67 index pozitivity) v datasetu, statistiky velikostí anotovaných oblastí apod. Dobře provedená explorace nám umožní odhalit případné odchylky či zkreslení v datasetu (např. výrazná dominance některé třídy) a přijmout případná opatření jako změnu metodiky výběru dat nebo přizpůsobit metody strojového učení.

Vzhledem k variabilitě barevností snímků (zejména u dat pocházejících z různých pracovišť, ale do jisté míry i u dat z jednoho zdroje) je vhodné na to systém připravit. To lze učinit dvěma přístupy, nebo jejich kombinací. Prvním přístupem je barevná normalizace snímků (10,11), při níž je barevnost snímku transformována tak, aby více odpovídala barevnosti, jakou očekává používaný učící model. Druhým přístupem je naopak dosažení vyšší robustnosti učícího modelu tím, že je natrénován na tzv. augmentovaných vstupních datech – datová sada je rozšířena o varianty původních snímků s různě upravenou barevností, aby model dokázal od mírných odchylek barevnosti abstrahovat (12). V obou případech může jít jak o jednoduché transformace jasu nebo kontrastu (např. pro korekci expoziční doby skeneru), tak o sofistikovanější transformace využívající rozklady podle jednotlivých použitých barviv.

Augmentace dat je obecně metoda umělého rozšíření datasetu pomocí různých transformací původních dat, aniž by se změnil jejich význam. Tím lze efektivněji využít omezené množství dostupných dat a snížit riziko přeučení modelu na specifické vzory v datasetu, které nejsou jinak obecně platné. Kromě úpravy barevnosti se používají běžné geometrické operace jako otočení, či překlopení.

APLIKAČNÍ PROSTŘEDÍ

Software pro digitální patologii aktuálně prochází bouřlivým vývojem, srovnatelným snad se situací v radiologii zhruba před 20-30 lety. Lze pozorovat trend přechodu od uzavřených firemních aplikací, původně vyvíjených výrobci skenerů, k otevřeným interoperabilním řešením, poskytovaným nezávislými dodavateli softwaru a služeb.

Prohlížení dat

Aby mohl patolog s uloženými daty pracovat, musí použít specializovaný software. Procházení snímků podle názvů na úrovni jednotlivých pacientů nebo skenů již dnes dokáží zprostředkovat laboratorní informační systémy (LIS). Ty však často končí u zobrazení názvu skenu, základních metadat. Prohlížení snímku v jeho celistvosti je kvůli již zmíněné struktuře uložení třeba realizovat v jiné, specializované aplikaci, často s LIS nepropojené.

Bezplatné aplikace

Cenově nejdostupnějším způsobem, jak pracovat s digitálními snímky, je využít některý z volně dostupných open-source prohlížečů, nebo si stáhnout prohlížeč poskytovaný zdarma výrobcem skeneru. Hlavní nevýhodou prohlížečů poskytovaných výrobci skenerů zdarma je omezení na snímky uložené ve formátu, ve kterém ukládá jejich skener.

Naproti tomu stojí komunitně vyvíjené open-source aplikace jako je QuPath, CytoMine, Ilastik, Cell Profiler nebo Orbit. Podpora datových formátů, ve kterých bývají digitální snímky ukládány se liší. Například QuPath zvládne pracovat s většinou formátů, na které lze v praxi narazit, oproti tomu např. Ilastik vyžaduje použití speciálního formátu OME-Zarr a některé jiné nástroje zvládnou pracovat pouze s malými výřezy snímků, které si uživatel musí připravit ručně ve formátech, jako je JPEG.

Nutno dodat, že s jistou mírou úsilí lze často limitace obejít díky rozšířením různých programátorů/nadšenců, kteří na internetových fórech ukazují, jak si software přizpůsobit. To však často pro patology hledající usnadnění rutiny není přípustné.

Prohlížeče obecně disponují širokou paletou nástrojů, od základních, jako je úprava kontrastu a barev, přes vytváření anotací a měření až po základní metody strojového učení na základě manuálních anotací jednotlivých snímků.

Nevýhodou bývá uživatelská náročnost při používání pokročilých funkcí. Například pro poloautomatické segmentování metodami strojového učení musí uživatel v rozhraní „naklikat” správný typ anotací, nastavit nepřeberné množství parametrů, vybrat si z nabídky několika algoritmů, které nemají bližší popis, a nakonec vše spustit. Nutnost manuálně přiřazovat anotacím kategorie činí podobné úlohy zdlouhavými a nepříjemnými. Nástroje jako Ilastik, jsou zase omezené na jediný datový typ, což vyžaduje, aby uživatel nejprve své snímky převedl z formátu, ve kterém je ukládá skener do formátu, který knihovna podporuje. Otevřeně vyvíjené nástroje také zpravidla postrádají certifikaci pro použití ve zdravotnictví.

Některé společnosti soustředící se na širší zajištění provozu patologických pracovišť také nabízejí aplikace k prohlížení snímků zdarma. Příkladem je společnost Pathomation. Bezplatně lze také stáhnout a použít aplikaci ImageScope společnosti Leica Biosystems.

Komerční řešení

Komerční uzavřená řešení jsou velmi rozmanitá a v posledních letech dochází k jejich rychlému zlepšování, především v oblasti uživatelské přívětivosti a podpory specifických pracovních postupů patologů. Hlavní výhodou těchto systémů je zpravidla jejich certifikace podle standardu CE-IVD, což znamená, že splňují požadavky pro klinické použití v Evropě. Mezi nejvýznamnější certifikovaná řešení patří PathoZoom® od společnosti SmartInMedia, HALO® od Indica Labs, Navify® vyvíjený společností Roche, PIMSDX od Pathomation nebo Concentriq® od společnosti Proscia. Běžnou praxí je dodání prohlížeče jako součásti úplného řešení zahrnujícího skener a další přístroje, datové úložiště v cloudu a napojení učících modelů.

Komerční řešení již často řeší také autorizaci přístupu ke snímkům a protokolování aktivit uživatelů. Lze si tak například zobrazit, které snímky, který uživatel otevřel, které části snímku vyšetřil a při jakém přiblížení. Lze se tak vyvarovat opakovanému nahlížení na již odbavené části snímku. Řízení uživatelského přístupu také umožňuje sdílení uživatelských anotací v rámci pracoviště a otevírá možnosti bezpečného kolaborativního odečítání.

Propojení zobrazovacích, analytických a datových aplikací

V poslední době se v rámci komerčních řešení objevují stále sofistikovanější aplikace, které integrují pokročilé analytické nástroje, například pro automatizované počítání jader, měření velikostí buněk či analýzu různých obrazových vlastností v ručně označených oblastech. Důležitou součástí moderních systémů je také schopnost prezentace výsledků generovaných umělou inteligencí, což patologům usnadňuje práci a zpřesňuje diagnostické procesy. Jedná se zejména o lokalizaci rakovinných struktur na snímcích, kterou musí aplikace zobrazit přehledně.

V radiologii je standardní použití tzv. systému PACS (Picture Archiving and Communication System), na který je napojen veškerý software k organizaci a prohlížení dat, včetně analytických nástrojů umělé inteligence. Na rozdíl od radiologie, kde jsou taková řešení PACS běžná, je v patologii zatím na překážku daleko menší standardizace datových formátů a předávacích protokolů. Implementace formátu DICOM není dosud zcela uspokojivě dořešena, nicméně pravděpodobně představuje budoucnost v tomto oboru.

Různorodost softwarových řešení napříč trhem se snaží usměrnit např. konsorcium EMPAIA (https://www.empaia.org), které poskytuje otevřenou referenční implementaci pro potenciální poskytovatele systémů pro práci s patologickými daty v klinické praxi.

Prezentační software k plnohodnotnému provozu vždy vyžaduje spolupráci s laboratorním informačním systémem, řešenou obousměrnou komunikací standardním protokolem HL7/ FHIR (informace o případu, preparátech, tagování pro zpracování pomocí umělé inteligence). Není výjimkou, že poskytovatel umožňuje uživatelům výběr z aplikací více dodavatelů, řešících stejnou úlohu, případně jim umožňuje i vývoj a použití vlastních aplikací umělé inteligence, ovšem integrace různých systémů je kvůli jejich zmíněné různorodosti často nákladné a zdlouhavé.

Patologům je k dispozici řada komerčních řešení, některé z nich již i s CE/IVD certifikací, více či méně otevřených a interoperabilních, převážně nezávislých na výrobcích skenerů (13). Některá tato řešení jsou vázána na cloud poskytovatele služeb, jiná umožňují instalaci na cloud zvolený zákazníkem, případně na lokální server. Vzhledem k probíhající expanzi není na tomto místě reálné podat jejich vyčerpávající přehled. Za všechny můžeme jako typický příklad uvést firmu Proscia (https://proscia. com/ai/precision-medicine-portfolio), které nabízí v rámci svého produktu Concentriq (https://proscia.com/concentriq-platform) kromě automatické kontroly kvality i možnost přístupu k více než stovce specializovaných učících modelů.

Dle prezentace na stránkách firmy Proscia je aktuálně šestnáct z nich certifikovaných pro diagnostiku a pocházejí od pěti dodavatelů (Mindpeak, Visiopharm, Ibex, DoMore, Stratipath). Řeší typické úlohy prioritně poptávané v patologii, jako je detekce a grading karcinomu prostaty v punkčních biopsiích, detekce uzlinových metastáz, kvantifikace imunohistologických barvení (steroidní receptory, HER-2, Ki67, PD-L1) a detekce karcinomu žaludku v mikroexcizích. Jsou zde však k dispozici i modely řešící riziko relapsu u karcinomu kolorekta nebo prsu.

Nabízeno je i prostředí pro vývoj vlastního učícího modelu na datech uživatele pomocí foundation modelů (viz níže) poskytnutých dodavatelem (https://proscia.com/concentriq-embeddings). Tento přístup se zdá být obecně adoptovaným směrem, ve kterém větší firmy vytvářejí prostředí pro implementaci a provoz učících modelů od firem menších. S ohledem na výše uvedenou nutnost integrace s dalšími nemocničními systémy se tento přístup zdá být rozumným řešením.

Podobnou platformu pro modely umělé inteligence třetích stran poskytuje také řešení společnosti Roche (Roche Digital Pathology Open Environment, https://diagnostics.roche.com/ global/en/products/product-category/lab-type/pathology-lab/ digital-pathology/open-environment.html) nebo Smart in Media.

Workflow digitální patologie

Přechod konvenční patologie do digitálního prostředí mění celou řadu dosavadních zažitých postupů. V první řadě se jedná o změnu nároků na provoz laboratoře, který musí akceptovat prioritizaci případů a pokud možno jejich kontinuální výstup (ucelené prioritní případy nejdříve), aby se přizpůsobil omezené rychlosti skenerů. Laboratoř by měla produkovat preparáty kontinuálně, ne dávkově. Na druhé straně digitalizace zjednodušuje manipulaci s fyzickými preparáty. Skla mohou být po naskenování rovnou připravována k archivaci, odpadá jejich rozdělování, fyzická kompletace případů a distribuce lékařům. Požadavky na imunohistochemická a speciální barvení jsou komunikovány přes laboratorní informační systém, který je řadí do front požadavků pro konkrétní pracovní místo a případně indikuje uzavření případu a jeho připravenost k definitivní archivaci. Přehled workflow a řadu praktických doporučení k digitalizaci provozu přináší standard, doporučený Evropskou společností digitální a integrativní patologie (ESDIP) (8).

Z hlediska odečítajícího patologa jde rovněž o zásadní změnu. Je nutné akceptovat nepřítomnost fyzického skla a získat důvěru ve validitu virtuálního preparátu. Oproti práci s optickým mikroskopem přináší virtualizace lepší přehled o rozložení preparátu a jeho orientaci na skle s eliminací opomenutí prohlédnutí některé části. Přidanou hodnotou je možnost přímého srovnání H&E a speciálních a imunohistochemických barvení pomocí paralelního zobrazení ve více oknech s prostorovou adaptací sériových řezů. Nejpodstatnější přidanou hodnotou je ale možnost použití metod umělé inteligence k předtřídění pozitivních/ negativních skel při hledání patologické léze (nádor, uzlinová metastáza), nebo ke kvantifikaci sledovaného jevu (IHC barvení, budding, distribuce gradu) s přípravou návrhu strukturovaných zpráv. Rozšiřující možnosti přináší digitalizace v oblasti prediktivní a molekulární diagnostiky, kde lze přinejmenším část těchto vyšetření nahradit aplikací učících modelů.

V současné době jsou metody strojového učení a umělé inteligence považovány za asistenční technologie, nelze se tedy na ně formálně spoléhat při diagnostice, mají ji jen usnadnit. Nakolik se tento pohled bude měnit s obecnou adopcí umělé inteligence ve společnosti je obtížné predikovat, ale lze předpokládat, že umělá inteligence bude stále více pronikat do standardních pracovních procesů v nemocnicích.

UČÍCÍ METODY V DIGITÁLNÍ PATOLOGII

V předchozím článku „Umělá inteligence pro digitální patologii” jsme se zaměřili na vysvětlení základních postupů, které se používají v digitální patologii pro zpracování obrazu i jiných typů dat. Nyní se podívejme detailněji na konkrétní postupy používané pro analýzu WSI. Aktuálně je většina aplikací založena na jednoúčelových modelech, které byly vytvořeny pro řešení konkrétního problému v digitální patologii. Příkladem může být segmentace jader ve WSI s konkrétním barvením, detekce karcinomu prostaty apod. Nejnovější metody, založené na základních (foundation) modelech, řeší více problémů najednou s použitím více různých typů dat. Těmto obecnějším modelům se budeme věnovat v poslední kapitole, zde se podíváme na typické jednoúčelové postupy.

Počet publikací pojednávajících o umělé inteligenci v digitální patologii extrémně narůstá a není tedy snadné získat přesný obraz o aktuálním stavu. V tomto textu vycházíme z přehledových článků jako například (9,13). Konkrétním klasickým příkladem postupu prezentovaného níže je metoda prezentovaná v článku (10).

Učení na velkých obrázcích

Standardní metody pro zpracování obrazu založené na hlubokém učení neumí pracovat s příliš velkými obrázky. WSI je tedy obvyklé rozdělit na menší podobrázky (dlaždice), které lze podat jednotlivě jako vstupy danému modelu. Výstup modelu, například detekce karcinomu, je tedy vypočten pouze na základě malého výřezu vstupního obrazu a nemusí tedy brát v potaz širší kontext, který je často nutný pro kvalifikované rozhodnutí. Zatímco v některých případech, v nichž velikost morfologických znaků zhruba odpovídá velikosti dlaždic, může být tato metoda úspěšná (jako příklad lze zmínit velmi úspěšné modely pro detekci karcinomů prostaty), v jiných případech může model zcela selhat, protože nemůže vidět celé relevantní části vstupního obrazu.

Jak lze takový problém řešit? Jednou z možností je snížit rozlišení vstupního obrazu tak, aby výsledný obraz obsáhl celý vzorek. Nicméně v takovém případě systém ztratí schopnost vidět miniaturní detaily, které jsou také obvykle nutné pro korektní diagnostiku (viz. například (11)). Existuje několik různých přístupů k řešení tohoto problému.

Jednoduchou možností je modelu předat dlaždice vyřezané kolem konkrétního místa ve WSI, které jsou ovšem v různém stupni přiblížení (5x, 10x, 20x) a vyhodnotit model na všech těchto obrázcích (12). Tato metoda poskytne kontext a může vést k lepším výsledkům. Nicméně je závislá na konkrétní škále přiblížení, vstupy do modelu jsou technicky komplikovanější, a hlavně dlaždice v nejmenším přiblížení často silně přesahují okraje tkáně, a tedy obsahují mnoho irelevantní informace.

Pokročilejší možnosti zahrnují použití takzvaných grafových sítí, v nichž je využita dodatečná informace o vzájemné poloze dlaždic a model si tedy může „poskládat” informaci o okolí dané dlaždice z informací obsažených v okolních dlaždicích (14). Obvyklým postupem je použít nejprve model extrahující důležité vlastnosti ze skupiny blízkých dlaždic. Tyto vlastnosti jsou pro každou dlaždici vyjádřeny vektorem hodnot přiměřené dimenze (obvykle se jedná o několik tisíc čísel, což je řádově méně než je nutné pro zakódování obrázku). Tyto vektory jsou poté spojeny dohromady a na jejich spojení je aplikován další model, který pro celou skupinu dlaždic vypočítá příslušný výstup, tedy například diagnostikuje karcinom.

Další možností je použití různých typů pozornosti (attention), což je mechanismus, který umožní nejen nahlížet na vlastnosti okolních dlaždic, ale i určovat, jak moc jsou informace z nich extrahované podstatné pro predikci v daném místě v WSI. Intuitivně, vzdálenější dlaždice obvykle dostanou menší pozornost. Nicméně model se tuto pozornost také učí sám a může i překvapit nalezením širších souvislostí.

Učení z více instancí

Zásadním problémem ve zpracování WSI je dostupnost informací o správném řešení, tedy anotací. Uvažme například problém detekce karcinomu prostaty. Pokud informatici spolupracují s velmi ochotnými patology, kteří disponují velkým množstvím volného času, mohou získat lokálně anotované vzorky, v nichž je nádor přesně zakreslen přímo ve WSI. Pak je možné každou dlaždici (nebo dokonce teoreticky každý obrazový bod) klasifikovat dle přítomnosti nebo nepřítomnosti nádoru. Nicméně takové možnosti nejsou obvyklé, zejména s ohledem na fakt, že současný trénink typicky vyžaduje tisíce WSI z několika různých institucí. Obvykle je k dispozici pouze informace o přítomnosti karcinomu ve WSI nebo jen pro celou skupinu WSI od jednoho pacienta.

Jak lze v takové situaci postupovat? Obvykle se používá tak zvané učení z více instanci (multiple instance learning) (15). Základem tohoto přístupu je stále predikce pro jednotlivé dlaždice vyřezané z WSI. Nicméně tyto predikce jsou následně agregovány do jednoho výstupu pro celé WSI. Ilustrováno opět na karcinomu prostaty, model predikuje (ne)přítomnost karcinomu v každé dlaždici. Poté se systém podívá, zda ve WSI existuje skupina dlaždic, v nichž model predikoval karcinom s dostatečnou pravděpodobností. Pokud tomu tak je, celé WSI je označeno za pozitivní. Pokud ne, občasné drobné podezření dlaždicového prediktoru je označeno za šum a WSI je klasifikováno jako negativní.

Výše uvedený postup je samozřejmě možné implementovat jednoduše pomocí průměrování predikcí pro skupiny blízkých dlaždic a následné prahování. Je ovšem také možné použít sofistikovanější přístupy. Například je možné opět pouze extrahovat významné vlastnosti dlaždic a ty poté dávat na vstup modelu, který rozhoduje o celém WSI. Problém ovšem je, že každé WSI obsahuje specifický počet dlaždic, které obsahují tkáň a navíc jich typicky bývá příliš mnoho. Existují tedy nejrůznější postupy, jak vybrat dostatečně informativní dlaždice pro predikci celého WSI. V nejjednodušší variantě můžeme použít náhodný výběr. Je ovšem možné například segmentovat dlaždice dle jejich obsahu do několika různě vypadajících skupin a dlaždice pak vybrat rovnoměrně z každé skupiny. Sofistikovanější postupy pak zahrnují trénovanou attention, tedy model rozhodující o celém WSI se sám naučí poznat, co je pro predikci podstatné. Pro detailnější popis a porovnání metod lze nahlédnout například do (16).

APLIKACE STROJOVÉHO UČENÍ V DIGITÁLNÍ PATOLOGII

Metody umělé inteligence lze v digitální patologii zapojit mnoha různými způsoby. Od kontroly skenovaných vzorků, přes detekci morfologických znaků tkání, až po organizaci workflow. Neděláme si nárok na kompletní přehled všech možností a řešení. Spíše chceme ilustrovat, jaké jsou oblasti zájmu vývoje v této oblasti a jakým způsobem může umělá inteligence zefektivnit některé procesy v diagnostické patologii. Recentní přehledové práce jsou k dispozici zde (17,18).

Optimalizace workflow v laboratorním informačním systému vycházející z klinických údajů a makropopisu. Tato problematika patří spíše do oblasti automatizace laboratorních systémů, což je nad rámec tohoto textu. Obecně lze říci, že lze automatizovat většinu kroků ve workflow jako je prioritizace případů, rozdělování případů na lékaře, automatické přidělení speciálních a imunohistologických barvení, atd.

Co se týče tvorby zpráv, mnoho aktuálně vyvíjených základních modelů, kterým se budeme později věnovat více, je multimodálních a pracují nejen s obrázky, ale i s texty zpráv. Příležitostí k využití textových/multimodálních modelů je v digitální patologii mnoho: Generování předvyplněných checklistů na základě makroskopického a mikroskopického popisu, vytváření diagnostických závěrů z popisů a/nebo checklistů, zajištění konzistentní terminologie, kontrola konzistence mezi mikroskopickým popisem, závěrem a parametrickými údaji záznamu (topografie, morfologie, pTN klasifikace). Pro širší přehled o této problematice lze nahlédnout například do přehledového článku (19) (zejména Sekce 5).

Asistivní aplikace

Hlavní oblastí v níž dochází k rapidnímu vývoji umělé inteligence je v oblasti asistivní technologie. Zde je cílem poskytnout dodatečné informace usnadňující nebo urychlující rozhodování o diagnóze, případně kvantifikovat některé morfologické jevy, ale technika sama diagnostiku neprovádí.

Asistivní aplikace využívají převážně segmentační techniky. Segmentace obrazu spočívá v jeho rozdělení do několika tříd na základě jejich obsahu. Sémantická segmentace spočívá v přiřazení třídy každému obrazovému bodu, instanční segmentace nejprve identifikuje skupiny bodů, které tvoří objekt a teprve objekt má přiřazenu třídu. Sémantická segmentace se například používá k odlišení základních typů tkání (epitel vs stroma). Lze také segmentovat nádorovou tkáň, tkáně s různým stupněm agresivity nádoru apod. Instanční segmentaci nalezneme například v segmentaci jader, nervů, cév a dalších objektů. Segmentační masky je možné průhledně zobrazit nad WSI, což může výrazně pomoci při diagnostice a kvantifikaci sledovaných jevů. Typickým příkladem praktické aplikace segmentačních úloh jsou asistenční systémy využívané k detekci karcinomu prostaty v punkčních biopsiích (8,20) nebo k detekci uzlinových mikrometastáz.

Kromě samotné detekce míst suspektních z nádorové infiltrace a případně z perineurální invaze řeší zde umělá inteligence i další zadání, jako je grading a jeho plošná kvantifikace, včetně návrhu strukturovaného reportu. Analogické učící metody jsou vyvinuty např. k detekci mitóz a hledání uzlinových mikrometastáz. Jejich použití může být jak prospektivní (k přímé asistenci), tak v některých případech i retrospektivní ke kontrole kvality a eliminaci falešně negativních nálezů.

Řešení segmentační úlohy (např. detekce nádoru) může rovněž identifikovat oblast zájmu a poskytnout podklady pro přesnější kvantifikace řešené morfometrickou aplikací (Ki67 index, steroidní receptory apod.) a ušetřit tak úsilí patologa nutné k vytvoření příslušné anotace.

Výhodou segmentačního přístupu je zachování vizuální kontroly patologa nad výsledkem modelu a snadná interpretovatelnost.

Prognostické a prediktivní aplikace

Vývoj výše popsaných segmentačních aplikací pro klasifikaci a kvantifikaci známých a popsatelných histologických jevů, použitelných pro tréning umělé inteligence jako ground truth, je relativně jednoduchý ve srovnání s diagnostikou jevů, pro které neznáme morfologický korelát, nebo ho neumíme přesně definovat.

Hraničním příkladem může být alternativní přístup ke gradingu karcinomu prostaty. Místo v praxi obtížně reprodukovatelných morfologických kategorií podle Gleasona (zejména 3 proti některým subtypům Gleason 4) byly k tréningu umělé inteligence použity klinické údaje pacienta, konkrétně výskyt biochemického relapsu během dlouhodobého sledování (21). Výsledkem byl nezávislý model klasifikace rizika, morfologicky interpretovatelný jako postupná degradace glandulární architektoniky, analogicky gradingu podle Gleasona, ale reprodukovatelnější a přesnější. Jiný model se ukázal jako prediktivní pro benefit pacientů s karcinomem prostaty léčeným radioterapií z přidání androgenní deprivace (22).

Úlohy, které používají jako vstup klinická data nás mohou navést i na dosud nepopsané morfologické jevy. Ve studii (23) bylo jako sledovaný parametr použito přežití pacientů s kolorektálním karcinomem. Výsledný model poskytuje nezávislou predikci přežití, při analýze vysvětlitelnosti byla popsána asociace nádoru s tukovými buňkami jako dosud neznámý morfologický, prognosticky nepříznivý jev.

Dalším příkladem mohou být modely, které se pokoušejí predikovat kromě přežití i molekulární alterace (24). Lze natrénovat i predikci odpovědi triple negativního karcinomu prsu na neoadjuvanci (25). Určitým problémem u takto řešených úloh je jejich interpretovatelnost a vysvětlitelnost, případně jejich aplikace v reálné klinické praxi, podmíněná validací a certifikací.

AKTUÁLNÍ VÝVOJ UČÍCÍCH SYSTÉMŮ V DIGITÁLNÍ PATOLOGII

Velké základní „Foundation” modely

Základní modely představují nové paradigma v oblasti umělé inteligence, navržené tak, aby bylo vysoce univerzální a přizpůsobitelné pro různé úkoly. Na rozdíl od tradičních modelů strojového učení, které jsou trénovány pro konkrétní úlohy, jsou základní modely předtrénovány na velkých a rozmanitých datových souborech a lze je následně doladit pro širokou škálu aplikací.

Typicky tyto modely fungují jako enkodéry, které transformují vstupní data—například digitální patologické snímky—do vektorových reprezentací. Tyto vektory si můžete představit jako kompaktní souhrny, které zachycují podstatné rysy vstupu a usnadňují tak jejich analýzu počítačem. To je podobné přenosovému učení (transfer learning), ale ve výrazně větším měřítku. Zatímco přenosové učení obvykle zahrnuje použití modelu předtrénovaného na konkrétním velkém datovém souboru (například ImageNet (26)) a doladění jeho parametrů pro specializovaný úkol, práce se základními modely často spočívá ve vytvoření lineární sondy (linear probe)—jednoduššího trénovaného modelu přidaného na vrchol základního modelu— přičemž funkcionalita základního modelu zůstává nezměněna. Tento přístup zachovává bohaté, obecné znalosti zakódované v základním modelu a zároveň jej efektivně přizpůsobuje specifickým diagnostickým potřebám. V digitální patologii mohou tyto modely sahat od vysoce obecných—schopných zpracovávat různé typy orgánů—až po modely specifické pro jednotlivé orgány.

V digitální patologii se objevilo několik základních modelů, z nichž každý nabízí jedinečné výhody. Například model Prov-GigaPath (27) vyniká svou architekturou s dvojitým enkodérem, která zahrnuje reprezentace na úrovni dlaždic i na úrovni celého preparátu. To mu umožňuje porozumět jak lokálním rysům tkáně, tak globálnímu kontextu, což je klíčové pro přesnou diagnostiku. Známé modely Virchow2 (28) jsou pozoruhodné svou velikostí, a to jak z hlediska počtu parametrů (Virchow2G), tak šíří trénovacích dat. Taková škála jim umožňuje dobře zobecňovat napříč různými patologickými úkoly. Nejnověji vydaný model UNI2, nástupce modelu UNI (29), dosáhl podle svých autorů v letošním roce špičkových výsledků v oborových benchmarcích. Podrobnější rozbor dalších základních modelů v digitální patologii lze najít např. v aktuální přehledové studii (30). Je třeba mít na paměti, že velké modely v patologii procházejí obdobím velmi dynamického vývoje a jakýkoliv přehled současného stavu bude velmi rychle neaktuální.

Trénovací data modelů Virchow2 jsou natolik rozsáhlá v porovnání s ostatními modely, že si zaslouží větší pozornost. Trénovací dataset se skládá z 3,1 milionu snímků, které byly odebrány více než 225 tisícům pacientů z celého světa. Samozřejmě nestačí jen velké množství snímků, důležitá je i jejich rozmanitost, díky níž je model následně použitelný na širší škálu úloh. Tento atribut datasetu také vyniká. Dataset obsahuje snímky barvené nejen hematoxylin-eosinem, ale také pomocí imunohistochemie. Dále se mezi snímky vyskytuje téměř 120 druhů tkání a navíc byly k tréninku použity snímky s různým přiblížením, od 40× až po 5×.

Při takto rozsáhlých a rozmanitých datasetech však vyvstává přirozená otázka, jak lze takové množství dat anotovat? Tradiční manuální anotace prováděná odborníky by byla extrémně časově náročná a nákladná. Tento nedostatek se řeší použitím takzvaného samořízeného učení (SSL, self-supervised learning). Metody SSL umožňují modelům učit se smysluplné reprezentace z neoznačených dat prostřednictvím řešení předúloh—například predikce chybějících částí obrazu nebo rozlišování mezi podobnými snímky. V digitální patologii umožňuje SSL modelům extrahovat klíčové morfologické rysy, aniž by bylo nutné mít explicitní anotace pro každý snímek. Jakmile se model naučí tyto reprezentace, může být doladěn na menším, označeném datovém souboru pro konkrétní diagnostické úkoly.

Mezi různými algoritmy samořízeného učení se v digitální patologii jako nejpopulárnější a nejúčinnější metoda prosadil DINOv2 (31). DINOv2 využívá strategii samo-destilace, při které se model učí porovnáváním svých vlastních výstupů při různých augmentacích stejného snímku. Tento proces povzbuzuje model, aby se zaměřil na stabilní, smysluplné rysy, které zůstávají konzistentní i přes alternace obrazu. Samo-destilace v tomto kontextu funguje tak, že model hraje roli jak učitele, tak studenta. Například při analýze histopatologických řezů se modelu předloží snímky s různými úpravami – může jít o změnu barevného kontrastu, otočení nebo oříznutí obrazu. Model (učitel) vytváří předpovědi na základě původního snímku a tyto předpovědi slouží jako referenční bod. Následně model (student) generuje předpovědi pro upravené verze téhož snímku. Cílem je, aby se tyto výstupy co nejvíce shodovaly. Pokud například určité architektonické uspořádání buněk nebo morfologie jader zůstávají konstantní napříč různými variantami snímku, model se naučí tyto rysy považovat za klíčové pro diagnostiku. Výsledkem je robustní extraktor příznaků, který lze přizpůsobit mnoha následným úkolům, včetně klasifikace nádorů, stupňování a prognostických predikcí.

Virtuální barvení

Hluboké učení umožňuje digitální simulaci histologického barvení na vzorcích tkání, čímž eliminuje potřebu tradičních chemických metod. V principu tedy může přinést rychlejší a nákladově efektivnější postupy. Zejména je možné stejnou tkáň obarvit mnoha různými způsoby, což je s použitím chemického barvení možné jen do jisté míry. Na druhou stranu nároky na přesnost a spolehlivost jsou zde ještě vyšší než například u segmentace, protože barvení je většinou považováno za základní vstup, na němž je analýza prováděna. Tato technologie je tedy stále spíše předmětem výzkumu.

Existuje několik obecných přístupů k virtuálnímu barvení, které lze rozlišit podle toho, co je vstupem barvícího algoritmu. Jako vstup lze použít zcela nebarvenou tkáň nebo tkáň obarvenou jiným barvením. Dalším rozlišením může být, jak přesně byly vzorky obdrženy, nejčastěji s použitím optického mikroskopu, ale používá se i fluorescenční mikroskopie apod. Příklady lze nalézt v článcích (32,33) pro optickou mikroskopii a nebarvenou tkáň a (34) pro fluorescenční mikroskopii. Mikroskopii lze kombinovat s dalšími metodami, např. 3D histologické zobrazování, spektroskopii a další, pro získání přesnější informace o strukturách tkání pro virtuální barvení.

Z výpočetního pohledu je virtuální barvení transformací jednoho obrázku na druhý. Opět existuje několik různých přístupů. Nejjednodušším postupem je učení s učitelem, při němž jsou k dispozici dvojice snímků téhož vzorku, přičemž jeden snímek není obarvený a druhý ano. Předpokladem je, že snímky jsou přesně zarovnány na úroveň jednotlivých obrazových bodů. Toto zarovnání je samo o sobě netrivální úlohou, která se objevuje v různých aplikacích strojového učení v digitální patologii (35).

Strojové učení je v této oblasti obvykle implementováno pomocí konvolučních sítí trénovaných s použitím konceptu adversariálního učení, což byl jeden z prvních pokusů o virtuální barvení nebarvených snímků tkání (34). Zhruba řečeno, učící systém se skládá ze dvou modelů. První z nich, tak zvaný generátor, provádí mapování jednoho obrázku na druhý. Druhý, zvaný diskriminátor, sleduje výsledný obrázek a snaží se nalézt znaky uměle generovaného obrázku. Při tréninku je diskriminátor přímo trénován v rozlišování obrázků generovaných generátorem pro daný nebarvený vstupní obrázek a jejich odpovídajících obrázků chemicky obarvených (33). Tato základní metodika byla samozřejmě rozšířena o nepřeberné množství vylepšení jako je transfer stylů, použití různých generativních přístupů apod. (36,37).

 

Složitější přístupy berou v potaz fakt, že snímky nemusejí být přesně zarovnány (38) případně se systém učí provádět zarovnání zároveň s barvením (39,40), modely se učí brát v potaz nejen morfologii, ale i funkční detaily (37), apod.

Virtuální barvení je stále předmětem výzkumu. V budoucnu by mohlo alespoň částečně nahradit skutečné barvení, což by znamenalo významnou úsporu finančních prostředků i času. Na druhou stranu je fakt, že barvení preparátů slouží především pro lidské oči. Je možné, že v budoucnu budou automatické systémy analyzovat nebarvené preparáty a barvení, skutečné ani virtuální, nebude třeba.

Další směry výzkumu

Prostorová 3D analýza vzorků

Jedním z fundamentálních limitů pro UI systémy je skutečnost, že snímky preparátů obsahují dvoudimenzionální řezy ve skutečnosti prostorových struktur. Lékaři se při studiu učí nejen ze snímků a jejich detailních popisů v učebnicích, ale znají rovněž anatomické detaily jednotlivých orgánů a buněčných struktur. Modely umělé inteligence oproti tomu žádné takové informace při trénování nedostávají a je otázkou, zda takové informace dokáží abstrahovat.

Jednou z aktivních oblastí výzkumu tedy je rekonstrukce prostorového obrazu z množství blízkých dvoudimenzionálních řezů preparátem. Zde je třeba překonat problém zarovnání jednotlivých vrstev, neboť při jejich individuálním zpracování dochází k různým prostorovým deformacím. Výsledný 3D obraz je poté možno analyzovat ve speciálních prohlížečích a vytvářet náhledy v libovolných rovinách, nejen rovnoběžnými s původními řezy. Vzniká zde další prostor pro modely umělé inteligence trénované na těchto 3D obrázcích, které mohou např. převybírat oblasti, na které má smysl se při diagnostice zaměřit primárně. Další informace je možné nalézt v nedávném přehledovém článku (41).

Bezsklíčková (Slide-free) patologie

Bezsklíčková technologie digitální patologie představuje poměrně revoluční posun v diagnostické praxi. Vyvíjejí se nové metody, které umožňují neinvazivní analýzu tkání bez nutnosti výroby tenkých řezů. FIBI je fluorescenční metoda, která nahrazuje tradiční histologické barvení hematoxylinem a eosinem. Tkáň se skenuje přímo po minimální přípravě, což zachovává její integritu pro další molekulární testy. Studie ukazují, že diagnostická shoda mezi FIBI a konvenčními řezy dosahuje 94–97 %, přičemž časová úspora činí až 75 % (42, 43).

 

Existují další metody, které vytváří virtuální 3D skeny jako Light-Sheet Microscopy, která skenuje tkáň po vrstvách pomocí tenkého „listu” světla, dále optická koherenční tomografie, Mikro-CT a fotoakustická mikroskopie (44). Oproti klasickému sklíčkovému přístupu je získaný 3D obraz daleko přesnější, odpadá problém se zarovnáváním řezů a zejména je významně rychlejší. Komerční řešení MUSE (https://musemicroscopy.com) slibuje výsledky do 30 minut.

 

ZÁVĚR

V textu jsme se věnovali aplikacím učících metod v digitální patologii. Popsali jsme, jak se obvykle pracuje s daty, která produkují skenery vzorků, jaké úlohy učící systémy obvykle řeší a jak se k řešení obecně přistupuje. V poslední době se objevuje velké množství firem, které nabízejí řešení pro digitální patologii včetně aplikací metod umělé inteligence. Při výběru takových řešení je dobré mít na paměti, jaká jsou úskalí provozování takových systémů v klinické praxi. Zejména je nutné zajistit datové toky, spolehlivou komunikaci vstupů a výstupů učících systémů a koordinaci v rámci celých diagnostických postupů. Proto jsme tématu dat věnovali velkou část prostoru. Dále jsme představili obecné učící postupy pro systémy v digitální patologii. Tato znalost je významná nejen pro vývojáře, ale i pro uživatele učících systémů, protože umožňuje snáze nahlédnout limity takových systémů (například v souvislosti s problémem dělení velkých obrázků na dlaždice). Další vývoj v této oblasti je obtížné předvídat. Na základě aktuální vědecké literatury lze odhadnout, že blízká budoucnost bude patřit základním modelům. Tedy velkým modelům, které dokáží absorbovat maximum dostupných „znalostí” v širší oblasti a tyto využívat při řešení jednotlivých úloh. Dochází také k postupné synchronizaci digitální patologie s dalšími datově bohatými oblastmi, jako je například radiologie, a k tvorbě multimodálních učících systémů, které dokáží naráz zpracovat komplexní obraz pacienta. S ohledem na potřebu cílené individualizované léčby pacientů lze očekávat, že učící metody sehrají v oblasti patologie a medicíny obecně významnou roli.

PROHLÁŠENÍ

Autor práce prohlašuje, že v souvislosti s tématem, vznikem a publikací tohoto článku není ve střetu zájmů a vznik ani publikace článku nebyly podpořeny žádnou farmaceutickou firmou. Toto prohlášení se týká i všech spoluautorů.


Zdroje
  1. Weinstein JN, Collisson EA, Mills GB, Shaw KRM, Ozenberger BA, Ellrott K, et al. The Cancer Genome Atlas Pan-Cancer analysis project. Nat Genet 2013; 45(10): 1113–1120. 738–749.
  1. Brázdil T, Gallo M, Nenutil R, Kubanda A, Toufar M, Holub P. Automated annotations of epithelial cells and stroma in hematoxylin– eosin ‐stained whole‐slide images using cytokeratin re‐staining. The Journal of Pathology CR 2022; 8(2): 129–142.
  2. Cucoranu IC, Parwani AV, Vepa S, Weinstein RS, Pantanowitz L. Digital pathology: A systematic evaluation of the patent landscape. Journal of Pathology Informatics 2014; 5(1): 16.
  3. Clunie DA. DICOM Format and Protocol Standardization—A Core Requirement for Digital Pathology Success. Toxicol Pathol. 2021; 49(4):
  4. Daniel C, Macary F, García Rojo M, Klossa J, Laurinavičius A, Beckwith BA, et al. Recent advances in standards for collaborative Digital Anatomic Pathology. Diagnostic Pathology 2011; 6(1): S17.
  5. Goode A, Gilbert B, Harkes J, Jukic D, Satyanarayanan M. OpenSlide: A vendor-neutral software foundation for digital pathology. Journal of Pathology Informatics 2013; 4(1): 27.
  6. The Open Microscopy Environment [Internet]. [cited 2025 Mar 1]. Available from: https://www.openmicroscopy.org/bio-formats/
  7. Fraggetta F, L’Imperio V, Ameisen D, et al. Best Practice Recommendations for the Implementation of a Digital Pathology Workflow in the Anatomic Pathology Laboratory by the European Society of Digital and Integrative 2167.
  8. Song AH, Jaume G, Williamson DFK, et al. Artificial intelligence for digital and computational pathology. Nat Rev Bioeng 2023; 1(12): 930–949.
  9. Pantanowitz L, Quiroga-Garza GM, Bien L, et al. An artificial intelligence algorithm for prostate cancer diagnosis in whole slide images of core needle biopsies: a blinded clinical validation and deployment study. The Lancet Digital Health 2020; 2(8): e407–416.
  10. Gallo M, Krajňanský V, Nenutil R, Holub P, Brázdil T. Shedding light on the black box of a neural network used to detect prostate cancer in whole slide images by occlusion-based explainability. New Biotechnology 2023; 78: 52–67.
  1. Wetteland R, Engan K, Eftestøl T, Kvikstad V, Janssen EAM. A Multiscale Approach for Whole-Slide Image Segmentation of five Tissue Classes in Urothelial Carcinoma Slides. Technol Cancer Res Treat 2020; 19: 1533033820946787.
  2. Matthews GA, McGenity C, Bansal D, Treanor D. Public evidence on AI products for digital pathology. npj Digit Med 2024; 7(1): 300.
  3. Bontempo G, Bolelli F, Porrello A, Calderara S, Ficarra E. A Graph-Based Multi-Scale Approach With Knowledge Distillation for WSI Classification. IEEE Trans Med Imaging 2024; 43(4): 1412–1421.
  4. Wang J, Mao Y, Guan N, Xue CJ. Advances in Multiple Instance Learning for Whole Slide Image Analysis: Techniques, Challenges, and Future Directions [Internet]. arXiv 2024 [cited 2025 Feb 27]. Available from: http://arxiv.org/ abs/2408.09476
  5. Ghaffari Laleh N, Muti HS, Loeffler CML, et al. Benchmarking weakly-supervised deep learning pipelines for whole slide classification in computational pathology. Medical Image Analysis 2022; 79: 102474.
  6. Aggarwal A, Bharadwaj S, Corredor G, Pathak T, Badve S, Madabhushi A. Artificial intelligence in digital pathology — time for a reality check. Nat Rev Clin Oncol [Internet]. 2025 Feb 11 [cited 2025 Feb 27]; Available from: https://www.nature.com/articles/ s41571-025-00991-6
  7. McGenity C, Clarke EL, Jennings C, et al. Artificial intelligence in digital pathology: a systematic review and meta-analysis of diagnostic test accuracy. npj Digit Med 2024 4; 7(1): 114.
  8. Cheng J. Applications of Large Language Models in Pathology. Bioengineering. 2024; 11(4): 342.
  9. Perincheri S, Levi AW, Celli R, et al. An independent assessment of an artificial intelligence system for prostate cancer detection shows strong diagnostic accuracy. Modern Pathology 2021; 34(8): 1588–1595.
  10. Ström P, Kartasalo K, Olsson H, et al. Artificial intelligence for diagnosis and grading of prostate cancer in biopsies: a population-based, diagnostic study. The Lancet Oncology 2020; 21(2): 222–232.
  11. Spratt DE, Tang S, Sun Y, et al. Artificial Intelligence Predictive Model for Hormone Therapy Use in Prostate Cancer. NEJM Evidence [Internet]. 2023 Jul 25 [cited 2025 Feb 28];2(8). Available from: https://evidence.nejm.org/ doi/10.1056/EVIDoa2300023
  12. Wulczyn E, Steiner DF, Moran M, et al. Interpretable survival prediction for colorectal cancer using deep learning. npj Digit Med 2021; 4(1): 71.
  13. Wang X, Zhao J, Marostica E, et al. A pathology foundation model for cancer diagnosis and prognosis prediction. Nature 2024; 634(8035): 970–978.
  14. Krishnamurthy S, Jain P, Tripathy D, et al. Predicting Response of Triple-Negative Breast Cancer to Neoadjuvant Chemotherapy Using a Deep Convolutional Neural Network–Based Artificial Intelligence Tool. JCO Clinical Cancer Informatics 2023; (7): e2200181.
  15. Deng J, Dong W, Socher R, Li LJ, Kai Li, Li Fei-Fei. ImageNet: A large-scale hierarchical image database. In: 2009 IEEE Conference on Computer Vision and Pattern Recognition [Internet]. Miami, FL: IEEE; 2009 [cited 2025 Mar 1]. p. 248–255. Available from: https://ieeexplore.ieee.org/document/5206848/
  16. Xu H, Usuyama N, Bagga J, et al. A whole-slide foundation model for digital pathology from real-world data. Nature 2024; 630(8015): 181–188.
  17. Zimmermann E, Vorontsov E, Viret J, et al. Virchow2: Scaling Self-Supervised Mixed Magnification Models in Pathology [Internet]. arXiv 2024 [cited 2025 Mar 1]. Available from: http://arxiv.org/abs/2408.00738
  18. Chen RJ, Ding T, Lu MY, et al. Towards a general-purpose foundation model for computational pathology. Nat Med 2024; 30(3): 850–862.
  19. Bilal M, Aadam, Raza M, et al. Foundation Models in Computational Pathology: A Review of Challenges, Opportunities, and Impact [Internet]. arXiv; 2025 [cited 2025 Mar 1]. Available from: https://arxiv.org/ abs/2502.08333
  20. Oquab M, Darcet T, Moutakanni T, et al. DINOv2: Learning Robust Visual Features without Supervision [Internet]. arXiv; 2024 [cited 2025 Mar 1]. Available from: http://ar- xiv.org/abs/2304.07193
  21. Khan U, Koivukoski S, Valkonen M, Latonen L, Ruusuvuori P. The effect of neural network architecture on virtual H&E staining: Systematic assessment of histological feasibility. Patterns 2023; 4(5): 100725.
  22. Koivukoski S, Khan U, Ruusuvuori P, Latonen L. Unstained Tissue Imaging and Virtual Hematoxylin and Eosin Staining of Histologic Whole Slide Images. Laboratory Investigation 2023; 103(5): 100070.
  23. Rivenson Y, Wang H, Wei Z, et al. Virtual histological staining of unlabelled tissue-autofluorescence images via deep learning. Nat Biomed Eng 2019; 3(6): 466–477.
  24. Weitz P, Valkonen M, Solorzano L, et al. The ACROBAT 2022 Challenge: Automatic Registration Of Breast Cancer Tissue. 2023 [cited 2025 Mar 1]; Available from: https://arxiv.org/ abs/2305.18033
  25. Latonen L, Koivukoski S, Khan U, Ruusuvuori P. Virtual staining for histology by deep learning. Trends in Biotechnology 2024; 42(9): 1177–1191.
  26. Salvi M, Michielli N, Salamone L, et al. Computational Synthesis of Histological Stains: A Step Toward Virtual Enhanced Digital Pathology. Int J Imaging Syst Tech 2024; 34(5): e23165.
  27. Tweel JED, Ecclestone BR, Boktor M, Simmons JAT, Fieguth P, Reza PH. Virtual Histology with Photon Absorption Remote Sensing using a Cycle-Consistent Generative Adversarial Network with Weakly Registered Pairs [Internet]. arXiv; 2023 [cited 2025 Mar 1]. Available from: https://arxiv.org/abs/2306.08583
  28. Honkamaa J, Khan U, Koivukoski S, et al. Deformation equivariant cross-modality image synthesis with paired non-aligned training data. Medical Image Analysis 2023; 90: 102940.
  29. Li Y, Pillar N, Li J, et al. Virtual histological staining of unlabeled autopsy tissue. Nat Commun 2024; 15(1): 1684.
  30. Yoshikawa AL, Omura T, Takahashi‐Kanemitsu A, Susaki EA. Blueprints from plane to space: outlook of next‐generation three‐ dimensional histopathology. Cancer Science 2024; 115(4): 1029–1038.
  31. Borowsky AD, Levenson RM, Gown AM, Morningstar T, Fleury TA, Henderson G, et al. A Pilot Validation Study Comparing Fluorescence-Imitating Brightfield Imaging, A Slide-Free Imaging Method, With Standard Formalin-Fixed, Paraffin-Embedded Hematoxylin-Eosin–Stained Tissue Section Histology for Primary Surgical Pathology Diagnosis. Archives of Pathology & Laboratory Medicine 2024; 148(3): 345–352.
  32. Fereidouni F, Morningstar T, Borowsky A, Levenson R. FIBI: a direct-to-digital microscopy approach for slide-free histology. In: Tomaszewski JE, Ward AD, editors. Medical Imaging 2022: Digital and Computational Pathology [Internet]. San Diego, United States: SPIE; 2022 [cited 2025 Mar 2]. p. 52. Available from: https://www.spiedigitallibrary.org/confe- rence-proceedings-of-spie/12039/2612748/ FIBI--a-direct-to-digital-microscopy-approach-for-slide/10.1117/12.2612748.full
  33. Liu JT, Chow SS, Colling R, Downes MR, Farré X, Humphrey P, et al. Engineering the future of 3D pathology. The Journal of Pathology CR 2024; 10(1): e347.
Štítky
Patologie Soudní lékařství Toxikologie
Kurzy Podcasty Doporučená témata Časopisy
Přihlášení
Zapomenuté heslo

Zadejte e-mailovou adresu, se kterou jste vytvářel(a) účet, budou Vám na ni zaslány informace k nastavení nového hesla.

Přihlášení

Nemáte účet?  Registrujte se

#ADS_BOTTOM_SCRIPTS#