#PAGE_PARAMS# #ADS_HEAD_SCRIPTS# #MICRODATA#

Porovnání přesnosti detekce abnormalit na rtg snímcích hrudníku softwarem Carebot AI CXR a radiology


Authors: Jakub Dandár 1;  Tomáš Jindra 2;  Daniel Kvak 1, 3
Authors‘ workplace: Carebot, s. r. o., Praha 1;  Nemocnice Tábor, a. s. 2;  Masarykova univerzita v Brně 3
Published in: Čas. Lék. čes. 2025; 164: 125-140
Category: Original Article

Overview

Umělá inteligence (AI) se stále častěji uplatňuje v radiologii, kde nabízí potenciál zlepšit přesnost a efektivitu diagnostiky, zejména při hodnocení běžných zobrazovacích metod, jako jsou rtg snímky hrudníku. Tato studie analyzuje přesnost komerčního softwaru využívajícího strojové učení, respektive metody umělé inteligence, při detekci abnormalit na rtg snímcích hrudníku ve srovnání s nezávislými hodnoceními 3 juniorních radiologů. Výzkum byl proveden ve spolupráci s Nemocnicí Tábor, která poskytla dataset 207 anonymizovaných rtg snímků, z nichž 196 bylo vyhodnoceno jako relevantní. Senzitivita a specificita AI byla porovnána s lidským hodnocením v 5 kategoriích abnormalit: atelektáza (ATE), konsolidace (CON), zvětšení srdečního stínu (CMG), pleurální výpotek (EFF) a plicní léze (LES).

Software Carebot AI CXR dosáhl vysoké senzitivity ve všech hodnocených kategoriích (např. ATE: 0,909; CMG: 0,889; EFF: 0,951), přičemž jeho přesnost byla konzistentní napříč všemi nálezy. Naopak specificita AI byla v některých kategoriích nižší (např. EFF: 0,792; CON 0,895), zatímco u radiologů dosahovala ve většině případů hodnot blížících se 1,000 (např. RAD 1 a RAD 2 EFF: 1,000). AI vykazovala konzistentně vyšší senzitivitu než méně zkušení radiologové (např. RAD 1 ATE: 0,087; CMG: 0,327) a v některých případech i než zkušenější hodnotitelé, avšak za cenu mírného snížení specificity.

Studie zahrnuje také kazuistiky, včetně falešně pozitivních a falešně negativních nálezů, které přispívají k hlubšímu pochopení přesnosti AI v klinické praxi. Výsledky naznačují, že AI může efektivně doplňovat práci radiologů, zejména u méně zkušených lékařů, a zlepšit senzitivitu diagnostiky na rtg snímcích hrudníku.

Klíčová slova:

umělá inteligence, radiologie, rtg hrudníku, detekce abnormalit, multi-reader studie

ÚVOD

Rentgenové vyšetření hrudníku představuje jeden z nejčastěji používaných diagnostických zobrazovacích nástrojů v klinické praxi (1). Slouží jako základní metoda pro odhalování a hodnocení hrudních patologií, jako jsou plicní onemocnění, srdeční abnormality a trauma. Přes svou širokou dostupnost a využití je interpretace skiagramu značně náročná. Případné nálezy mohou být subtilní, obrazová kvalita proměnlivá a konvenční radiografické metody často poskytují pouze omezené rozlišení (2). Tyto faktory přispívají k diagnostickým chybám a neshodám, které jsou dále zhoršovány rostoucí poptávkou po radiologických službách a globálním nedostatkem zkušených radiologů (3).

Zkušenosti radiologů přitom hrají klíčovou roli v přesnosti hodnocení rtg snímků hrudníku. Zatímco seniorní radiologové dosahují vyšší přesnosti, méně zkušení lékaři, respektive absolventi, mohou mít potíže s rozpoznáváním subtilních, nebo naopak komplexních patologických nálezů (4). Tato variabilita přináší riziko nesouladu mezi hodnotiteli, což představuje významnou výzvu pro spolehlivost diagnostiky. V posledních letech se jako slibný nástroj pro podporu radiologů v diagnostice na podkladě výstupů získaných zobrazovacími metodami prosazují systémy počítačem asistované detekce (CAD – computer-aided detection) využívající strojové, respektive hluboké učení. Tyto systémy, často založené na konvolučních neuronových sítích (CNN – convolutional neural network) (5), dokážou konzistentně analyzovat rozsáhlé datové sady medicínských obrazů a mají tak do značné míry potenciál redukovat interindividuální variabilitu mezi lékaři.

Záměrem této studie je posoudit přesnost komerčně dostupného softwaru (Carebot AI CXR) využívajícího hluboké učení při detekci některých klinicky relevantních abnormalit na rtg snímcích hrudníku v reálných klinických podmínkách. Klíčovým cílem je posoudit shodu hodnocení AI s původním popisem hodnotících lékařů, ověřit, zda AI dokáže zvýšit senzitivitu bez kompromitace specificity, snížit počet falešně negativních nálezů a přispět ke standardizaci diagnostického výsledku napříč radiology.

METODIKA

Software

Použitý systém (Carebot AI CXR) (obr. 1) je certifikovaný zdravotnický prostředek třídy IIa sloužící k detekci abnormalit na rentgenových snímcích hrudníku za pomocí algoritmů AI. Software využívá pokročilé techniky hlubokého učení a počítačového vidění k analýze snímků ve standardních posteroanteriorních (PA) a anteroposteriorních (AP) projekcích. Jeho hlavním účelem je podpora lékařů při lokalizaci různých patologických stavů, mezi které patří atelektáza (ATE), konsolidace (NOC), zvětšení srdečního stínu (CMG), pleurální výpotek (EFF), plicní léze (LES), pneumothorax (PNO) a subkutánní emfyzém (SCE). Algoritmus je založen na hlubokých konvolučních neuronových sítích (FCNN) a používá architekturu YOLO (You Only Look Once) (6).

Vývoj a validace systému probíhaly na rozsáhlém datasetu obsahujícím anonymizované rentgenové snímky získané z klinických pracovišť v Evropě, Asii a Severní Americe. Tento dataset zahrnoval 213 618 anotací, které byly vytvořeny týmem 31 radiologů s různými úrovněmi praxe, od 1 roku (L1) až po více než 10letou zkušenost (L3). Software je navržen s ohledem na snadnou integraci do stávajících radiologických pracovních postupů, včetně integrace s PACS (Picture Archiving and Communication Systems).

Image 1. Původní rentgenový snímek hrudníku (vlevo) a jeho analýza provedená softwarem AI (vpravo, Carebot AI CXR). Software na upraveném snímku identifikoval a zvýraznil oblast s vysokým rizikem přítomnosti pleurálního výpotku (EFF).
Původní rentgenový snímek hrudníku (vlevo) a jeho analýza provedená softwarem AI (vpravo, Carebot AI CXR). Software na upraveném snímku identifikoval a zvýraznil oblast s vysokým rizikem přítomnosti pleurálního výpotku (EFF).

Dataset

Tato studie byla provedena ve spolupráci s Nemocnicí Tábor, která zajišťuje zdravotní péči pro spádovou oblast přibližně 150 000 obyvatel. Rentgenové snímky hrudníku byly retrospektivně selektovány za období od 2. do 5. dubna 2024 v rámci běžného klinického provozu radiodiagnostického oddělení nemocnice. Všechny snímky byly před analýzou anonymizovány přímo v systému PACS v souladu s nařízením GDPR (7). Proces anonymizace zahrnoval odstranění všech metadat, která by mohla přímo nebo nepřímo identifikovat pacienty. Vzhledem k plné anonymizaci dat nebylo nutné získávat souhlas pacientů.

Do studie bylo zahrnuto 207 rtg snímků hrudníku. Po aplikaci vylučovacích kritérií, která zahrnovala odstranění duplicitních snímků, rtg snímků v laterální projekci a snímků nízké kvality, bylo pro analýzu zařazeno celkem 196 relevantních snímků (tzv. testovací datová sada). Snímky byly pořízeny pomocí 2 typů rtg přístrojů (tab. 1), jmenovitě Canon Inc. CXDI Control Software NE (n = 194) a Samsung Electronics GM85FIT (n = 2).

  

Tab. 1  Přehled použitých rtg přístrojů v testovací datové sadě

Použitý rtg přístroj

n

Canon Inc. CXDI Control Software NE

194

Samsung Electronics GM85FIT

2

 

Referenční standard

Proces stanovení referenčního standardu zahrnoval manuální přezkoumání původních nálezů (tedy zda původní popis souhlasí s nálezem na snímku a dalšími vyšetřeními pacienta) rentgenových snímků seniorním radiologem s více než 10 lety zkušeností (T. J.). Takto vytvořený dataset byl získán z klinického systému nemocnice a obsahoval detailní hodnocení každého snímku. Každý snímek byl následně manuálně klasifikován na základě přítomnosti či absence 7 vybraných abnormalit (tab. 2), mezi něž patřily ATE, CON, CMG, EFF a LES, PNO a SCE byly vzhledem k nízké prevalenci vyřazeny (n = 1, resp. n = 0). Kategorizace byla provedena podle standardizovaných diagnostických kritérií a odpovídala běžné klinické praxi. U negativních nálezů bylo vyžadováno, aby hodnocení radiologa potvrzovalo absenci patologických změn či aby přítomnost výrazných změn report nezmiňoval (obr. 2). U pozitivních nálezů bylo rozhodnuto o jejich přítomnosti na základě jasných známek abnormalit uvedených v původním popisu (obr. 3).

  

Tab. 2  Prevalence nálezů dle referenčního standardu v testovací datové sadě

Nález

Pozitivní

Negativní

Atelektáza (ATE)

23

173

Konsolidace (CON)

34

162

Zvětšení srdečního stínu (CMG)

55

141

Pleurální výpotek (EFF)

42

154

Plicní léze (LES)

8

188

Image 2. Původní negativní rtg snímek hrudníku a odpovídající popis hodnotícího lékaře verifikovaný seniorním radiologem z Nemocnice Tábor, použitý jako referenční standard pro porovnání s výsledky algoritmu Carebot AI CXR a hodnocením lékařů v multi-reader studii
Původní negativní rtg snímek hrudníku a odpovídající popis hodnotícího lékaře verifikovaný seniorním radiologem z Nemocnice Tábor, použitý jako referenční standard pro porovnání s výsledky algoritmu Carebot AI CXR a hodnocením lékařů v multi-reader studii

Image 3. Původní pozitivní rtg snímek hrudníku verifikovaný seniorním radiologem zobrazující zánětlivé změny a odpovídající popis hodnotícího lékaře z Nemocnice Tábor, použitý jako referenční standard pro porovnání s výsledky algoritmu Carebot AI CXR a hodnocením lékařů v multi-reader studii
Původní pozitivní rtg snímek hrudníku verifikovaný seniorním radiologem zobrazující zánětlivé změny a odpovídající popis hodnotícího lékaře z Nemocnice Tábor, použitý jako referenční standard pro porovnání s výsledky algoritmu Carebot AI CXR a hodnocením lékařů v multi-reader studii

Cíle

Hlavním cílem této studie je hodnocení přesností systému AI v detekci některých klinicky relevantních abnormalit na rentgenových snímcích hrudníku v prostředí reálné klinické praxe. Studie byla navržena jako multi-reader s umožněním komparace přesnosti AI s hodnocením 3 nezávislých juniorních radiologů různé úrovně zkušeností (tab. 3).

Jednotliví čtenáři hodnotili stejný zaslepený set snímků zaškrtáváním přítomnosti či absence výše uvedených abnormalit v prostředí na webu přístupné aplikace, bez předchozího tréninkového sezení (hodnocení probíhalo na základě běžných klinických zvyklostí), bez přístupu k výsledkům ostatních hodnotitelů či výsledkům AI. Hodnotící lékaři měli v rámci čtení snímků k dispozici standardní nástroje zahrnující nastavení jasu a kontrastu, měřítko, lupu a další. Součástí analýzy je rovněž posouzení konzistence výsledků mezi AI a lidskými hodnotiteli, přičemž důraz je kladen na analýzu případů falešně pozitivních a falešně negativních nálezů.

  

Tab. 3  Přehled zkušeností hodnotících lékařů zahrnutých do multi-reader studie

Hodnotitel

Zkušenosti

RAD 1 (K. I.)

3 roky

RAD 2 (R. P.)

4 roky

RAD 3 (A. K.)

5 let

 

Statistická analýza

Statistická analýza byla provedena za účelem vyhodnocení diagnostické účinnosti jednotlivých hodnotitelů (RAD1, RAD2, RAD3) a AI při interpretaci rtg snímků hrudníku. Pro všechny analyzované patologické nálezy, tj. ATE, CON, CMG, EFF a LES, byly vypočítány následující diagnostické parametry: senzitivita, specificita, pozitivní prediktivní hodnota (PPV), negativní prediktivní hodnota (NPV) a parametr interindividuální variability (Cohenova kappa). Výpočet těchto parametrů byl doplněn o odpovídající 95% intervaly spolehlivosti (CI).

Senzitivita byla definována jako poměr pravdivě pozitivních nálezů (TP) k součtu všech skutečně pozitivních nálezů (TP a falešně negativních [FN]). Specificita potom jako poměr pravdivě negativních nálezů (TN) k součtu všech skutečně negativních (TN a falešně pozitivních [FP]). Pravděpodobnost, že nález označený jako pozitivní je skutečně pozitivní (PPV – pozitivní prediktivní hodnota), byl definován jako poměr TP k součtu TP a FP. Analogicky pravděpodobnost, že nález označený jako negativní je skutečně negativní (NPV – negativní prediktivní hodnota), byl definován jako poměr TN k součtu TN a FN.

Interindividuální variabilita – Cohenova kappa – je definována jako shoda mezi hodnotiteli (RAD1, RAD2, RAD3 a AI) hodnotícími stejný set snímků a referenčním radiologem. Pro odhad intervalů spolehlivosti diagnostických parametrů byl použit Wilsonův interval, který poskytuje robustní odhady i při nízkých počtech pozorování. V případě nulových hodnot falešně pozitivních nebo falešně negativních nálezů byly dolní meze odhadnuty metodou konzervativní bayesovské analýzy.

Statistická analýza byla provedena zvlášť pro každého hodnotitele a AI pomocí párového designu. Analýzy byly provedeny pomocí softwaru Python, využívající knihovny Pandas, MumPy a Scipy. Grafické znázornění bylo realizováno pomocí knihovny Matplotlib.

VÝSLEDKY

Hodnocení přesnosti

Napříč hodnocenými kategoriemi demonstrovala AI vyšší senzitivitu než všichni 3 radiologové, a to v relativně dobrém poměru se specificitou. Specificitu měli radiologové ve většině případů vyšší. Nejvyšší rozdíl senzitivity mezi AI a radiology je patrný v kategoriích ATE (0,913) a CON (0,912).

V případě PPV se AI pohybuje v rozmezí od 0,292 (LES), do 0,817 (CMG). Celkově je PPV radiologů až na 1 případ vyšší než PPV AI (RAD3 v kategorii CON). Na druhou stranu NPV je u AI vyšší, pouze RAD3 přesahuje výsledek AI, a to ve 2 případech: CMG (0,985) a LES (1,000).

Interindividuální variabilita (Cohenova kappa) je konzistentně vyšší u AI, až na 1 případ (RAD1 v kategorii CMG).

   

Tab. 4  Diagnostická přesnost (senzitivita, specificita) AI a radiologů při hodnocení patologických nálezů na rtg snímcích hrudníku

Nález

Hodnotitel

Senzitivita (95% CI)

Specificita (95% CI)

Atelektáza (ATE)

AI

0,913 (0,783–1,000)

0,925 (0,884–0,960)

RAD 1

0,087 (0,000–0,217)

0,994 (0,983–1,000)

RAD 2

0,217 (0,043–0,391)

0,988 (0,971–1,000)

RAD 3

0,609 (0,391–0,783)

0,960 (0,931–0,988)

Konsolidace (CON)

AI

0,912 (0,794–1,000)

0,901 (0,851–0,944)

RAD 1

0,114 (0,029–0,229)

0,994 (0,981–1,000)

RAD 2

0,286 (0,143–0,429)

0,988 (0,969–1,000)

RAD 3

0,571 (0,400–0,743)

0,832 (0,770–0,888)

Zvětšení srdečního stínu (CMG)

AI

0,891 (0,800–0,964)

0,922 (0,872–0,965)

RAD 1

0,327 (0,200–0,455)

1,000 (0,973–1,000)

RAD 2

0,491 (0,364–0,618)

1,000 (0,973–1,000)

RAD 3

0,964 (0,909–1,000)

0,930 (0,887–0,972)

Pleurální výpotek (EFF)

AI

0,952 (0,881–1,000)

0,792 (0,727–0,857)

RAD 1

0,238 (0,119–0,381)

1,000 (0,976–1,000)

RAD 2

0,429 (0,286–0,571)

0,994 (0,981–1,000)

RAD 3

0,786 (0,667–0,905)

0,877 (0,825–0,929)

Plicní léze (LES)

AI

0,875 (0,625–1,000)

0,910 (0,867–0,947)

RAD 1

0,125 (0,000–0,375)

1,000 (0,980–1,000)

RAD 2

0,375 (0,125–0,750)

0,973 (0,947–0,995)

RAD 3

1,000 (0,000–1,000)

0,931 (0,894–0,963)

   

Tab. 5  Diagnostická přesnost (PPV a NPV) AI a radiologů při hodnocení patologických nálezů na rtg snímcích hrudníku

Nález

Hodnotitel

PPV (95% CI)

NPV (95% CI)

Atelektáza (ATE)

AI

0,618 (0,441–0,765)

0,988 (0,969–1,000)

RAD 1

0,667 (0,000–1,000)

0,891 (0,845–0,933)

RAD 2

0,714 (0,429–1,000)

0,905 (0,862–0,942)

RAD 3

0,667 (0,476–0,857)

0,949 (0,914–0,977)

Konsolidace (CON)

AI

0,660 (0,532–0,787)

0,980 (0,953–1,000)

RAD 1

0,800 (0,400–1,000)

0,838 (0,785–0,890)

RAD 2

0,833 (0,583–1,000)

0,864 (0,815–0,913)

RAD 3

0,426 (0,277–0,574)

0,899 (0,846–0,946)

Zvětšení srdečního stínu (CMG)

AI

0,817 (0,717–0,917)

0,956 (0,919–0,985)

RAD 1

1,000 (0,000–1,000)

0,792 (0,730–0,848)

RAD 2

1,000 (0,000–1,000)

0,834 (0,775–0,888)

RAD 3

0,841 (0,746–0,921)

0,985 (0,962–1,000)

Pleurální výpotek (EFF)

AI

0,556 (0,444–0,667)

0,984 (0,960–1,000)

RAD 1

1,000 (0,000–1,000)

0,828 (0,774–0,882)

RAD 2

0,947 (0,842–1,000)

0,864 (0,814–0,915)

RAD 3

0,635 (0,500–0,769)

0,938 (0,896–0,972)

Plicní léze (LES)

AI

0,292 (0,125–0,500)

0,994 (0,983–1,000)

RAD 1

1,000 (0,000–1,000)

0,964 (0,938–0,990)

RAD 2

0,375 (0,125–0,750)

0,973 (0,947–0,995)

RAD 3

0,381 (0,190–0,571)

1,000 (0,000–1,000)

   

Tab. 6  Interindividuální variabilita AI a radiologů při hodnocení patologických nálezů na rtg snímcích hrudníku

Nález

Hodnotitel

Cohenova kappa (κ)

Atelektáza (ATE)

AI

0,694

RAD 1

0,590

RAD 2

0,295

RAD 3

0,130

Konsolidace (CON)

AI

0,675

RAD 1

0,335

RAD 2

0,379

RAD 3

0,168

Zvětšení srdečního stínu (CMG)

AI

0,791

RAD 1

0,855

RAD 2

0,581

RAD 3

0,412

Pleurální výpotek (EFF)

AI

0,591

RAD 1

0,527

RAD 2

0,527

RAD 3

0,329

Plicní léze (LES)

AI

0,401

RAD 1

0,524

RAD 2

0,348

RAD 3

0,215

Image 4. Senzitivita a specificita pro detekci atelektázy (ATE) s intervaly spolehlivosti (CI)
Senzitivita a specificita pro detekci atelektázy (ATE) s intervaly spolehlivosti (CI)

Image 5. Senzitivita a specificita pro detekci konsolidace (CON) s intervaly spolehlivosti (CI)
Senzitivita a specificita pro detekci konsolidace (CON) s intervaly spolehlivosti (CI)

Image 6. Senzitivita a specificita pro detekci zvětšení srdečního stínu (CMG) s intervaly spolehlivosti (CI)
Senzitivita a specificita pro detekci zvětšení srdečního stínu (CMG) s intervaly spolehlivosti (CI)

Image 7. Senzitivita a specificita pro detekci pleurálního výpotku (EFF) s intervaly spolehlivosti (CI)
Senzitivita a specificita pro detekci pleurálního výpotku (EFF) s intervaly spolehlivosti (CI)

Image 8. Senzitivita a specificita pro detekci plicních lézí (LES) s intervaly spolehlivosti (CI)
Senzitivita a specificita pro detekci plicních lézí (LES) s intervaly spolehlivosti (CI)

Kazuistiky

Image 9. Příklad falešně negativní predikce AI: Původní popis verifikovaný seniorním radiologem stanovujícím referenční standard potvrzuje trvající obraz pneumonie vpravo v oblasti středního a dolního plicního pole. AI nesprávně vyhodnotila tento snímek jako „nízké riziko“ bez známek konsolidace. Všichni 3 hodnotící radiologové v multi-reader studii označili nález správně jako pozitivní.
Příklad falešně negativní predikce AI: Původní popis verifikovaný seniorním radiologem stanovujícím referenční standard potvrzuje trvající obraz pneumonie vpravo v oblasti středního a dolního plicního pole. AI nesprávně vyhodnotila tento snímek jako „nízké riziko“ bez známek konsolidace. Všichni 3 hodnotící radiologové v multi-reader studii označili nález správně jako pozitivní.

Image 10. Příklad skutečně pozitivní predikce AI: Původní popis verifikovaný seniorním radiologem potvrzuje přítomnost zánětlivých změn v oblasti vpravo pod. AI správně identifikovala tento nález jako „vysoké riziko“ s přítomností konsolidace (CON). Všichni 3 hodnotící radiologové v multi-reader studii označili nález nesprávně jako negativní.
Příklad skutečně pozitivní predikce AI: Původní popis verifikovaný seniorním radiologem potvrzuje přítomnost zánětlivých změn v oblasti vpravo pod. AI správně identifikovala tento nález jako „vysoké riziko“ s přítomností konsolidace (CON). Všichni 3 hodnotící radiologové v multi-reader studii označili nález nesprávně jako negativní.

Image 11. Příklad skutečně negativní predikce AI: Původní popis verifikovaný seniorním radiologem potvrzuje absenci patologických změn v plicním parenchymu, mediastinu i srdečním stínu. AI správně vyhodnotila tento snímek jako „nízké riziko“ bez detekovaných abnormalit. Všichni 3 hodnotící radiologové v multi-reader studii označili nález správně jako negativní.
Příklad skutečně negativní predikce AI: Původní popis verifikovaný seniorním radiologem potvrzuje absenci patologických změn v plicním parenchymu, mediastinu i srdečním stínu. AI správně vyhodnotila tento snímek jako „nízké riziko“ bez detekovaných abnormalit. Všichni 3 hodnotící radiologové v multi-reader studii označili nález správně jako negativní.

Image 12. Příklad skutečně negativní predikce AI: Původní popis verifikovaný seniorním radiologem potvrzuje absenci patologických změn v plicním parenchymu, mediastinu i srdečním stínu. AI správně vyhodnotila tento snímek jako „nízké riziko“ bez detekovaných abnormalit. Všichni 3 hodnotící radiologové v multi-reader studii označili nález správně jako negativní.
Příklad skutečně negativní predikce AI: Původní popis verifikovaný seniorním radiologem potvrzuje absenci patologických změn v plicním parenchymu, mediastinu i srdečním stínu. AI správně vyhodnotila tento snímek jako „nízké riziko“ bez detekovaných abnormalit. Všichni 3 hodnotící radiologové v multi-reader studii označili nález správně jako negativní.

Image 13. Příklad falešně pozitivní predikce AI: Původní popis verifikovaný seniorním radiologem potvrzuje přítomnost fluidothoraxu vpravo. AI správně identifikovala pleurální výpotek (EFF) jako „vysoké riziko“, avšak nesprávně označila přítomnost konsolidace (CON), pravděpodobně v důsledku změn způsobených sériovou frakturou žeber nebo v rámci pasivní atelektázy vzniklé na podkladě fluidothoraxu. Z radiologů označili EFF jako pozitivní RAD 1 a RAD 3, zatímco RAD 2 tento nález neoznačil. Hodnocení CON bylo u všech radiologů v multi-reader studii v souladu s původním popisem lékaře, který ji označil jako nepřítomnou.
Příklad falešně pozitivní predikce AI: Původní popis verifikovaný seniorním radiologem potvrzuje přítomnost fluidothoraxu vpravo. AI správně identifikovala pleurální výpotek (EFF) jako „vysoké riziko“, avšak nesprávně označila přítomnost konsolidace (CON), pravděpodobně v důsledku změn způsobených sériovou frakturou žeber nebo v rámci pasivní atelektázy vzniklé na podkladě fluidothoraxu. Z radiologů označili EFF jako pozitivní RAD 1 a RAD 3, zatímco RAD 2 tento nález neoznačil. Hodnocení CON bylo u všech radiologů v multi-reader studii v souladu s původním popisem lékaře, který ji označil jako nepřítomnou.

Image 14. Příklad skutečně pozitivní predikce AI:Původní popis verifikovaný seniorním radiologem potvrzuje přítomnost chronických fibrotických změn, zvětšení srdečního stínu a pleurálního výpotku. AI správně identifikovala všechny 3 patologické stavy jako „vysoké riziko“. Z hodnocení radiologů v multi-reader studii označil nálezy správně pouze RAD 3, zatímco RAD 1 a RAD 2 částečně nebo nesprávně hodnotili přítomnost uvedených abnormalit.
Příklad skutečně pozitivní predikce AI:Původní popis verifikovaný seniorním radiologem potvrzuje přítomnost chronických fibrotických změn, zvětšení srdečního stínu a pleurálního výpotku. AI správně identifikovala všechny 3 patologické stavy jako „vysoké riziko“. Z hodnocení radiologů v multi-reader studii označil nálezy správně pouze RAD 3, zatímco RAD 1 a RAD 2 částečně nebo nesprávně hodnotili přítomnost uvedených abnormalit.

Image 15. Příklad skutečně pozitivní predikce AI: Původní popis verifikovaný seniorním radiologem potvrzuje přítomnost apikalizace hilů, chronického zastření, zvětšení srdečního stínu a oboustranného pleurálního výpotku. AI správně identifikovala všechny uvedené patologické stavy jako „vysoké riziko“. Z radiologů v multi-reader studii označil všechny 4 nálezy správně pouze RAD 3, zatímco RAD 1 a RAD 2 hodnotili jednotlivé nálezy částečně nebo nesprávně.
Příklad skutečně pozitivní predikce AI: Původní popis verifikovaný seniorním radiologem potvrzuje přítomnost apikalizace hilů, chronického zastření, zvětšení srdečního stínu a oboustranného pleurálního výpotku. AI správně identifikovala všechny uvedené patologické stavy jako „vysoké riziko“. Z radiologů v multi-reader studii označil všechny 4 nálezy správně pouze RAD 3, zatímco RAD 1 a RAD 2 hodnotili jednotlivé nálezy částečně nebo nesprávně.

Image 16. Příklad skutečně pozitivní predikce AI:Původní popis verifikovaný seniorním radiologem potvrzuje přítomnost dilatace srdečního stínu a pleurálního výpotku bilaterálně bazálně. AI správně identifikovala tyto patologické nálezy jako „vysoké riziko“. Z radiologů v multi-reader studii označil nález CMG správně pouze RAD 1, zatímco EFF správně hodnotil pouze RAD 3.
Příklad skutečně pozitivní predikce AI:Původní popis verifikovaný seniorním radiologem potvrzuje přítomnost dilatace srdečního stínu a pleurálního výpotku bilaterálně bazálně. AI správně identifikovala tyto patologické nálezy jako „vysoké riziko“. Z radiologů v multi-reader studii označil nález CMG správně pouze RAD 1, zatímco EFF správně hodnotil pouze RAD 3.

DISKUSE

Výsledky této studie ukazují, že AI v podobě systému Carebot AI CXR dosahuje vysoké úrovně senzitivity napříč všemi hodnocenými kategoriemi abnormalit na rtg snímcích hrudníku. Zároveň však vykazuje variabilitu ve specificitě, což je klíčovým bodem pro diskusi o jejím klinickém využití. Algoritmus překonával méně zkušené radiology, například v kategorii ATE, kde senzitivita AI dosáhla 0,913 (95% CI: 0,783–1,000), zatímco u RAD1 byla 0,087 (95% CI: 0,000–0,217). Tento rozdíl podtrhuje schopnost algoritmu rozpoznat i subtilní nálezy, které mohou být u začínajících lékařů snadno přehlédnuty.

V oblasti PPV se však AI potýkala s určitými omezeními, zejména u kategorií s nízkou prevalencí, jako jsou LES (PPV: 0,292; 95% CI: 0,125–0,500). Tento výsledek naznačuje, že zvýšený počet falešně pozitivních nálezů může mít dopad na workflow radiologů, kteří se budou muset těmito nálezy zabývat. Na druhé straně byla NPV u AI ve všech kategoriích vysoká, což ukazuje na spolehlivost systému při vyloučení patologických nálezů. Například u pleura EFF dosáhla NPV hodnoty 0,984 (95% CI: 0,960–1,000). Radiologové s mírně vyšší úrovní zkušeností, jako RAD3, vykazovali v některých kategoriích srovnatelné nebo lepší výsledky než AI. To bylo zřejmé například CMG, kde PPV RAD3 dosáhlo 0,841 (95% CI: 0,746–0,921) oproti 0,817 (95% CI: 0,717–0,917) u AI.

Co se interindividuální variability (Cohenova kappa) týče, lze si všimnout rozdílných hodnot u RAD1, RAD2, RAD3 a AI. Sytém Carebot AI CXR dosáhl střední až výborné shody s konsenzem ve všech hodnocených abnormalitách (od 0,401 v případě LES po 0,791 v případě CMG). Jednotliví radiologové na druhé straně demonstrovali značně rozdílné shody: RAD 1 v rozsahu od 0,335 (CON) do 0,855 (CMG), RAD2 od 0,295 (ATE) do 0,581 (CMG), RAD3 od 0,130 (ATE) po 0,412 (CMG). Nejnižší hodnoty kappa vykazují v případě radiologů kategorie ATE (0,130–0,590) a CON (0,168–0,379). Napříč všemi kategoriemi AI předčila shodu juniorních radiologů, nejlépe v přesně definovaných podmínkách, jako je CMG.

Významným přínosem této studie je její zaměření na srovnání přesnosti AI a radiologů v simulaci klinických podmínek. Na rozdíl od reálných klinický podmínek radiologové neměli přístup ke klinickým informacím pacienta, předchozím vyšetřením a laboratorním výsledkům. To omezuje hodnocení pouze na rtg snímek. Zmíněné parametry významně pomáhají v diagnostické rozvaze hodnotícího lékaře, především u abnormalit, které nemají tak jasně vymezené hranice, jako je třeba CMG, a kde je hodnocení z velké míry subjektivní. Umělá inteligence také netrpí na „přepracování“ a je ve svém hodnocení konzistentní. Nutno také dodat, že dataset byl verifikován pouze jedním seniorním radiologem a hodnocen radiology prakticky na začátku jejich kariéry, zatímco AI byla trénována na robustním datasetu anotovaným týmem 31 radiologů rozdílných zkušeností, jak zmíněno výše. Celkově výsledky této studie podporují hypotézu, že AI může sloužit jako efektivní nástroj pro podporu diagnostiky, zejména u méně zkušených radiologů nebo v prostředích s vysokou pracovní zátěží.

ZÁVĚR

Studie ukázala, že software AI (Carebot AI CXR) dosahuje vysoké senzitivity při hodnocení rentgenových snímků hrudníku, zejména v detekci subtilních patologických změn, a může efektivně doplňovat práci radiologů, zvláště méně zkušených. Výsledky interindividuální variability (Cohenova kappa) naznačují klinicky relevantní konzistenci v detekování výše hodnocených abnormalit. Vysoká negativní prediktivní hodnota potvrzuje jeho spolehlivost při vyloučení patologických nálezů. Variabilita specificity a falešně pozitivní nálezy však zdůrazňují potřebu další optimalizace. AI může zlepšit diagnostickou přesnost a standardizaci, zejména v prostředích s vysokou pracovní zátěží.

   

Čestné prohlášení

Autoři Jakub Dandár a Daniel Kvak prohlašují, že jsou zaměstnanci společnosti Carebot, která vyvíjí a uvádí na trh zdravotnický prostředek Carebot AI CXR, jenž je předmětem této studie. Tato skutečnost však neměla vliv na metodiku, analýzu dat ani interpretaci výsledků. Výzkum byl proveden nezávisle a v souladu s vědeckými standardy.

   

Role spoluautorů

Jakub Dandár koordinoval průběh studie. Daniel Kvak navrhl koncepci článku a zpracoval většinu částí tohoto rukopisu. Tomáš Jindra se podílel na sběru datasetu, vytvoření referenčního standardu a hodnocení klinicky relevantních parametrů.

   

Seznam použitých zkratek

AI       umělá inteligence

ATE    atelektáza
CAD    počítačem asistovaná detekce
CI        interval spolehlivosti
CMG   zvětšení srdečního stínu
CON    konsolidace
CXR    rentgenový snímek hrudníku
EFF     pleurální výpotek
FN       falešně negativní
FP       falešně pozitivní
GDPR Obecné nařízení o ochraně osobních údajů (General Data Protection Regulation)
LES     plicní léze
NPV    negativní prediktivní hodnota
PA       posteroanteriorní projekce
PACS   systém pro archivaci a komunikaci obrazů (Picture Archiving and Communication System)
PPV     pozitivní prediktivní hodnota
SCE     subkutánní emfyzém
Se        senzitivita
Sp        specificita
TN       pravdivě negativní
TP       pravdivě pozitivní
YOLO You Only Look Once (algoritmus detekce objektů)

   

Adresa pro korespondenci:

MUDr. Jakub Dandár

Carebot, s. r. o.
Rašínovo nábřeží 71/10, 128 00  Praha

Sources
  1. Barentsz J, Takahashi S, Oyen W et al. Commonly used imaging techniques for diagnosis and staging. J Clin Oncol 2006; 24: 3234–3244.
  2. Schaefer-Prokop C, Neitzel U, Venema HW et al. Digital chest radiography: an update on modern technology, dose containment and control of image quality. Eur Radiol 2008; 18: 1818–1830.
  3. Radiology facing a global shortage. Radiological Society of North America, 2022. Dostupné na: www.rsna.org/news/2022/may/global-radiologist-shortage
  4. Kvak D, Chromcová A, Ovesná P et al. Detecting pulmonary lesions in low-prevalence real-world settings using deep learning. In: Proceedings International Conference on Medical Imaging and Computer-Aided Diagnosis 2023 (MICAD 2023). Springer Nature, Singapore, 2023: 3–20.
  5. Yamashita R, Nishio M, Do RKG et al. Convolutional neural networks: an overview and application in radiology. Insights Imaging 2018; 9: 611–629.
  6. Redmon J. You only look once: unified, real-time object detection. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR) 2016. Las Vegas, NV, USA, 2016. Conference Publishing Services, IEE Computer Society, Los Alamitos, Washington, Tokyo, 2016: 779–788.
  7. Nařízení Evropského parlamentu a Rady (EU) 2016/679 ze dne 27. dubna 2016 o ochraně fyzických osob v souvislosti se zpracováním osobních údajů a o volném pohybu těchto údajů a o zrušení směrnice 95/46/ES (obecné nařízení o ochraně osobních údajů). In: Úřední věstník L 119. 4. 5. 2016, s. 1–88.

    

Labels
Addictology Allergology and clinical immunology Angiology Audiology Clinical biochemistry Dermatology & STDs Paediatric gastroenterology Paediatric surgery Paediatric cardiology Paediatric neurology Paediatric ENT Paediatric psychiatry Paediatric rheumatology Diabetology Pharmacy Vascular surgery Pain management Dental Hygienist
Topics Journals
Login
Forgotten password

Enter the email address that you registered with. We will send you instructions on how to set a new password.

Login

Don‘t have an account?  Create new account

#ADS_BOTTOM_SCRIPTS#