Zkoušku z bariatrické chirurgie nejlépe složil ChatGPT-4. Za ním zůstaly Bing a Bard

30. 9. 2024

Velké jazykové modely, jako jsou ChatGPT, Bing nebo Bard, se stávají součástí každodenního života mnohých z nás. Tomu, jak prospěšné a spolehlivé může být jejich využívání při studiu a přípravě na zkoušku, se věnovala nedávná kanadsko-americká studie.

Šprtání z učebnice

Učebnice Americké společnosti pro metabolickou a bariatrickou chirurgii (ASMBS) představuje komplexní zdroj znalostí bariatrické chirurgie, který zahrnuje i nejnovější poznatky a klinické otázky. Studie publikovaná v časopisu Surgery for Obesity and Related Diseases zkoumala schopnost velkých jazykových modelů (LLMs –⁠ large language models) správně odpovědět na otázky obsažené v této knize. Cílem studie bylo zjistit kvalitu a porovnat schopnosti různých LLMs reagovat na učebnicové otázky týkající se bariatrické chirurgie.

Odpovědi založené na výchozím nastavení

Do 3 modelů (ChatGPT společnosti OpenAI, Bing společnosti Microsoft, Bard společnosti Google) byly v jednom týdnu na konci května 2023 zadány stejné prompty: 200 testových otázek s výběrem možných odpovědí převzatých z druhého vydání zmíněné učebnice. Modely LLM nebyly nijak trénované na obsah učebnice, a tak jejich schopnost generovat odpovědi byla založená čistě na jejich výchozím nastavení. K dispozici měly jak samotné otázky, tak možnosti odpovědí, včetně těch správných. Pro každou otázku byla vytvořena nová chatová konverzace, zahájená pokynem: „Odpověz na tuto otázku s výběrem z více možností:”

Pokud jazykové modely neposkytly jednu z uvedených možností jako odpověď, byly maximálně 3× vyzvány k výběru jedné odpovědi. Vygenerované odpovědi byly porovnány se správnými odpověďmi uvedenými v učebnici a hodnoceny na základě celkové přesnosti, počtu správných odpovědí podle tématu a počtu správných odpovědí podle typu otázky.

Výsledky

Přesnost odpovědí

Z hlediska přesnosti odpovědí byly mezi jednotlivými modely celkově významné rozdíly. Nejlépe si vedl ChatGPT-4 s přesností 83 % (166 správných odpovědí) následovaný Bardem (76 %) a Bingem (66 %). Na rozdíl od ostatních ChatGPT-4 nenechal žádnou otázku bez odpovědi. V případě, kdy si napoprvé nevěděl s otázkou rady, dokázal vybrat odpověď po následné výzvě (celkem 5 odpovědí však v tomto případě bylo náhodně vybraných).

Tab. Přesnost poskytnutých odpovědí různými LLMs

AI model	správně n (%)	p	nesprávně n (%)	p	náhodný výběr n (%)	bez odpovědi n (%)
ChatGPT-4	166 (83 %)	< 0,001	34 (17 %)	< 0,001	5 (2,5 %)	0
Bard	152 (76 %)		48 (24 %)		0	5 (2,5 %)
Bing	131 (65,5 %)		69 (34,5 %)		0	1 (0,5 %)

Témata otázek

U jednotlivých podskupin otázek byla provedena samostatná analýza. Tyto podskupiny zahrnují kazuistiky (například otázky týkající se dalšího postupu na základě popisu případu a stavu pacienta), studie/pokyny (například otázky týkající se pokynů organizací nebo vlády, významné studie týkající se bariatrické chirurgie, otázky týkající se předpisů a programů), léčebné a chirurgické postupy (například otázky týkající se výsledků různých léčebných postupů či specifických chirurgických technik), komplikace a nežádoucí příhody, biochemie a farmakologie (například otázky týkající se hormonů, biochemických pochodů a léčiv), diagnostiky a evaluace (například otázky na použití diagnostického testu nebo sledování pacienta s určitým onemocněním), definice a epidemiologické a socioekonomické otázky (například otázky týkající se statistiky a veřejného zdraví nebo týkající se rasy či etnicity).

Analýza podskupin odhalila významný rozdíl mezi výkonností modelů v různých kategoriích otázek. ChatGPT-4 si vedl nejlépe, přičemž vykazoval nejvyšší podíl správných odpovědí v otázkách týkajících se léčebných a chirurgických postupů (83,1 %; p = 0,012) a komplikací/nežádoucích příhod (91,7 %; p = 0,022). Bing si v těchto dvou kategoriích vedl nejhůře (63,3 a 62,5 %).

Typy otázek

Otázky byly kategorizovány na základě typů jako inkluzivní (identifikace správné odpovědi z více možností), exkluzivní (identifikace nesprávné odpovědi z více možností) a pravdivé/nepravdivé. Mezi jednotlivými LLM se projevily významné rozdíly. Nejlépe si vedl ChatGPT-4, který vykazoval vynikající výkon v inkluzivních otázkách (83 % správných odpovědí; p = 0,002). Nejnižší podíl správných odpovědí (65 % a 2 nezodpovězené otázky) naopak vykazoval Bing. Bard sice správně odpověděl v 76 % případů, na 6 otázek však nedokázal odpovědět vůbec.

Slibný začátek

Celkově se ukázalo, že velké jazykové modely, zejména ChatGPT-4, projevily slibnou přesnost při zodpovězení klinických otázek souvisejících s bariatrickou chirurgií. Pro potenciální aplikaci LLMs ve výcviku a vzdělávání je ovšem nutný neustálý pokrok a výzkum AI.

(lexi)

Zdroj: Lee Y., Tessier L., Brar K. et al. Performance of artificial intelligence in bariatric surgery: comparative analysis of ChatGPT-4, Bing, and Bard in the American Society for Metabolic and Bariatric Surgery textbook of bariatric surgery questions. Surg Obes Relat Dis. 2024; S1550-7289(24)00169-2, doi: 10.1016/j.soard.2024.04.014.

Líbil se Vám článek? Rádi byste se k němu vyjádřili? Napište nám − Vaše názory a postřehy nás zajímají. Zveřejňovat je nebudeme, ale rádi Vám na ně odpovíme.

Nejčtenější tento týden

Top novinky

Nové kurzy

Top články

Nové číslo

Top novinky

Nejčtenější

Nová videa

Nová videa

Nové podcasty

Doporučené pozice

Top novinky

Zkoušku z bariatrické chirurgie nejlépe složil ChatGPT-4. Za ním zůstaly Bing a Bard

Šprtání z učebnice

Odpovědi založené na výchozím nastavení

Výsledky

Přesnost odpovědí

Témata otázek

Typy otázek

Slibný začátek