Zkoušku z bariatrické chirurgie nejlépe složil ChatGPT-4. Za ním zůstaly Bing a Bard

30. 9. 2024

Velké jazykové modely (LLM – large language model), jako jsou ChatGPT, Bing nebo Bard, se stávají součástí každodenního života mnohých z nás. Tomu, jak prospěšné a spolehlivé může být jejich využívání při studiu a přípravě na zkoušku, se věnovala nedávná kanadsko-americká studie.

Šprtání z učebnice

Učebnice Americké společnosti pro metabolickou a bariatrickou chirurgii (ASMBS – American Society for Metabolic and Bariatric Surgery) představuje komplexní zdroj znalostí bariatrické chirurgie, který zahrnuje i nejnovější poznatky a klinické otázky. Studie publikovaná v časopise Surgery for Obesity and Related Diseases zkoumala schopnost LLM správně odpovědět na otázky obsažené v této knize. Cílem studie bylo zjistit kvalitu a porovnat schopnosti různých velkých jazykových modelů reagovat na učebnicové otázky týkající se bariatrické chirurgie.

Odpovědi založené na výchozím nastavení

Do 3 modelů (ChatGPT společnosti OpenAI, Bing společnosti Microsoft, Bard společnosti Google) byly v jednom týdnu na konci května 2023 zadány stejné prompty: 200 testových otázek s výběrem možných odpovědí převzatých z druhého vydání zmíněné učebnice. Modely LLM nebyly nijak trénované na obsah učebnice, a tak jejich schopnost generovat odpovědi byla založená čistě na jejich výchozím nastavení. K dispozici měly jak samotné otázky, tak možnosti odpovědí, včetně těch správných. Pro každou otázku byla vytvořena nová chatová konverzace, zahájená pokynem: „Odpověz na tuto otázku s výběrem z více možností:”

Pokud jazykové modely neposkytly jednu z uvedených možností jako odpověď, byly maximálně 3× vyzvány k výběru jedné odpovědi. Vygenerované odpovědi byly porovnány se správnými odpověďmi uvedenými v učebnici a hodnoceny na základě celkové přesnosti, počtu správných odpovědí podle tématu a počtu správných odpovědí podle typu otázky. 

Výsledky

Přesnost odpovědí

Z hlediska přesnosti odpovědí byly mezi jednotlivými modely celkově významné rozdíly. Nejlépe si vedl ChatGPT-4 s přesností 83 % (166 správných odpovědí) následovaný Bardem (76 %) a Bingem (66 %). Na rozdíl od ostatních ChatGPT-4 nenechal žádnou otázku bez odpovědi. V případě, kdy si napoprvé nevěděl s otázkou rady, dokázal vybrat odpověď po následné výzvě (celkem 5 odpovědí však v tomto případě bylo náhodně vybraných).

Přesnost poskytnutých odpovědí různými LLM

AI model

správně 

n (%) 

p

nesprávně n (%) 

p

náhodný výběr 

n (%)

bez odpovědi 

n (%)

ChatGPT-4

166 (83 %)

< 0,001

34 (17 %)

<0,001

5 (2,5 %)

0

Bard

152 (76 %)

48 (24 %)

0

5 (2,5 %)

Bing

131 (65,5 %)

69 (34,5 %)

0

1 (0,5 %)

Témata otázek

U jednotlivých podskupin otázek byla provedena samostatná analýza. Tyto podskupiny zahrnují kazuistiky (například otázky týkající se dalšího postupu na základě popisu případu a stavu pacienta), studie/pokyny (například otázky týkající se pokynů organizací nebo vlády, významné studie týkající se bariatrické chirurgie, otázky týkající se předpisů a programů), léčebné a chirurgické postupy (například otázky týkající se výsledků různých léčebných postupů či specifických chirurgických technik), komplikace a nežádoucí příhody, biochemie a farmakologie (například otázky týkající se hormonů, biochemických pochodů a léčiv), diagnostiky a evaluace (například otázky na použití diagnostického testu nebo sledování pacienta s určitým onemocněním), definice a epidemiologické a socioekonomické otázky (například otázky týkající se statistiky a veřejného zdraví nebo týkající se rasy či etnicity). 

Analýza podskupin odhalila významný rozdíl mezi výkonností modelů v různých kategoriích otázek. ChatGPT-4 si vedl nejlépe, přičemž vykazoval nejvyšší podíl správných odpovědí v otázkách týkajících se léčebných a chirurgických postupů (83,1 %, p = 0,012) a komplikací/nežádoucích příhod (91,7 %, p = 0,022). Bing si v těchto dvou kategoriích vedl nejhůře (63,3 % a 62,5 %). 

Typy otázek

Otázky byly kategorizovány na základě typů jako inkluzivní (identifikace správné odpovědi z více možností), exkluzivní (identifikace nesprávné odpovědi z více možností) a pravdivé/nepravdivé. Mezi jednotlivými LLM se projevily významné rozdíly. Nejlépe si vedl ChatGPT-4, který vykazoval vynikající výkon v inkluzivních otázkách (83 % správných odpovědí, p = 0,002). Nejnižší podíl správných odpovědí (65 % a 2 nezodpovězené otázky) naopak vykazoval Bing. Bard sice správně odpověděl v 76 % případů, na 6 otázek však nedokázal odpovědět vůbec.

Slibný začátek

Celkově se ukázalo, že velké jazykové modely, zejména ChatGPT-4, projevily slibnou přesnost při zodpovězení klinických otázek souvisejících s bariatrickou chirurgií. Pro potenciální aplikaci LLM ve výcviku a vzdělávání je nutný neustálý pokrok a výzkum AI. 

(lexi)

Zdroj: Lee Y., Tessier L., Brar K. et al. Performance of artificial intelligence in bariatric surgery: comparative analysis of ChatGPT-4, Bing, and Bard in the American Society for Metabolic and Bariatric Surgery textbook of bariatric surgery questions. Surg Obes Relat Dis. 2024; S1550-7289(24)00169-2, doi: 10.1016/j.soard.2024.04.014.



Kurzy Podcasty Doporučená témata Časopisy
Přihlášení
Zapomenuté heslo

Zadejte e-mailovou adresu, se kterou jste vytvářel(a) účet, budou Vám na ni zaslány informace k nastavení nového hesla.

Přihlášení

Nemáte účet?  Registrujte se