Analýza dat v neurologii XXIX. - Spolehlivost (reliabilita) klinických testů

Stáhnout PDF

Autoři: L. Dušek; T. Pavlík; J. Jarkovský ; J. Koptíková
Působiště autorů: Institut biostatistiky a analýz, Masarykova univerzita, Brno
Vyšlo v časopise: Cesk Slov Neurol N 2011; 74/107(5): 594-599
Kategorie: Okénko statistika

V předcházejících dílech našeho seriálu jsme se zabývali hodnocením diagnostických testů vyvíjených s cílem co nejlépe odlišit nemocné a zdravé jedince. Odvodili jsme řadu ukazatelů věrohodnosti a diagnostické kvality testů a doložili jsme, že nejlepším způsobem hodnocení je tyto statistické ukazatele kombinovat. Přesto náš výčet indikátorů kvality testů není u konce. V tomto díle navážeme na dosavadní výklad vysvětlením metod měření spolehlivosti, které jsou aplikovatelné pro širokou škálu klinických testů. Tím myslíme nejen „pravých“ diagnostických testů srovnávajících zdravé a nemocné jedince, ale i klinických šetření určených k rizikové typologii pacientů (např. různá klinická skóre) nebo dotazníkových šetření včetně hodnocení kvality života.

Koncept hodnocení spolehlivosti je v našem výkladu nový a nelze jej nahradit dosud probranými indikátory, jako je např. senzitivita, specificita, věrohodnostní poměr či prediktivní hodnota testu. Všechny tyto ukazatele jsou sice důležité, ale vypovídají pouze o fázi vývoje a optimalizace daného testu a následně o interpretaci výsledků. Avšak pokud se test dostane do klinické praxe, bude používán opakovaně u stejných nebo různých subjektů a budou jej využívat různí hodnotitelé. Nutně tak potřebujeme ukazatel, který změří, zda jsou výstupy testu stabilní i za těchto podmínek. Jinými slovy, zda jsou konzistentní, spolehlivé. I test s velmi dobrou senzitivitou a specificitou v laboratorních podmínkách může být nespolehlivý v klinické praxi. Například proto, že pracuje s problematickým hardwarem nebo je jeho hodnocení příliš závislé na konkrétním hodnotiteli. Jde o zásadní rozměr, neboť nespolehlivé testy nemohou být považovány za validní a využitelné.

Spolehlivost (reliabilita) vyjadřuje míru shody, které jsme schopni dosáhnout při opakovaném měření na jednom objektu (subjektu), prováděném za stejných podmínek a stejnou osobou (přístrojem). Hovoříme o tzv. konzistenci opakovaných výsledků. Je zřejmé, že pokud se opakovaná měření podstatně liší, aniž by se měnil objekt měření a jeho vlastnosti, pak nejsou spolehlivá. Spolehlivost metody nebo nástroje pro testování pacientů lze zjistit řadou metod, které obecně vycházejí z předpokladu, že naměřená hodnota se skládá ze skutečné hodnoty a z chyby. Rostoucí podíl chyby snižuje spolehlivost měření. Příčinou nespolehlivosti mohou být nejrůznější subjektivní i objektivní faktory, které chybovou složku dohromady vytvářejí.

Existuje několik přístupů k hodnocení spolehlivosti testů; při jejich aplikaci musíme brát ohled na kontext a design měření.

1. Metoda opakovaného měření v čase je využitelná v situacích, kde můžeme klinický test opakovat na témže jedinci. Hodnocení opakujeme s vhodným časovým odstupem odpovídajícím dané situaci, např. u testů kvality života jde o opakované hodnocení stejných osob po dvou až třech dnech, kdy se kvalita života u stejných jedinců nemohla podstatně změnit. Tento scénář je označován jako postup „test-retest“ a je využitelný především pro neinvazivní vyšetřovací metody včetně dotazníkových šetření.

2. Metoda paralelních měření je vhodná, pokud máme k dispozici ekvivalentní varianty testu. Hodnocení shody výsledků paralelně aplikovaných alternativních testů je založeno na jejich vzájemné korelaci. Úskalím postupu je podmínka existence skutečně zástupných forem testu, měřících stejnou veličinu.

3. Hodnocení shody více pozorovatelů, kteří pomocí stejného nástroje (klinického testu, dotazníku) hodnotí paralelně stejnou věc. Na spolehlivost pozorování zde usuzujeme ze shody závěru pozorovatelů na identických subjektech. Čím větší je shoda mezi hodnotiteli, tím větší je i spolehlivost daného nástroje. Pro statistické hodnocení této formy spolehlivosti využíváme Cohenův koeficient kappa (inter-observer variability –⁠ viz díl VI tohoto seriálu).

4. Oddělené hodnocení dílčích výstupů testu. Pokud pracujeme s testem (dotazníkovým šetřením), který má více položek, můžeme sledovat míru shody výstupů těchto komponent (tzv. split-half reliability). Příkladem může být rozdělení položek dotazníku na dvě poloviny, následně každou část vyhodnotíme samostatně a hodnotíme korelaci získaných výstupů.

Je zřejmé, že spolehlivost testu zahrnuje konzistenci výstupů a opakovatelnost měření. Spolehlivost můžeme alternativně definovat jako vlastnost (schopnost) testu dosahovat stejných výsledků, pokud se nezměnil stav měřeného objektu. Spolehlivost zavádí do systému validace testů pravděpodobnostní interpretaci, navíc ji můžeme vztáhnout i k procesu statistického hodnocení hypotéz. Již dříve jsme doložili, že při testování určité hypotézy můžeme udělat chybu 1. druhu (nesprávné zamítnutí platné hypotézy, pravděpodobnost této chyby značíme α) a chybu 2. druhu (chybné přijetí neplatné hypotézy, pravděpodobnost této chyby značíme β). Pravděpodobnost 1 –⁠ α někdy nazýváme spolehlivostí statistického testu. Hodnota vyjadřuje pravděpodobnost, s jakou jsme schopni rozpoznat platnost hypotézy a správně ji potvrdit.

Spolehlivost můžeme vyjadřovat v absolutních jednotkách, kdy posuzujeme variabilitu opakovaných měření přímo na škále měřených hodnot. Tento způsob lze doporučit při hodnocení kvantitativních laboratorních měření, u kterých můžeme odhadnout směrodatnou odchylku (s). Konzistence výsledků je tak posuzována na základě variability, kterou u naměřených hodnot očekáváme. Často zde autoři definují tzv. kritickou diferenci (např. hodnotu 3s) pro posuzování rozdílu dvou nebo více měření v absolutní hodnotě. Koncept bezrozměrného hodnocení spolehlivosti je naopak vhodný u testů, kde měřené hodnoty nemají kvantitativní význam, např. u dotazníkových šetření. Shoda opakovaných šetření se vyjadřuje např. pomocí korelačního koeficientu.

Zvláštní kategorii v hodnocení spolehlivosti testů představuje tzv. mezipoložková spolehlivost, která ukazuje na konzistenci sady otázek dotazníkových šetření. Někdy v této souvislosti používáme pojem analýza spolehlivosti položek (item reliability analysis). Tento typ spolehlivosti našel uplatnění např. v hodnocení dotazníků kvality života, které jsou typicky složeny z panelů otázek. Konzistence výstupů dílčích komponent dotazníků nebo vícerozměrných klinických skóre je významným ukazatelem kvality šetření. V této souvislosti hovoříme o vnitřní konzistenci testu.

Nejčastěji využívaným ukazatelem vnitřní konzistence testu je měření pomocí tzv. Cronbachova alfa (nebo také Cronbachova koeficientu alfa), který je definován jako:

kde k je počet sledovaných otázek, s_i² je výběrový rozptyl i-té otázky a s_t² je výběrový rozptyl celkového skóre získaného součtem jednotlivých otázek. Princip výpočtu Cronbachova alfa je založen na statistickém vztahu, který říká, že rozptyl součtu nezávislých náhodných veličin je roven součtu rozptylů těchto veličin. Máme-li tedy situaci, kdy jednotlivé položky dotazníku jsou vzájemně nezávislé, je výraz s_t² roven součtu s₁² + s₂² + ... + s_k², což ale znamená, že výraz v závorce je roven nule, a tedy i celé alfa je rovno nule. Naopak, máme-li situaci, kdy jednotlivé položky dotazníku jsou úplně závislé, jsou všechny s_i² stejné a výraz s_t² je roven k²s_i². To vede k tomu, že výraz v závorce je roven 1 –⁠ 1/k a celý koeficient alfa je roven 1.

Platí tedy, že hodnota koeficientu narůstá s rostoucí korelací jednotlivých položek testu (dotazníku). Cronbachovo alfa sice teoreticky nabývá hodnot od 0 do 1, avšak pouze hodnoty vetší než 0,5 ukazují na testy, které mají reálný smysl. Hodnoty blízké 0 znamenají, že v měření testu převažuje chybová složka rozptylu a mezi jednotlivými položkami testu je velmi nízká shoda. Hodnoty blízké 1 naopak znamenají, že chybová složka rozptylu měření je relativně nízká a dílčí položky testu jsou vnitřně maximálně konzistentní. Hraniční hodnoty pro přijatelnou vnitřní konzistenci testu jsou v literatuře stanoveny konvencí, hodnoty alfa nad 0,6 jsou již přijatelné, hodnoty 0,7 a vyšší již znamenají uspokojivou míru vnitřní konzistence testu. Vysoké hodnoty Cronbachova alfa ukazují vysoký stupeň shody položek testu v tom smyslu, že stejně dobře odrážejí tentýž pozorovaný jev.

Výpočet Cronbachova alfa pro dva typy dotazníkových šetření, jedno s uspokojivou a druhé s nedostatečnou vnitřní konzistencí dokládají příklady 1 a 2. V těchto příkladech je doložen i odhad intervalu spolehlivosti. Příklad 3 dále doplňuje výpočet tzv. standardizovaného Cronbachova alfa, ve kterém standardizujeme všechny položky hodnoceného testu na stejný rozptyl roven jedné.

**Příklad 1. Výpočet Cronbachova koeficientu alfa – příklad dotazníkového šetření s dobrou vnitřní konzistencí.**

**Příklad 2. Výpočet Cronbachova koeficientu alfa – příklad dotazníkového šetření s neuspokojivou vnitřní konzistencí.**

**Příklad 3. Výpočet standardizovaného Cronbachova koeficientu alfa.**

Výše uvedený rozbor Cronbachova alfa možná čtenáře zarazil svou neurčitostí, kdy přijatelné hodnoty určuje spíše konvence než objektivní metody výpočtu. Při interpretaci hodnot tohoto koeficientu tedy musíme být opatrní a sledovat i kontext a design hodnocení. Obecně totiž neplatí, že čím větších hodnot alfa dosáhneme, tím je daný test kvalitnější. Problémem je, že hodnota Cronbachova alfa roste i s přibývajícím počtem hodnocených položek, a nárůstu koeficientu tak můžeme dosáhnout třeba i přidáním několika relativně neužitečných otázek do dotazníku. Doporučená hodnota koeficientu alfa nad 0,7 tak může být skutečně objektivně vysoká, pokud jí dosáhneme např. při pouze šesti položkách v dotazníku, ale naopak nedostatečná, pokud jde o šetření s 30 a více otázkami. Počet položek v dotazníku nebo ve složeném klinickém skóre je nutno vnímat jako potenciální faktor zkreslení výsledného hodnocení.

Tento aspekt je zvláště závažný v klinické praxi. Větší počet hodnocených položek v dotaznících nebo v klinických skóre je zatěžující pro pacienta i pro poskytovatele péče. Je tedy zcela nepřijatelné dosahovat lepších ukazatelů kvality a konzistence testu pouhým zvyšováním počtu hodnocených položek. Vysoká spolehlivost šetření nesmí být cílem dosahovaným za každou cenu, naopak měla by být nástrojem pro optimalizaci obsahu klinických testů. Nutně tedy potřebujeme nástroje, které umožní:

a) optimalizovat počet hodnocených položek
b) studovat jejich vliv (význam) v celkovém výsledku testu.

Výpočet informující o optimálním počtu položek v daném šetření nabízí vztah převzatý z publikace Ferjenčík (2000):

n = r_p . (1 –⁠ r_s) / [r_s . (1 –⁠ r_p)],

kde n je násobek původního počtu položek, r_p je požadovaná hodnota položkové spolehlivosti, r_s je skutečná (dosažená) hodnota položkové spolehlivosti.

Praktické využití tohoto vztahu dokládá příklad 4. Je patrné, že testy složené z nízkého počtu položek mohou dosáhnout vyšší vnitřní konzistence a spolehlivosti, pokud počet položek navýšíme. Obecně lze tento fakt uplatnit např. u didaktických nebo vědomostních testů, kde rozumné zvýšení počtu otázek nenaráží na provozní a etické normy. V klinické praxi je navyšování počtu položek v testech striktně limitováno jejich věcným diagnostickým významem a dostupností. U klinických skóre a dotazníků má výše uvedený vztah větší význam za situace, kdy indikuje možnost snížit počet dotazovaných (vyšetřovaných) položek při ještě přijatelné vnitřní konzistenci testu (příklad 4).

**Příklad 4. Odhad optimálního počtu položek v dotazníkovém šetření.**

Pokud chceme redukovat počet položek klinického skóre nebo dotazníkového šetření, nastává otázka, jaké konkrétní položky z testu vypustit. I zde pomůže analýza pomocí Cronbachova alfa. Logicky bychom měli vypustit položky, které nejméně ovlivňují výslednou konzistenci celého testu. Výpočet provádíme tak, že postupně vypouštíme jednotlivé položky testu a následně sledujeme, zda Cronbachovo alfa po jejich vyloučení klesá nebo naopak vzrůstá. Pokud po vypuštění nějaké položky celkové Cronbachovo alfa testu významně vzroste nebo se vůbec nezmění, je velmi vhodné ji z celkového testu vyloučit. Ukázku těchto výpočtů přináší příklad 5.

**Příklad 5. Využití Cronbachova alfa jako nástroje pro redukci počtu otázek v dotazníku.**

Cronbachův koeficient alfa je ukazatelem vnitřní konzistence testu, který pracuje se spojitými škálami hodnot. Jako takový navázal a rozvinul koncept publikovaný již v roce 1937, který byl určen pro hodnocení vnitřní konzistence testů založených na dichotomických, binárních odpovědích (ano/ne). Jde o tzv. Kuder-Richardsonův vzorec 20 (Kuder-Richardson Formula 20; KR-20). Vlastnosti této statistiky jsou v podstatě shodné s Cronbachovým alfa –⁠ vzorec vede k hodnotám na škále 0 až 1 a vyšší hodnoty značí vnitřně homogenní, konzistentní test. Výpočet je užitečný i pro klinickou praxi, kde řada dotazníků nebo skóre může být složena právě z binárních položek. Výpočet je dokumentován v příkladu 6.

**Příklad 6. Kuder-Richardsonův vzorec jako alternativa Cronbachova alfa pro binární data.**

Závěrem nahlédněme krátce do historie zkoumání spolehlivosti testů. Zásadním přínosem ve vývoji tohoto konceptu hodnocení byly právě práce Lee Josepha Cronbacha (1916–2001), amerického profesora psychologie. Originální práci s návrhem koeficientu alfa publikoval prof. Cronbach v roce 1951. Kromě této práce publikoval řadu dalších publikací, které zásadně přispěly k teorii a hodnocení měření v experimentální a edukační psychologii.

doc. RNDr. Ladislav Dušek, Dr.
Institut biostatistiky a analýz
Masarykova univerzita, Brno
e-mail: dusek@cba.muni.cz