Analýza dat v neurologii LXXVIII. Směsné míry korelace u vícerozměrných souborů kvantitativních a kvalitativních dat


Autoři: L. Dušek;  T. Pavlík;  J. Jarkovský;  J. Koptíková
Působiště autorů: Institut bio statistiky a analýz ;  LF MU, Brno
Vyšlo v časopise: Cesk Slov Neurol N 2019; 82(6): 706-708
Kategorie: Okénko statistika

Typickým výstupem reálných experimentů jsou tzv. mnohorozměrné (vícerozměrné) soubory dat, kdy je N jedinců popisováno K proměnnými a zápis datového souboru vytváří datovou matici N × K. S rozšiřujícím se arzenálem různých vyšetřovacích metod a zejména s nástupem molekulárně bio­logických a genetických vyšetření se tento trend týká i klasického klinického výzkumu a výsledné datové matice zahrnují i mnoho desítek proměnných. Logicky vzniká potřeba vyhodnotit vzájemnou korelaci všech těchto proměnných, přičemž zdaleka ne vždy jde o proměnné kvantitativní, tedy spojité. V reálné praxi stojíme i před úkolem vyjádřit korelaci spojitých (metrických) proměnných (např. koncentrace látky v krvi, povrch těla pacienta apod.) s proměnnými ordinálními či binárními (např. dávka léčiva v několika kategoriích či toxicita léčby ve stupních dle grade). Těmto problémům budeme stručně věnovat tento díl seriálu.

Představme si, že máme za úkol popsat korelaci mezi spojitou proměnnou a proměnnou binární (diskrétní). Pro tento účel se používají tzv. biseriální korelace, které vedou k odhadu tzv. biseriálního korelačního koeficientu. Literatura rozlišuje několik typů těchto korelací podle toho, o jakou diskrétní proměnnou jde. Avšak než se pustíme do dalšího výkladu, musíme zdůraznit, že korelace v těchto případech dává smysl, pouze pokud lze diskrétní proměnnou vzestupně či sestupně jednoznačně uspořádat (tedy musí jít o binární znak nabývající hodnoty 0 či 1 anebo o znak ordinální, kde mají kategorie jasné pořadí). Pokud by diskrétní proměnná byla neuspořádaná, tedy dána v podstatě náhodnými kategoriemi bez pořadí (např. nominální znaky), pak korelace postrádá jakýkoli smysl a nelze ji vyčíslit.

Poměrně často používaným typem biseriálních korelací je tzv. bodově biseriální korelace vyjadřující sílu vztahu mezi spojitou proměnnou a proměnnou binární. Bodový biseriální koeficient korelace proměnných X (binární) a Y (spojitá) vypočítáme dle relativně jednoduchého vztahu, který dokumentuje příklad 1. Koeficient můžeme značit jako Rbis nebo Rpb z anglického „point biserial“. Postup je jednoduchý, hodnoty Y rozdělíme podle toho, zda k nim příslušná hodnota X je rovna 1 nebo 0 a následně pracujeme s průměrem hodnot Y v rámci každé z těchto skupin. Příklad koreluje s proměnnou X, která značí podání léku proti horečce při infekci (ano/ ne), s dobou, do kdy dojde k poklesu tělesné teploty pacientů. Příklad také dokládá statistický test významnosti tohoto koeficientu, tedy ověření platnosti hypotézy Rbis = 0.

Příklad 1. Výpočet bodového biseriálního korelačního koefi cientu a test jeho statistické významnosti.
Příklad 1. Výpočet bodového biseriálního korelačního koefi cientu a test jeho statistické významnosti.

Velmi užitečnou modifikací výše uvedeného výpočtu je tzv. pořadový biseriální korelační koeficient, který je využitelný za situací, kdy spojitá proměnná Y nesplňuje předpoklad normálního rozdělení hodnot. Výpočet je srovnatelný s výše uvedeným bodovým korelačním koeficientem, jen pracuje s průměrným pořadím hodnot Y pro kategorii X = 1 a pro kategorii X = 0. Příklad 2 dokumentuje odhad tohoto koeficientu na datech hodnotících vliv podpůrné před­operační terapie (proměnná X nabývající hodnoty 1/ 0) a doby rekonvalescence pacienta po operaci (spojitá proměnná Y).

Příklad 2. Výpočet pořadové biseriální korelace
Příklad 2. Výpočet pořadové biseriální korelace

Zobecněním biseriálních korelací jsou tzv. korelace polyseriální, které analyzují vztah spojité proměnné s proměnnou kategoriální (ordinální). Proměnná X zde tedy nenabývá pouze hodnot ano/ ne, ale je uspořádanou škálou hodnot, které např. vyjadřují odstupňovanou a rostoucí dávku podaného léčiva apod. Tyto korelace předpokládají, že za kategoriemi proměnné X existuje skrytá spojitá proměnná, jejíž hodnoty kategorie X reprezentují. Obdobným předpokladem jsou vybaveny také tzv. korelace polychorické, které odhadují sílu vztahu dvou diskrétních proměnných. Tyto metody již svou složitostí překračují rámec této kapitoly a je také nutno poznamenat, že metodou první volby při studiu vzájemného vztahu (asociace) dvou diskrétních znaků jsou jednoznačně kontingenční tabulky (např. díl 21 a 22 našeho seriálu). Pro ověření závislosti kategoriálních znaků uspořádaných v kontingenční tabulce standardně používáme chí-kvadrát test nezávislosti dvou znaků. Jako nadstavba analýzy kontingenčních tabulek se využívá tzv. koeficient kontingence, jehož výpočet přibližuje příklad 3.

Příklad 3. Koeficient kontingence.
Příklad 3. Koeficient kontingence.

Na závěr je nutné zdůraznit, že výše uvedené typy biseriálních a polyseriálních korelací mohou být využívány i za situace, kdy primárně pracujeme se spojitou proměnnou, ale přesné určení kvantitativní hodnoty u jednotlivých měření není možné, např. při odečítání počtu kolonií při bakteriologickém výsevu na živné půdě nebo při hodnocení stupně vyrážky na kůži. V těchto případech lze spojitou proměnnou nahradit pouze vzestupně uspořádanými intervaly hodnot a vzniká tak skrytě spojitá proměnná, kterou pro následný výpočet zastupuje proměnná binární či kategoriální, rozdělená do skupin hodnot. Tímto způsobem vlastně elegantně řešíme nepřesnost primárních měření, aniž bychom museli nějak modifikovat experimentální plán. Daný postup schematicky znázorňuje graf uvedený v příkladu 4.

Příklad 4. Schematické znázornění kategorizace spojité proměnné před korelační analýzou s jinou spojitou proměnnou.
Příklad 4. Schematické znázornění kategorizace spojité proměnné před korelační analýzou s jinou spojitou proměnnou.

prof. RNDr. Ladislav Dušek, Ph.D.

Institut bio­statistiky a analýz, LF MU, Brno

e‑mail: dusek@iba.muni.cz


Štítky
Dětská neurologie Neurochirurgie Neurologie

Článek vyšel v časopise

Česká a slovenská neurologie a neurochirurgie

Číslo 6

2019 Číslo 6

Nejčtenější v tomto čísle

Tomuto tématu se dále věnují…


Kurzy

Zvyšte si kvalifikaci online z pohodlí domova

Co je dobré vědět o IPF
nový kurz
Autoři:

Nová éra v léčbě migrény
Autoři: MUDr. Eva Medová, MUDr. Tomáš Nežádal, Ph.D.

Imunitní trombocytopenie (ITP) u dospělých pacientů
Autoři: prof. MUDr. Tomáš Kozák, Ph.D., MBA

Význam nutraceutik u kardiovaskulárních onemocnění

Pěnová skleroterapie
Autoři: MUDr. Marek Šlais

Všechny kurzy
Kurzy Doporučená témata Časopisy
Přihlášení
Zapomenuté heslo

Nemáte účet?  Registrujte se

Zapomenuté heslo

Zadejte e-mailovou adresu se kterou jste vytvářel(a) účet, budou Vám na ni zaslány informace k nastavení nového hesla.

Přihlášení

Nemáte účet?  Registrujte se

VIRTUÁLNÍ ČEKÁRNA ČR Jste praktický lékař nebo pediatr? Zapojte se! Jste praktik nebo pediatr? Zapojte se!

×