Analýza dat v neurologii - LXX. Kovariance


Autoři: L. Dušek ;  T. Pavlík ;  J. Jarkovský ;  J. Koptíková
Působiště autorů: Institut bio­statistiky a analýz, LF MU, Brno
Vyšlo v časopise: Cesk Slov Neurol N 2018; 81(4): 487-490
Kategorie: Okénko statistika

Minulý díl seriálu jsme věnovali úvodu do analýzy kovariance, kterou jsme představili jako jeden ze základních ukazatelů vztahu dvou kvantitativních proměn­ných. Označíme-li tyto proměn­né X a Y, pak kovarianci značíme cov(X, Y).

Připomeňme z minulého dílu, že odhad kovariance kalkulujeme podle následujícího vztahu: 

CSNN 2018 př1

  • xi, yi jsou jednotlivé hodnoty proměn­ných X a Y naměřené párově u i = 1 až i = N jedinců v analyzovaném souboru,
  • x, y–  jsou aritmetické průměry proměn­ných X a Y.

V tomto díle se dále zaměříme na vybrané vlastnosti kovariance jako statistického ukazatele, představíme postupy pro testování její statistické významnosti a doplníme užitečné informace k jejímu využití. Zamysleme se nejprve v několika následujících poznámkách nad výpočtem hodnoty kovariance dle výše uvedeného vztahu, neboť již z něj lze odvodit interpretační význam kovariance, ale také její limity.

Hodnota kovariance je jednoznačně závislá na rozložení hodnot proměn­ných X a Y kolem jejich aritmetického průměru, neboť čitatel je součtem násobků vzdáleností každé jednotlivé hodnoty xi a yi od průměru  x– , respektive y– . Pokud hodnoty X a Y vykazují na měřených subjektech stejný trend (vztah), pak rostou stejným směrem od průměru a kovariance nabývá kladných hodnot, tím větších, čím je tento vztah průkaznější. Naopak, pokud hodnoty X a Y jdou v pozici vůči svým průměrům opačným směrem, je kovariance číselně záporná a vyjadřuje záporný vztah obou proměn­ných. Nulová či nule blízká hodnota kovariance potom dokládá neexistenci vztahu X a Y, jejichž hodnoty na sobě nijak nezávisí a vyskytují se v pozici vůči svým průměrným hodnotám zcela náhodně.

Čím jsou tedy hodnoty proměn­ných X a Y více „rozptýleny“ kolem jejich průměru, tím je hodnota kovariance numericky vyšší, ať již v záporných nebo kladných číslech. Proto se o kovarianci v odborné literatuře někdy píše jako o společném rozptylu proměn­ných X a Y, jejichž závislost studujeme. Její výpočet totiž skutečně vychází z výpočtu pro rozptyl, který jednoduše definujeme jako průměrný čtverec vzdálenosti od průměru. Pokud tedy dosadíme do vztahu pro výpočet kovariance místo hodnoty Y hodnotu X, dostaneme vztah pro výpočet rozptylu proměn­né X, který označme var(X):

CSNN 2018 př2

CSNN 2018 př3

A obdobně by samozřejmě platilo, že cov(Y, Y) = var(Y). Příklad 1 dokládá na konkrétním souboru dat platnost tohoto vztahu mezi kovariancí a rozptylem. Mnohé čtenáře nyní jistě napadá legitimní otázka, zda jsme zde ve výkladu již nepřešli k příliš detailním matematickým podrobnostem a zda tyto informace mají prakticky využitelný výstup. Odpověď zní jednoznačně ano, neboť z výše uvedeného vyplývají zásadní interpretační omezení odhadu kovariance. Absolutní hodnoty kovariance totiž nejsou určovány pouze silou vztahu proměn­ných X a Y, ale zejména jejich jednotkami a tedy i velikostí jejich rozptylu, který je číselně rovněž určen jednotkami X a Y. Budeme-li např. zkoumat vztah mezi výškou a hmotností lidské postavy, vyjde kovariance v absolutních hodnotách zcela jinak při měření výšky v metrech nebo v centimetrech. V tomto smyslu je kovariance číselně nestandardizovaný ukazatel a velikost kovariance není nijak omezena. Tento fakt dokládá příklad 2 tohoto dílu seriálu.

Příklad 1. Výpočet kovariance vychází z hodnot rozptylu proměnných, jejichž vztah studujeme.
Příklad číselně dokládá platnost vztahu kovariance (X, X) = rozptyl (X) neboli cov(X, X) = var(X).

Příklad 2. Hodnoty kovariance jsou určovány rozptylem, a tedy jednotkami proměnných, jejichž vztah zkoumáme.
Kovariance, stejně jako rozptyl, je svojí hodnotou závislá na číselných jednotkách hodnocených proměnných. Pouhá změna jednotek, např. za účelem zpřesnění měření, může vést k zásadní změně hodnoty kovariance. Příklady níže ukazují ovlivnění výsledné hodnoty kovariance změnou jednotek proměnné X (z m na cm) a Y (z l na ml).

Přestože se směr závislosti X a Y nijak kvalitativně nezměnil a vizuálně jsou oba grafy v podstatě totožné, hodnoty kovariance se výrazně liší. Problémem využití kovariance jako míry závislosti proměnných tedy je neexistující maximální možná hodnota, tj. hodnota vyjadřující maximální sílu vztahu X a Y (všechny body X a Y by v takové situaci ležely na přímce).

Pro odhad kovariance tedy není definována maximální hodnota, která by vyjadřovala nejsilnější možný vztah zkoumaných proměn­ných (jejich hodnoty by v takovém případě ležely přesně na přímce). Naopak, situaci ještě komplikuje fakt, že kovariance je statistika tzv. parametrická, což znamená, že předpokladem pro její výpočet je smysluplná výpovědní hodnota aritmetického průměru jako středu normálního (Gaussova) rozdělení hodnot. Předpokládáme tedy, že proměn­né X a Y naplňují definici normálního rozdělení, které známe jako rozdělení symetrické, bez odlehlých hodnot a s hodnotou aritmetického průměru rovnou mediánu. Významně odlehlé hodnoty jedné nebo obou zkoumaných proměn­ných silně ovlivňují číselnou hodnotu kovariance, neboť v čitateli pro její výpočet se objeví velká číselná hodnota rozdílů xi x–  nebo  yi y– . V extrémním případě tak může jedna jediná hodnota vést k vysoké hodnotě kovariance, která by po jejím vyloučení z výpočtu byla nulová nebo blízká nule. Z tohoto důvodu nesmí být kontrola rozdělení hodnot zkoumaných proměn­ných podceněna.

Z výše uvedeného vyplývá, že z absolutních hodnot kovariance nelze prvoplánově usuzovat sílu vztahu zkoumaných proměn­ných a dále že hodnoty kovariance odhadnuté v různých studiích jsou jen obtížně srovnatelné. O to větší význam má testování statistické významnosti kovariance, které by mělo být téměř povin­ným doplňkem publikovaných hodnot. Kovariance je stochastický ukazatel a o jejích hodnotách lze tedy formulovat různé hypotézy a jejich platnost ověřovat statistickými testy. Standardní hypotézou je nulová hypotéza, že kovariance je rovna nule a mezi proměn­nými X a Y tedy není žádný prokazatelný vztah. Zamítnutím této hypotézy statistickým testem na dané hladině významnosti potvrzujeme statisticky významný vztah mezi zkoumanými proměn­nými.     

Připomeňme, že statistické testy pracují s tzv. testovou statistikou, kterou počítáme dle definovaného vztahu a výsledek vyhodnocujeme pomocí pravděpodobnosti. Testová statistika odhadu kovariance má Studentovo rozdělení pro N – 2 stupňů volnosti a její výpočet zde dokládá příklad 3. Ze vztahu pro testovou statistiku je zřejmé, že čím větší je hodnota kovariance, ať již kladná nebo záporná, tím větší absolutní hodnoty dosahuje hodnota statistiky t a tím větší je pravděpodobnost zamítnutí nulové hypotézy cov(X, Y) = 0.

Příklad 3. Testování statistické významnosti kovariance.
Hodnota kovariance je stochastickým odhadem a může být statisticky testována. Typickou nulovou hypotézou je cov(X, Y) = 0, alternativní hypotézou pak cov(X, Y) ≠ 0. Testová statistika t má Studentovo rozdělení s n – 2 stupni volnosti.

Fakt, že pro kovarianci není definována maximální možná hodnota a číselná hodnota odhadu kovariance závisí na jednotkách a rozptylu zkoumaných proměn­ných, nemusí být vždy nevýhodou. Například zkoumáme- li vztah dvou proměn­ných, které mají finanční význam (X: investice v Kč; Y: výnosy v Kč), je absolutní číselná hodnota kovariance přímo využitelná pro posouzení síly vztahu. Obecně při posuzování vztahu dvou proměn­ných, které si vzájemně odpovídají jednotkami i číselným rozsahem, může mít absolutní hodnota kovariance přímou interpretaci.

Tento díl seriálu uzavřeme příkladem 4, který znázorňuje situaci, kdy potřebujeme posoudit hodnotu kovariance pro více než 2 proměn­né. Potřeba vyjádřit se současně o větším počtu proměn­ných je v praxi velmi častá a vede k vícerozměrnému přístupu v korelační analýze. Při současném zpracování K proměn­ných hodnotíme kovarianci pro K * (K – 1)/2 dvojic proměnných, které sestavujeme do tzv. kovarianční matice, jejíž řádky i sloupce jsou věnovány postupně první až K-té proměn­né. Na průsečíku i-tého řádku a j-tého sloupce je uvedena kovariance i-té a j-té proměn­né. Kovarianční matice je čtvercová (symetrická podle hlavní diagonály) a na diagonále obsahuje rozptyly zkoumaných proměn­ných, neboť platí výše zdůvodněný vztah cov(X, X) = var(X).

Příklad 4. Kovarianční matice a její interpretace.
V případech, kdy potřebujeme posoudit vzájemný vztah mezi více než dvěma proměnnými, lze samozřejmě odhadovat hodnotu kovariance mezi všemi dvojicemi testovaných proměnných. Tab. 1 ukazuje příklad vstupního datového souboru se čtyřmi proměnnými, jejichž vzájemné vztahy je možno zapsat v podobě tzv. kovarianční matice (tab. 2) a znázornit formou maticového grafu (graf 1). Na hlavní diagonále kovarianční matice jsou hodnoty rozptylu jednotlivých proměnných X1–X4, neboť platí vztah cov(X,X) = var(X).

doc. RNDr. Ladislav Dušek, Ph.D.

Institut bio­statistiky a analýz, LF MU, Brno

e‑mail: dusek@iba.muni.cz


Štítky
Dětská neurologie Neurochirurgie Neurologie
Článek Editorial

Článek vyšel v časopise

Česká a slovenská neurologie a neurochirurgie

Číslo 4

2018 Číslo 4

Nejčtenější v tomto čísle

Tomuto tématu se dále věnují…


Kurzy

Zvyšte si kvalifikaci online z pohodlí domova

Pacient na antikoagulační léčbě v akutní situaci
nový kurz
Autoři: MUDr. Jana Michalcová

Kopřivka a její terapie
Autoři: MUDr. Petra Brodská

Uroinfekce v primární péči
Autoři: MUDr. Marek Štefan

Roztroušená skleróza a plánování těhotenství
Autoři: MUDr. Radek Ampapa

Alergenová imunoterapie v léčbě inhalačních alergií
Autoři:

Všechny kurzy
Kurzy Doporučená témata Časopisy
Přihlášení
Zapomenuté heslo

Nemáte účet?  Registrujte se

Zapomenuté heslo

Zadejte e-mailovou adresu se kterou jste vytvářel(a) účet, budou Vám na ni zaslány informace k nastavení nového hesla.

Přihlášení

Nemáte účet?  Registrujte se