-
Články
Top novinky
Reklama- Vzdělávání
- Časopisy
Top články
Nové číslo
- Témata
Top novinky
Reklama- Kongresy
- Videa
- Podcasty
Nové podcasty
Reklama- Kariéra
Doporučené pozice
Reklama- Praxe
Top novinky
ReklamaAnalýza dat v neurologii LXXIV. - Neparametrický Spearmanův koeficient korelace
Autoři: L. Dušek; T. Pavlík; Jiří Jarkovský
; J. Koptíková
Působiště autorů: Institut bio statistiky a analýz, LF MU, Brno
Vyšlo v časopise: Cesk Slov Neurol N 2019; 82(2): 236-239
Kategorie: Okénko statistika
V minulých dílech seriálu jsme se věnovali výkladu Pearsonova korelačního koeficientu, který je také označován jako parametrická nebo lineární korelace. Jeho hodnocení je totiž smysluplné pouze při splnění předpokladu normálního rozložení hodnot u obou do korelace vstupujících proměnných X a Y. Na příkladech v předchozím díle jsme doložili, že asymetrie rozložení nebo výskyt odlehlých hodnot zásadně zkreslují odhad tohoto korelačního koeficientu a také výsledek jeho statistického hodnocení. Jak tedy postupovat v situacích, kdy rozložení hodnot korelovaných proměnných není normální? V takovém případě můžeme buď proměnné transformovat nějakou normalizující funkcí anebo použijeme tzv. neparametrickou korelaci, která nevyžaduje normalitu rozložení hodnot. Nejčastěji používanou neparametrickou mírou korelace je Spearmanův korelační koeficient (rs), jehož výkladu budeme věnovat tento díl seriálu.
Příklad 1. Výpočet Spearmanova korelačního koeficientu.
Příklad 2. Testování statistické významnosti Spearmanova korelačního koeficientu.
Příklad 3. Výpočet 95% intervalu spolehlivosti Spearmanova korelačního koeficientu (data z příkladu 1).
Příklad 4. Srovnání hodnot Pearsonova a Spearmanova korelačního koeficientu.
Připomeňme, že neparametrické statistiky jsou tzv. robustní, tedy více či méně necitlivé vůči odchylkám od normality analyzovaných proměnných. Neparametrické postupy typicky převádějí původní kvantitativní hodnoty proměnných na pořadí („rank“) a tím se od vlivu odlehlých hodnot oprošťují. Z tohoto postupu vychází i vztah pro výpočet Spearmanova korelačního koeficientu, který přibližuje příklad 1. Původní hodnoty proměnných X a Y jsou nejprve převedeny na pořadí (samostatně každá proměnná zvlášť) a následně je kalkulována hodnota korelace, která pracuje s diferencemi pořadí X a Y u jednotlivých objektů, kterých je N. Diference pořadí u i-tého řádku vstupní matice hodnot se označuje di. Výsledný vztah pro výpočet rs je následující:
Jsou-li pořadí hodnot X a Y naprosto shodná, pak součet všech hodnot di je roven nule a korelační koeficient dosahuje své maximální kladné hodnoty, tedy 1. Obdobně, pokud by hodnoty X a Y byly řazeny přesně opačně, pak by výsledná hodnota rs byla –1 (záporná korelace). Je patrné, že výpočet rs je velmi jednoduchý a lze ho provést i bez zvláštního softwarového vybavení.
Ze vztahu pro výpočet je zřejmé, proč je Spearmanův koeficient v literatuře často označován jako pořadová korelace („rank correlation“). Z tohoto označení také vyplývá interpretace neparametrické korelace, která je rozdílná od korelace Pearsonovy. Pearsonův korelační koeficient pracuje s původními kvantitativními hodnotami X a Y a na jeho hodnotu mají vliv nejen stejný směr v hodnotách obou proměnných, ale také kvantitativní rozdíly hodnot X a Y od jejich průměru. Jde o korelaci, která dosahuje maxima, pokud je mezi X a Y čistý přímkový vztah. Hodnoty Spearmanova korelačního koeficientu odrážejí pouze stejný směr hodnot X a Y (koeficient je počítán z pořadí, nikoli z původních hodnot), a tedy nijak nesouvisí s tvarem vztahu obou proměnných. Hodnota rs se tudíž může blížit maximu, i když mezi hodnotami X a Y není lineární vztah. Pro maximální neparametrickou korelaci stačí pouze, aby hodnoty obou proměnných rostly nebo klesaly ve stejném pořadí. Neparametrická korelace neodráží kvantitu, tedy „o kolik“ se mění hodnota X v závislosti na hodnotě Y.
Výše zmíněné rozdíly mezi parametrickou a neparametrickou korelací jsou především interpretační. Pokud jde o dosažitelné hodnoty koeficientů, není mezi oběma metodickými postupy žádný rozdíl. Spearmanův korelační koeficient může stejně jako Pearsonova korelace nabývat hodnot od –1 do +1. Hodnoty rs blízké nebo rovny nule ukazují na situaci, kdy jsou pořadí hodnot X a Y náhodně zpřeházená a mezi oběma veličinami není žádný vztah.
Rovněž odhad intervalu spolehlivosti pro neparametrickou korelaci a test její statistické významnosti (testujeme nulovou hypotézu rs = 0) jsou prakticky totožné s výpočty pro Pearsonův korelační koeficient. Konkrétní postupy dokládají příklady 2 a 3.
Jistou slabinou výpočtu Spearmanova korelačního koeficientu je práce s pořadími hodnot, neboť transformace původních hodnot proměnných do pořadí zásadně zužuje numerický rozsah hodnot. To se projeví zejména při práci s malými soubory dat, kdy říkáme, že neparametrické testy mají tzv. nižší sílu než testy parametrické. Tím je myšleno, že mají při stejné velikosti vzorku nižší schopnost rozpoznat neplatnost nulové hypotézy. Problémem také může být výskyt stejných hodnot, které pak v rámci proměnných X a Y dostávají stejná pořadí a ta se musí průměrovat. V takovém případě je v literatuře doporučován jiný vztah pro výpočet rs:
Tento vztah je v podstatě vztahem pro výpočet Pearsonova korelačního koeficientu, avšak počítaného na pořadích vstupujících hodnot X a Y. Hodnota xri značí pořadí hodnoty xi v rámci vzestupně uspořádaných hodnot X. Obdobně jsou takto převedeny hodnoty proměnné Y. Označení pomocí indexu r značí „rank“, tedy pořadí. Hodnoty xr a yr jsou potom průměrnými pořadími v rámci hodnot X a Y, hodnota sxr syr je součinem směrodatných odchylek rovněž počítaných na pořadích hodnot obou proměnných.
Čtenáře nyní jistě napadne otázka, kdy je tedy v praxi lepší použít neparametrickou korelaci místo parametrické. Obecné pravidlo vyplývá již z výše uvedeného výkladu. Spearmanova korelace by měla být jednoznačně preferována u dat, kde vstupující proměnné nesplňují podmínky normálního rozdělení, zejména pokud se v nich vyskytují odlehlé hodnoty. Není-li z nějakého důvodu smyslem korelace prokázat přímkový vztah X a Y, je neparametrický korelační koeficient dobrou volbou. Při analýze konkrétních dat lze ovšem vždy použít současně obě korelace a srovnat jejich výsledky. Významné rozdíly mezi neparametrickou a parametrickou korelací by pak měly být varováním a signálem, že je třeba věnovat pozornost rozložení hodnot a možným zkreslením. Tyto situace se snaží přiblížit ukázky uvedené na příkladu 4.
prof. RNDr. Ladislav Dušek, Ph.D.
Institut biostatistiky a analýz, LF MU, Brno
e‑mail: dusek@iba.muni.cz
Štítky
Dětská neurologie Neurochirurgie Neurologie
Článek vyšel v časopiseČeská a slovenská neurologie a neurochirurgie
Nejčtenější tento týden
2019 Číslo 2- Metamizol jako analgetikum první volby: kdy, pro koho, jak a proč?
- Zolpidem může mít širší spektrum účinků, než jsme se doposud domnívali, a mnohdy i překvapivé
- Nejčastější nežádoucí účinky venlafaxinu během terapie odeznívají
- Jak souvisí postcovidový syndrom s poškozením mozku?
-
Všechny články tohoto čísla
- Intradurálne extramedulárne nádory chrbtice
- Roztroušená skleróza mozkomíšní, úloha střevní mikrobioty v poškozujícím zánětu
- Genetické a neurobiologické aspekty komorbidního výskytu poruch autistického spektra a epilepsie
- Roztroušená skleróza a těhotenství z pohledu gynekologa – možnosti asistované reprodukce
- Roztroušená skleróza mozkomíšní, těhotenství, mateřství a kojení
- Hraje leptin roli v rozvoji intrakraniálních meningeomů?
- Srovnávací studie pacientů s myastenií České a Slovenské republiky
- Moderní mikrochirurgie jako trvalé, bezpečné a šetrné řešení nekrvácejících mozkových výdutí
- Explantace stimulátoru nervus vagus odpovídající protokolu vyšetření magnetickou rezonancí
- Obecné pohyby a neurologický vývoj raného věku u dětí s novorozeneckou hypoglykemií
- Srovnání kosmetického efektu krátkého podélného a příčného kožního řezu při karotické endarterektomii
- Změny v obsahu esenciálních a stopových prvků v lidských degenerujících meziobratlových ploténkách nekorespondují s klinickým stavem pacientů
- Jak náhrada extracelulárního sodíku ovlivňuje distribuci rychlosti vedení periferním nervem u krysy
- Rychlá diagnostika chemokinu CXCL13 v mozkomíšním moku u pacientů s neuroboreliózou
- Aneuryzmatické subarachoidální krvácení v těhotenství – úspěšný kliping po selhání koilingu
- Extra-intrakraniální bypass iniciovaný rehabilitačním lékařem pro kognitivní deterioraci
- Traumatické pseudoaneuryzma arterie temporalis superficialis
- Klíšťová meningitida komplikovaná kardioembolickým intraluminálním trombem v krkavici a mozkovou mrtvicí
- Genetika nervosvalových onemocnění
- Analýza dat v neurologii LXXIV. - Neparametrický Spearmanův koeficient korelace
- Recenze knih
- Doc. Vladimír Škorpil, 100 let od narození zakladatele naší elektromyografie
- Česká a slovenská neurologie a neurochirurgie
- Archiv čísel
- Aktuální číslo
- Informace o časopisu
Nejčtenější v tomto čísle- Intradurálne extramedulárne nádory chrbtice
- Rychlá diagnostika chemokinu CXCL13 v mozkomíšním moku u pacientů s neuroboreliózou
- Genetika nervosvalových onemocnění
- Roztroušená skleróza a těhotenství z pohledu gynekologa – možnosti asistované reprodukce
Kurzy
Zvyšte si kvalifikaci online z pohodlí domova
Autoři: prof. MUDr. Vladimír Palička, CSc., Dr.h.c., doc. MUDr. Václav Vyskočil, Ph.D., MUDr. Petr Kasalický, CSc., MUDr. Jan Rosa, Ing. Pavel Havlík, Ing. Jan Adam, Hana Hejnová, DiS., Jana Křenková
Autoři: MUDr. Irena Krčmová, CSc.
Autoři: MDDr. Eleonóra Ivančová, PhD., MHA
Autoři: prof. MUDr. Eva Kubala Havrdová, DrSc.
Všechny kurzyPřihlášení#ADS_BOTTOM_SCRIPTS#Zapomenuté hesloZadejte e-mailovou adresu, se kterou jste vytvářel(a) účet, budou Vám na ni zaslány informace k nastavení nového hesla.
- Vzdělávání