Analýza dat v neurologii
XLVII. Modelové příklady spojování výsledků vzájemně nezávislých asociačních studií

Stáhnout PDF

Autoři: L. Dušek; T. Pavlík; Jiří Jarkovský ; J. Koptíková
Působiště autorů: Masarykova univerzita, Brno ; Institut biostatistiky a analýz
Vyšlo v časopise: Cesk Slov Neurol N 2014; 77/110(5): 651-653
Kategorie: Okénko statistika

V dílech XXXIX –⁠ XL seriálu jsme se zabývali hodnocením vlivu zavádějících faktorů na odhad míry vztahu dvou náhodných veličin. V dílech XL až XLV jsme doložili, že nekontrolovaná distribuce vlivného zavádějícího faktoru ve srovnávaných skupinách může zcela znehodnotit prováděný výzkum a jeho hodnocení. Rovněž jsme uvedli v praxi velmi běžný příklad, kdy místo separátních analýz různých skupin pacientů chceme vzájemně srovnat a případně spojit měření z nezávislých studií (publikací), jejichž výsledky vycházejí z asociačních analýz „expozice ‑⁠ účinek“. V tomto díle reagujeme na podněty čtenářů, které téma zaujalo a ocenili by pro potřeby své výuky více modelových příkladů na dané téma.

Uvádíme tedy tři modelové příklady pracující s různými situacemi a vedoucí k výsledkům s různou interpretací. Základním cílem je zde vždy snaha:

srovnat výsledky vzájemně nezávislých dílčích studií, experimentů, měření,
posoudit, do jaké míry jsou jejich závěry ve shodě, a zda je tedy lze spojit za účelem více konzistentního závěru k dané problematice.

V příkladech využíváme grafické metody, které jsme vysvětlili v předchozích dílech seriálu (díly XLIII –⁠ XLV).

Příklad 1 dokumentuje snahu o spojení dílčích studií, které jsou ale vzájemně nesrovnatelné v relativním zastoupení (velikosti) experimentálních ramen v celkovém vzorku (tedy v poměru velikosti vzorku „léčení pacienti : kontroly“) a také ve výskytu sledovaného cílového parametru. Tato heterogenita je příčinou zavádějícího výsledku, pokud dílčí studie spojíme již na úrovni primárních naměřených dat. Akceptovatelným postupem je srovnání, a případně spojení, již vyhodnocených výsledků dílčích studií.

**Příklad 1. Kombinace výsledků nezávislých studií s nevyváženou strukturou pacientů.**

Příklad 2 se věnuje stejnému zadání jako příklad 1, ale pracuje se vzájemně plně srovnatelnými a homogenními studiemi, které se neliší strukturou svých vzorků. Závěr je tedy logicky opačný než u příkladu 1, takové experimenty lze vzájemně spojit a jednotně interpretovat a lze rovněž kalkulovat celkový výsledek na spojených primárních datech.

**Příklad 2. Kombinace výsledků nezávislých studií s vyváženou strukturou pacientů.**

Příklad 3 dokumentuje častý problém z klinické praxe, tedy srovnávání výsledků určité léčby mezi různými zdravotnickými zařízeními. Jelikož jde o srovnání souborů pacientů z běžné klinické praxe, bez jakéhokoli řízeného náboru odpovídajícímu tomu v klinických studiích, je velmi pravděpodobné, že se jednotlivé nemocnice budou vzájemně významně lišit ve struktuře léčených pacientů. Příklad 3 tak v podstatě dokumentuje stejnou situaci jako příklad 1, tedy že přímé srovnání nemocnic a zejména kalkulace celkových referenčních výsledků spojováním primárních dat nejsou akceptovatelné.

**Příklad 3. Kombinace výsledků léčby ve zdravotnických zařízeních s nevyváženou strukturou pacientů.**

Ačkoli uvedené příklady ukazují až paradoxní rozpory mezi analýzami dílčích studií a souhrnnou analýzou jejich nesprávně spojených dat, není třeba spojování různých datových souborů paušálně démonizovat. Pouze je vždy třeba dbát na kontrolu, zda spojujeme srovnatelné dílčí soubory. V literatuře se velmi často setkáme s rozborem nějak kombinovaných či spojených souborů dat, většinou pod označením „pooled data analysis“. Například měříme‑li hladinu určitého markeru v krevním séru u dvou skupin pacientů a z nějakého důvodu u každé skupiny hodnotíme odděleně muže a ženy. Pokud nezjistíme významné rozdíly mezi pohlavími, a jsou‑li zároveň testované skupiny ve výskytu pohlaví srovnatelné, můžeme data obou pohlaví spojit a data obou skupin srovnat na celkovém souboru („overall comparison based on pooled gender data“). Tímto vyjádřením také zároveň konstatujeme, že vliv pohlaví můžeme zanedbat, neboť nemá vliv na celkový výsledek srovnání skupin pacientů.

Z rozborů uvedených v příkladech 1 –⁠ 3 je patrné, že takto můžeme u nezávislých skupin měření spojovat přímo data („pooling of data“) anebo až odhady určitých statistik („pooling of estimates“), které na datech hodnotíme. Pokud by to byl například podíl pacientů s rizikovou událostí, pak by šlo o „pooled estimate of proportion of patients with risk event“. Jiným téměř učebnicovým příkladem je spojený odhad rozptylu měření u různých souborů dat, které se liší v hodnotě průměru sledovaného spojitého znaku X. Je‑li rozptyl těchto skupin stejný, pak jej nejprve spočítáme na dílčích souborech a potom tyto odhady spojíme (např. zprůměrujeme); získáváme tak „pooled estimate of variance“. Přímé spojení primárních dat a výpočet společného odhadu rozptylu touto cestou by bylo chybou, neboť rozdíly v aritmetickém průměru by takový odhad silně zkreslily.

Při spojování dílčích souborů měření nebo studií (příklady 1 a 2) je třeba mít na paměti, že dílčí soubory mohou do celku přispívat stejným dílem anebo mohou být diferencovaně váženy, např. podle velikosti vzorku („weighted pooled estimate“).

Je zajímavé pozorovat, jak současná nadprodukce vědeckých publikací a výstupů studií oživuje i téma kontrolovaného a nezkresleného spojování dílčích datových souborů. S trochou nadsázky bychom mohli konstatovat, že se tento prastarý problém opět dostal na výsluní moderní vědy –⁠ jak dokládá i velmi dobře komentovaná rešerše recentní literatury publikovaná v roce 2011 (D. Alemayehu, J Data Science), kterou čtenářům na závěr tohoto dílu doporučujeme.

doc. RNDr. Ladislav Dušek, Dr.

Institut biostatistiky a analýz

MU, Brno

e‑mail: dusek@iba.muni.cz