Statistică medicală

Complexitatea metodelor statistice utilizate pentru analizarea datelor clinice din cadrul experimentelor ştiinţifice poate face foarte dificilă, pentru numeroşi cititori, interpretarea rezultatelor acestora.

Concluziile principale ale multor studii clinice ar putea fi prezentate şi interpretate, însă, apelând la metode statistice destul de simple. Articolul de faţă şi-a propus să-i încurajeze, pe toţi cei interesaţi de cercetarea clinică, să-şi formeze o "idee generală asupra datelor", fără a fi nevoiţi să aprofundeze detaliile complexe (şi, adesea, generatoare de confuzii) ale tehnicilor statistice avansate.

În cazul multor studii clinice, parametrul primar urmărit este un eveniment caracteristic al unei afecţiuni - de pildă, decesul sau o situaţie complexă, de tipul infarctului miocardic acut ori al accidentului vascular cerebral. Metodele statistice standard - modelele Cox ale riscurilor proporţionale şi testele scorurilor logaritmice - ţin cont de variaţiile survenite în cursul monitorizării clinice a pacienţilor, dar raportul de risc, intervalul de încredere şi valorile P ale pragului de semnificaţie reprezintă, uneori, pentru cititorii mai puţin avizaţi, o adevărată "cutie neagră". Pe de altă parte, atunci când evenimentele se corelează cu un moment bine stabilit în urmărirea evoluţiei, se preferă metodele care compară două sau mai multe proporţii (de exemplu, testul χ2).

 
Cum se efectuează cel mai simplu test de semnificaţie statistică

 

Articolul de faţă descrie o metodă mai simplă decât cele menţionate, pe care cititorii o pot utiliza în scopul unei evaluări rapide a semnificaţiei diferenţelor de evoluţie a stării de sănătate a subiecţilor în funcţie de tratamentele aplicate. M-a surprins să constat cât de mulţi statisticieni nu cunosc sau nu aplică un test atât de simplu, despre care am auzit pentru prima dată de la un medic cardiolog.

Testul cel mai simplu

Imaginaţi-vă un studiu clinic cu control statistic ce include două grupuri de dimensiuni aproximativ egale, cărora le sunt administrate tratamente diferite. Să admitem că parametrul primar urmărit este apariţia unui eveniment clinic.

Datele cheie sunt reprezentate de numărul de pacienţi, din fiecare grup de tratament, la care s-a produs respectivul eveniment. În figură este arătat modul de aplicare a unui test de semnificaţie statistică, exclusiv pe baza celor două valori.

Calculaţi diferenţa dintre cifrele care exprimă numărul de evenimente şi împărţiţi valoarea rezultată la rădăcina pătrată a sumei lor. Notaţi cu "z" valoarea obţinută. Conform ipotezei nule, ce susţine că ambele tratamente exercită influenţe egale asupra riscului de apariţie a evenimentului urmărit, z are o distribuţie normală, cu media 0 şi varianţa 1. Cu ajutorul tabelelor de distribuţie, ce pot fi consultate cu uşurinţă, valoarea lui z poate fi convertită într-o valoare P - de exemplu z >1,96 însemnă P <0,05, iar z >2,58 semnifică P <0,01.

Testul în cauză permite obţinerea unor valori aproximative, dar oferă, în general, rezultate valide, ceea ce vom explica, pe larg, în continuare. Prin repartizarea aleatorie, cele două grupuri vor avea dimensiuni aproximativ egale, iar perioada de urmărire va fi aceeaşi. Rata de producere a evenimentului observat este, de regulă, destul de scăzută - de exemplu, la mai puţin de 20% dintre subiecţi (în practică sunt întâlnite şi valori mult mai mici); astfel, se poate considera că numărul de pacienţi la care a survenit respectivul eveniment are o distribuţie Poisson. Admiţând că numărul total de evenimente nu este foarte mic (de pildă, nu sub 20), aproximarea standard pentru compararea a două variabile cu distribuţie Poisson1 duce la formula prezentată în figură.

Exemple de rezultate ale studiilor clinice cu control statistic, analizate cu ajutorul celui mai simplu test statistic

Studiul clinic (compararea tratamentelor) Obiectiv Nr. de evenimente Diferenţa Rădăcina pătrată a sumei evenimentelor z Valoarea P consecutivă Valoarea P publicată
VIGOR (rofecoxib v naproxen)2 Evenimente trombotice cardiovasculare serioase 45 v 19 26 8 3.25 0.0012 0.0016
MOXCON (moxonidină v placebo)3 Decese datorate oricăror cauze, la încetarea studiului clinic 46 v 25 21 8.43 2.49 0.013 0.012*
PROactiv Obiectiv compus iniţial† 514 v 572 58 32.95 1.76 0.078 0.095
  Deces, infarct miocardic sau AVC 301 v 358 57 25.67 2.22 0.026 0.027
Metaanaliză (stent cu sirolimus v stent cu paclitaxel)5 Revascularizarea leziunii vizate 95 v 142 47 15.40 3.05 0.002 0.001

* Valoarea P publicată în MOXCON, în funcţie de 15 decese suplimentare.

† Obiectivul compus iniţial a inclus decesul, infarctul miocardic, accidental vascular cerebral, sindromul coronarian acut, intervenţia chirurgicală endovasculară la nivelul arterelor coronare sau al membrelor inferioare şi amputarea mai sus de gleznă.

Dacă se foloseşte un calculator, operaţiile matematice durează circa 15 secunde, ceea ce face ca testul în cauză să constituie o modalitate utilă de comparare a cuantumului de evenimente înregistrate pe parcursul unui studiu clinic cu repartizare aleatorie egală. De remarcat faptul că metoda nu ţine cont nici de numărul total de pacienţi repartizaţi aleatoriu, în grupuri de intervenţii, şi nici de durata perioadei de urmărire, decât pentru a stabili premisa că parametrii menţionaţi au valori aproximativ egale.

Datele cheie apar la numărător (numărul cazurilor la care a survenit un eveniment), valoarea de la numitor nefiind importantă. De pildă, dacă studiul ar fi inclus un eşantion dublu de pacienţi (cu un risc scăzut), astfel încât cuantumul evenimentelor să rămână acelaşi, s-ar fi obţinut, în esenţă, un volum de informaţii identic. Totuşi, dublarea numărului de evenimente afectează într-o măsură considerabilă puterea statistică a unui studiu clinic.

Metoda prezentată are două limitări importante. În primul rând, dacă numitorii diferă printr-o cantitate semnificativă, testul va favoriza direcţia evidentă. În al doilea rând, dacă rata de producere a evenimentului are valori mari, testul devine conservator - cu alte cuvinte, valorile lui P sunt mai mari decât ar trebui. Se pare, totuşi, că, în cazul majorităţii studiilor publicate, asemenea limite potenţiale sunt neglijabile.

Acest test simplu permite o orientare rapidă cu privire la nivelul de semnificaţie al diferenţei; atunci când se publică rapoartele finale, însă, nu este recomandabilă utilizarea lui în locul metodelor statistice convenţionale, cum sunt testul scorurilor logaritmice sau (dacă perioada de urmărire este fixată) testul χ2.

De regulă, estimarea magnitudinii efectului unui tratament presupune şi comunicarea valorii riscului relativ ori a raportului riscurilor - aproximativ egală cu cea a raportului dintre cifrele ce ilustrează numărul de pacienţi la care a survenit un eveniment.

Exemple de utilizare a testului

Testul se aplică, în prezent, în cazul unor experimente recente (vezi tabelul). Studiul VIGOR a anunţat un risc crescut de producere a evenimentelor trombotice grave, la pacienţii trataţi cu rofecoxib, faţă de cei care au primit naproxen (raportul riscurilor 2,37, interval de încredere 95% de la 1,39 la 4,00).2 Din păcate, numărul celor care au suferit asemenea complicaţii (45 şi, respectiv, 9)3 nu a fost prezentat în publicaţia originală. Utilizând formula din figură, z= (45 - 19)/radical(45+19) = 3,25, corespunzătoare unei valori P = 0,0012, ceea ce arată că diferenţa între cele două tratamente are un grad ridicat de semnificaţie. O atare stare de fapt a fost confirmată prin aplicarea unui test al stratificării logaritmice (P = 0,0016). De remarcat că raportul evenimentelor 45/19=2,37 este, în cazul de faţă, identic cu cel al riscurilor.

Monitorizarea datelor obţinute în cadrul studiului MOXCON4 - moxonidină vs placebo, la pacienţi cu insuficienţă cardiacă - s-a axat pe examinarea mortalităţii de orice cauză. O analiză interimară, efectuată pe datele înregistrate de la 1 860 de subiecţi repartizaţi aleatoriu, a evidenţiat, în grupul ce a primit moxonidină şi în cel cu placebo, producerea a 46 şi, respectiv, 25 de decese. Din calcule rezultă că z = (46 - 25)/ radical(46+25) = 2,49, corespunzând la P = 0,013, ceea ce atestă un grad ridicat de semnificaţie pentru mortalitatea excedentară, în cazul lotului tratat cu moxonidină. O atât de importantă informaţie a determinat încetarea prematură a studiului. Prin aplicarea testului scorurilor logaritmice la nivelul grupului ce a inclus încă 73 de pacienţi repartizaţi aleatoriu, în grupuri de intervenţii, şi un excedent de 15 decese, s-a constatat că datele finale consemnau 54 de decese în lotul tratat cu moxonidină şi, respectiv, 32, în cel cu placebo, rezultând P = 0,012. Un astfel de test este, adesea, imposibil de utilizat pentru estimarea rezultatelor parţiale, întrucât, în cazul unor pacienţi, nu se cunoaşte "ultima menţionare a datei la care subiectul era în viaţă". Este evident, aşadar, că un asemenea test este deosebit de valoros pentru monitorizarea datelor.

Testul este util şi în clarificarea motivelor pentru care obiectivele diferite ale unui experiment ştiinţific duc la rezultate aparent paradoxale. În cadrul studiului PROactive,5 ce a inclus 5 238 de pacienţi diabetici, obiectivul primar urmărit (un compozit legat de evenimentele cardiovasculare) a afectat 514 de subiecţi din grupul tratat cu pioglitazonă şi, respectiv, 572 dintre cei incluşi în lotul cu placebo. Diferenţa de 58 de evenimente conduce la o valoare z = 1,76 şi, deci, la P = 0,078, apropiată de cea publicată, obţinută prin aplicarea testului scorurilor logaritmice, şi anume, P = 0,095. Autorii au analizat obiectivul secundar compozit (deces, infarct miocardic şi accident vascular cerebral), înregistrat la 301 pacienţi din lotul cu pioglitazonă şi, respectiv, la 358 din cel cu placebo. Diferenţa de 57 de evenimente (cu unul mai puţin decât în cazul obiectivului primar, dar calculată pornind de la un număr mai mic de evenimente) a condus la z = 2,22 şi P = 0,026, similar valorii publicate, P = 0,027. Probabil că obiectivul primar a devenit nesemnificativ statistic datorită includerii altor evenimente cardiovasculare neinfluenţate de tratament. Similaritatea observată între obiectivul primar şi cel secundar ne ajută să arătăm că P = 0,095 şi P = 0,027 nu diferă prea mult în privinţa interpretării. Este supărător faptul că valoarea ţintă P < 0,05 are o pondere atât de mare în estimarea eficienţei unui tratament. Ambele analize furnizează dovezi modeste, dar neconcludente, în favoarea pioglitazonei, însă este necesară adoptarea unei atitudini rezervate faţă de analiza post-hoc ce a pus accent pe obiectivul secundar.

Trebuie remarcat faptul că, în cazul obiectivului primar şi, respectiv, al celui mai important dintre parametrii secundari, valorile raportului dintre evenimente (514/571 = 0,90 şi 301/358 = 0,84) sunt identice cu cele ale raportului riscurilor, calculate prin utilizarea modelelor Cox - cu alte cuvinte, se pot obţine aceleaşi rezultate şi prin aplicarea unor metode simple.

Testul este relevant şi în cazul metaanalizelor, cu condiţia ca toate studiile incluse să aibă modalităţi similare de repartizare aleatorie a subiecţilor. O metaanaliză recentă a abordat incidenţa revascularizării leziunii în cadrul a şase studii care au comparat eficienţa stenturilor cu eluţie de paclitaxel şi sirolimus. Combinând datele neprelucrate, obţinute de la 3 669 de pacienţi, revascularizarea leziunii a fost efectuată în 95 de cazuri din grupul cu sirolimus şi, respectiv, în 142 din lotul cu paclitaxel. În consecinţă, z =(142 - 95)/radical(142+95)= 3,05, corespunzător unei valori P = 0,002, aproape la fel ca în situaţia utilizării testului Mantel Haenszel (P = 0,001). Se constată că şi atunci când este ignorat numărul total de pacienţi, rezultat în urma includerii tuturor cazurilor selectate în studii diferite, tot testul simplu a fost cel care a permis obţinerea răspunsului "corect".

Acelaşi test poate fi utilizat şi în cazul interpretării unor rezultate citate în presa de audienţă generală. De exemplu, ziarul Guardian a publicat, în numărul din 10 decembrie 2005,7 un articol cu titlul "Noile medicamente oncologice au generat presiuni asupra sistemului sanitar britanic", ce susţinea că "rezultatele cumulate din trei studii europene asupra efectelor terapeutice ale anastrozolului (la peste 4 000 de participante) au sugerat că femeile aflate în perioada de post-menopauză, care au optat, la doi ani după intervenţia chirurgicală, pentru înlocuirea tratamentului de substituţie hormonală cu tamoxifen, aveau o şansă mai mare de a fi în viaţă după doi ani şi jumătate de la operaţie. S-au înregistrat cu 29% mai puţine decese la cele care au schimbat regimul terapeutic". O surpriză plăcută a constituit-o faptul că respectivul articol menţiona şi valorile absolute ale numărului de decese: 66 la femeile care trecuseră la medicaţia cu anastrozol, faţă de 90, la cele care urmaseră în continuare tratamentul cu tamoxifen. Prin aplicarea testului nostru rapid, z = (90-66)/ radical(90+66) = 1,92, de unde rezultă că P = 0,06. Astfel, cititorii ziarului pot constata singuri că datele prezentate, privitoare la superioritatea anastrozolului, sunt încurajatoare, dar nu concludente, ceea ce permite atenuarea impactului produs de tonul triumfalist al articolului.

Valoarea simplităţii

Cu toate că exisă o multitudine de metode statistice sofisticate şi complexe pentru realizarea unei analize adecvate a datelor medicale, este foarte importantă identificarea informaţiilor cheie pe baza cărora sunt formulate concluziile unui experiment ştiinţific. În studiile clinice cu control statistic ce urmăresc un eveniment ţintă, elementul determinant îl reprezintă numărul de pacienţi din fiecare grup la care a apărut fenomenul respectiv. Testul simplu, prezentat în materialul de faţă, foloseşte doar aceste date şi permite obţinerea rapidă a unei imagini concludente asupra rezultatelor.

Testul presupune că numerele ce exprimă cuantumul de evenimente din fiecare grup sunt variabile cu distribuţie de tip Poisson. Prin prisma ipotezei nule, aceasta înseamnă că proporţia tuturor evenimentelor survenite în cadrul unui lot de subiecţi este o variabilă aleatoare, binomială, cu probabilitatea 1/2, care, împreună cu aproximaţia ei normală, este cunoscută, pe scară largă, sub denumirea de testul McNemar.1, 8 Şi totuşi, subtilităţile testului sunt recunoscute doar într-un număr mic de lucrări de specialitate1 şi de către foarte puţini statisticieni sau cercetători, iar formula prezentată excelează prin simplitate.

Idei principale

Multe studii clinice au cel puţin două grupuri de tratament, cu aceeaşi repartizare aleatorie, şi urmăresc apariţia unui eveniment ţintă

Datele cheie sunt numărul de pacienţi la care a avut loc evenimentul urmărit în fiecare grup

Cel mai simplu test statistic compară cele două numere

Testul reprezintă un ghid util, simplu şi fiabil pentru determinarea diferenţelor între tratamente

Testul de faţă exemplifică modul în care autorii şi cititorii pot căpăta "un simţ al datelor" printr-o metodă statistică simplă şi clară

Testul este util şi pentru monitorizarea mai multor obiective urmărite în cadrul unui studiu - de exemplu, în cazul comisiilor ce examinează tabelele de frecvenţă ale evenimentelor adverse grave. În loc să se recurgă la calcularea valorilor P pentru fiecare eveniment în parte, testul poate fi aplicat pentru sesizarea diferenţelor numerice sugestive. Deşi există, în situaţia de faţă, un risc mare de apariţie a rezultatelor "fals pozitive", rezultatul testului simplu plus orice valoare a lui z peste 2 sugerează posibilitatea ca diferenţa constatată să nu fie întâmplătoare.

În cazul studiilor clinice care au aceleaşi caracteristici în privinţa repartizării aleatorii şi a evenimentelor urmărite, testul simplu le facilitează cititorilor înţelegerea principalelor date prezentate. Sigur că va trebui să se utilizeze, ori de câte ori este posibil, un test mai precis (cum este cel al scorurilor logaritmice), dar probabil că rezultatul va fi fost deja intuit prin metoda descrisă.

Adresez mulţumiri lui Stephen Evans, Diana Elbourne, Tim Clayton şi Joanna Marro, pentru comentariile lor utile pe marginea manuscrisului.

Contribuţii: SJP este unicul autor.

Conflict de interese: Nici unul declarat.

Stuart J Pocock

Statistics in practice
The simplest statistical test: how to check for a difference between treatments

BMJ 2006;332:1256-8

Medical Statistics Unit, London School of Hygiene and Tropical Medicine, London WC1E 7HT
Stuart J Pocock
professor of medical statistics

Correspondence to: mailto:Stuart.Pocock@lshtm.ac.uk

Bibliografie

1 Armitage P, Berry G, Matthews JNS. Statistical methods in medical research. 4th ed. Oxford: Blackwell, 2002:156-8.

2 Bombardier C, Laine L, Reicin A, Shapiro D, Burgos-Vargas R, Davis B, et al. Comparison of upper gastrointestinal toxicity of rofecoxib and naproxen in patients with rheumatoid arthritis VIGOR Study Group. N Engl J Med 2000;343:1520-8.

3 Food and Drug Administration. Statistical reviewer briefing document for the advisory committee. http://www.fda.gov/ohrms/dockets/ac/01/briefing/%203677b2_04%20_stats.pdf(accessed 2 May 2006).

4 Pocock S, Wilhelmsen L, Dickstein K, Francis G, Wittes J. The data monitoring experience in the MOXCON trial. Eur Heart J 2004;25:1974-8.

5 Dormandy JA, Charbonnel B, Ekland DJA, Erdmann E, Massi-Benedetti M, Moules IK, et al. Secondary prevention of macrovascular events in patients with type 2 diabetes in the PROactive study (prospective pioglitazone clinical trial in macrovascular events): a randomised controlled trial. Lancet 2005;366:1279-89.

6 Kastrati A, Dibra A, Eberle S, Mehilli J, Suárez de Lezoj J, et al. Sirolimuseluting stents vs paclitaxel-eluting stents in patients with coronary artery disease. JAMA 2005;294:819-25.

7 Meikle J. New cancer drug puts NHS under pressure. Guardian 2005 Dec10:1-2.

8 Woolson RF. Statistical methods for the analysis of biomedical data. New York: Wiley, 1987:205-13.

Rate this article: 
Încă nu sunt voturi
Bibliografie: 
Traducere: 
Dr. Andrei Cernomaz
Autor: