如何解讀臨床研究的陰性研究結果?

在科學的道路上，我們並非總能得到預期的結果，失望與沮喪也時常來擾。本來滿心歡喜地期待某項藥物試驗可以得出有效的研究結果，然而經過統計分析後卻發現P＞0.05，心情瞬間低落。這就是我們通常所說的陰性結果。

可能導致假陰性結果的原因

當得到壹個陰性結果時，研究者的第壹反應通常是：哪裏出錯了？治療措施是否真的無效？其實，主要結局的P值大於0.05時，試驗結果是否壹定無意義，還需要根據具體情況來區別對待。除試驗結果確為陰性的情況以外，還有兩種與研究本身相關的情況可能導致出現陰性結果。

研究的設計或實施存在問題

研究的設計和實施過程對結局的影響至關重要，如果不合理，很有可能造成藥物的真實療效被稀釋、甚至被完全掩蓋。研究對象的納入標準不合適、治療方案不合理（如劑量過低或過高）、患者依從性較差、主要結局指標定義不合理或不準確等，這些都可能造成主要結局的陰性結果（案例1）。

案例1

CHAMPION PLATFORM試驗比較了坎格雷洛和氯吡格雷對於接受經皮冠狀動脈介入治療（PCI）患者術後缺血性並發癥的預防效果，主要結局為48小時內死亡、心肌梗死或因缺血行血管重建。中期分析顯示兩組差異無統計學意義，試驗因無效而被提前終止。

然而，對於生物標誌物陽性的急性冠脈綜合征患者，圍手術期心肌梗死的定義並不能有效識別PCI後不久發生的心肌梗死。因此，在隨後的CHAMPION PHOENIX試驗中，研究者將主要結局事件定義為48小時內死亡、心肌梗死、支架內血栓形成或缺血導致的血管重建。結果坎格雷洛組的主要結局事件發生率下降了22%（風險比0.78，P = 0.005），最終促成了美國與歐洲藥品管理機構批準該藥物的臨床使用。

樣本量不足

研究者通常基於前人研究結果進行樣本量估計，所以對於陰性結果，首先要看其是否有樣本量估計依據，並根據實際結果計算研究的把握度（又稱為檢驗效能）是否足夠。如果未達到足夠的把握度，則該結果可能只是假陰性結果，將樣本量增至足夠大時，可能會出現陽性結果。

壹般來說，當試驗樣本量太小而不能檢驗出治療效果時，宜將結果描述為不確定而不是否定。此時，可以通過招募更多高風險患者、延長隨訪時間、定義發生數較多的結局（如使用復合結局指標來代替單壹結局指標、使用中間結局指標代替臨床硬終點結局等），或將以上幾種方式組合，來滿足達到把握度所需要的樣本量。當然，還需要考慮大型試驗發現的有統計學意義的療效是否真的有臨床意義。

研究主要結局陰性、亞組分析陽性的情況

我們經常會看到壹些研究的主要結局顯示為陰性，但亞組分析卻為陽性。例如，在所有入組的研究對象中，幹預措施較對照措施統計學並無顯著性差異，但幹預措施在某些亞組人群（如某種基因突變、某個種族、某些病情較重、伴有某些並發癥）中卻呈現顯著效果。

亞組分析真的有化腐朽為神奇的功能嗎？壹種可能的情況是亞組分析的結果為真陽性，即幹預措施並非適用於所有人，確實只對具有某些特征的人有效；但更多的情況是亞組分析的結果為假陽性，由於亞組分析通常經過多次比較，從而增大了Ⅰ型錯誤（即假陽性錯誤）概率。因此，即使亞組分析中出現了陽性結果，這些發現仍然僅能用於提出假設，而不能作為確證性結論。

利用亞組分析在壹項結果為陰性的試驗中發現某壹陽性結果，並在隨後試驗中得到證實，雖然並不多見，但還是會發生的（案例2）。

案例2

SYNTAX研究比較了冠狀動脈旁路移植術（CABG）和PCI對於冠狀動脈三支病變和（或）左主幹病變患者的治療效果，結果顯示兩組全因死亡率和卒中發生率無顯著差異；然而亞組分析發現，對於左主幹病變亞組（解剖結構低至中度復雜的患者）而言，PCI似乎可以成為CABG的替代方法，且療效可能更佳。

在SYNTAX試驗亞組分析發現的線索的基礎上，研究者設計了EXCEL試驗進行驗證，結果顯示PCI組患者術後3年主要結局（全因死亡率、卒中或心肌梗死的復合終點）的發生率與CABG組的發生率相當（非劣效性P =0.02），且PCI組次要結局（術後30天圍手術期死亡、卒中或心肌梗死的復合終點）發生率更低。據此，研究者得出結論：對於上述特征的患者，PCI可作為CABG的首選替代方案。

正確運用薈萃分析

在倫理和經濟層面都不允許開展大規模臨床試驗的情況下，系統綜述和薈萃分析不失為壹種較好的方法。薈萃分析可以通過對符合納入標準原始研究的合並分析來回答幹預措施是否有效，大大增加樣本量，因而增加了研究的把握度，也增加了結果的精確性和穩定性。

但需要註意的是，在未達到足夠樣本量的情況下，不斷更新原始研究而進行反復、多次統計學檢驗同樣會增加Ⅰ類錯誤的風險，即假陽性概率明顯升高，造成療效的誇大；而對於已經有確切療效的幹預措施，或已被證實無效的幹預措施，如不及時停止試驗則會造成醫療資源的浪費，也不符合倫理學要求。

為解決此類問題，波格（Pogue）等首次提出將序貫分析的方法引入薈萃分析，即試驗序貫分析法（Trial Sequential Analysis，TSA）。該方法壹方面保證了在不增加Ⅰ類錯誤的前提下，可以更早得出確切的結論；另壹方面提供了接受無效假設的終止標準，可以告訴我們某項幹預措施究竟是確實無效（evidence of absence effect），還是因把握度不夠尚不能得出確切結論（absence of evidence）。

總之，當主要結局為陰性結果時，研究者需要謹慎解讀。《新英格蘭醫學雜誌》也於2016年發表了壹篇綜述（The Primary Outcome Fails-What Next?），列舉了試驗的主要結局為陰性時，應該考慮的12個問題，希望可以對大家有所啟發。

■鏈接主要結局為陰性時，應考慮的12個問題

是否有潛在獲益的跡象？

把握度是否足夠？

主要結局的定義是否合理、準確？

研究對象是否合適？

治療方案是否合理？

研究實施過程中有無缺陷？

是否可以得到非劣效的結論？

亞組分析的結果是否陽性？

次要結局是否陽性？

選用其他的分析方法是否有幫助？