临床试验多重性问题的浅析

临床试验根据不同的研究目的可分为“探索性临床试验”和“确证性临床试验”,相关的临床研究结论通常需要在确证性临床试验的统计推断中得出。若一项确证性的临床研究中，需要对多个假设检验进行统计推断，此时便会涉及到多重性（Multiplicity）问题。那么问题来了：

①什么是多重性问题呢？

②多重性问题会给研究带来什么样的风险呢？

③哪些情况会涉及多重性问题呢？

④如何去处理多重性问题呢？

⑤哪些情况下不需要进行多重性调整呢？

带着这些问题，好学的小伙伴们请继续往下阅读，将会有意想不到的收获哦！

定义及风险

临床试验中普遍存在多重性问题，它是指在一项完整的研究中，需要经过不止一次统计推断（多重性校正）以便对临床研究结论做出决策的相关问题。每次进行假设检验都存在着一定的风险，特别是在拒绝原假设（H0）时，都会犯第I类错误，即假阳性（False positive）。而对多个假设检验进行统计推断，将有可能导致I类错误膨胀。

假定某项新药试验设计了4个主要的临床终点，各终点间彼此独立，如果从这4个终点的统计分析结果中选择最有利（即P值最小）的终点来判断该药物的疗效，假定每次单侧假设检验均为0.025的检验水准（α），则4次检验至少发生1次I类错误的概率（即总I类错误率，Familywise error rate，FWER）将高达10%（1-0.9754≈10%），相比研究假设的2.5%的假阳性率，4次假设检验最终可能致使I类错误膨胀4倍。对于新药临床试验而言，将会导致错误地批准一个无效或者劣效的药物上市机会增加。对于确证性临床试验来说，将I类错误控制在合理水平是统计学的基本准则之一，也是统计学审评的关键之一。因此，应根据研究目的妥善考虑多重性问题，并在方案设计时制定有效的处理方法。

常见类型

临床试验中常见的多重性问题主要见于多个临床终点、多个组间比较、亚组分析、期中分析及纵向数据不同时间点的分析等方面。

一

多个临床终点

1.主要终点：是指与临床试验所关注的主要问题（主要目的）直接相关的、能够提供最具临床意义和令人信服的证据的终点。确证性临床试验中通常为单一主要终点。而对于多个主要终点的研究，通常存在2种研究假设，如下：

（1）多个主要终点均要求显著。

这种情况下的多重性问题不会导致FWER膨胀，因为这种策略没有机会选择对研究药物最有利的某个或某些主要终点来确证药物的疗效。但是，这样的研究假设会增大II类错误（β），降低检验效能（1-β）。例如，某项3期临床试验有2个主要终点，II类错误率为20%，检验效能为80%，2个主要终点同时显著的检验效能为64%（即0.8*0.8），II类错误率为36%（即1-检验效能）。主要终点的个数越多，相关性越弱，检验效能降低的幅度越大。

（2）多个主要终点中要求至少一个终点显著。

此种情况将导致FWER膨胀，需要进行多重性调整。

2.次要终点：一项研究中通常存在多个次要终点，多数情况下是用于提供研究药物对主要终点的支持性信息，或证明对疾病存在额外的影响。若次要终点提供与主要终点显示效果不同的临床获益证据，即称为关键次要终点。应将关键次要终点与主要终点共同纳入多重性调整，反之，则不需要进行多重性调整。

3.复合终点：是指将多个临床相关结局合并为一个单一变量。若将该终点作为单一的主要终点，此时将不会涉及多重性问题。若同时将复合终点的某一部分作为主要终点或者关键次要终点，则需要按照上述所涉及的主要或次要终点的多重性调整予以考虑。

4.探索性终点：通常不是前瞻性计划的，不像主要和次要终点那样进行严格地评估。此类终点不涉及多重性问题。

二、多个组间比较

1.三臂设计：多用于非劣效试验，通常为试验药物组、安慰剂对照组、阳性药对照组。三组之间两两比较可产生3个假设检验，若3个假设检验均显著或只要试验药物疗效优于安慰剂疗效便可说明该试验药物有效，此种情况无需考虑多重性调整。反之，需要根据情况考虑。

2.联合用药及复方制剂：以两个单药的联合用药为例，试验设计三个组别，即A药组、B药组和A+B药组。假设检验以联合用药是否优于两种单药为主，需要所有的假设检验均显著才能证明联合用药的疗效，此时将不会导致FWER膨胀。

三、亚组分析

通常用于说明试验药物在某一目标亚组人群中的疗效、或者各亚组之间疗效的一致性。若目标亚组的分析是用于支持药品说明书声称的获益，则需要综合考虑总人群和亚组人群的多重性问题，同时还要注意保证亚组的样本量有足够的检验效能。反之，无需考虑多重性问题。

四、期中分析

针对有效性进行监查的期中分析，因为在研究过程中需要进行多次决策，多重性问题复杂多样，所以控制FWER显得尤为重要。在制定临床试验方案时，应仔细考虑并预先设定恰当控制FWER的策略和方法。

五、纵向数据不同时间点的分析

临床试验中常见到基于时间的重复测量数据，即纵向数据。该类数据通常进行2种分析：

①不同时间点的组间比较；

②比较各组内不同时间点的效应。

若仅以多个时间点中的某一时间点的效应作为主要终点进行组间的比较，则无需考虑多重性问题。此外，如果将所有时间点的效应作为主要终点，且要求所有假设检验均显著，此时亦不会导致FWER膨胀。反之，则会导致膨胀。

处理策略

选择合适的统计学策略与方法来处理多重性问题，对于临床试验中进行可靠推断及最大限度地提高成功率至关重要。常见的多重性调整方法按照对检验顺序是否有要求，可以分为一步Single-step procedure和Multistep procedures。顾名思义，Single-step procedure对每个假设检验是否拒绝原假设的结论均不依赖于其他的检验，换句话说就是每个假设检验均可平行同步进行，没有顺序之分。而Multistep procedures就是按照一定的检验顺序，依次对相应的原假设进行检验，这些顺序上的安排使得其中一些原假设被隐含在其他原假设中，从而有可能进行一次检验就能对多个假设下结论。Multistep procedures又可细分为向上法（Step-up）、向下法（Step-down）和固定顺序法（Fixed-sequence）。

一、Single-step procedures

1.The Bonferroni method

基本思想：各个独立假设检验的名义检验水准αi之和等于α。

α1+α2+…αi…+αm=α

名义检验水准可以相同，也可以不同，后者往往常见于各个假设检验的重要性不同的情况。

例如：一项研究有3个终点指标，需要进行3次假设检验，假设α=0.05，若3个指标的重要性相同，则每个假设检验的αi相同，均为0.0167（即α/m，m为比较次数）。若3个终点指标的重要性不同，可以按照重要性给予各指标不同的αi，如设置α1=0.025，α2=0.015，α3=0.010，则每个假设检验的P值均需要小于所对应的名义检验水准αi才能被认为具有统计学意义。

2.前瞻性α分配法 (Prospective Alpha Allocation Scheme, PAAS)

基本思想：各个独立假设检验的名义检验水准αi的互余的乘积等于α的互余。

(1-α1)*(1-α2)…(1-αi)…*(1-αm)=1-α

名义检验水准可以相同，也可以不同。

例如：一项有3个终点的临床试验，其中两个终点被指定分配了αi值，α1=0.02、α2=0.025，若设α为0.05，则根据上式有0.98×0.975×(1-α3)=0.95，求得第3个终点的α3为0.0057。如果对3个原假设的αi进行等权重分配，则αi为0.01695。

然而需要注意的是，PAAS法需要各个假设检验呈独立或正相关时才能实现。

二、Multistep procedures

1.The Holm Method

基本思想：是基于Bonferroni法的检验统计量逐渐减小（P值逐渐增大）的多重性调整方法。首先计算出各个假设检验的P值，将P值按照从小到大的规则进行排序，然后按照P值从小到大的顺序依次与相应的名义检验水准αi进行比较。第一步是最小的P1值与α1间的比较，若P1>α1(=α/m)，此时，不拒绝原假设，并且停止后面剩余的所有假设；若P1≤α1(=α/m)，此时，拒绝原假设，进入下一个假设检验。第2个假设检验的α2=α/(m-1)，将该假设检验的P2值与α2比较，若P2>α2，则停止检验余下的假设；否则，拒绝原假设并进入下一步假设检验。同理，以此类推，见表1。

2.The Hochberg Method

基本思想：是基于Simes法的检验统计量逐渐增大（P值逐渐减小）的多重性调整方法。首先计算出各个假设检验的P值，将P值按照从大到小的规则进行排序，然后按照P值从大到小的顺序依次与相应的名义检验水准αi进行比较。第一步是最大的P1值与α1间的比较，若P1≤α1(=α)，此时，拒绝原假设，并且停止后面剩余的所有假设；若P1>α1(=α)，此时，不拒绝原假设，并进入下一个假设检验。第2个假设检验的α2=α/2，将该假设检验的P2值与α2比较，若P2≤α2，则停止检验余下的假设；否则，不拒绝原假设并进入下一步假设检验。同理，以此类推，见表2。

然而需要注意的是：Hochberg法需要各个假设检验呈独立或正相关时才能实现。

3.固定顺序法 (The Fixed-Sequence Method)

基本思想：按照事先定义的顺序对每个假设进行检验，每个假设检验的名义检验水准αi与α相同，只有在上一个原假设被拒绝时才能进入下一步假设检验，直到某一个假设检验不拒绝原假设为止，最终结论为该假设检验前面的显著性均被接受。

例如，具有三个主要终点 A、B 和 C 的试验，其治疗效果的双侧P值为：PA=0.045、PB=0.016 和PC=0.065。如果按照C、B、A的顺序与α进行比较，则三个假设检验均不只有显著性，见表3。

然而需要注意的是：假设检验的排序很关键，一旦排序第一位的假设检验未能在检验水准上表达显著性，则下一步的假设检验停止。

4.回退法 (The Fallback Method)

回退法是固定顺序法的一种修改，给排序靠后的假设检验进行检验的机会。

基本思想：回退法需事先根据固定顺序法对各假设检验排序，并确定每个假设检验的名义检验水准αi，然后依顺序进行假设检验。该法首先在α1水平检验排序第一的原假设H01，如果不拒绝H01，则在α2水平检验H02；如果拒绝H01，则在α1+α2水平检验H02，依次类推。

例如，一项有两个终点指标OS和PFS的临床试验，双侧检验水准为0.05，采用回退法，OS和PFS对应的名义检验水准分别设为0.04和0.01，如果假设检验的POS=0.062，PPFS=0.005，则最终的推断结论为试验药在PFS上有统计学意义（POS=0.062>α1，PPFS=0.005<α2）。若假设检验的POS=0.032，PPFS=0.025，则最终的推断结论为试验药在OS和PFS上有统计学意义（POS=0.032<α1，PPFS=0.025<α1+α2）。如图1所示。

图1 α的分配与回收

5.守门法 (Gatekeeping testing strategies)

当临床试验的多重性问题比较复杂时，可采用多种策略组合的多重性调整方法。需要注意的是：将多个方法进行简单组合未必能够控制FWER。因此，在复杂情况下组合使用多种方法时，可考虑采用守门法。

基本思想：该方法首先对主要终点进行假设检验，然后根据主要终点的结果来判断是否需要进行次要结果的假设检验。如果只要终点具有显著性差异，则可在次要终点中进行适合的多重性调整。

例如：一项临床试验，其主要目标是检验治疗在五个终点方面优于安慰剂：A、B、C、D 和 E。

主要终点F1={A, B}，终点A预分配alpha=0.04，终点B预分配alpha=0.01，使用加权Bonferroni方法。

次要终点F2={C、D和E}，使用不保留alpha并且带有传递alpha的Holm过程。

如果完成时A和B的P值分别为0.035和0.055；终点C、D和E分别为0.011、0.045和0.019，则终点A显著，但终点B不显著，此时α=0.04未使用，0.01已使用；终点F2的总alpha为0.04；通过Holm检验，终点C/E在0.04处显着（C、E和D分别在0.0133、0.02、0.04的水平上进行检验）。

看到这里了，不知道小伙伴们心中的疑惑是否有答案了呢？针对多重性问题的调整除了上述方法外还有其他方法，有兴趣的读者可参考相关的文献进行学习。

结语

多重性调整方法的选择可能对试验总体结论有重大影响。在选择处理策略时，应基于相关临床知识和统计学信息的双重考虑，并对所有适用的多重性策略进行全面评估，以确定符合试验目标并且能够最大限度地提高试验成功概率的策略。这包括关于终点或患者人群的相对重要性信息，以及关键统计特征（例如多重性问题中检验统计量之间的相关性）信息。通常进行大量的临床试验模拟，推动多重性调整方法的选择过程，为特定临床试验选出高效且稳健的多重性调整方法。

参考文献：

1.国家药品监督管理局药品评审中心. 药物临床试验多重性问题指导原则（试行）. 2020年12月.

2.U.S. Food and Drug Administration. Multiple Endpoints in Clinical Trials – Guidance for the Industry.

3.European Medicines Agency. Guidance on Multiplicity Issues in Clinical Trials.

4.王彤,易东. 临床试验中多重性问题的统计学考虑[J].中国卫生统计,2012,29(03):445-450.

5.唐健元,温宝书.欧洲医药产品管理局关于临床研究中多重性的考虑要点[J].中国临床药理学杂志,2009,25(06):539-542.

6.Dmitrienko Alex, D'Agostino Ralph B. Multiplicity Considerations in Clinical Trials.[J]. The New England journal of medicine,2018,378(22):2115-2122.

临床试验多重性问题的浅析

发布时间：2022-02-25 文章来源：

发布时间：2022-02-25　文章来源：