利用倾向得分开展分层与回归分析控制混杂偏倚_综合_教育

倾向得分10讲

1.从入门到精通，真实世界研究“倾向得分方法”10讲开启。

2.倾向得分的基本计算方法

倾向得分十讲（3）：利用倾向得分开展分层与回归分析控制混杂偏倚

在之前第二讲中，我应用ogistic回归计算了倾向得分，并结合金字塔图分析组间均衡性。本讲在此基础上，谈一谈如何利用分层分析和回归分析发挥倾向得分的作用。

1.本讲案例

某研究团队基于队列研究研究美国初生婴儿中，造成低出生体重结局的影响因素，结局变量为是否娩出低出生体重儿，重点探讨饮酒对出生体重的影响，其它的变量还有产妇妊娠前体重、产妇年龄、种族、早产次数、是否患高血压等。

案例解析:

此案例暴露因素为饮酒（暴露组为饮酒=1，对照组为不饮酒=0），结局是出生体重（是=1，否=0），此外还有一系列的协变量，这些变量可能是混杂因素。在上一讲中，我利用了logistic回归将众多协变量综合形成计倾向得分，并绘制了倾向得分的金字塔图。

人口金字塔X轴是人数，Y轴是不同的倾向得分（0~1），可以看出不饮酒（蓝色）的倾向得分主要分布在0.5以下，而饮酒（红色）主要分布在0.4-0.6之间，两组人群倾向得分分布特征不一致（人口金字塔分布图不对称）。

这意味着暴露组人群倾向得分方法比较高，对照人群倾向得分比较低。在上一讲，我提到，倾向得分不一致，那就意味着分组不均衡。

2.如何利用倾向得分进行控制混杂因素

针对本案例，在绘制倾向得分金字塔图同时，也可以计算出两组的倾向得分均数，并进行t检验。t检验结果显示，饮酒组（均数=0.49）和对照组（均数=0.32）倾向得分存在着统计学差异（P<0.001），意味着分组不均衡，倾向得分很可能是一个混杂变量。

如何控制混杂偏倚呢？存在混杂变量，且整个研究就只有一个混杂变量的情况下，常见处理偏倚的有三种方法：第一种，分层分析；第二种，两因素回归分析（倾向得分变量+饮酒变量）；第三种，倾向得分匹配方法进行统计分析。可能很多人一听到倾向得分，就联系到倾向得分匹配。但实则不然，前两种方法结果同样可靠。本系列是长系列推文，所以我想不妨先介绍前两种方法，而倾向得分匹配，我将在下讲进行介绍。

3.利用分层卡方检验分析进行定性结局的统计分析

分层卡方检验，也称为Cochran-Mantel-Haenszel检验（CMH检验），它主要用于定性结局的研究案例中，也就是在研究暴露/处理因素和结局事件关联性的基础上，考虑了分层因素的混杂作用。

CMH检验通过对分层因素进行控制，从而考察调整之后暴露/处理因素与结局事件之间的关联性。实际上CMH检验，已经不再是单纯的单因素分析，而是已经开始融入了多因素分析的思维模式，应该算作为一种最为简单的多因素分析方法。

CMH的优点是信息量比两因素回归分析多，因此CMH分析方法在倾向得分法起到的作用是探索性分析、尽量发掘更多的有用的信息。

在本例中，研究结局是是否低出生体重，暴露因素饮酒，分层变量是倾向得分。分析之前有个问题需要解决，CMH分析要求分层变量是分类变量，因此我们需要把倾向得分分类化。此处我取四分位数和中位数作为分类界值，将倾向得分分为四分类变量（<0.185，0.185-0.406，0.406-0.523，>0.523）

接着，开展卡方检验（分析—描述统计—交叉表），倾向得分四分组变量作为分层变量

在右侧“统计”选项中，选中卡方和Cochran-Mantel-Haenszel检验（CMH检验，中文翻译很别扭）。

执行分析后，得到了多张结果表。在本例中，主要涉及一下两张表。第一章是卡方检验结果，分别列出分层卡方和原始卡方的分析结果。从下表中可看出，在四组不同倾向得分组中，P值均大于0.05；但最后“总计”一栏，它是2*2 四格表卡方检验的结果，是没有控制偏倚时的结果，P=0.045，却有统计学意义。分层卡方和原始卡方检验结果不一致，这很可能意味着倾向得分是一个混杂着因素。因为如果不是，分组卡方和不分组卡方结果应该相似。

SPSS CMH检验得到最后一张表是给出OR值、可信区间和P值。P=0.137，是分层卡方检验调整混杂因素后的结果；比值比即为OR。

因此本例结果显示，在控制了倾向得分这一变量的影响后，合并OR=1.711，95% CI为0.843-3.473，OR值的假设检验计算的P值为0.137，饮酒因素对于该低出生体重的发生的影响没有统计学差异（之前未控制倾向得分的P值为0.045，具有统计学意义），此处进一步证实倾向得分导致了偏倚的产生。

4.利用回归进行混杂偏倚的控制统计分析

常见回归方法包括线性回归、logistic回归、COX回归，均可用于控制混杂偏倚。本例结局为二分类变量，因此选择logistic方法

首先，不妨开展单因素的logistic回归分析

单因素logistic显示，OR=1.889，P=0.047，差异有统计学意义。提示饮酒与低出生体重发生有关系。

接着，纳入倾向得分进行多因素的logistic回归分析

多因素logistic显示，OR=1.697，P=0.133，差异没有统计学意义。这提示饮酒与低出生体重发生没有关系，饮酒不是低出生体重的独立危险因素。

结束语：大家可以看出，分层卡方分析和logistic分析结果大同小异，相对来说CMH分析方法相对细致，但操作相对繁琐。logistic回归分析相对简单，在统计分析上更常见。但我认为统计分析不是一蹴而就的事情，应该多种方法加以验证比较，这样才能让你深入了解数据，发现数据背后的奥秘。

预告：下一讲将介绍倾向得分匹配的方法。

本号致力于医学科研方法分享，欢迎点击学习！

meta分析

R语言

真实世界研究

统计技巧

快好知 kuaihz 订阅 观点

利用倾向得分开展分层与回归分析控制混杂偏倚

魑魅魍魉怎么读？魑魅魍魉到底指的...

水浒传108位好汉的名字和绰号，...

法布尔代表作是什么，法布尔的个人...

最新看过  赞过

最新 看过 赞过

最新看过赞过