Logistic回归中出现P值与OR的95%可信区间（CI）结果矛盾的原因

姓名
邮箱
手机号码
标题
留言内容
验证码

分类

阅读次数：11577

分享到:

用微信扫码二维码

分享至好友和朋友圈

发布日期：2015-09-09

来源：MedSci

采用的Logistic回归方法碰到了P值与OR的95%可信区间（CI）结果矛盾的情况，即 P<0.05，但or的95%可信区间却包括1；或者p>0.05，但OR的95%可信区间却不包括1。在单因素Logistic回归和多因素Logistic回归中都出现了这样情况，这可能有哪些原因呢？

1、存在多重共线性。

多重共线性会产生大的标准误，导致单因素分析中Wald检验中P值过大，虽然标准误增大，会使OR的95%可信区间变宽，95%CI 的上线或下线特别接近1但还未超过1这个界限，所以出现了P>0.05，但OR的95%可信区间却不包括1。解决的办法是可以利用逐步筛选变量的方法找出与因变量相关的变量，其他没有进入模型的变量在单因素分析中不给予分析。此外，还可以设法将彼此高度相关的自变量先综合成新变量，然后做因变量关于综合变量的回归。

2、该变量某一类的例数特别少。

如文化程度，小学有100人，初中120人，高中30人，大学3人。可能会出现95%可信区间特别宽而包括1，而P值却<0.05。解决的办法可以合并例数少的几类，如本例中可以合并高中和大学成一类为高中和大学。

3、样本含量太小，使估计结果不稳定，产生大的标准误，使本来可能有意义的变量变得无统计学意义。

一般来说一个纳入变量，需要20-40例以上的样本，如果样本总数少而纳入变量过多，也可能会出现类似的问题。解决办法是增大样本含量，或减少纳入变量。但是在Logistic回归中，到底多大的样本才算合适呢？

根据国外一些专家的看法，如果样本小于100，Logistic回归的最大似然估计可能就有一些风险，如果样本大于500 则比较合适。样本含量还依赖于变量个数和数据结构等条件。一般是每一个自变量至少需要20例结局。这里说的结局例数不是整个样本的例数。假如，Logistic回归中自变量总共有5个，则至少需要100例研究结局，即如果你研究的因变量是自杀（1=自杀，0=没自杀），其中自变量有8个，那么你的研究中需有160个人是发生了自杀的。可是按照这种情况的话，很多研究的因变量发生结局是很少的，比如自杀这种结局是比较少的，可能我们研究的自变量有 18个，但是自杀这个结局却远远没有360例。如果变量过少，会出现结果不稳定的现象，最终结果的意义也令人质疑。如果样本量确实不够多，而变量很多的话，则需要通过探索分析，筛选出高价值变量进行分析。

分享到:

用微信扫码二维码

分享至好友和朋友圈

阅读次数：11577

留言板

Logistic回归中出现P值与OR的95%可信区间（CI）结果矛盾的原因

相关指南

推荐指南

留言板

Logistic回归中出现P值与OR的95%可信区间（CI）结果矛盾的原因

相关指南

推荐指南

关于本刊

投稿指南

在线期刊

肝胆学院

指南共识