中文English
ISSN 1001-5256 (Print)
ISSN 2097-3497 (Online)
CN 22-1108/R

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

Logistic回归中出现P值与OR的95%可信区间(CI)结果矛盾的原因

阅读次数:9941
  • 分享到:

用微信扫码二维码

分享至好友和朋友圈

发布日期:2015-09-09
来源:MedSci

采用的Logistic回归方法碰到了P值与OR的95%可信区间(CI)结果矛盾的情况,即 P<0.05,但or的95%可信区间却包括1;或者p>0.05,但OR的95%可信区间却不包括1。在单因素Logistic回归和多因素Logistic回归中都出现了这样情况,这可能有哪些原因呢?

1、存在多重共线性。

多重共线性会产生大的标准误,导致单因素分析中Wald检验中P值过大,虽然标准误增大,会使OR的95%可信区间变宽,95%CI 的上线或下线特别接近1但还未超过1这个界限,所以出现了P>0.05,但OR的95%可信区间却不包括1。解决的办法是可以利用逐步筛选变量的方 法找出与因变量相关的变量,其他没有进入模型的变量在单因素分析中不给予分析。此外,还可以设法将彼此高度相关的自变量先综合成新变量,然后做因变量关于 综合变量的回归。

2、该变量某一类的例数特别少。

如文化程度,小学有100人,初中120人,高中30人,大学3人。可能会出现95%可信区间特别宽而包括1,而P值却<0.05。解决的办法可以合并例数少的几类,如本例中可以合并高中和大学成一类为高中和大学。

3、样本含量太小,使估计结果不稳定,产生大的标准误,使本来可能有意义的变量变得无统计学意义。

一般来说一个纳入变量,需要20-40例以上的样本,如果样本总数少而纳入变量过多,也可能会出现类似的问题。解决办法是增大样本含量,或减少纳入变量。但是在Logistic回归中,到底多大的样本才算合适呢?

根据国外一些专家的看法,如果样本小于100,Logistic回归的最大似然估计可能就有一些风险,如果样本大于500 则比较合适。样本含量还依赖于变量个数和数据结构等条件。一般是每一个自变量至少需要20例结局。这里说的结局例数不是整个样本的例数。假如,Logistic回归中自变量总共有5个,则至少需要100例研究结局,即如果你研究的因变量是自杀(1=自杀,0=没自杀),其中自变量有8个,那么 你的研究中需有160个人是发生了自杀的。可是按照这种情况的话,很多研究的因变量发生结局是很少的,比如自杀这种结局是比较少的,可能我们研究的自变量有 18个,但是自杀这个结局却远远没有360例。如果变量过少,会出现结果不稳定的现象,最终结果的意义也令人质疑。如果样本量确实不够多,而变量很多的话,则需要通过探索分析,筛选出高价值变量进行分析。

  • 分享到:

用微信扫码二维码

分享至好友和朋友圈

阅读次数:9941
  • 1 病毒性肝炎
    • 1.1 乙型肝炎
    • 1.2 丙型肝炎
    • 1.3 甲型肝炎
    • 1.4 戊型肝炎
    • 1.5 其他肝炎
  • 2 肝硬化及并发症
  • 3 酒精性肝病
  • 4 非酒精性脂肪性肝病
  • 5 肝衰竭/肝性脑病/人工肝
  • 6 肝肿瘤
  • 7 自身免疫性肝病
  • 8 药物性肝病
  • 9 肝移植
  • 10 其他肝病
    • 10.1 遗传及代谢性肝病
    • 10.2 胆汁淤积性肝病
    • 10.3 肝脏血管病
  • 11 一般肝病/肝脏检查
  • 12 胆道疾病
  • 13 胰腺疾病
  • 14 全身疾病与肝病/内镜
  • 15 肝胆胰疾病相关评分系统汇总