采用的Logistic回归方法碰到了P值与OR的95%可信区间(CI)结果矛盾的情况,即 P<0.05,但or的95%可信区间却包括1;或者p>0.05,但OR的95%可信区间却不包括1。在单因素Logistic回归和多因素Logistic回归中都出现了这样情况,这可能有哪些原因呢?
1、存在多重共线性。
多重共线性会产生大的标准误,导致单因素分析中Wald检验中P值过大,虽然标准误增大,会使OR的95%可信区间变宽,95%CI 的上线或下线特别接近1但还未超过1这个界限,所以出现了P>0.05,但OR的95%可信区间却不包括1。解决的办法是可以利用逐步筛选变量的方 法找出与因变量相关的变量,其他没有进入模型的变量在单因素分析中不给予分析。此外,还可以设法将彼此高度相关的自变量先综合成新变量,然后做因变量关于 综合变量的回归。
2、该变量某一类的例数特别少。
如文化程度,小学有100人,初中120人,高中30人,大学3人。可能会出现95%可信区间特别宽而包括1,而P值却<0.05。解决的办法可以合并例数少的几类,如本例中可以合并高中和大学成一类为高中和大学。
3、样本含量太小,使估计结果不稳定,产生大的标准误,使本来可能有意义的变量变得无统计学意义。
一般来说一个纳入变量,需要20-40例以上的样本,如果样本总数少而纳入变量过多,也可能会出现类似的问题。解决办法是增大样本含量,或减少纳入变量。但是在Logistic回归中,到底多大的样本才算合适呢?
根据国外一些专家的看法,如果样本小于100,Logistic回归的最大似然估计可能就有一些风险,如果样本大于500 则比较合适。样本含量还依赖于变量个数和数据结构等条件。一般是每一个自变量至少需要20例结局。这里说的结局例数不是整个样本的例数。假如,Logistic回归中自变量总共有5个,则至少需要100例研究结局,即如果你研究的因变量是自杀(1=自杀,0=没自杀),其中自变量有8个,那么 你的研究中需有160个人是发生了自杀的。可是按照这种情况的话,很多研究的因变量发生结局是很少的,比如自杀这种结局是比较少的,可能我们研究的自变量有 18个,但是自杀这个结局却远远没有360例。如果变量过少,会出现结果不稳定的现象,最终结果的意义也令人质疑。如果样本量确实不够多,而变量很多的话,则需要通过探索分析,筛选出高价值变量进行分析。