中文English
ISSN 1001-5256 (Print)
ISSN 2097-3497 (Online)
CN 22-1108/R

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

几种常见的滥(乱)用卡方检验的情况

阅读次数:5822
  • 分享到:

用微信扫码二维码

分享至好友和朋友圈

发布日期:2016-11-25
来源:科研时间微信
作者:胡志德

卡方检验是医学科研中最常用的统计学方法之一,主要用于对分类资料进行比较分析。笔者粗略估计,医学期刊上刊登的临床研究类论文中,70% 以上会使用该统计方法对数据进行分析。然而,在医学期刊,特别是国内期刊上刊登的论文中,滥(乱)用卡方检验的情况十分普遍、屡见不鲜。在此,笔者拟就常见的滥(乱)用卡方检验的情况进行总结、概括和辨析,以帮助大家正确使用卡方检验。

1、处理四格表数据时不考虑样本量和最小理论频数而直接采用卡方检验

处理四格表数据是卡方检验最为常见的用途之一,其目的在于分析“构成比”或者“率”上的差异是否具有统计学意义。对于四格表数据,使用卡方检验的条件为样本量大于 40,且最小理论频数应大于 5。对于某些小样本的、或者指标阳性率较低的研究,总样本量可能小于40,最小理论频数也可能小于 5,此时应该采用 Fisher 确切概率法进行分析。比如某研究需比较小细胞肺癌和非小细胞肺癌内某个基因的表达情况的差异是否有统计学意义,得出如下四格表:

该研究的样本量仅为 30 个,且最小理论频数为(12×9)/30=3.6,所以应该采用 Fisher 确切概率法进行分析。实际上,从理论上讲,若要分析四格表数据中的构成比或者率之间的差异是否有统计学意义,Fisher 确切概率法的结果是最可靠的。若是使用软件对数据进行分析,不论样本量和最小理论频数,均可采用 Fisher 确切概率法。

2、误用卡方检验处理等级资料

等级资料的表示方法与分类资料相似,因此受“定式思维”的影响,部分同行“习惯性”地采用卡方检验对等级资料进行处理,这也是医学期刊上最常见的滥(乱)用卡方检验的行为。卡方检验回答的问题仅仅是“构成比”或者“率”上的差异是否具有统计学意义,而不能回答效应指标的强度高低问题。比如某研究比较了两类人群胰腺癌分期的分布状况,如下表所示:

此类数据的一个显著特点是胰腺癌的分期(Ⅰ、Ⅱ、Ⅲ、Ⅳ期)是一个等级资料,研究者的研究目的是分析甲乙两群人胰腺癌的分期是否有差别,是一个强度“分期早晚”的问题,而不是“构成比”的差异。若用卡方检验处理此类数据,得出的结论就是“甲乙两类人群胰腺癌分期构成比上的差异是否具有统计学意义”,而无法明确“孰高孰低”的问题。以上述表格为例,卡方检验结果显示有统计学意义,但问题在于:根据表中数据,人群甲以Ⅰ期和Ⅳ期为主,人群乙以Ⅱ期和Ⅲ期为主,让人完全无法判断两类人群的疾病分期“孰早孰晚”的问题。处理此类数据的一般方法是将分期进行秩转换,然后以秩和检验进行统计分析,也可以直接采用 Riddit 分析进行统计。

3、对于多组资料反复使用卡方检验进行比较

有时研究者面对的数据可能有多行或者多列(R×C 资料),研究者需要逐一比较各组数据的差异是否有统计学意义。比如某研究者对不同血型的个体患乙型肝炎的情况进行了调查,得出如下数据:

这是一个率的比较问题,研究目的主要在于分析各个血型的人群 HBV 感染的发病率是否相同。处理此类数据,一般是直接采用卡方检验从整体上分析各组人群率(构成比)上的差异是否具有统计学意义;若具有统计学意义,则根据研究目的进一步觉得是否进行组间的比较。以本研究为例,研究者可能还需要逐一比较各组 HBV 感染的发病率之间的差异是否具有统计学意义。处理此类数据时,最容易犯的一类错误就是将表格进行拆分成六个四格表反复采用卡方检验进行统计分析。实际上,这种错误的统计学方法类似于“反复使用 t 检验比较多组资料”,会增大Ⅰ类误差的概率。正确的做法应该是采用卡方分割法,通过改校正验水准的方式来进行两两比较。

需要说明的是,在整体比较之后是否需要进行两两比较,如何进行两两比较在很大程度上取决于专业需要,或者说研究目的,特别是分组因素的“属性”是否相同。比如某研究欲分析基因 A 在类风湿性关节炎中的表达情况(基因表达情况以阳性和阴性进行描述),除了健康对照外,研究者还设立了疾病对照组,包括系统性红斑狼疮和干燥综合症。研究者得到了如下表格:

研究者的目的主要是探讨 A 基因在类风湿性关节炎中的表达与健康个体是否存在差异,进而研究 A 基因在类风湿性关节炎发病机制中的作用。设立系统性红斑狼疮组和干燥综合征组的目的仅仅是为了验证该基因是否是特异性地参与了类风湿性关节炎的发病机制。因此在进行两组比较时,仅仅需要将三种自身免疫性疾病分别与健康对照组比较即可(与计量资料方差分析之后的 Dunnett-t 检验有些类似),至于自身免疫性疾病之间的比较,并无多大专业价值。

4、结语

本文初步分析了几种常见的滥(乱)用卡方检验的情况,限于篇幅以及笔者水平所限,一些较为复杂的、少见的滥(乱)用卡方检验的行为不再一一赘述。实际上,在统计学家眼里,本文的观点多已是很基础的、老生常谈的话题,甚至并无成文的价值。之所以将这些问题重新总结成文,只是有感于部分同行在分析数据时不分青红皂白地滥(乱)用卡方检验处理数据,得出一番令人啼笑皆非的统计学结果之后还全然不知。

希望读者阅毕本文后,在一笑而过的同时,能若有所思。

  • 分享到:

用微信扫码二维码

分享至好友和朋友圈

阅读次数:5822
  • 1 病毒性肝炎
    • 1.1 乙型肝炎
    • 1.2 丙型肝炎
    • 1.3 甲型肝炎
    • 1.4 戊型肝炎
    • 1.5 其他肝炎
  • 2 肝硬化及并发症
  • 3 酒精性肝病
  • 4 非酒精性脂肪性肝病
  • 5 肝衰竭/肝性脑病/人工肝
  • 6 肝肿瘤
  • 7 自身免疫性肝病
  • 8 药物性肝病
  • 9 肝移植
  • 10 其他肝病
    • 10.1 遗传及代谢性肝病
    • 10.2 胆汁淤积性肝病
    • 10.3 肝脏血管病
  • 11 一般肝病/肝脏检查
  • 12 胆道疾病
  • 13 胰腺疾病
  • 14 全身疾病与肝病/内镜
  • 15 肝胆胰疾病相关评分系统汇总