中文English
ISSN 1001-5256 (Print)
ISSN 2097-3497 (Online)
CN 22-1108/R

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

浅谈医学科研中计数资料的统计学处理原则

阅读次数:1751
  • 分享到:

用微信扫码二维码

分享至好友和朋友圈

发布日期:2016-06-09
来源:科研时间微信
作者:胡志德 周支瑞

在开展医学科研的过程中,我们获得的资料大致有两种类型。其一是计量资料,比如转氨酶、血脂、肿瘤标志物等,这些资料的典型特点是几乎可以用“任意数值”表示,比如转氨酶为 15.28U/L,血糖为 7.77mmol/L等。其二是计数资料,比如性别(男 / 女),疗效(治愈 / 有效 / 无效)、血型(A/B/O/AB 型)等,这些资料的典型特点是只能记录“个数”,其结果在多数情况下只能是“整数”。比如 A 型血 10 人,男性 15 人等。

根据各组之间是否存在“递进关系”,计数资料又可以进一步分为分类资料(比如:男 / 女性;汉 / 苗 / 回族等)和等级资料(比如:尿蛋白可以分为阴性 /+/++/+++;治疗效果可以分为治愈 / 有效 / 无效)在医学科研中,对计数资料进行统计分析是无法回避的话。很多新手在处理此类问题时,往往容易选错方法,有的即使用对了统计学方法,也无法解释统计学结果的含义。

笔者在此拟谈谈分类资料的统计学处理原则。由于四格表的统计分析在前一篇文章中已经得到了详细的阐述,在此就不再赘述了。仅仅谈谈 2 行或 2 列以上计数资料的处理原则。

案例 1 性别与胰腺癌 TNM 分期的问题

假定某研究者欲研究性别与首诊胰腺癌 TNM 分期的问题,采用随机抽样的方式调查了 108 例男性胰腺癌患者和 118 例女性胰腺癌患者在首次诊断时的 TNM 分期情况,得出如下表格:
1.jpg
在制作表格时,应遵循的原则是:分组因素作为横标目,效应量作为纵标目。当然,在具体的论文撰写过程中,应该首先将表格的“直观性”和“自明性”放在第一位,不应过于“教条”。

在本研究中,性别是在出生时就已决定的,而胰腺癌的 TNM 分期是在后天发生的。所以研究目的只能是阐述性别是否影响首诊胰腺癌患者 TNM 分析,而不是首诊 TNM 分期是否会影响性别(这个问题听起来也太滑稽了)。

所以在表格 1 中,性别因素是分组因素,是表格的“横标目”,TNM 分期是效应量,是表格的“纵标目”。对于本组数据,有两种统计学方法可供选择,卡方检验和秩和检验(经过秩转换以后采用 Mann-Whitney U 检验比较),但两种方法的统计学结论和专业结论各不相同,甚至大相径庭。

若将 TNM 分期视为分类资料,即各个 TNM 分期之间无“高低强弱”之分,则可以采用卡方检验。当 P<0.05时,对应的统计学结论是:男性和女性患者胰腺癌 TNM 分期的分布频数(或者说结构组成)不同;对应的专业结论是:性别可能影响 TNM 分期的频数分布。在英文文献中,对频数分布的描述一般用 distribution、pattern、profile 等词。

若将 TNM 分期视为等级资料,即Ⅱ期患者较Ⅰ期更 advanced,则采用秩和检验,即将所有数据进行秩转换后采用 Mann-Whitney U 检验进行统计分析。假定男性的总秩次高于女性,当 P<0.05 时,对应的统计学结论是:男性患者的首诊 TNM 分期较女性患者高,即男性患者具有 advanced TNM stage;而对应的专业结论是:性别是影响 TNM 分期早晚的因素。

对于恶性肿瘤 TNM 分期早晚的描述,英文文献中常用的词语包括 advanced、early/moderate/late 等,带有明显的“矢量”特征。

由此可见,秩和检验的专业结论和卡方检验是不同的,体现在“频数分布”和“分期早晚”上。从统计学的角度而言,秩和检验提供的信息量要大于卡方检验,更符合研究者的研究目的。因为秩和检验不仅明确了“性别可以影响 TNM 分期”,而且还明确了“首诊男性患者具有 advanced TNM stage”,这也许才是研究者最关心的问题。因此,在本案例中,秩和检验才是首选。

需要说明的是,曾有同行和笔者讨论过 TNM 分期到底是“等级资料”还是“分类资料”的问题。严格来讲,这是一个专业问题,而非统计学问题,对这个问题的认识可谓“仁者见仁,智者见智”。

笔者认为,TNM 是等级资料,理由如下:无数的预后研究表明 TNM 与胰腺癌患者的预后密切相关,换句话说TNM 分期与疾病的严重程度相关,表现为“分期越晚,预后越差”。

虽然 TNM 分期本身有很多种组合方式,在反映疾病预后方面也并不十分准确,有的晚期患者预后甚至好于早期患者,而且关于各个分期的定义在字面上并未呈现很清晰的递进关系,但只要在总体上能观察到“分期越晚、预后越差”这一现象,这就足以说明 TNM 分期是反映疾病严重程度的指标,带有“高低强弱”的属性,因而是等级资料。

另外一个需要注意的问题是:医学科研的任何数据统计分析,都必然牵涉一个“统计学结论向专业结论过渡”的问题。即先产生一个统计学结论(相同与不同、增高与降低),然后再根据实验设计将统计学结论向专业结论进行过渡。在进行结论过渡时,需要考虑的不仅仅是一个 P 值的问题,更需要考虑“差异的大小是否具有专业价值”。

不论是卡方检验还是秩和检验,在得出专业结论前一定要仔细考虑“差异的大小是否具有专业价值”的问题。而从专业上讲,TNM 之间的差异到底要达到多“大”才具有专业价值,是一个十分难以界定的标准,对该统计学结果的解读在很大程度上取决于作者的主观判断。

在上述案例中,大多数学者可能会直接将统计学结论过渡到专业结论,而不管差异大小。该法虽然不太严谨,但实属“无奈之举”,同时也是较为保守的做法。

案例 2 胰腺癌患者中某基因表达强度的问题

某研究者发现基因 A 在胰腺癌组织中的表达异常,因此向研究胰腺癌的 TNM 分期是否是影响基因 A 表达的因素。基因 A 的表达可以用“阳性”和“阴性”来表示。研究者调查了 226 例胰腺癌患者,其中 108 例患者 A 基因表达阳性,118 例患者 A 基因表达阴性。得出如下表格:
2.jpg
该表格在排列方式上与表 1 不同,分组因素是 TNM 分期,效应量是 A 基因的表达情况。之所以这样排版,主要是因为本研究重点是要明确 TNM 分期是否会影响 A 基因的表达,而非 A 基因的表达是否会影响 TNM 分期。

从专业上来讲,前者更符合逻辑。因此,表格的横标目为 TNM 分期。对于这种数据的分析,也有很多方法可选择,但结论相差甚远。

直接采用卡方检验进行分析,若 P<0.05,得出的统计学结论是:不同 TNM 分期患者 A 基因表达状况的频数分布(distribution)之间的差异有统计学意义;对应的专业结论是:TNM 分期可能影响胰腺癌患者中 A 基因的表达特征(阳性还是阴性)。至于怎么影响?升高还是降低?卡方检验无法回答。

若将表格进行调整,得出如下表 3,再进行卡方检验,若 P<0.05,对应的统计学结论是:不同 TNM 分期患者A 基因表达的阳性率(positive rate)之间的差异有统计学意义;对应的专业结论是:TNM 分期可能影响胰腺癌患者中 A 基因的表达阳性率(positive rate)。

然后根据各组阳性率,作者可以大致排列一个顺序,指出 A 基因阳性率在不同 TNM 分期的胰腺癌患者分期中从高到低分别为:Ⅳ期 >Ⅰ期 >Ⅱ期 >Ⅲ期。若作者感兴趣,还可以进一步采用卡方分割法对各期进行比较,明确组间的差异是否具有统计学意义。就本研究来讲,笔者认为两两比较可能意义不大,故而不予比较。

3.jpg

这里需要说明的是,严格来讲,阳性率与表达水平完全是两个概念,在下专业结论的时候,不能将结论下为:TNM 分期可能影响胰腺癌患者中 A 基因的表达水平(level)。通常而言,水平是一个连续变量,与率不同。我们可以通过以下例子来说明二者的关系:

假定基因的表达水平本身是可以量化的,其范围为 0-100,检测值越大,则表示其表达强度越高。若实验组有100 个样本,其中 50 个样本的表达水平为 100,剩下的 50 个样本表达水平为 50,因此实验组内基因的平均表达水平为 75;对照组 60 个样本的表达水平为 80,剩下 20 个样本的表达水平为 0;因此对照组的平均表达水平是 48。

若比平均表达表达水平,实验组显然高于对照组;假定以 60 来作为划分阴 / 阳性的界值,实验组基因表达的阳性率为 50%,对照组却为 80%,对照组的阳性率显然高于实验组;假定以 40 来作为划分阴 / 阳性的界值,实验组阳性率为 100%,对照组阳性率为 80%,对照组的阳性率显然低于实验组。

因此,阳性率在很大程度上受界值影响在将统计学结论向专业结论过度时,切忌偷换概念,将阳性率说成基因表达水平。

回到表 3,若要明确表达强度高低的问题,需要对数据进行秩转化,然后再采用 Kruskal-Wallis H 检验比较各个 TNM 分期患者基因表达强度的差异。这里 TNM 分期可视为“分类变量”。从专业上来讲,将 A 基因的表达情况进行秩转换之后再比较不同 TNM 分期患者之间 A 基因的表达情况,显然信息量更为丰富,更符合研究目的。

但是考虑到当人们用“阳 / 阴性”去衡量 A 基因表达时,已经极大地降低了统计效率,损失了很多统计信息,这样统计出来的结果很有可能不可靠,所以一般通过阳性率从侧面反映基因的表达强度。笔者认为:卡方检验和秩和检验均可用于此类数据的分析,只是在下专业结论时需要注意区分“率”和“水平”的问题。

在实际工作中,还可能用“高、中、低”的方式进行表达。比如某人欲研究 A 基因的表达与 TNM 分期的关系,得到下表:

4.jpg

对于这种表格,也有很多种处理方式。

若将基因 A 的表达强度视为分类资料,直接采用卡方检验,若 P<0.05,对应的统计学结论为:不同 TNM 分期患者 A 基因表达状况的频数分布(distribution)之间的差异有统计学意义。对应的专业结论为:TNM 分期可能影响基因 A 的表达频数分布状况。至于怎么影响,升高还是降低,卡方检验无法回答。

若将基因的表达情况(高中低)视为有序变量,则需要对其进行秩转换,之后再采用 Kruskal-Wallis H 检验进行比较,若 P<0.05,对应的统计学结论是:不同 TNM 分期患者 A 基因表达强度(intensity)之间的差异有统计学意义;对应的专业结论是:TNM 分期可能影响基因 A 的表达强度。

进一步根据各组的总秩次,可以明确各个 TNM 分期中基因 A 的表达强度,并根据需要判断是否有必要进行两两比较。与卡方检验相比,秩和检验可以明确表达强度高低的问题,对研究结果的描述更为深刻,因为更具有专业价值。

但是秩和检验还不是最佳选择!在本研究中,我们注意到:TNM 分期和基因的表达强度都是“有序变量”,或者说都是“等级资料”,如果能明确二者是否呈线性相关关系,显然更符合研究的目的。因此本研究最恰当的统计学方法应该是线性趋势检验或者 spearman 秩相关法。

案例 3 尿蛋白与血型

5.jpg
某研究者收集了 126 例肾病患者,研究了其尿蛋白水平(以等级资料表示)与血型是否有关,得出如下表格:

本研究中,尿蛋白是等级资料,但是由于是分组变量,我们可将其视为分类变量处理。血型属于分类资料,各个血型之间并无“强弱优劣”之分。研究目的旨在明确各个尿蛋白水平的肾病患者血型分布状况是否相同。此时就应选用卡方检验,若在上述表格中有 1/5 的格子(4 个以上)理论频数小于 5,则应该选用 Fisher 确切概率法。

若 P<0.05,对应的统计学结论为:各个尿蛋白水平的肾病患者血型分布特征不同;对应的专业结论为:尿蛋白与血型存在关联(association)。之所以不将专业结论下为“尿蛋白可能影响血型”,因为这个结论纯属无稽之谈。

表 4 的数据不变,但研究目的改变:旨在明确不同血型患者尿蛋白水平是否有差异,而非不同尿蛋白水平患者血型分布是否有差异。则表格应该重新进行组织,得出下表:

6.jpg
研究旨在明确各个血型的患者尿蛋白水平是否有差异。尿蛋白是等级资料,所以本研究不宜采用卡方检验(详见案例 1),而应该进行秩转换之后以 Kruskal-Wallis H 检验分析比较各个血型的尿蛋白水平,并根据需要决定是否进行两两比较。

若 P 小于 0.05,则对应的统计学结论为:各个血型的尿蛋白水平有差异;对应的专业结论为:血型是影响尿蛋白水平的因素。若采用卡方检验进行统计,得出的结论就是“血型可以影响尿蛋白的分布状况(或者说结构比例)”。

“分布状况(或者说结构比例)”和“水平”显然是两个完全不同的概念,研究各个血型的肾病患者尿蛋白水平的差异,显然更符合研究目的。

由此可见,相同的数据,研究目的不同,统计处理方式也完全不同,结论更是大相径庭。在对计数资料进行处理时,一定要仔细思考:研究的目的是什么(比较构成比还是强度的差异)?哪个变量更适合作为分组变量(试验因素)?在表 4 和表 5 中,二者的研究目的不同,分组变量也因此不同,采用的统计学方法更是不同,最终的专业解释更是相差甚远。

结语

统计服务于专业,抛开专业谈统计无异于缘木求鱼。对于每一种统计方法,我们应该在深入了解其“来龙去脉”的基础上,结合自己的实验设计特点和专业需要去选择最合适的统计学方法。兵无常势,水无常形,对统计学方法的选择一定要灵活,而不能教条,大多数统计学错误都源自于“在没有掌握来龙去脉的情况下,依葫芦画瓢地盲目套用统计学方法”。

统计学最难的地方不在于“如何在软件中进行操作”,而在于从专业的角度出发选择合适的统计方法,然后将统计学结论恰如其分地过渡到自己的专业解释中。

笔者:胡志德,AME 学术沙龙委员、Section Editor (Systematic Review and Meta-analysis),工作于济南军区总医院实验诊断科,现为第二军医大学临床检验诊断学博士研究生,以第一作者或通讯作者身份发表 SCI 论文十余篇,并主持国家青年科学基金一项。

笔者:周支瑞,AME 学术沙龙委员,在读博士。主要研究方向:恶性肿瘤放射治疗的放射生物学研究、恶性肿瘤放射治疗的循证医学研究、循证医学方法学研究。以第一作者及共同作者发表 SCI 论文 9 篇,以第一作者在核心期刊发表论文 3 篇,参编学术著作一部(《实用循证医学方法学》第 2 版副主编)。

(本文来自科研时间微信)

  • 分享到:

用微信扫码二维码

分享至好友和朋友圈

阅读次数:1751
  • 1 病毒性肝炎
    • 1.1 乙型肝炎
    • 1.2 丙型肝炎
    • 1.3 甲型肝炎
    • 1.4 戊型肝炎
    • 1.5 其他肝炎
  • 2 肝硬化及并发症
  • 3 酒精性肝病
  • 4 非酒精性脂肪性肝病
  • 5 肝衰竭/肝性脑病/人工肝
  • 6 肝肿瘤
  • 7 自身免疫性肝病
  • 8 药物性肝病
  • 9 肝移植
  • 10 其他肝病
    • 10.1 遗传及代谢性肝病
    • 10.2 胆汁淤积性肝病
    • 10.3 肝脏血管病
  • 11 一般肝病/肝脏检查
  • 12 胆道疾病
  • 13 胰腺疾病
  • 14 全身疾病与肝病/内镜
  • 15 肝胆胰疾病相关评分系统汇总