正态分布概念由德国数学家Moivre于1733年首次提出,德国数学家Gauss率先将其应用于天文学研究,所以又称高斯分布。正态分布在数学、物理及工程学等领域非常重要,在统计学中也是影响深远。统计学中的t分布、F分布等都是在正态分布的基础上推导出来的,u检验也是以正态分布为基础。
正态分布与非正态分布区别:
•正态与非态分布资料对假设检验要求不同。正态分布资料一般用参数检验(如T检验等),而非正态分布资料则要用非参数检验;
•正态资料一般采用平均数±标准差表示;非正态资料建议采用中位数(四分位数间距IQR)表示,必要时提供数值范围。
如何确定是正态分布还是非正态分布呢?
1.在SPSS软件工具栏中按图示依次点击Analyze » Descriptive » Explore开始检验正态分布。
2. 点击Explore跳出一个对话框,选择要分析的变量,选入因变量框内,然后点选Plots(图表),设置输出直方图,选择输出正态性检验图表,注意Display要选择Both。
3.输出结果Tests of Normality, P>0.05代表正态分布。
在SAS中Kolmogorov-Smirnov一般适用于样本量大于2000,Shapiro-Wilk(W检验)用于2000以内的样本。在SPSS中比较复杂,一般样本量50以内用Shapiro-Wilk,对于无权重或整数权重,在加权样本大小位于3 和5000 之间时也可以采用。
临床实际中正态分布资料并不多见,尤其是小样本研究;有些资料天然是偏态的:如血压,糖化血红蛋白水平。因为,这些资料在正常值范围内一般都认为“正常”,高一点与低一点并不太关心;但超过正常值,则会关心变化值。因此,这些资料分布即便是“正态”,但它们的临床意义也未必“正态”!
临床实际中对于关键指标,建议进行正态和非正态同时呈现。重要指标,务必检验正态还是非正态分布,选择正确的统计学方法;而非关键指标,建议以临床意义优先的处理原则,其实是方便。