Fisher命名与Student's t分布:William Sealy Gosset的笔名背后的故事
命名与源起“t”是被赋予的伟大名字。最早把这一分布命名为“'s ”,并且用“t”来进行标记。
他当年在爱尔兰都柏林的一家酒厂工作,设计出了后来被称作 t 检验的方法,用于评价酒的质量。由于行业机密,酒厂不允许他的工作内容外泄。后来,他将此方法发表到至今仍很著名的一本杂志《》上,便署了 Sealy(戈塞特)的笔名。所以如今很多人只知道 Sealy(戈塞特),知道 t 检验,却不知道他本人。相对来说,我们通常所说的正态分布,在国外更多地被称作高斯分布……如果高斯泉下有知,或许会做出 V 字手势,那可真是欧耶!
看懂概率密度图
这一点对于初学者很重要。有不少人相信,他们对正态分布或者 t 分布的曲线没有确切的理解。
首先,我们看一下频率分布直方图,:
上图中,关键在于横轴。柱高代表着对于横轴上每一个点所发生的频次。图里横轴有 4 处,其发生的次数最多,约为 12 次;接着,横坐标为 10 处时,发生了 1 次……
我们进行单变量的探索性数据分析时,最喜欢使用柱状图。有时还会额外在柱状图上绘制一条曲线(见下图)。这样很容易就能看出数据的分布情况,包括集中趋势和离散趋势。在图中,数据大多集中在 4 附近,这里的 4 既是均数也是众数。并且数据有一点点右偏态,但总体上基本还是正态分布。
下图的手绘曲线,也就是密度曲线,其英文全称是 /Curve。它实际上是对上面柱状图的一种平滑处理,不过它的纵坐标变成了概率,这与柱状图的频次是不同的。但从理解的角度来看,它们的意义大致相近。
以下,我们就用曲线来讲解T分布的特征。
T分布的可视化
我们平常所说的 t 分布,指的是小样本的分布。然而实际上,正态分布能够被看作是 t 分布的一种特殊情况。这意味着,t 分布在大小样本的情况下都是普遍适用的。
之前有读者询问:“样本量大于 30 或者大于 50 时,是否就不能使用 t 分布了呢?”
完全不是这样的!t分布,大小通吃!具体且看下文分解。
相对于正态分布,t分布额外多了一个参数,自由度。自由度
= n - 1。我们先看几个例子,主观感受一下t分布。
= 1 :红色为t分布;蓝色为正态分布。
= 2 :红色
= 2,高于
= 1 的绿色,低于正态分布。
= 3 :红色
= 3,高于
= 1,2 的绿色,低于正态分布。
= 10 :红色
= 10,高于
= 1~9的绿色,低于正态分布。
可见,随着样本量n / 自由度
随着的增加,t 分布逐渐趋近于正态分布。正态分布,能够被视为仅仅是 t 分布的一个特殊情况。
以上这些部分大家大概都学习过,相信大多数读者都能有所了解。然而在此处,让我们回归到我们的标题(并非标题党):温良宽厚。
大家仔细对比一下下面这张图。t 分布呈现出钟型曲线的形态,其中间部分比较低,而两侧的尾巴却很高。
这是 t 分布的优势。这个特征十分重要。在百年的时间里,t 分布一直依靠这个特征而存在。
比较一下上图中的两条曲线,我用“宽厚”这个词来形容 t 分布曲线的特征。它比正态分布曲线更宽吗?它比正态分布曲线更厚吗?
大家都说重要的事需重复三遍。现在我们再重复一下:当样本量越小(也就是自由度越小的时候),t 分布的尾部就会越高。
尾部的高度,有十分重要的统计学意义。
我们比较一下下图里的两条曲线。这两条曲线都是对图中底部那 6 个黑色点的数值进行分布拟合。
我们先来看那条矮的且呈正态分布的曲线。前面已提及,正态分布的曲线不具有“宽厚”这一特征。其尾部很低,尾部与横轴之间的高度很“窄”。这意味着正态分布无法容忍其长长的尾部出现大概率的事件(比如图中横轴值为 15 处的一个圆点出现的概率为六分之一),所以正态分布只能无奈地将这一点纳入它的胸膛,而不是让其留在尾部。于是,出现了恶果:图中正态分布的均数偏离了大多数点所在的位置,且偏离很远,标准差也非常大。总之,这与我们所期待的情况不一致。
再来看那条高高的 t 分布曲线。之前我们讲过,t 分布具有“温良宽厚”的特点,它的尾巴很高(在本图中不太明显,可参考上面自由度为 1、2、3 时对应的图片),那高高的长尾使其具备“容人的雅量”。这条 t 分布的曲线很好地捕捉到了数据点的集中趋势,其集中趋势在横坐标 0 附近;同时也很好地捕捉到了数据点的离散趋势,该离散趋势的标准差只是那条正态分布曲线标准差的四分之一。
这是 T 分布盛行的原因,也就是 T 分布被广泛应用于小样本假设检验的原因。即便样本很小,它却强大到能够轻易排除异常值的干扰,并且准确地把握住数据的特征,包括集中趋势和离散趋势。
在统计中,准确捕捉变量的集中趋势和离散趋势具有极为重要的意义,这不是几句话能够说清楚的,简单列举几个例子如下:
研究样本量的估计量比较小。熟悉样本量计算的朋友都清楚,标准差是样本量计算中的一个重要参数。在上例中,我们的 t 分布的标准差仅是正态分布的四分之一,所以我们计算所需的样本量会大幅减少,只需原来的十六分之一,这样就能极大地降低研究经费和工作量。关注“医学统计分析精粹”,若回复关键词“样本量”,便能看到极为便捷的样本量计算工具。
我们将标准差缩小了。那些熟悉假设检验(后续“看图说话”系列文章中会出现)的朋友不难看出,这样一来,我们能更轻易地得到一个有意义的 P 值。
点估计较为准确。若我们需依据一个小样本数据去估计学生的平均身高,那么采用正态分布进行拟合时,极易因受离群异常值的影响而得出错误的估计。
回归时应用 t 分布,能够得到更为稳健的估计量,比如β值或 OR 值,这是我们达成“稳健回归”的一个关键手段。
通过下面一幅图,我们巩固一下t分布的“宽厚”:
与正态分布曲线(矮胖)相比,t 分布有着高高的尾部(本图中不太明显,可查看上面自由度为 1、2、3 时对应的图片)。t 分布能够容忍横轴为 9 处的异常值,从而得到更稳健的集中趋势估计值(均值 1.11),以及更紧凑的离散趋势估计值(标准差 0.15,是正态分布标准差的四分之一)。要知道,我们若只是想通过增加样本量,让标准误(假设检验中使用的参数,标准差除以自由度的平方根)缩减到四分之一,那需要 16 倍的样本量!由此可见,t 分布确实威力无穷!
PS:上述两幅图中的 t 分布曲线与频率学派应用 t 分布的常规套路不同,更像是贝叶斯学派的用法。细心的人可以察觉到,我们所使用的 t 分布的自由度比 n - 1 的自由度计算方法要明显低。这里的自由度是通过最大似然法估计出来的,目的是为了更合适地拟合数据的分布。这与我们平时的用法不一样。不过小编认为,这小小的不同不但没有什么坏处,反而对大家深入理解 t 分布的特征——温良宽厚更有帮助。
掌握了 T 分布的特征,它温良宽厚。这将有助于对本号后续介绍的假设检验和 T 检验有更深入的理解。期待后续文章,记得关注小号哦!
医学统计分析精粹
页:
[1]