他当年在爱尔兰都柏林的一家酒厂工作,设计出了后来被称作 t 检验的方法,用于评价酒的质量。由于行业机密,酒厂不允许他的工作内容外泄。后来,他将此方法发表到至今仍很著名的一本杂志《》上,便署了 Sealy(戈塞特)的笔名。所以如今很多人只知道 Sealy(戈塞特),知道 t 检验,却不知道他本人。相对来说,我们通常所说的正态分布,在国外更多地被称作高斯分布……如果高斯泉下有知,或许会做出 V 字手势,那可真是欧耶!
再来看那条高高的 t 分布曲线。之前我们讲过,t 分布具有“温良宽厚”的特点,它的尾巴很高(在本图中不太明显,可参考上面自由度为 1、2、3 时对应的图片),那高高的长尾使其具备“容人的雅量”。这条 t 分布的曲线很好地捕捉到了数据点的集中趋势,其集中趋势在横坐标 0 附近;同时也很好地捕捉到了数据点的离散趋势,该离散趋势的标准差只是那条正态分布曲线标准差的四分之一。
这是 T 分布盛行的原因,也就是 T 分布被广泛应用于小样本假设检验的原因。即便样本很小,它却强大到能够轻易排除异常值的干扰,并且准确地把握住数据的特征,包括集中趋势和离散趋势。
研究样本量的估计量比较小。熟悉样本量计算的朋友都清楚,标准差是样本量计算中的一个重要参数。在上例中,我们的 t 分布的标准差仅是正态分布的四分之一,所以我们计算所需的样本量会大幅减少,只需原来的十六分之一,这样就能极大地降低研究经费和工作量。关注“医学统计分析精粹”,若回复关键词“样本量”,便能看到极为便捷的样本量计算工具。
我们将标准差缩小了。那些熟悉假设检验(后续“看图说话”系列文章中会出现)的朋友不难看出,这样一来,我们能更轻易地得到一个有意义的 P 值。
PS:上述两幅图中的 t 分布曲线与频率学派应用 t 分布的常规套路不同,更像是贝叶斯学派的用法。细心的人可以察觉到,我们所使用的 t 分布的自由度比 n - 1 的自由度计算方法要明显低。这里的自由度是通过最大似然法估计出来的,目的是为了更合适地拟合数据的分布。这与我们平时的用法不一样。不过小编认为,这小小的不同不但没有什么坏处,反而对大家深入理解 t 分布的特征——温良宽厚更有帮助。
掌握了 T 分布的特征,它温良宽厚。这将有助于对本号后续介绍的假设检验和 T 检验有更深入的理解。期待后续文章,记得关注小号哦!