书名《统计学七支柱》
作者 Stephen M.Stigler
追溯统计学来龙去脉,阐述统计推理核心思想
前言
“统计学是什么?”
这个问题面对每个时代的新挑战答案都不同。“统计学的挑战”在19世纪30年代指经济统计,在20世纪30年代指生物问题,而目前指定义模糊的“大数据”问题。
“七支柱”
它们是七根“支撑”的柱子,是统计学的学科基础,而不是完整的体系。
一方面,这七根支柱都有古老的起源;另一方面,现代学科通过自身结构的伟大独创性,以及华丽承诺不断产生的精彩的新思想,将统计学构建为多元化的科学。
第一根支柱:聚合(Aggregation)
我们可以使用它在19世纪的名称“观测的组合”,甚至使用最简化的名称:均值。
最小二乘法及衍生方法本质都是均值,它们通过对数据进行加权汇总而抹去数据的个体特性——指定的协变量除外。甚至核密度估计和各类现代平滑器在本质上也是均值。
第二根支柱:信息(Information)
更具体的说是“信息度量”,也是说来话长又很有意思。
数据中的信息可以测量,而测量的精度与数据量有关,某些情形下可以精确刻画相关性的形式。
第三根支柱:似然(Likelihood)
意味着使用了概率的推理的校准。
显著性检验和普通的P值都是最简单的似然形式,但诚如其名,与“似然”有关的方法丰富多彩,其中许多方法或者与费舍尔推断的参数族有关,或者与贝叶斯推断的参数族有关。
第四根支柱:互相比较(Intercomparison)
这个名称借鉴了费朗西斯•高尔顿的一篇论文,它表达了一个过去激进但现在普通的思想:统计比较常常可以采用数据自身的内部标准,而不必采用外部标准。
相互比较最常见的例子是学生t检验和方差分析的检验。
第五根支柱:回归(Regression)
回归现象可简单解释为:假设有两个不完全相关的观测变量,你选择了其中极值远离均值的变量,那么可以预期另一个(以标准差为单位)不会那么极端。
这根支柱与因果、推断一样,是贝叶斯学派的核心内容。
第六根支柱:设计(Design)
随机化在推断中有着巨大作用。费舍尔认识到结合严谨的随机化方法将会带来好处,于是在实验法中引入激进的改变。多因素现场试验中,费舍尔的设计允许效应的分离和相互作用的估计;实施随机化后,有效推断不再需要正态性或者材料的均匀性的假设。
第七根支柱:残差(Residual)
“复杂的现象……可以通过减去已知原因的影响进行简化……留下……需要解释的残差现象。通过这样处理……科学……得到了极大的促进。”
模型诊断(画出残差)在统计学中极为常见,但通过拟合和比较嵌套模型探索高维空间的方法更具有意义。
下面重新概括了七根支柱,用七种基本统计思想的作用来表达,尽管这样做也许会导致过度简化的风险。
(1)定向减少或压缩数据的价值。
(2)数据量上升,价值会减少。
(3)如何使用概率测量我们做的事?
(4)如何使用数据中的内部变化帮助分析?
(5)从不同角度提问可以产生有启发性的不同答案。
(6)规划观测的重要作用。
(7)所有这些思想如何用于科学探索和比较彼此矛盾的解释。
第一章 聚合:从表格和均值到最小二乘
1.1 指针的变化
1.2 古代的聚合
1.3 平均人
1.4 聚合与地球的形状
第二章 信息:度量与变化率
2.1 铸币检查试验
2.2 亚伯拉罕 棣莫弗
2.3 优化、扩展、悖论
第三章 似然:概率尺度上的校准
3.1 阿布斯诺特和显著性检验
3.2 休谟、普莱斯和贝叶斯归纳
3.3 拉普拉斯检验
3.4 似然理论
第四章 相互比较:作为标准的样本内变异
4.1 戈塞特和费舍尔的t-检验
4.2 弗兰西斯 埃奇沃思和方差成分的双因素分析
4.3 相互比较的一些陷阱
第五章 回归:多元分析、贝叶斯推断和因果推断
5.1 发现之路:从达尔文到高尔顿
5.2 高尔顿的解释
5.3 达尔文问题的解决
5.4 影响
5.5 多元分析与贝叶斯推断
5.6 贝叶斯推断
5.7 收缩估计
5.8 因果推断
5.9 三分律:愿你安息
第六章 设计:实验方案和随机化作用
6.1 可加模型
6.2 随机化
第七章 残差:科学逻辑、模型比较以及诊断展示
(未完待续…)