0
点赞
收藏
分享

微信扫一扫

《统计学七支柱》

柠檬的那个酸_2333 2022-05-03 阅读 40

书名《统计学七支柱》
作者 Stephen M.Stigler
追溯统计学来龙去脉,阐述统计推理核心思想


书籍图片


前言


统计学是什么?
这个问题面对每个时代的新挑战答案都不同。“统计学的挑战”在19世纪30年代指经济统计,在20世纪30年代指生物问题,而目前指定义模糊的“大数据”问题。

七支柱
它们是七根“支撑”的柱子,是统计学的学科基础,而不是完整的体系。
一方面,这七根支柱都有古老的起源;另一方面,现代学科通过自身结构的伟大独创性,以及华丽承诺不断产生的精彩的新思想,将统计学构建为多元化的科学。

第一根支柱:聚合(Aggregation)
我们可以使用它在19世纪的名称“观测的组合”,甚至使用最简化的名称:均值。
最小二乘法及衍生方法本质都是均值,它们通过对数据进行加权汇总而抹去数据的个体特性——指定的协变量除外。甚至核密度估计和各类现代平滑器在本质上也是均值。

第二根支柱:信息(Information)
更具体的说是“信息度量”,也是说来话长又很有意思。
数据中的信息可以测量,而测量的精度与数据量有关,某些情形下可以精确刻画相关性的形式。

第三根支柱:似然(Likelihood)
意味着使用了概率的推理的校准。
显著性检验和普通的P值都是最简单的似然形式,但诚如其名,与“似然”有关的方法丰富多彩,其中许多方法或者与费舍尔推断的参数族有关,或者与贝叶斯推断的参数族有关。

第四根支柱:互相比较(Intercomparison)
这个名称借鉴了费朗西斯•高尔顿的一篇论文,它表达了一个过去激进但现在普通的思想:统计比较常常可以采用数据自身的内部标准,而不必采用外部标准。
相互比较最常见的例子是学生t检验和方差分析的检验。

第五根支柱:回归(Regression)
回归现象可简单解释为:假设有两个不完全相关的观测变量,你选择了其中极值远离均值的变量,那么可以预期另一个(以标准差为单位)不会那么极端。
这根支柱与因果、推断一样,是贝叶斯学派的核心内容。

第六根支柱:设计(Design)
随机化在推断中有着巨大作用。费舍尔认识到结合严谨的随机化方法将会带来好处,于是在实验法中引入激进的改变。多因素现场试验中,费舍尔的设计允许效应的分离和相互作用的估计;实施随机化后,有效推断不再需要正态性或者材料的均匀性的假设。

第七根支柱:残差(Residual)
“复杂的现象……可以通过减去已知原因的影响进行简化……留下……需要解释的残差现象。通过这样处理……科学……得到了极大的促进。”
模型诊断(画出残差)在统计学中极为常见,但通过拟合和比较嵌套模型探索高维空间的方法更具有意义。

下面重新概括了七根支柱,用七种基本统计思想的作用来表达,尽管这样做也许会导致过度简化的风险。
(1)定向减少或压缩数据的价值。
(2)数据量上升,价值会减少。
(3)如何使用概率测量我们做的事?
(4)如何使用数据中的内部变化帮助分析?
(5)从不同角度提问可以产生有启发性的不同答案。
(6)规划观测的重要作用。
(7)所有这些思想如何用于科学探索和比较彼此矛盾的解释。


第一章 聚合:从表格和均值到最小二乘

1.1 指针的变化

1.2 古代的聚合

1.3 平均人

1.4 聚合与地球的形状


第二章 信息:度量与变化率

2.1 铸币检查试验

2.2 亚伯拉罕 棣莫弗

2.3 优化、扩展、悖论


第三章 似然:概率尺度上的校准

3.1 阿布斯诺特和显著性检验

3.2 休谟、普莱斯和贝叶斯归纳

3.3 拉普拉斯检验

3.4 似然理论


第四章 相互比较:作为标准的样本内变异

4.1 戈塞特和费舍尔的t-检验

4.2 弗兰西斯 埃奇沃思和方差成分的双因素分析

4.3 相互比较的一些陷阱


第五章 回归:多元分析、贝叶斯推断和因果推断

5.1 发现之路:从达尔文到高尔顿

5.2 高尔顿的解释

5.3 达尔文问题的解决

5.4 影响

5.5 多元分析与贝叶斯推断

5.6 贝叶斯推断

5.7 收缩估计

5.8 因果推断

5.9 三分律:愿你安息


第六章 设计:实验方案和随机化作用

6.1 可加模型

6.2 随机化


第七章 残差:科学逻辑、模型比较以及诊断展示










(未完待续…)


举报

相关推荐

0 条评论