1.15. Isotonic regression(保序回归)

一、描述

请添加图片描述

保序回归，正如它的名字，是一种对预测值施加了“保序”约束的一种回归分析。“保序”的严格定义我们暂且不表，可以简单的理解为一种“对任意 $X_i\le X_j$ ，必须有 $y_i \le y_j$ ”的一种约束。

在它的目标函数 $\sum_i\omega_i(y_i-\hat{y_i})^2$ 中，mse部分很好理解，代表损失，参数 $\omega_i$ 是基于“保序”的要求，对预测的一种修正。

保序回归，本质上就是针对实践环境中保序的情况提出的一种回归

二、应用场景（举例）

在这里，我们举一个典型的例子，并借此介绍一下PAVA算法

1. 药用环境

动物园有老虎逃了出来，我们要用麻醉针将其麻醉。想要找到一个合适的药用剂量使我们能麻醉老虎并让其不受伤害，我们要探究不同药用剂量的麻醉剂在老虎身上的作用。

在这里，自变量是麻醉剂的剂量，应变量是麻醉剂在老虎群众起作用的比例。拟合函数，我们得到的是一定剂量的麻醉剂在一只老虎身上起作用的概率。

定义一下变量，对于剂量 $x_i$ ，我们手上 $n_i$ 只老虎的有效数据，其中 $t_i$ 有只老虎被麻醉，比例为 $\hat{p_i}$ ，而我们要求该剂量下的单只老虎被麻醉的概率为 $p_i$

2.PAVA

无约束

在没有约束条件的情况下，根据最大似然，我们可以求得， $p_i=\hat{p_i}$ ，证明如下：

对于剂量 $x_i$ ，我们设观测到在实际概率 $p_i$ 下， $n_i$ 只老虎中有 $\hat{p_i}$ 比例被麻醉的概率，是一个不考虑顺序的二项分布。所以我们可以列出似然函数 $L(p_i)=p_i^{n_i\hat{p_i}}(1-p_i)^{n_i(1-\hat{p_i})}$

取对数得 $lnL(p_i)=n_i\hat{p_i}ln(p_i)+n_i(1-\hat{p_i})ln(1-p_i)$
求导数得 $ln'L(p_i)=n_i(\frac{\hat{p_i}}{p_i}-\frac{1-\hat{p_i}}{1-p_i})=\cfrac{n_i(\hat{p_i}-p_i)}{p_i(1-p_i)}$
求得在 $p_i=\hat{p_i}$ 时，似然函数取极大值即最大值。

所以，在 $\hat{p_i}\le p_{i+1}$ 时，我们可以直接让 $p_i=\hat{p_i}$

有约束

在 $\hat{p_i}>\hat{p_{i+1}}$ 时，有约束 $p_i \le p_{i+1}$ ，此时一个自然而然的想法是，让 $p_i=p_{i+1}=\cfrac{n_ip_i+n_{i+1}p_{i+1}}{n_i+n_{i+1}}$ ，证明如下：

我们写出带拉格朗日子项的对数似然函数 $lnL(p_i,p_{i+1})=n_i\hat{p_i}ln(p_i)+n_i(1-\hat{p_i})ln(1-p_i)+n_{i+1}\hat{p_{i+1}}ln(p_{i+1})+n_i(1-\hat{p_{i+1}})ln(1-p_{i+1})+\lambda(p_{i+1}-p_i)$

求偏导得
$\left\{ \begin{aligned} \cfrac{\sigma lnL(p_i,p_{i+1})}{\sigma p_i}=\cfrac{n_i(\hat{p_i}-p_i)}{p_i(1-p_i)} \\ \cfrac{\sigma lnL(p_i,p_{i+1})}{\sigma p_{i+1}}=\cfrac{n_i(\hat{p_{i+1}}-p_{i+1})}{p_{i+1}(1-p_{i+1})} \\ \cfrac{\sigma lnL(p_i,p_{i+1})}{\sigma \lambda}=p_{i+1}-p_i \end{aligned} \right.$

求解方程可得， $p_i=p_{i+1}=\cfrac{n_ip_i+n_{i+1}p_{i+1}}{n_i+n_{i+1}}$ 时，似然函数取最大值。

有了这两种局部情况，我们就可以一步步的讲不保序的序列转换为保序的序列，并得到最终的回归分析。

三、部分性质

请添加图片描述

在sklearn的实例中，我们可以看到，保序回归和由一般最小二乘估计的线性回归在后期差别并不大，只是做了保序的约束。

保序回归得到的结果，是局部线性的。