一、间隔与支持向量

里插入图片描述粗实线这个划分超平面所产生的分类结果是最鲁棒的，对未来示例的泛化能力最强
在样本空间中，划分超平面可通过如下线性方程来描述：
$\pmb w^T\pmb x +b =0,$
其中 $\pmb w =(w_1;w_2;\cdots;w_d)$ 为法向量，决定超平面的方向；b为位移项，决定了超平面与原点之间的距离
样本空间中任意点 $\pmb x$ 到超平面 $(\pmb w,b)$ 的距离可写为
$r=\frac{ |\pmb w^T \pmb x +b|}{||\pmb w||}$
$\begin{cases} \pmb w^T \pmb x_i +b \geq +1, \quad y_i=+1\\ \pmb w^T \pmb x_i +b \leq -1, \quad y_i=-1 \end{cases}$
距离超平面最近的这几个训练样本点使上式的等号成立，它们被称为 “支持向量”（support vector），两个异类支持向量到超平面的距离之和为
$\gamma = \frac{2}{||\pmb w||}$
它被称为 “间隔”（margin）
在这里插入图片描述欲找到具有“最大间隔”（maximum margin）的划分超平面，就是要找到能满足约束的参数 $\pmb w$ 和 $b$ ，使得 $\gamma$ 最大，即
$\underset {w,b}{\operatorname {max}} \frac{2}{||\pmb w||}\\ s.t.\quad y_i(\pmb w^T \pmb x_i +b) \geq 1, \quad i=1,2,\cdots,m$
可重写为
$\underset {w,b}{\operatorname {min}} \frac{1}{2}||\pmb w||^2\\ s.t.\quad y_i(\pmb w^T \pmb x_i +b) \geq 1, \quad i=1,2,\cdots,m$
这就是支持向量机（Support Vector Machine，简称SVM）的基本型

二、对偶问题

支持向量机的基本型本身是一个 凸二次规划（convex quadratic programming），能直接用现成的优化计算包求解，但其实有更高效的方法

对上式使用拉格朗日乘子法可得到其 “对偶问题”（dual problem） ，具体来说，对每条约束添加拉格朗日乘子 $a_i \geq 0$ ，则该问题的拉格朗日函数可写为
$L(\pmb w,b ,\pmb a)=\frac{1}{2}||\pmb w||^2 + \sum_{i=1}^m a_i(1-y_i(\pmb w^T\pmb x_i +b)),$
其中 $\pmb a=(a_1;a_2;\cdots;a_m)$ ，对 $\pmb w$ 和 $b$ 求偏导为0
$\pmb w = \sum_{i=1}^m a_i y_i \pmb x_i\\ 0=\sum_{i=1}^ma_iy_i$
即可将 $L(\pmb w,b ,\pmb a)$ 中消去 $\pmb w$ 和 $b$ ，再考虑约束，就得到它的对偶问题
$\underset {\pmb a}{\operatorname {max}} \sum_{i=1}^m a_i -\frac{1}{2}\sum_{i=1}^m\sum_{j=1}^m a_i a_j y_i y_j \pmb x_i^T\pmb x_j\\ s.t. \sum_{i=1}^m a_iy_i=0\\ a_i \geq 0 ,\quad i=1,2,\cdots,m$
解出 $\pmb a$ 后，求出 $\pmb w$ 和 $b$ 即可得到模型
$\begin{aligned} f(x) &= \pmb w^Tx+b\\ &=\sum_{i=1}^ma_iy_i\pmb x_i^T\pmb x +b \end{aligned}$
支持向量的基本型有不等约束，因此上述过程需满足KKT（Karush-Kuhn-Tucker）条件，即要求
$\begin{cases} a_i \geq 0;\\ y_if(\pmb x_i) - 1 \geq 0;\\ a_i(y_if(\pmb x_i) - 1)=0 \end{cases}$
补充KKT条件资料
显示出支持向量机的一个重要性质：训练完成后，大部分的训练样本都不需要保留，最终模型仅与支持向量相关
SMO（Sequential Minimal Optimization）节省计算开销，SMO每次选择两个变量 $a_i$ 和 $a_j$ ，并固定其他参数，在参数初始化后，SMO不断执行如下两个步骤直至收敛：1.选取一对需更新的变量 $a_i$ 和 $a_j$ .2.固定 $a_i$ 和 $a_j$ 以外的参数，求解对偶问题获得更新后的 $a_i$ 和 $a_j$
直观来看，KKT条件违背的程度越大，则变量更新后可能导致目标函数数值减幅增大。SMO先选取违背KKT条件程度最大的变量，第二个变量应选择一个使目标函数值减小最快的变量（计算复杂度高），SMO采用了一个启发式：使选取的两个变量所对应的样本之间间隔最大，约束可重新写为
$a_iy_i+a_jy_j=c,\quad a_i \geq 0,a_j \geq 0$
其中
$c=-\sum_{k=i,j}a_ky_k$
如何确定偏移项 $b$ 呢？注意到对任意支持想想 $x_s,y_s)$ 都有 $y_sf(x_s)=1$ ，即
$y_s(\sum_{i\in S}a_iy_i\pmb x_i^T \pmb x_s +b)=1$
理论上可选取任意支持向量并通过求解上式得到 $b$ ，但现实任务中常采用一种更鲁棒的做法：使用所有支持向量求解的平均值
$b=\frac{1}{|S|}\sum_{s\in S}(y_s - \sum_{i\in S}a_iy_i\pmb x_i^T \pmb x_s)$

三、核函数

在这里插入图片描述

问题不一定是线性可分的，对这样的问题，可将样本从原始空间映射到一个更高维的特征空间，使得样本在这个特征空间内线性可分，令 $\phi(\pmb x)$ 表示 $\pmb x$ 映射后的特征向量，在特征空间中划分超平面所对应的模型可表示为
$f(\pmb x) = \pmb w^T \phi(\pmb x) + b$
并有
$\underset {w,b}{\operatorname {min}}\frac{1}{2}||\pmb w||^2\\ s.t. \quad y_i(\pmb w^T \phi(\pmb x) + b)\geq 1,\quad i=1,2,\cdots,m$
其对偶问题是
$\underset {\pmb a}{\operatorname {max}}\sum_{i=1}^ma_i - \frac{1}{2}\sum_{i=1}^m\sum_{j=1}^m a_i a_j y_i y_j\phi(\pmb x_i)^T\phi(\pmb x_j)\\ s.t.\quad \sum_{i=1}^m a_i y_i =0\\ a_i \geq0,\quad i=1,2,\cdots,m$
$\kappa(\pmb x_i, \pmb x_j)=<\phi(\pmb x_i,\pmb x_j)>=\phi (\pmb x_i)^T \phi (\pmb x_j)$
替换式中相关项，求解得到
$\begin{aligned} f(\pmb x) &= \pmb w^T\phi (\pmb x) +b\\ &=\sum_{i=1}^m a_i y_I \phi(\pmb x_i)^T\phi(\pmb x_j)+b\\ &=\sum_{i=1}^ma_i y_i\kappa(\pmb x_i, \pmb x_j) + b \end{aligned}$
其中 $\kappa(\cdot,\cdot)$ 就是 “核函数”（kernel function），式中显示出模型最优解可通过训练样本的核函数展开，这一展开式亦称“支持向量展开式”（support vector expansion）
定理：令 $\chi$ 为输入空间， $\kappa(\cdot,\cdot)$ 是定义在 $\chi \times \chi$ 上的对称函数，则 $\kappa$ 是核函数当且仅当对于任意 $D=\{\pmb x_1, \pmb x_2,\cdots,\pmb x_m\}$ ，“核矩阵”（kernel matrix） $\Kappa$ 是半正定的：
$\Kappa= \begin{bmatrix} \kappa(\pmb x_1, \pmb x_1)&\cdots&\kappa(\pmb x_i, \pmb x_j)&\cdots&\kappa(\pmb x_1, \pmb x_m)\\ \vdots&\ddots&\vdots&\ddots&\vdots\\ \kappa(\pmb x_i, \pmb x_1)&\cdots&\kappa(\pmb x_i, \pmb x_j)&\cdots&\kappa(\pmb x_i, \pmb x_m)\\ \vdots&\ddots&\vdots&\ddots&\vdots\\ \kappa(\pmb x_m, \pmb x_1)&\cdots&\kappa(\pmb x_m, \pmb x_j)&\cdots&\kappa(\pmb x_m, \pmb x_m)\\ \end{bmatrix}$
定理表明，只要一个堆成函数所对应的核矩阵半正定，它就能作为核函数使用。事实上，对于一个半正定核矩阵，总能找到一个与之对应的映射 $\phi$ 。换言之，任何一个核函数都隐式地定义了一个称为 “再生核希尔伯特空间”（Reproducing Kernel Hilbert Space，简称RKHS） 的特殊空间
“核函数选择”成为支持向量机的最大变数

此外，还可通过函数组合得到，例如：
若 $\kappa_1$ 和 $\kappa_2$ 为核函数，则对于任意正数 $\gamma_1$ 和 $\gamma_2$ ，其线性组合
$\gamma_1\kappa_1+\gamma_2\kappa_2$
也是核函数
$\kappa_1 \otimes \kappa_2(\pmb x,\pmb z) =\kappa_1(\pmb x,\pmb z)\kappa_2(\pmb x,\pmb z)$
直积也是核函数
对于任意函数 $g (x)$ ，
$\kappa(\pmb x,\pmb z)= g(\pmb x)\kappa_1(\pmb x,\pmb z)g(\pmb z)$
也是核函数

四、软间隔与正则化

在这里插入图片描述

所有样本均满足约束，即所有样本都必须划分正确，成为“硬间隔”（hard margin），而“软间隔”（soft margin）允许某些样本不满足约束
$y_i(\pmb w^T \pmb x_i +b) \geq 1$
当然，在最大化间隔的同时，不满足约束的样本应尽可能少，优化目标可写为
$\underset {w,b}{\operatorname {min}}\frac{1}{2}||\pmb w||^2 +C\sum_{i=1}^m \ell_{0/1}(y_i(\pmb w^T\pmb x_i +b )-1),$
其中 $C > 0$ 是一个常数， $\ell_{0/1}$ 是”0/1损失函数“
$\ell_{0/1}(z)= \begin{cases} 1, \quad if z<0;\\ 0, \quad otherwise. \end{cases}$
当C为无穷大时，迫使所有样本均满足约束；当C取有限值时，允许一些样本不满足约束
0/1 不连续，数学性质不好，“替代损失”（surrogate loss） 一般具有较好的数学性质，如它们通常是凸连续函数且是 $\ell_{0/1}$ 的上界，三种常用的替代损失函数：
$hindge损失函数：\ell_{hinge}(z)=max(0,1-z);\\ 指数损失(exponential loss)：\ell_{exp}(z)=exp(-z)\\ 对率损失(logistic loss): \ell_{log}(z)=log(1+exp(-z))$
若采用hinge损失，则变成：
$\underset {w,b}{\operatorname {min}} \frac{1}{2}||\pmb w||^2+C\sum_{i=1}^m\operatorname {max}(0,1-y_i(\pmb w^T \pmb x_i +b))$

引用“松弛变量”（slack variables） $\xi_i\geq0$ ，可将式重写为
$\underset {w,b,\xi_i}{\operatorname {min}}\frac{1}{2}||\pmb w||^2+C\sum_{i=1}{m}\pmb \xi_i\\ s.t.\quad y_i(\pmb w^T \pmb x_i + b)\geq1-\xi_i\\ \xi_i \geq0, \quad i=1,2,\cdots,m.$
这就是常用的“软间隔支持向量机”，仍是一个二次规划问题，类似的，通过拉格朗日乘子法得到
$\begin{aligned} L(\pmb w,b ,\pmb \alpha, \pmb \xi, \pmb \mu)&=\frac{1}{2}||\pmb w||^2+C\sum_{i=1}^m\xi_i\\ &+\sum_{i=1}^m\alpha_i(1-\xi_i-y_i(\pmb w^T \pmb x_i + b))-\sum_{i=1}^m\mu_i\xi_i\\ \end{aligned}$

对软间隔支持向量机，KKT条件
$\begin{cases} \alpha_i\geq0,\quad \mu_i\geq0,\\ y_if(\pmb x_i)-1+\xi_i\geq 0,\\ \alpha_i(y_if(\pmb x_i)-1+\xi_i)=0,\\ \xi_i\geq0,\mu_i\xi_i=0. \end{cases}$

软间隔支持向量最终模型仅与支持向量有关，即通过采用hinge损失函数仍保持了稀疏性
如果使用对率损失函数 $\ell_{log}$ 来替代式中的0/1损失函数，则几何得到了对率回归模型
对率回归的优势主要在于其输出具有自然的概率意义，即在给出预测标记的同时也给出了概率。而支持向量机的输出不具有概率意义，欲得到概率输出需进行特殊处理
对率回归能够直接用于多分类任务，支持向量机为此则需要进行推广
对数回归的解依赖于更多的训练样本，其预测开销更大
可写为一般形式
$\underset {f}{\operatorname {min}}\Omega(f)+C\sum_{i=1}^m\ell(f(\pmb x_i),y_i),$
其中 $\Omega(f)$ 称为 “结构风险”（structural risk），用于描述模型f的某些性质；第二项 $\sum_{i=1}^m\ell(f(\pmb x_i),y_i)$ 称为 “经验风险”（empirical risk），用于描述模型与训练数据的契合度；C用于对二者进行折中。
从风险最小化的角度来看， $\Omega(f)$ 表达了我们希望获得具有何种性质的模型，这为引入领域知识和用户意图提供了途径；另一方面，该信息有助于削减假设空间，从而降低最小化训练误差的过拟合风险。从这个角度来说，上式称为 “正则化”（regularization） 问题， $\Omega(f)$ 称为正则化项，C则称为正则化常数， $\operatorname L_P$ 范数（norm）是常用的正则化项
其中L2范数 $||\pmb w||^2$ 倾向于 $\pmb w$ 的分量取值尽量均衡，即非零分量个数尽量稠密，而L0范数 $||\pmb w||_0$ 和L1范数 $||\pmb w||_1$ 则倾向 $\pmb w$ 的分量尽量稀疏，即非零向量个数尽量少

五、支持向量回归

支持向量回归（Support Vector Regression，简称SVR）
SVR 问题可形式化为
$\underset {w,b}{\operatorname {min}}\frac{1}{2}||\pmb w||^2+C\sum_{i=1}^m\ell_{\epsilon}(f(\pmb x_i)-y_i,$
其中C为正则化常数， $\ell_{\epsilon}$ 是图中所示的 $\epsilon$ -不敏感损失（ $\epsilon$ -insensitive loss）函数
$\ell_{\epsilon}(z)= \begin{cases} 0,\quad \operatorname {if}|z|\leq\epsilon;\\ |z|-\epsilon, \quad \operatorname{otherwise} \end{cases}$

引入松弛变量 $\xi_i$ 和 $\hat \xi_i$ ，可将式重写为
$\underset{w,b,\xi_i,\hat \xi_i}{\operatorname {min}}\frac{1}{2}||\pmb w||^2+C\sum_{i=1}^m(\xi_i+\hat \xi_i)\\ s.t. \quad f(\pmb x_i)-y_i \leq \epsilon + \xi_i\\ y_i- f(\pmb x_i)\leq \epsilon + \hat \xi_i\\ \xi_i\geq0,\hat \xi_i \geq 0,i=1,2,\cdots,m.$

KKT条件
$\begin{cases} \alpha_i(f(\pmb x_i)-y_i-\epsilon -\xi_i)=0,\\ \hat \alpha_i(y_i-f(\pmb x_i)-\epsilon -\hat \xi_i)=0,\\ \alpha_i\hat \alpha_i=0,\xi_i\hat \xi_i=0\\ (C-\alpha_i)\xi_i=0,(C-\hat \alpha_i)\hat \xi_i=0. \end{cases}$

仅当样本 $(\pmb x_i,y_i)$ 不落入 $\epsilon$ -间隔带中，相应的 $\alpha_i$ 和 $\hat \alpha_i$ 才能取非零值
SVR可表示为
$f(\pmb x)=\sum_{i=1}^m(\hat \alpha_i - \alpha_i)\kappa(\pmb x, \pmb x_i) +b$
其中 $\kappa(\pmb x_i, \pmb x_j)=\phi(\pmb x_i)^T\phi(\pmb x_j)$
这节推导部分很多，省略了很多

六、核方法

“表示定理”（representer theorem）令 $\mathbb{H}$ 为核函数 $\kappa$ 对应的再生核希泊尔特空间， $h||_{H}$ 表示空间中关于h的范数，对于任意单调递增函数 $\Omega:[0,\infty)\mapsto \mathbb{R}$ 和任意非损失函数 $\ell:\mathbb{R}\mapsto[0,\infty]$ ,优化问题
$\underset{h\in \mathbb{H}}{\operatorname {min}}F(h) = \Omega(||h||_H)+\ell(h(\pmb x_1),h(\pmb x_2),\cdots,h(\pmb x_m))$
解总可以写为
$h^*(\pmb x) = \sum_{i=1}^{m}\alpha_i\kappa(\pmb x,\pmb x_i)$
基于核函数的学习方法，统称为 “核方法”（kernel methods） 最常见的，是通过“核化”（即引入核函数）来将线性学习器拓展为非线性学习器
“核线性判别分析”（Kernelized Linear Discriminant Analysis，简称KLDA）
先假设可通过某种映射 $\phi:\chi\mapsto \mathbb{F}$ 将样本映射到一个特征空间 $\mathbb{F}$ ,然后在 $\mathbb{F}$ 中执行线性判别分析，以求得
$h(\pmb x)=\pmb w^T \phi(\pmb x)$
KLDA的学习目标是
$\underset{w}{\operatorname {max}}J(\pmb w)=\frac{\pmb w^TS_b^{\phi}\pmb w}{\pmb w^TS_w^{\phi}\pmb w},$
$S_b^{\phi}$ 和 $S_w^{\phi}$ 分别为训练样本在特征空间 $\mathbb{F}$ 中的类间散度矩阵和类内散度矩阵，令 $X_i$ 表示第 $i\in\{0,1\}$ 类样本的集合，其样本数为 $m_i$ ;总样本数 $m=m_0+m_1$ .第i类样本在特征空间 $\mathbb{F}$ 中的均值为
$\pmb \mu_i^{\phi}=\frac{1}{m_i}\sum_{x \in X_i}\phi(\pmb x)$
两个散度矩阵分别为
$S_b^{\phi}=(\pmb \mu_1^{\phi}-\pmb \mu_0^{\phi})(\pmb \mu_1^{\phi}-\pmb \mu_0^{\phi})^T\\ S_w^{\phi}=\sum_{i=1}^1\sum_{s\in X_i}(\phi(\pmb x)-\pmb \mu_i^{\phi})(\phi(\pmb x)-\pmb \mu_i^{\phi})^T$
通常我们难以知道映射 $\phi的具体形式，因此$ 使用核函数 $\kappa(\pmb x,\pmb x_i)=\phi(\pmb x_i)^T\phi(\pmb x)$ 来隐式表达这个映射和特征空间 $\mathbb{F}$
由表示定理，函数 $h(\pmb x)$ 可写为
$\begin{aligned} h(\pmb x) &= \sum_{i=1}^m\alpha_i\kappa(\pmb x,\pmb x_i)\\ &=\sum_{i=1}^m\alpha_i\phi(\pmb x_i)^T\phi(\pmb x)\\ &=(\sum_{i=1}^m\alpha_i\phi(\pmb x_i))^T\phi(\pmb x) \end{aligned}$
可得
$\pmb w = \sum_{i=1}^m\alpha_i\phi(\pmb x_i)$
令 $\pmb K \in \mathbb R^{m\times m}$ 为核函数 $\kappa$ 所对应的核矩阵， $(\pmb K)_{ij}=\kappa(\pmb x_i,\pmb x_j)$ .令 $1_i\in\{1,0\}^{m\times 1}$ 为第i类样本的指示向量，即 $1_i$ 的第j个分量为1当且仅当 $\pmb x_j\in X_i$ ,否则 $1_i$ 的第j个分量为0.再令
$\hat \mu_0 = \frac{1}{m_0}\pmb K1_0,\\ \hat \mu_1 = \frac{1}{m_1}\pmb K1_1,\\ \pmb M = (\hat \mu_0 - \hat \mu_1)(\hat \mu_0 - \hat \mu_1)^T\\ \pmb N = \pmb K\pmb K^T - \sum_{i=0}^1m_i\hat \mu_i\hat \mu_i^T$
于是有
$\underset{\alpha}{\operatorname{max}}J(\pmb \alpha)= \frac{\pmb \alpha^T\pmb M \pmb \alpha}{\pmb \alpha^T\pmb N \pmb \alpha}$
显然，使用线性判别分析求解方法即可得到 $\pmb \alpha$ ，进而可得到投影函数 $h(\pmb x)$

总结

本节推导内容较多，省略了部分内容。