0
点赞
收藏
分享

微信扫一扫

线性可分支持向量机的原理推导 9-25对拉格朗日函数L(w,b,α) 关于w求导 公式解析

公式 9-25,它表示对拉格朗日函数 L ( w , b , α ) L(w, b, \alpha)L(w,b,α) 关于 w ww 求导后的结果,并设定偏导数为 0 来找到最优解。我们来详细解释这个公式。

公式 9-25 的表达式为: ∂ L ∂ w = w ∗ − ∑ i = 1 N α i ∗ y i x i = 0 \frac{\partial L}{\partial w} = w^* - \sum_{i=1}^{N} \alpha_i^* y_i x_i = 0 ∂w ∂L =w ∗ − i=1 ∑ N α i ∗ y i x i =0

  1. 公式的含义 这个公式是支持向量机优化问题中的站点条件,用于求解最优的法向量 w ∗ w^*w ∗ 。公式中的每个符号的含义如下:

w ∗ w^w ∗ :这是优化过程中求得的最优法向量,定义了支持向量机的分类超平面。 α i ∗ \alpha_i^α i ∗ :这是优化求解得到的最优拉格朗日乘子,表示每个样本点的权重。α i ∗ ≥ 0 \alpha_i^ \geq 0α i ∗ ≥0,并且只有 α i ∗ > 0 \alpha_i^ > 0α i ∗

0 的样本点(即支持向量)才会对分类超平面有贡献。 y i y_iy i :是第 i ii 个样本的类别标签,取值为 + 1 +1+1 或 − 1 -1−1。 x i x_ix i :是第 i ii 个样本的特征向量,表示样本点在特征空间中的位置。 N NN:是样本的数量。

  1. 公式的推导 该公式源自拉格朗日函数对 w ww 的求导,并设偏导数为 0 以满足最优性条件。

拉格朗日函数 L ( w , b , α ) L(w, b, \alpha)L(w,b,α) 的定义为: L ( w , b , α ) = 1 2 ∥ w ∥ 2 − ∑ i = 1 N α i ( y i ( w T x i + b ) − 1 ) L(w, b, \alpha) = \frac{1}{2} \|w\|^2 - \sum_{i=1}^{N} \alpha_i \left( y_i (w^T x_i + b) - 1 \right) L(w,b,α)= 2 1 ∥w∥ 2 − i=1 ∑ N α i (y i (w T x i +b)−1)

第一步:对 w ww 求导 为了找到最优法向量 w ww,我们对拉格朗日函数 L ( w , b , α ) L(w, b, \alpha)L(w,b,α) 关于 w ww 求导:

第一项 1 2 ∥ w ∥ 2 \frac{1}{2} \|w\|^2 2 1 ∥w∥ 2 :这是关于 w ww 的二次项,其偏导数为: ∂ ∂ w ( 1 2 ∥ w ∥ 2 ) = w \frac{\partial}{\partial w} \left( \frac{1}{2} \|w\|^2 \right) = w ∂w ∂ ( 2 1 ∥w∥ 2 )=w

第二项 ∑ i = 1 N α i y i ( w T x i + b ) \sum_{i=1}^{N} \alpha_i y_i (w^T x_i + b)∑ i=1 N α i y i (w T x i +b) 中,只有 w T x i w^T x_iw T x i 与 w ww 有关,其偏导数为: ∂ ∂ w ( ∑ i = 1 N α i y i w T x i ) = ∑ i = 1 N α i y i x i \frac{\partial}{\partial w} \left( \sum_{i=1}^{N} \alpha_i y_i w^T x_i \right) = \sum_{i=1}^{N} \alpha_i y_i x_i ∂w ∂ ( i=1 ∑ N α i y i w T x i )= i=1 ∑ N α i y i x i

第二步:设置偏导数为 0 我们将这两个偏导数结合,并设置偏导数为 0: w − ∑ i = 1 N α i y i x i = 0 w - \sum_{i=1}^{N} \alpha_i y_i x_i = 0 w− i=1 ∑ N α i y i x i =0

从而得到最优法向量 w ∗ w^w ∗ 的表达式: w ∗ = ∑ i = 1 N α i ∗ y i x i w^ = \sum_{i=1}^{N} \alpha_i^* y_i x_i w ∗ = i=1 ∑ N α i ∗ y i x i

这个公式表示最优法向量 w ∗ w^*w ∗ 是所有样本点的线性组合,每个样本点 x i x_ix i 的权重由拉格朗日乘子 α i ∗ \alpha_i^*α i ∗ 和类别标签 y i y_iy i 确定。

  1. 几何意义 这个公式告诉我们,支持向量机的分类超平面法向量 w ∗ w^*w ∗ 是由一组样本点的线性组合构成的。并且:

只有那些 α i ∗ > 0 \alpha_i^* > 0α i ∗

0 的样本点(即支持向量)对分类超平面的构造起到作用。 其他 α i ∗ = 0 \alpha_i^* = 0α i ∗ =0 的样本点不会影响分类超平面的定义。

  1. 公式的物理意义 支持向量的作用:根据这个公式,只有那些处于分类边界附近的支持向量(即 α i ∗ > 0 \alpha_i^* > 0α i ∗

0)才会对分类器的超平面产生影响,而那些远离分类边界的样本点则不会影响 w ∗ w^*w ∗ 的计算。

法向量的确定:法向量 w ∗ w^*w ∗ 是所有支持向量的加权和,它决定了分类器的方向和位置。

  1. 总结 公式 9-25 是支持向量机中的核心公式之一,它表明最优法向量 w ∗ w^*w ∗ 是由支持向量的线性组合构成的。通过优化拉格朗日乘子 α i \alpha_iα i ,我们可以确定哪些样本点是支持向量,并构造出分类超平面的最优法向量。
举报

相关推荐

0 条评论