0
点赞
收藏
分享

微信扫一扫

详解逻辑回归与评分卡-梯度下降求解逻辑回归【菜菜的sklearn课堂笔记】

视频作者:菜菜TsaiTsai 链接:【技术干货】菜菜的机器学习sklearn【全85集】Python进阶_哔哩哔哩_bilibili

我们以最著名也最常用的梯度下降法为例。 现在有一个带两个特征并且没有截距的逻辑回归$y(x_{1},x_{2})$,两个特征所对应的参数分别为$[\theta_{1},\theta_{2}]$。下面这个华丽的平面就是我们的损失函数$J(\theta_{1},\theta_{2})$在以$\theta_{1},\theta_{2},J$为坐标轴的三维立体坐标系上的图像。现在,我们寻求的是损失函数的最小值,也就是图像的最低点。 ![[附件/Pasted image 20221104100117.png|300]]

那我们怎么做呢?我在这个图像上随机放一个小球,当我松手,这个小球就会顺着这个华丽的平面滚落,直到滚到深蓝色的区域——损失函数的最低点。为了严格监控这个小球的行为,我让小球每次滚动的距离有限,不让他一次性滚到最低点,并且最多只允许它滚动100步,还要记下它每次滚动的方向,直到它滚到图像上的最低点。

这里的多次滚动可以这样理解 假设从释放位置到最低点有100的路程,我们第一次只允许小球走1,到位置一;从位置一开始,第二次只允许小球走1.2,到位置二(这里1,1.2是根据数据算出来的,是否相同不一定),这样小球需要很多次才能到达最低点

可以看见,小球从高处滑落,在深蓝色的区域中来回震荡,最终停留在了图像凹陷处的某个点上。非常明显,我们可以观察到几个现象:

  • 首先,小球并不是一开始就直向着最低点去的,它先一口气冲到了蓝色区域边缘,后来又折回来,我们已经规定了小球是多次滚动,所以可见,小球每次滚动的方向都是不同的。
  • 另外,小球在进入深蓝色区域后,并没有直接找到某个点,而是在深蓝色区域中来回震荡了数次才停下。这有两种可能:小球已经滚到了图像的最低点,所以停下了;由于设定的步数限制,小球还没有找到最低点,但也只好在100步的时候停下了(前面一节的Warning中有说到迭代次数不足就是这里的步数不够)。也就是说,小球不一定滚到了图像的最低处。

但无论如何,小球停下的就是我们在现有状况下可以获得的唯一点了。如果我们够幸运,这个点就是图像的最低点,那我们只要找到这个点的对应坐标$(\theta_{1}^{},\theta_{2}^{},J_{\min })$,就可以获取能够让损失函数最小的参数取值$[\theta_{1}^{},\theta_{2}^{}]$了。如此,梯度下降的过程就已经完成。

在这个过程中,小球其实就是一组组的坐标点$(\theta_{1},\theta_{2},J)$,小球每次滚动的方向就是那一个坐标点的梯度向量的反方向。因为每滚动一步,小球所在的位置都发生变化,坐标点和坐标点对应的梯度向量都发生了变化,所以每次滚动的方向也都不一样。人为设置的100次滚动限制,就是sklearn中逻辑回归的参数max_iter,代表着能走的最大步数,即最大迭代次数

梯度下降推导

梯度:在多元函数上对各个自变量求偏导数,把求得的各个自变量的偏导数以向量的形式写出来,就是梯度。

梯度是一个向量,因此它有大小也有方向。它的大小,就是偏导数组成的向量模长,记作$d$。它的方向,几何上来说,就是损失函数$J(\theta)$的值增加最快的方向,就是小球每次滚动的方向的反方向。

根据概念,首先我们要明确,我们要求的梯度是损失函数$J(\theta_{1},\theta_{2})$的梯度,也就是$J(\theta_{1},\theta_{2})$对$\theta_{1},\theta_{2}$的偏导

核心误区:到底在哪个函数上,求什么的偏导数?

注意,在一些博客或教材中,讲解梯度向量的定义时会写一些让人容易误解的句子,比如“对多元函数的参数求偏导数,把求得的各个参数的偏导数以向量的形式写出来,就是梯度”。注意,这种解释是不太严谨的。 一个多元函数的梯度,是对其自变量求偏导的结果,不是对其参数求偏导的结果。但是在逻辑回归的数学过程中,损失函数$J(\theta)$的自变量刚好是逻辑回归的预测函数$y(x)$的参数,所以才造成了这种让人误解的。因此,求解梯度的方式,和逻辑回归本身的预测函数$y(x)$没有一丝联系。 强调:求解梯度,是在损失函数$J(\theta)$上对损失函数自身的自变量$\theta_{i}$求解偏导,而这个自变量,刚好是逻辑回归预测函数$\begin{aligned} y(x)=\frac{1}{1+e^{-\theta x}}\end{aligned}$的参数

之前我们知道,损失函数是 $$ J(\theta)=-\sum\limits_{i=1}^{n}[y_{i}\log y_{\theta}(x_{i})+(1-y_{i})\log (1-y_{\theta}(x_{i}))] $$

利用梯度下降求最小值 $$ \begin{aligned} \frac{\partial J(\theta)}{\partial \theta_{j}}&=- \sum\limits_{i=1}^{n}\left[y_{i} \cdot \frac{1}{y_{\theta}(x_{i})}\cdot \frac{\partial y_{\theta}(x_{i})}{\partial \theta_{j}}+(1-y_{i})\cdot \frac{1}{1-y_{\theta}(x_{i})}\cdot \left(- \frac{\partial y_{\theta}(x_{i})}{\partial \theta_{j}}\right)\right]\ &=-\sum\limits_{i=1}^{n}\left[y_{i} \cdot \frac{1}{y_\theta(x_{i})}-(1-y_{i})\cdot \frac{1}{1-y_{\theta}(x_{i})}\right]\cdot \frac{\partial y_{\theta}(x_{i})}{\partial \theta_{j}}\ &=-\sum\limits_{i=1}^{n}\left[y_{i} \cdot \frac{1}{y_\theta(x_{i})}-(1-y_{i})\cdot \frac{1}{1-y_{\theta}(x_{i})}\right]\cdot y_{\theta}(x_{i})(1-y_{\theta}(x_{i}))\cdot x_{ij}\ &=-\sum\limits_{i=1}^{n}[y_{i} \cdot (1-y_{\theta}(x_{i}))-(1-y_{i})\cdot y_{\theta}(x_{i})]\cdot x_{ij}\ &=-\sum\limits_{i=1}^{n}[y_{i} \cdot -y_{\theta}(x_{i})]\cdot x_{ij}\ &=\sum\limits_{i=1}^{n}[y_{\theta}(x_{i})-y_{i}]\cdot x_{ij} \end{aligned} $$ 其中 $$ \begin{aligned} \frac{\partial y_{\theta}(x_{i})}{\partial \theta_{j}}&=\left(\frac{1}{1+ e^{-\theta^{T}x_{i}}}\right)'\ &=\frac{1' \cdot (1+e^{-\theta^{T}x_{i}})-1 \cdot e^{-\theta^{T}x_{i}}\cdot (-\theta^{T}x_{i})'}{(1+e^{-\theta^{T}x_{i}})^{2}}\ &注意从这往上是x_{i},往下是x_{ij}\ &=\frac{x_{ij}e^{-\theta^{T}x_{i}}}{(1+e^{-\theta^{T}x_{i}})^{2}}\ &=\frac{1}{1+e^{-\theta^{T}x_{i}}}\cdot \frac{e^{-\theta^{T}x_{i}}}{1+e^{-\theta^{T}x_{i}}}\cdot x_{ij}\ &=y_{\theta}(x_{i})(1-y_{\theta}(x_{i}))\cdot x_{ij} \end{aligned} $$

参考链接:逻辑回归梯度下降法_matao_jack的博客-CSDN博客_逻辑回归梯度下降

对损失函数的自变量$\theta$求导,就可以得到梯度向量在第$j$组$\theta$的坐标点上的表示形式 $$ \frac{\partial J(\theta)}{\partial \theta_{j}}=\sum\limits_{i=1}^{n}[y_{\theta}(x_{i})-y_{i}]\cdot x_{ij} $$ 在这个公式下,只要给定一组取值$\theta$,其中第$j$个维度的取值为$\theta_{j}$,再代入特征矩阵$X$,就可以求得这一组$\theta$取值下的预测结果$y_{\theta}(x_{i})$,结合真实标签向量$y$,就可以获得$\theta_{j}$对应维度下的梯度向量,其大小表示为$d_{j}$ 之前说过,我们的目的是在$\theta$可能的取值上进行遍历,一次次计算梯度向量,并在梯度向量的反方向上让损失函数$J$下降至最小值。在这个过程中,我们的$\theta$和梯度向量的大小$d$都会不断改变,而我们迭代$\theta$的过程可以描述为: $$ \theta_{j}^{m+1}=\theta_{j}^{m}- \alpha \cdot d_{j}=\theta_{j}^{m}- \alpha \sum\limits_{i=1}^{n}[y_{\theta}(x_{i})-y_{i}]\cdot x_{ij} $$ 其中$\theta_{j}^{m+1}$是第$m$次迭代后的参数向量,$\theta_{j}^{m}$是$m$次迭代的参数向量,$\alpha$被称为步长,控制着每走一步(每迭代一次)后$\theta$的变化,并以此来影响迭代后的梯度向量的大小和方向,$d_{j}$是$j$维度上在该点处梯度向量的长度

步长的理解误区

核心误区:步长到底是什么?

许多博客和教材在描述步长的时候,称它是”梯度下降中每一步沿梯度的反方向前进的长度“,”沿着最陡峭最易下山的位置走的那一步的长度“或者”梯度下降中每一步损失函数减小的量“,甚至有说,步长是二维平面著名的求导三角形中的”斜边“或者“对边”的。 这些说法都是错误的!

来看下面这一张二维平面的求导三角型图。类比到我们的损失函数和梯度概念上,图中的抛物线就是我们的损失函数$J(\theta)$,$A(\theta_{a},J(\theta_{a}))$就是小球最初在的位置,$B(\theta_{b},J(\theta_{b}))$就是一次滚动后小球移动到的位置。从$A$到$B$的方向就是梯度向量的反方向,指向损失函数在$A$点下降最快的方向。而梯度向量的大小是点$A$在图像上对$\theta$求导后的结果,也是点$A$切线方向的斜率,橙色角的$\tan$结果,记作$d$。 ![[附件/Pasted image 20221104151145.png|350]]

梯度下降每走一步,损失函数减少的量,是损失函数在$\theta$变化之后的取值的变化,写作$J(\theta_{b})-J(\theta_{a})$,这是二维平面求导三角形中的对边 梯度下降每走一步,参数向量的变化,写作$\theta_{b}-\theta_{a}$,根据我们参数向量的迭代公式$\begin{aligned} \theta_{j}^{m+1}=\theta_{j}^{m}- \alpha \cdot d_{j}\end{aligned}$,也就有$\theta_{b}-\theta_{a}=\alpha \cdot d$ 梯度下降中每走一步,下降的距离,是$\sqrt{(\alpha \cdot d)^{2}+(J(\theta_{a})-J(\theta_{b}))^{2}}$,是对边和邻边的根号下平方和,是二维平面的求导三角型中的”斜边“。

所以,步长不是任何物理距离,它甚至不是梯度下降过程中任何距离的直接变化,它是梯度向量的大小 上的一个比例,影响着参数向量 每次迭代后改变的部分。

举报

相关推荐

0 条评论