【Linux】Linux环境基础开发工具使用之软件包管理（yum）与 Linux编辑器（vim）-CFANZ编程社区

【Linux】Linux环境基础开发工具使用之软件包管理（yum）与 Linux编辑器（vim）

炽凤亮尧

阅读 30

2024-08-11

引言

文章目录

引言
一、神经网络通过梯度下降学习的步骤
二、前向传播

在这里插入图片描述

一、神经网络通过梯度下降学习的步骤

1.1 初始化网络参数

随机初始化权重 $W$ 和偏置 $b$
这些参数将随着训练过程的进行而更新

1.2 前向传播（Forward Propagation）

对于每个训练样本 $x$ 和其对应的标签 $y$ ：
- 输入层：将输入 $x$ 传递到网络的第一层。
- 隐藏层：
  - 计算加权输入： $z^{[l]} = W^{[l]}a^{[l-1]} + b^{[l]}$ ，其中 $l$ 表示层数， $a^{[l-1]}$ 是前一层激活输出。
  - 应用激活函数： $a^{[l]} = \sigma(z^{[l]})$ ，其中 $\sigma$ 是激活函数，如ReLU、Sigmoid或Tanh
- 输出层：
  - 计算加权输入和激活输出，对于分类问题，通常使用Softmax函数计算最终输出

1.3 计算损失（Loss）

使用损失函数计算预测输出 $\hat{y}$ 和实际标签 $y$ 之间的差异。
常见的损失函数包括：
- 对于回归问题：均方误差（MSE） $\hat{y}) = \frac{1}{2m}\sum_{i=1}^{m}(y^{(i)} - \hat{y}^{(i)})^2$
- 对于分类问题：交叉熵损失 $\hat{y}) = -\frac{1}{m}\sum_{i=1}^{m}y^{(i)}\log(\hat{y}^{(i)})$

1.4 反向传播（Back Propagation）

计算损失函数关于输出层激活的梯度。
逆向遍历网络，计算每一层的梯度：
- 对于输出层：
  - $KaTeX parse error: Can't use function '\)' in math mode at position 58: …igma'(z^{[L]}) \̲)̲，其中 \( \nabla_{…$ 是损失函数关于 $a^{[L]}$ 的梯度， $\sigma'$ 是激活函数的导数。
- 对于隐藏层：
  - $\delta^{[l]} = ((W^{[l+1]})^T \delta^{[l+1]}) \cdot \sigma'(z^{[l]})$
- 计算损失函数关于参数的梯度：
  - $\frac{\partial L}{\partial W^{[l]}} = \frac{1}{m} \delta^{[l]} (a^{[l-1]})^T$
  - $\frac{\partial L}{\partial b^{[l]}} = \frac{1}{m} \sum_{i=1}^{m} \delta^{[l] (i)}$

1.5 参数更新

使用梯度下降更新权重和偏置：
- $W^{[l]} = W^{[l]} - \alpha \frac{\partial L}{\partial W^{[l]}}$
$b^{[l]} = b^{[l]} - \alpha \frac{\partial L}{\partial b^{[l]}}$
其中， $\alpha$ 是学习率

1.6 迭代

重复步骤2到5，直到满足停止条件，如达到预定的迭代次数、损失低于某个阈值或验证集上的性能不再提升

1.7 详细说明反向传播中的梯度计算

输出层梯度：对于不同的损失函数，计算方式不同。例如，对于交叉熵损失， $\delta^{[L]} = \hat{y} - y$
隐藏层梯度：通过链式法则，将输出层的梯度传递回前一层，计算每一层的梯度
参数梯度：最终计算得到的梯度用于更新权重和偏置

1.8 总结

通过这个过程，神经网络能够通过不断调整参数来学习数据中的模式，并减少预测误差

二、前向传播

2.1 输入层

输入数据：网络接收输入数据 $X$ ，它是一个维度为 $[n, d]$ 的矩阵，其中 $n$ 是样本数量， $d$ 是每个样本的特征数量

2.2 第一层（隐藏层或输入层）

加权输入：计算每个神经元的加权输入 $KaTeX parse error: Can't use function '\)' in math mode at position 9: Z^{[1]} \̲)̲。这通过将输入 \( X \)…$ 相乘，并加上偏置向量 $b^{[1]}$ 来完成。
$Z^{[1]} = W^{[1]}X + b^{[1]}$
激活函数：将加权输入 $Z^{[1]}$ 通过激活函数 $\sigma$ 来获得该层的激活输出 $A^{[1]}$
$A^{[1]} = \sigma(Z^{[1]})$
常用的激活函数包括ReLU、Sigmoid、Tanh等

2.3 后续隐藏层

对于网络的每一个隐藏层 $l (l = 2, 3, ..., L - 1 ）$ ，其中 $L$ 是网络的总层数：
- 加权输入：计算每个神经元的加权输入 $Z^{[l]}$ ，这是通过将前一层的激活输出 $A^{[l-1]}$ 与权重矩阵 $W^{[l]}$ 相乘，并加上偏置向量 $b^{[l]}$ 来完成的。
  $Z^{[l]} = W^{[l]}A^{[l-1]} + b^{[l]}$
- 激活函数：将加权输入 $Z^{[l]}$ 通过激活函数 $\sigma$ 来获得该层的激活输出 $A^{[l]}$
  $A^{[l]} = \sigma(Z^{[l]})$

2.4 输出层

对于网络的输出层 $L$ ：
- 加权输入：计算每个神经元的加权输入 $Z^{[L]}$ ，这是通过将最后一层的激活输出 $A^{[L-1]}$ 与权重矩阵 $W^{[L]}$ 相乘，并加上偏置向量 $b^{[L]}$ 来完成的。
  $Z^{[L]} = W^{[L]}A^{[L-1]} + b^{[L]}$
- 激活函数：根据问题的性质，选择合适的激活函数。对于分类问题，通常使用Softmax函数来获得概率分布输出 $\hat{Y}$
  $\hat{Y} = \text{softmax}(Z^{[L]})$
  其中，Softmax函数将 $Z^{[L]}$ 转换为概率分布，使得每个输出 $\hat{y}^{[i]}$ 都在0和1之间，并且所有输出之和为1

2.5 总结

前向传播的整个过程可以总结为以下步骤：

对于每个层 $l$ ，计算加权输入 $Z^{[l]}$
应用激活函数 $\sigma$ 来获得激活输出 $A^{[l]}$
重复步骤1和2，直到到达输出层
在输出层应用适当的激活函数（如Softmax）以获得最终输出。

相关推荐
老罗话编程
 Linux：软件包管理器 yum和编辑器-vim使用
老罗话编程 26 0 0
b91bff6ffdb5
 Linux 基础开发工具 ： Vim编辑器
b91bff6ffdb5 24 0 0
林塬
 【Linux取经之路】软件包管理器yum&编辑器vim及其配置
林塬 22 0 0
小磊z
 Linux开发工具之编辑器vim
小磊z 56 0 0
谁知我新
 Linux开发工具之编辑器-vim
谁知我新 57 0 0
影子喵喵喵
 Linux：软件包管理器 yum
影子喵喵喵 29 0 0
程序员漫画编程
 linux环境基础开发工具1(vim 、 yum)
程序员漫画编程 19 0 0
_阿瑶
 【Linux】 yum —— Linux 的软件包管理器
_阿瑶 16 0 0
gy2006_sw
 【Linux操作系统】:Linux开发工具编辑器vim
gy2006_sw 16 0 0
幸甚至哉歌以咏志
 linux软件包管理和使用 yum
幸甚至哉歌以咏志 74 0 0

精彩评论（0）