05Dockerfile-CFANZ编程社区

梯度下降的基本概念

梯度下降（Gradient Descent）是一种用于优化机器学习模型参数的算法，其目的是最小化损失函数，从而提高模型的预测精度。梯度下降的核心思想是通过迭代地调整参数，沿着损失函数下降的方向前进，最终找到最优解。

生活中的背景例子：寻找山谷的最低点

想象你站在一个山谷中，眼睛被蒙住，只能用脚感受地面的坡度来找到山谷的最低点（即损失函数的最小值）。你每一步都想朝着坡度下降最快的方向走，直到你感觉不到坡度，也就是你到了最低点。这就好比在优化一个模型时，通过不断调整参数，使得模型的预测误差（损失函数）越来越小，最终找到最佳参数组合。

梯度下降的具体方法及其优化

1. 批量梯度下降（Batch Gradient Descent）

生活中的例子：
你决定每次移动之前，都要先测量整个山谷的坡度，然后再决定移动的方向和步幅。虽然每一步的方向和步幅都很准确，但每次都要花很多时间来测量整个山谷的坡度。

公式：
$\theta := \theta - \eta \cdot \nabla_{\theta} J(\theta)$
其中：

$\theta$ 是模型参数
$\eta$ 是学习率
$\nabla_{\theta} J(\theta)$ 是损失函数 $J(\theta)$ 关于 $\theta$ 的梯度

API：
TensorFlow：

optimizer = tf.keras.optimizers.SGD(learning_rate=0.01)

PyTorch：

optimizer = torch.optim.SGD(model.parameters(), lr=0.01)

批量梯度下降过程图像python代码

import numpy as np
import matplotlib.pyplot as plt

# 损失函数: y = x^2
def loss(x):
    return x ** 2

# 损失函数的梯度: dy/dx = 2x
def gradient(x):
    return 2 * x

# 批量梯度下降
def batch_gradient_descent(start, learning_rate, iterations):
    x = start
    path = [x]
    for i in range(iterations):
        grad = gradient(x)
        x = x - learning_rate * grad
        path.append(x)
    return path

# 参数
start = 10
learning_rate = 0.1
iterations = 20

# 运行梯度下降
path = batch_gradient_descent(start, learning_rate, iterations)

# 绘制图像
x = np.linspace(-10, 10, 100)
y = loss(x)
plt.plot(x, y, label='Loss Function')
plt.scatter(path, [loss(p) for p in path], color='red', label='Batch Gradient Descent Path')
plt.xlabel('x')
plt.ylabel('Loss')
plt.legend()
plt.title('Batch Gradient Descent')
plt.show()

在这里插入图片描述

从图像可知，批量梯度下降每次使用整个训练集计算梯度并更新参数，适用于小规模数据集，收敛稳定，但计算开销大。

2. 随机梯度下降（Stochastic Gradient Descent, SGD）

生活中的例子：
你决定每一步都只根据当前所在位置的坡度来移动。虽然这样可以快速决定下一步怎么走，但由于只考虑当前点，可能会导致路径不稳定，有时候会走过头。

公式：
$\theta := \theta - \eta \cdot \nabla_{\theta} J(\theta; x^{(i)}, y^{(i)})$
其中 $x^{(i)}, y^{(i)})$ 是当前样本的数据

API：
TensorFlow 和 PyTorch 中的API与批量梯度下降相同，具体行为取决于数据的加载方式。例如在训练时可以一批数据包含一个样本。

随机梯度下降过程图像python代码

import numpy as np
import matplotlib.pyplot as plt

# 损失函数: y = x^2
def loss(x):
    return x ** 2

# 损失函数的梯度: dy/dx = 2x
def gradient(x):
    return 2 * x

# 随机梯度下降
def stochastic_gradient_descent(start, learning_rate, iterations):
    x = start
    path = [x]
    for i in range(iterations):
        grad = gradient(x)
        x = x - learning_rate * grad * np.random.uniform(0.5, 1.5)  # 模拟随机样本的影响
        path.append(x)
    return path

# 参数
start = 10
learning_rate = 0.1
iterations = 20

# 运行梯度下降
path = stochastic_gradient_descent(start, learning_rate, iterations)

# 绘制图像
x = np.linspace(-10, 10, 100)
y = loss(x)
plt.plot(x, y, label='Loss Function')
plt.scatter(path, [loss(p) for p in path], color='red', label='SGD Path')
plt.xlabel('x')
plt.ylabel('Loss')
plt.legend()
plt.title('Stochastic Gradient Descent')
plt.show()

随机梯度下降每次使用一个样本计算梯度并更新参数，计算效率高，适用于大规模数据集，但收敛不稳定，容易出现抖动。

3. 小批量梯度下降（Mini-Batch Gradient Descent）

生活中的例子：
你决定每次移动之前，只测量周围一小部分区域的坡度，然后根据这小部分区域的平均坡度来决定方向和步幅。这样既不需要花太多时间测量整个山谷，也不会因为只看一个点而导致路径不稳定。

公式：
$\theta := \theta - \eta \cdot \nabla_{\theta} J(\theta; \mathcal{B})$
其中 $\mathcal{B}$ 是当前小批量的数据

API：
TensorFlow 和 PyTorch 中的API与批量梯度下降相同，但在数据加载时使用小批量。

小批量梯度下降过程图像python代码

import numpy as np
import matplotlib.pyplot as plt

# 损失函数: y = x^2
def loss(x):
    return x ** 2

# 损失函数的梯度: dy/dx = 2x
def gradient(x):
    return 2 * x

# 小批量梯度下降
def mini_batch_gradient_descent(start, learning_rate, iterations, batch_size=5):
    x = start
    path = [x]
    for i in range(iterations):
        grad = gradient(x)
        x = x - learning_rate * grad * np.random.uniform(0.8, 1.2)  # 模拟小批量样本的影响
        path.append(x)
    return path

# 参数
start = 10
learning_rate = 0.1
iterations = 20

# 运行梯度下降
path = mini_batch_gradient_descent(start, learning_rate, iterations)

# 绘制图像
x = np.linspace(-10, 10, 100)
y = loss(x)
plt.plot(x, y, label='Loss Function')
plt.scatter(path, [loss(p) for p in path], color='red', label='Mini-Batch Gradient Descent Path')
plt.xlabel('x')
plt.ylabel('Loss')
plt.legend()
plt.title('Mini-Batch Gradient Descent')
plt.show()

在这里插入图片描述

小批量梯度下降每次使用一个小批量样本计算梯度并更新参数，平衡了计算效率和稳定性。

4. 动量法（Momentum）

生活中的例子：
你在移动时，不仅考虑当前的坡度，还考虑之前几步的移动方向，就像带着惯性一样。如果前几步一直往一个方向走，那么你会倾向于继续往这个方向走，减少来回震荡。

公式：
$\beta v + (1 - \beta) \nabla_{\theta} J(\theta)$
$\theta := \theta - \eta v$
其中：

$v$ 是动量项
$\beta$ 是动量系数（通常接近1，如0.9）

API：
TensorFlow：

optimizer = tf.keras.optimizers.SGD(learning_rate=0.01, momentum=0.9)

PyTorch：

optimizer = torch.optim.SGD(model.parameters(), lr=0.01, momentum=0.9)

动量法图像python代码

import numpy as np
import matplotlib.pyplot as plt

# 损失函数: y = x^2
def loss(x):
    return x ** 2

# 损失函数的梯度: dy/dx = 2x
def gradient(x):
    return 2 * x

# 动量法
def momentum_gradient_descent(start, learning_rate, iterations, beta=0.9):
    x = start
    v = 0
    path = [x]
    for i in range(iterations):
        grad = gradient(x)
        v = beta * v + (1 - beta) * grad
        x = x - learning_rate * v
        path.append(x)
    return path

# 参数
start = 10
learning_rate = 0.1
iterations = 20

# 运行梯度下降
path = momentum_gradient_descent(start, learning_rate, iterations)

# 绘制图像
x = np.linspace(-10, 10, 100)
y = loss(x)
plt.plot(x, y, label='Loss Function')
plt.scatter(path, [loss(p) for p in path], color='red', label='Momentum Path')
plt.xlabel('x')
plt.ylabel('Loss')
plt.legend()
plt.title('Momentum Gradient Descent')
plt.show()

在这里插入图片描述

动量法通过引入动量项加速收敛并减少震荡，适用于深度神经网络训练。

5. RMSProp

生活中的例子：
你在移动时，会根据最近一段时间内每一步的坡度情况，动态调整步幅。比如，当坡度变化剧烈时，你会迈小步，当坡度变化平缓时，你会迈大步。

公式：
$\beta s + (1 - \beta) (\nabla_{\theta} J(\theta))^2$
$\theta := \theta - \frac{\eta}{\sqrt{s + \epsilon}} \nabla_{\theta} J(\theta)$
其中：

$s$ 是梯度平方的加权平均值
$\epsilon$ 是一个小常数，防止除零错误

API：
TensorFlow：

optimizer = tf.keras.optimizers.RMSprop(learning_rate=0.001)

PyTorch：

optimizer = torch.optim.RMSprop(model.parameters(), lr=0.001)

RMSProp图像python代码

import numpy as np
import matplotlib.pyplot as plt

# 损失函数: y = x^2
def loss(x):
    return x ** 2

# 损失函数的梯度: dy/dx = 2x
def gradient(x):
    return 2 * x

# RMSProp
def rmsprop_gradient_descent(start, learning_rate, iterations, beta=0.9, epsilon=1e-8):
    x = start
    s = 0
    path = [x]
    for i in range(iterations):
        grad = gradient(x)
        s = beta * s + (1 - beta) * grad**2
        x = x - learning_rate * grad / (np.sqrt(s) + epsilon)
        path.append(x)
    return path

# 参数
start = 10
learning_rate = 0.1
iterations = 20

# 运行梯度下降
path = rmsprop_gradient_descent(start, learning_rate, iterations)

# 绘制图像
x = np.linspace(-10, 10, 100)
y = loss(x)
plt.plot(x, y, label='Loss Function')
plt.scatter(path, [loss(p) for p in path], color='red', label='RMSProp Path')
plt.xlabel('x')
plt.ylabel('Loss')
plt.legend()
plt.title('RMSProp Gradient Descent')
plt.show()

在这里插入图片描述

RMSProp动态调整学习率，通过对梯度平方的加权平均值进行调整，适用于处理非平稳目标。

6. Adam（Adaptive Moment Estimation）

生活中的例子：
你在移动时，结合动量法和RMSProp的优点，不仅考虑之前的移动方向（动量），还根据最近一段时间内的坡度变化情况（调整步幅），从而使移动更加平稳和高效。

公式：
$\beta_1 m + (1 - \beta_1) \nabla_{\theta} J(\theta)$
$\beta_2 v + (1 - \beta_2) (\nabla_{\theta} J(\theta))^2$
$\hat{m} := \frac{m}{1 - \beta_1^t}$
$\hat{v} := \frac{v}{1 - \beta_2^t}$
$\theta := \theta - \eta \frac{\hat{m}}{\sqrt{\hat{v}} + \epsilon}$
其中：

$m$ 和 $v$ 分别是梯度的一阶和二阶动量
$\beta_1$ 和 $\beta_2$ 是动量系数（通常分别取0.9和0.999）
$\hat{m}$ 和 $\hat{v}$ 是偏差校正后的动量项
$t$ 是时间步

API：
TensorFlow：

optimizer = tf.keras.optimizers.Adam(learning_rate=0.001)

PyTorch：

optimizer = torch.optim.Adam(model.parameters(), lr=0.001)

Adam图像python代码

import numpy as np
import matplotlib.pyplot as plt

# 损失函数: y = x^2
def loss(x):
    return x ** 2

# 损失函数的梯度: dy/dx = 2x
def gradient(x):
    return 2 * x

# Adam
def adam_gradient_descent(start, learning_rate, iterations, beta1=0.9, beta2=0.999, epsilon=1e-8):
    x = start
    m = 0
    v = 0
    path = [x]
    for t in range(1, iterations + 1):
        grad = gradient(x)
        m = beta1 * m + (1 - beta1) * grad
        v = beta2 * v + (1 - beta2) * grad**2
        m_hat = m / (1 - beta1**t)
        v_hat = v / (1 - beta2**t)
        x = x - learning_rate * m_hat / (np.sqrt(v_hat) + epsilon)
        path.append(x)
    return path

# 参数
start = 10
learning_rate = 0.1
iterations = 20

# 运行梯度下降
path = adam_gradient_descent(start, learning_rate, iterations)

# 绘制图像
x = np.linspace(-10, 10, 100)
y = loss(x)
plt.plot(x, y, label='Loss Function')
plt.scatter(path, [loss(p) for p in path], color='red', label='Adam Path')
plt.xlabel('x')
plt.ylabel('Loss')
plt.legend()
plt.title('Adam Gradient Descent')
plt.show()

在这里插入图片描述

Adam结合动量法和RMSProp的优点，自适应调整学习率，适用于各种优化问题。

综合应用示例

假设我们在使用TensorFlow和PyTorch训练一个简单的神经网络，以下是如何应用这些优化方法的示例代码。

TensorFlow 示例：

import tensorflow as tf

# 定义模型
model = tf.keras.Sequential([
    tf.keras.layers.Dense(128, activation='relu', input_shape=(784,)),
    tf.keras.layers.Dense(10, activation='softmax')
])

# 编译模型并选择优化器
optimizer = tf.keras.optimizers.Adam(learning_rate=0.001)
model.compile(optimizer=optimizer, loss='sparse_categorical_crossentropy', metrics=['accuracy'])

# 准备数据
(x_train, y_train), (x_test, y_test) = tf.keras.datasets.mnist.load_data()
x_train, x_test = x_train / 255.0, x_test / 255.0

# 训练模型
model.fit(x_train, y_train, epochs=10, batch_size=32)

PyTorch 示例：

import torch
import torch.nn as nn
import torch.optim as optim
from torchvision import datasets, transforms
from torch.utils.data import DataLoader

# 定义模型
class SimpleNN(nn.Module):
    def __init__(self):
        super(SimpleNN, self).__init__()
        self.fc1 = nn.Linear(784, 128)
        self.fc2 = nn.Linear(128, 10)

    def forward(self, x):
        x = torch.relu(self.fc1(x))
        x = self.fc2(x)
        return x

model = SimpleNN()

# 选择优化器
optimizer = torch.optim.Adam(model.parameters(), lr=0.001)
criterion = nn.CrossEntropyLoss()

# 准备数据
transform = transforms.Compose([transforms.ToTensor(), transforms.Normalize((0.5,), (0.5,))])
train_dataset = datasets.MNIST(root='./data', train=True, transform=transform, download=True)
train_loader = DataLoader(train_dataset, batch_size=32, shuffle=True)

# 训练模型
for epoch in range(10):
    for batch in train_loader:
        x_train, y_train = batch
        x_train = x_train.view(x_train.size(0), -1)  # Flatten the images

        optimizer.zero_grad()
        outputs = model(x_train)
        loss = criterion(outputs, y_train)
        loss.backward()
        optimizer.step()

综合对比

优化方法	优点	缺点	可能出现的问题	适用场景
批量梯度下降（Batch GD）	收敛稳定，适用于小规模数据集	每次迭代计算开销大，速度慢	难以处理大规模数据，容易陷入局部最优	小规模数据集，适合精确收敛
随机梯度下降（SGD）	计算效率高，适用于大规模数据集	路径不稳定，波动较大	收敛路径抖动大，不稳定	大规模数据集，在线学习，快速迭代
小批量梯度下降（Mini-Batch GD）	平衡了计算效率和收敛稳定性	需要选择合适的小批量大小，计算量仍然较大	小批量大小选择不当可能影响收敛效果	大规模数据集，适合批量计算
动量法（Momentum）	加速收敛，减少震荡	需要调整动量系数，增加了参数选择的复杂性	动量系数选择不当可能导致过冲	深度神经网络训练，加速收敛
RMSProp	动态调整学习率，适应非平稳目标	需要调整参数β和ε，参数选择复杂	参数选择不当可能影响收敛效果	非平稳目标，复杂优化问题
Adam	结合动量法和RMSProp优点，自适应调整学习率，收敛快	需要调整多个参数，计算复杂性高	参数选择不当可能影响收敛效果	各种优化问题，特别是深度学习模型训练

梯度下降的基本概念

梯度下降的具体方法及其优化

1. 批量梯度下降（Batch Gradient Descent）

2. 随机梯度下降（Stochastic Gradient Descent, SGD）

3. 小批量梯度下降（Mini-Batch Gradient Descent）

4. 动量法（Momentum）

5. RMSProp

6. Adam（Adaptive Moment Estimation）

综合应用示例

综合对比

更多问题咨询

CosAI