从BERT到GPT: 大语言模型的技术演进之路-CFANZ编程社区

还记得2017年Transformer架构刚提出时,整个AI界都为之振奋。当时很多研究者都在探索如何突破RNN和LSTM的限制,但没人能想到Transformer不仅解决了长序列建模的问题,还开启了预训练语言模型的新纪元。今天,就让我们通过这篇综述,深入探讨大语言模型背后的核心技术细节。

大语言模型的核心架构设计

在深入技术细节之前,我们先来看看大语言模型的基础架构。目前主流的架构分为三类:Encoder-only、Decoder-only和Encoder-decoder。

BERT采用的是Encoder-only架构,它通过双向attention机制来理解输入文本。举个例子,当我们输入"我很喜欢这个[MASK]"时,BERT会同时考虑前后文的语义信息来预测被mask的词。这种双向注意力机制让BERT在各种理解类任务上表现出色,比如文本分类、命名实体识别等。但BERT的局限也很明显 - 它不具备自然的生成能力。

GPT系列采用的是Decoder-only架构,它使用单向的自回归方式生成文本。比如当输入"写一首关于春天的诗",GPT会基于已生成的内容,一个词一个词地往下写。这种自回归的生成方式虽然看起来简单,但却能产生连贯且符合语境的文本。更有趣的是,这种架构还表现出了意想不到的few-shot学习能力。

T5这样的Encoder-decoder架构则试图融合两者的优势。编码器负责理解输入,解码器负责生成输出。这种设计在机器翻译等任务上特别有效。比如将"我爱你"翻译成英语,编码器会先理解中文的语义,然后解码器基于这个理解生成"I love you"。

混合专家模型: 分而治之的智慧

说到架构创新,就不得不提混合专家模型(MoE)。它的核心思想是"专家分工",通过多个专家网络分别处理不同类型的任务。

我们可以用一个具体的例子来理解MoE。想象你是一个翻译公司的经理,手下有不同专业领域的翻译专家。当收到一篇医学论文时,你会把任务分配给医学专业的翻译;收到一部小说时,则会交给文学翻译。MoE就是这样工作的 - 它有一个门控网络(相当于经理)来决定调用哪些专家网络处理输入。

在实践中,MoE显著提升了模型效率。Switch Transformer的实验数据显示,在相同计算资源下,MoE架构可以让训练速度提升4-7倍。这是因为虽然总参数量增加了,但每次前向计算只会激活一小部分专家网络。

大模型训练的并行策略

训练大语言模型面临的最大挑战之一是计算资源。为了解决这个问题,研究者们提出了三种互补的并行策略。

数据并行是最基础的方案,它将一个batch的数据分配到不同GPU上。比如有一个batch包含32个样本,使用8个GPU,每个GPU处理4个样本,然后汇总梯度。这种方法简单有效,但当模型太大无法装入单个GPU时就不够用了。

这时就需要张量并行。它的思路是将模型的参数矩阵切分到不同GPU上。以一个1000×1000的权重矩阵为例,可以将它横向切分成两个1000×500的矩阵,分别放在两个GPU上。Megatron-LM就采用了这种策略,专门针对Transformer的注意力层和前馈层进行优化切分。

流水线并行则更进一步,将模型的不同层分配到不同GPU上,像流水线一样串行处理。这种方法虽然会增加一定延迟,但能大大提高GPU利用率。DeepSpeed就实现了这三种并行策略的灵活组合。

预训练任务的艺术

预训练是大语言模型获取知识的关键阶段。不同的预训练任务会引导模型学习不同类型的知识。

最基础的是语言建模任务。给定前文"小明去商店买",模型需要预测下一个可能的词。这个看似简单的任务其实需要模型理解语言规律和世界知识。比如模型需要知道"买"后面通常接物品名词,而且要符合常识(预测"西瓜"比"CPU"更合理)。

去噪自编码任务则更有挑战性。它会随机mask掉一些词,要求模型恢复。比如"小明[MASK]商店买[MASK]",模型需要同时考虑前后文来填空。这种任务训练模型建立更深层的语义理解。

UL2提出的混合降噪策略更是巧妙地结合了这两种任务。它将不同长度的span mask和语言建模视为不同类型的降噪任务,通过在训练中动态切换来获得更全面的语言理解能力。

模型的涌现能力

一个令人着迷的现象是大语言模型的涌现能力。当模型规模达到一定程度时,会突然展现出一些意想不到的能力。这就像人类婴儿的语言发展 - 在积累到一定词汇量后,突然就能造句子了。

以Chain-of-Thought(思维链)能力为例。较小的模型在解决数学问题时往往直接给出(错误的)答案。但当模型达到60B参数量后,它开始展现出清晰的推理过程。比如解决"小明买了3个苹果,每个2元,又买了2个梨,每个3元,一共花了多少钱?"这样的题目时,模型会先计算苹果的总价(3×2=6元),再计算梨的总价(2×3=6元),最后求和(6+6=12元)。这种一步步的推理过程与人类解题思路高度一致。

实验数据显示,这种涌现能力在不同任务上的出现时机不同。比如instruction following(指令跟随)能力在模型规模达到68B时显著提升,而zero-shot推理能力则需要更大的模型规模。

参数高效微调技术

随着模型规模增大,全参数微调变得越来越不现实。这催生了一系列参数高效微调技术。

LoRA是其中最优雅的方案之一。它不直接更新原始权重矩阵,而是在旁边增加一个降维再升维的通路。具体来说,如果原始权重是1000×1000维,LoRA可能用两个1000×8的矩阵来表示更新。这种方法虽然参数量很小,但效果接近全参数微调。

实验显示,在GLUE基准测试上,使用0.1%的训练参数量,LoRA就能达到全参数微调95%以上的性能。这大大降低了模型适配下游任务的成本。

KANs: 一个新的网络架构范式

在探索更高效的网络架构方面,KANs提供了一个全新的思路。传统的神经网络在神经元上应用激活函数,而KANs将激活函数应用于权重。这个看似简单的改变带来了惊人的效果。

在数学定理证明任务上,KANs用200个参数就达到了传统MLP用30万参数才能达到的效果。更重要的是,KANs的推理过程更容易理解和解释。例如在函数拟合任务中,KANs能清晰地展示出它是如何组合基本函数来逼近目标函数的。

此外,KANs还表现出了优秀的扩展性。实验显示,当参数量增加时,KANs的性能提升速度远超传统MLP。这启发我们思考:是否存在比Transformer更适合大规模语言模型的架构?

通过这篇综述,我们可以看到大语言模型领域的技术创新是如此丰富多彩。从架构设计到训练策略,从优化技术到新型网络,每一项创新都在推动着这个领域向前发展。特别是在提升模型推理能力、探索新型架构、优化训练策略等方向上,还有很多值得探索的空间。

当然,这些技术进展也给我们带来了新的思考:如何平衡模型性能和计算效率?如何设计更好的预训练任务?如何激发模型的潜在能力?这些都是值得我们深入研究的方向。