一、Transformer的编码器和解码器分别负责什么?
- 编码器:负责将输入序列(如句子)转换为富含上下文信息的向量表示。每个编码器层通过自注意力机制捕捉词与词之间的关系。
- 解码器:基于编码器的输出,逐步生成目标序列(如翻译结果)。解码器比编码器多一个“交叉注意力”层,用于关注编码器的输出,确保生成内容与输入相关。
二、自注意力机制如何工作?
- 计算QKV矩阵:每个词生成查询(Query)、键(Key)、值(Value)三个向量。
- 注意力分数:通过Q与所有K的点积,得到词与词之间的相关性分数。
- 缩放与归一化:分数除以√d_k(d_k是向量维度)防止梯度爆炸,再通过Softmax归一化为权重。
- 加权求和:用权重对V向量加权求和,得到当前词的注意力输出。
例子:句子中“它”指代哪个名词?自注意力会让“它”与上下文中的名词(如“猫”)关联,赋予更高权重。
三、Transformer与传统RNN有何不同?
特性 | Transformer | RNN |
并行处理 | 全序列并行计算(自注意力) | 必须按时间步顺序处理 |
长距离依赖 | 直接捕捉任意距离关系 | 随着距离增加,信息易丢失 |
结构复杂度 | 参数更多,计算资源需求高 | 结构简单,计算量小 |
典型应用 | BERT、GPT等大规模模型 | 早期文本生成、时间序列 |
四、BERT为什么更适合理解类任务?
- 双向上下文:BERT通过掩码语言模型(MLM)同时学习左右上下文,例如填空“巴黎是[MASK]的首都”时,能综合前后信息判断应填“法国”。
- 预训练任务:除了MLM,BERT还通过下一句预测(NSP)理解句子间关系,适合问答、文本分类等任务。
五、GPT如何生成内容?
- 自回归生成:逐词预测,每一步将已生成的文本作为新输入(如输入“我爱”,预测下一个词“你”)。
- 温度控制:通过温度参数调节随机性,高温(>1)结果更多样,低温(<1)更保守。
- 采样策略:Top-k采样(从概率最高的k个词选)或核采样(按累积概率阈值选),避免重复和无关输出。
六、Sora模型在视频生成方面的突破
- 时空注意力:将视频帧分割为时空块(Space-Time Patches),通过Transformer建模时间和空间的关系。
- 长程连贯性:相比CNN的局部性,Transformer能捕捉远距离帧之间的关联(如开头和结尾的动作一致性)。
- 多模态输入:支持文本、图像甚至音频联合生成视频,例如输入“海浪拍打沙滩”生成对应画面与声音。
七、Transformer为什么能处理多模态数据?
- 结构通用性:任何数据(文本、图像、音频)均可转换为序列(如将图片分块为像素序列)。
- 统一表示:通过嵌入层(Embedding)将不同模态映射到同一向量空间,例如CLIP模型对齐图文特征。
- 跨模态注意力:允许不同模态之间直接交互(如视频生成时,文本描述指导图像块生成)。
八、如何设计基于Transformer的小项目?
推荐项目:情感分析工具(判断句子是积极/消极)
- 数据准备:使用IMDB电影评论数据集(带标签的积极/消极评论)。
- 模型选择:Hugging Face的
BERT-tiny
(轻量级,适合初学者)。 - 代码步骤:
from transformers import AutoTokenizer, AutoModelForSequenceClassification
tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased")
model = AutoModelForSequenceClassification.from_pretrained("bert-base-uncased")
inputs = tokenizer("I love this movie!", return_tensors="pt")
outputs = model(**inputs)
predictions = outputs.logits.argmax(-1) # 输出0(消极)或1(积极)
九、初中生学习AI的途径
- 基础入门:
- 数学:重点学习线性代数(向量/矩阵)、概率基础。
- 编程:Python入门(推荐书籍《Python Crash Course》)。
- 工具实践:
- 可视化工具:使用MIT的Scratch理解算法逻辑。
- 在线课程:Coursera的《AI For Everyone》(吴恩达,无代码)。
- 兴趣驱动:
- 项目:用预训练模型(如GPT-3 Playground)生成故事或诗歌。
- 比赛:参加Kaggle的入门竞赛(如Titanic生存预测)。
十、视频生成中Transformer与扩散模型的结合
- 扩散模型框架:逐步去噪生成数据,传统使用CNN(如U-Net)。
- Transformer替代U-Net:将去噪过程建模为序列预测(如DiT模型),利用注意力机制处理全局信息。
- 条件控制:用Transformer编码文本描述,指导扩散过程的每一步生成(类似Stable Diffusion中的Cross-Attention)。
十一、Transformer的未来应用场景
- 科学领域:蛋白质结构预测(AlphaFold的扩展)、药物分子生成。
- 机器人控制:将传感器数据序列化,通过Transformer规划动作。
- 教育个性化:根据学生学习数据生成自适应习题和讲解。
十二、Transformer为何是通用型模型?
- 架构无关性:不依赖特定数据假设(如CNN的局部性、RNN的时序性),可处理任意序列。
- 扩展性强:通过增加层数和注意力头,模型能力线性增长(如GPT-3有1750亿参数)。
- 多任务兼容:同一架构可用于翻译、分类、生成等任务,仅需调整输入输出。
十三、BERT vs GPT训练数据差异
方面 | BERT | GPT |
上下文方向 | 双向(同时看左右上下文) | 单向(仅左侧上下文) |
预训练任务 | 掩码语言模型+下一句预测 | 自回归语言模型(预测下一个词) |
数据示例 | 随机掩盖15%的词进行预测 | 按顺序预测每个词 |
十四、语言模型对教育的影响
- 正向影响:
- 个性化辅导:AI根据学生错误自动生成针对性练习。
- 自动批改:即时反馈作文语法和逻辑问题(如Grammarly升级版)。
- 潜在问题:
- 依赖性风险:学生过度依赖AI完成作业,削弱独立思考能力。
- 公平性挑战:资源不平等导致部分学生无法接触先进工具。
十五、Transformer在图像处理的优势
- 全局感知:ViT(Vision Transformer)将图像分为16x16块,通过自注意力捕捉远距离物体关系(如天空中的鸟与地面的树)。
- 抗遮挡能力:即使部分图像被遮盖,仍能通过周围信息推理整体(优于CNN的局部卷积)。
- 多尺度融合:通过层次化设计(如Swin Transformer),同时捕捉局部细节和全局结构。