0
点赞
收藏
分享

微信扫一扫

decoder-only transformer可以实现pre-train和fine-tune的一致性


这里一致性就是指的,pre-train时的模型输入输出的数据格式 和 fine-tune时的模型输入输出的数据格式 完全一样,同时pre-train的代码和fine-tune的代码也都几乎一样,

举例pre-train时的伪代码:

sentence_concat_next_sentence.make_labels()
gpt_model.fit(sentence_concat_next_sentence)

然后fine-tune时的伪代码:

question_concat_answer.make_labels()
gpt_model.fit(question_concat_answer)

所以这样最大化利用了大规模预训练的基础“知识库”。


举报

相关推荐

0 条评论