decoder-only transformer可以实现pre-train和fine-tune的一致性

崭新的韭菜 2023-03-11 阅读 71

这里一致性就是指的，pre-train时的模型输入输出的数据格式和 fine-tune时的模型输入输出的数据格式完全一样，同时pre-train的代码和fine-tune的代码也都几乎一样，

举例pre-train时的伪代码：

sentence_concat_next_sentence.make_labels()
gpt_model.fit(sentence_concat_next_sentence)

然后fine-tune时的伪代码：

question_concat_answer.make_labels()
gpt_model.fit(question_concat_answer)

所以这样最大化利用了大规模预训练的基础“知识库”。

0 条评论

关注