这里一致性就是指的,pre-train时的模型输入输出的数据格式 和 fine-tune时的模型输入输出的数据格式 完全一样,同时pre-train的代码和fine-tune的代码也都几乎一样,
举例pre-train时的伪代码:
sentence_concat_next_sentence.make_labels()
gpt_model.fit(sentence_concat_next_sentence)
然后fine-tune时的伪代码:
question_concat_answer.make_labels()
gpt_model.fit(question_concat_answer)
所以这样最大化利用了大规模预训练的基础“知识库”。