提升BERT fine-tune正确率0.2%-0.3%的一个细节-CFANZ编程社区

提升BERT fine-tune正确率0.2%-0.3%的一个细节

夹胡碰

阅读 66

2022-07-27

字级别分词，不要用官方的tokenizer (https://github.com/google-research/bert/blob/master/tokenization.py)

自己重写一个

def tokenize_to_str_list(textString):
    split_tokens = []
    for i in range(len(textString)):
        split_tokens.append(textString[i])
    return split_tokens

def convert_to_int_list(split_tokens):
  output = []
  for token in split_tokens:
    if token in char2id: 
       output.append(char2id[item])
  return

相关推荐
Python百事通
 论文笔记（How to Fine-Tune BERT for Text Classification?）
Python百事通 67 0 0
搬砖的小木匠
 《How to Fine-Tune BERT for Text Classification》论文笔记
搬砖的小木匠 69 0 0
gy2006_sw
 【论文解读】(如何微调BERT？) How to Fine-Tune BERT for Text Classification?
gy2006_sw 135 0 0
崭新的韭菜
 decoder-only transformer可以实现pre-train和fine-tune的一致性
崭新的韭菜 78 0 0
颜路在路上
 PaddleHub--飞桨预训练模型应用工具{风格迁移模型、词法分析情感分析、Fine-tune API微调}【一】
颜路在路上 157 0 0
王老师说
 一道正确率只有15%的命名返回值和闭包的问题
王老师说 229 0 0
归零者245号
 快速学会一个算法，BERT
归零者245号 24 0 0
炽凤亮尧
 ChatGLM 如何应用一个BERT
炽凤亮尧 72 0 0
天际孤狼
 分享一个翻倍提升算法刷题通过率的技巧
天际孤狼 91 0 0
Hyggelook
 大模型的最大bug，回答正确率几乎为零，GPT到Llama无一幸免
Hyggelook 38 0 0

精彩评论（0）