COLING 2020 | CharBERT:字符敏感的预训练语言模型
©PaperWeekly 原创 · 作者|张琨
学校|中国科学技术大学博士生
研究方向|自然语言处理
论文标题:
CharBERT: Character-aware Pre-trained Language Model
论文链接:
https://arxiv.org/abs/2011.01513
代码链接:
https://github.com/wtma/CharBERT
动机
预训练模型的利用已经成为当前自然语言处理的范式,使用预训练模型处理输出,然后在此基础上根据具体任务进行调整。为了提升预训练模型的效果,人们提出了很多改进的办法,例如更好的 masking 方法,更大的 batch 等。但很少有工作关注于输入的编码,当前的 word piece 编码方式 BPE 虽然能够降低字典大小,同时缓解 OOV 问题,但仍然存在一些问题。
模型
2.1 Character Encoding
2.2 Heterogeneous Interaction
2.3 Unsupervised Character Pre-training
原来的 MLM 预训练任务保持,但同时作者考虑了一个 NLM(Noise Language Model),该任务针对的就是字符级别的表示,将原始输入中的某些字符替换掉(包括丢掉,增加,交换),模型需要预测数来原始的输入词是什么,通过这种方式实现了更稳定的模型性能。
这里需要说明的是 MLM 和 NLM 是不交叉的,即如果某个词被替换了某个字符,那么这个词就不会被 mask 掉,保证了 MLM 任务的干净。
实验
总结
更多阅读
#投 稿 通 道#
让你的论文被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学习心得或技术干货。我们的目的只有一个,让知识真正流动起来。
📝 来稿标准:
· 稿件确系个人原创作品,来稿需注明作者个人信息(姓名+学校/工作单位+学历/职位+研究方向)
· 如果文章并非首发,请在投稿时提醒并附上所有已发布链接
· PaperWeekly 默认每篇文章都是首发,均会添加“原创”标志