Command Palette
Search for a command to run...
SubRegWeigh:基于子词正则化的有效且高效的注释加权方法
SubRegWeigh:基于子词正则化的有效且高效的注释加权方法
Kohei Tsuji¹, Tatsuya Hiraoka², Yuchang Cheng¹,³, Tomoya Iwakura¹,³
摘要
自然语言处理(NLP)数据集即使经过人工标注,也可能包含标注错误。研究人员已经尝试开发自动减少数据集中错误负面影响的方法。然而,现有的方法耗时较长,因为它们需要多个训练好的模型来检测错误。本文提出了一种节省时间的方法,该方法利用一种称为子词正则化(subword regularization)的分词技术来模拟多个错误检测模型,以识别错误。我们提出的方法SubRegWeigh在执行注释加权时比现有方法快四到五倍。此外,SubRegWeigh在文档分类和命名实体识别任务中也提高了性能。在伪错误标签实验中,SubRegWeigh能够清晰地将伪错误标签识别为标注错误。我们的代码已发布在https://github.com/4ldk/SubRegWeigh 。