在深度学习领域,无监督文本标记技术是一项重要的研究方向。其中,SentencePiece作为一款无监督文本处理工具,主要应用于基于神经网络的文本生成系统。该工具通过预先确定的词汇量,采用了子词单元的概念,如字节对编码(BPE)[Sennrich et al.]和unigram语言模型[Kudo.]。 SentencePiece通过直接训练原始句子,为深度学习中的文本处理提供了全新的范式,实现了端到端的系统,摆脱了对特定语言预处理/后处理的依赖。