句子片段 SentencePiece是一种无监督的文本标记器和去标记器,主要用于基于神经网络的文本生成系统,其中在神经模型训练之前预先确定了词汇量。 SentencePiece实现子字单元(例如,字节对编码(BPE) [ ])和unigram语言模型[ ]),并从原始句子扩展了直接培训。 SentencePiece允许我们创建一个不依赖于特定于语言的预处理/后处理的纯粹的端到端系统。 这不是Google的官方产品。 技术亮点 纯粹由数据驱动:SentencePiece从句子中训练标记化和反标记化模型。 并非总是需要预加( / / )。 与语言无关:SentencePiece将句子视