在深度学习领域,无监督文本标记技术是一项重要的研究方向。其中,SentencePiece作为一款无监督文本处理工具,主要应用于基于神经网络的文本生成系统。该工具通过预先确定的词汇量,采用了子词单元的概念,如字节对编码(BPE)[Sennrich et al.]和unigram语言模型[Kudo.]。 SentencePiece通过直接训练原始句子,为深度学习中的文本处理提供了全新的范式,实现了端到端的系统,摆脱了对特定语言预处理/后处理的依赖。
深度学习中的无监督文本标记技术:SentencePiece的应用
文件列表
一个无监督的文本分词器和去分词器,用于基于神经网络的文本生成的无监督文本标记器
(预估有个239文件)
unigram_model_trainer.cc
21KB
unigram_model.cc
33KB
sentencepiece.pb.cc
34KB
sentencepiece_model.pb.cc
133KB
builder.cc
18KB
normalizer_test.cc
16KB
sentencepiece_processor.cc
37KB
sentencepiece_processor_test.cc
53KB
unigram_model_test.cc
32KB
trainer_interface.cc
28KB
暂无评论