句子:基于神经网络的文本生成的无监督文本标记器 源码
句子片段 SentencePiece是一种无监督的文本标记器和去标记器,主要用于基于神经网络的文本生成系统,其中在神经模型训练之前预先确定了词汇量。 SentencePiece实现子字单元(例如,字节对编码(BPE) [ ])和unigram语言模型[ ]),并从原始句子扩展了直接培训。 SentencePiece允许我们创建一个不依赖于特定于语言的预处理/后处理的纯粹的端到端系统。 这不是Google的官方产品。 技术亮点 纯粹由数据驱动:SentencePiece从句子中训练标记化和反标记化模型。 并非总是需要预加( / / )。 与语言无关:SentencePiece将句子视
文件列表
句子:基于神经网络的文本生成的无监督文本标记器
(预估有个241文件)
message_lite.cc
20KB
generated_message_util.cc
29KB
parse_context.cc
20KB
structurally_valid.cc
26KB
wire_format_lite.cc
27KB
extension_set.cc
80KB
strutil.cc
86KB
coded_stream.cc
30KB
trainer_interface.cc
25KB
trainer_interface_test.cc
18KB
暂无评论