语料库工具 分词器,清理器,分析器,模糊匹配器,TfIdf,Eval,POS-tagger 令牌器(OpenNMT): pip install pyonmttok echo "Hello World!" | onmt-tokenize-text --tokenizer OpenNMTTokenizer --tokenizer_config tokconfig Hello World ■! tokconfig指示标记化选项。 前任: mode: conservative joiner_annotate: true 要建立词汇表,请使用: onmt-build-vocab 或者 git clone https://github.com/OpenNMT/Tokenizer.git cd Tokenizer mkdir build cd build cmake -DCMAKE_BUILD_T