corpora tools:语料库工具 源码
语料库工具 分词器,清理器,分析器,模糊匹配器,TfIdf,Eval,POS-tagger 令牌器(OpenNMT): pip install pyonmttok echo "Hello World!" | onmt-tokenize-text --tokenizer OpenNMTTokenizer --tokenizer_config tokconfig Hello World ■! tokconfig指示标记化选项。 前任: mode: conservative joiner_annotate: true 要建立词汇表,请使用: onmt-build-vocab 或者 git clone https://github.com/OpenNMT/Tokenizer.git cd Tokenizer mkdir build cd build cmake -DCMAKE_BUILD_T
文件列表
corpora-tools-master.zip
(预估有个57文件)
corpora-tools-master
include
LCS.h
243B
Align.h
621B
Tools.h
280B
w2vec
dataset.py
14KB
w2vec.py
17KB
model.py
12KB
src
暂无评论