corpora tools:语料库工具源码

motherly6482 9 0 ZIP 2021-04-26 13:04:50

语料库工具分词器,清理器,分析器,模糊匹配器,TfIdf,Eval,POS-tagger 令牌器(OpenNMT): pip install pyonmttok echo "Hello World!" | onmt-tokenize-text --tokenizer OpenNMTTokenizer --tokenizer_config tokconfig Hello World ■! tokconfig指示标记化选项。前任: mode: conservative joiner_annotate: true 要建立词汇表,请使用: onmt-build-vocab 或者 git clone https://github.com/OpenNMT/Tokenizer.git cd Tokenizer mkdir build cd build cmake -DCMAKE_BUILD_T

文件列表

corpora-tools-master.zip (预估有个57文件)

corpora-tools-master

include

LCS.h 243B

Align.h 621B

Tools.h 280B

w2vec

dataset.py 14KB

w2vec.py 17KB

model.py 12KB

src

LCS.cpp 1KB

augmentInputMatches_cli.cpp 11KB

lcs_cli.cpp 2KB

unfold_cli.cpp 3KB

Align.cpp 6KB

Tools.cpp 2KB

phrases_cli.cpp 4KB

CMakeLists.txt 637B

matching

BilUnits.py 6KB

integrateEmbeddingMatches.py 3KB

fuzzyMatching.py 14KB

integrateNgramMatches.py 7KB

integrateFuzzyMatches.py 13KB

ngramMatching.py 8KB

NgramMatch.py 1KB

SpacCy

display.py 264B

SpaCy.py 6KB

Eval

chrF.py 4KB

multi-bleu.perl 4KB

diff2html.perl 4KB

ali2links_html.perl 2KB

ud2html.py 4KB

ali2matrix_html.perl 2KB

RIBES.py 20KB

requirements.txt 15B

corpus

idf.py 4KB

corpus-clean-bitext.py 7KB

tokenizer.py 662B

corpus-sets-data.py 2KB

train-phrases.py 9KB

corpus-analyse.py 3KB

lexical_score.perl 3KB

sim2prime.py 15KB

sim2src_tgt_sim_pre.py 7KB

matchs.py 10KB

tfidf.py 7KB

corpus-split-sets.py 3KB

faiss_cli.py 8KB

print_line_n.py 797B

corpus-divide-data.py 3KB

CMakeLists.txt 175B

README.md 4KB

download.sh 6KB

tokenise

treetagger.py 2KB

japanTok.py 7KB

subword_learn.py 3KB

tokenizer.py 3KB

tokenize.py 3KB

splitFeatsJoiner.py 4KB

__pycache__

tokenizer.cpython-36.pyc 692B

HOWTO.download_install_treetagger.sh 1KB

用户评论

暂无评论

藏语语料库预处理研究

藏语语料库预处理研究

10 2021-02-10
语料库Django应用程序用于收集母语的书面语和口语语料库源码

语料库 corpora是一个Django项目,用于收集不同语言的corpora。它的构建是为了支持Te ReoMāori的第一种语言。该应用程序的目标是简化少数族裔语言的语料库收集,以便听写,私人

2 2021-02-22
BQ语料库大规模的特定领域汉语语料库的句子语义对等识别

本文介绍了银行疑问句(BQ)语料库,这是一种用于句子语义对等识别(SSEI)的中文语料库。 BQ语料库包含来自1年在线银行客户服务日志的120,000个问题对。为了有效地处理和注释来自如此大量日志的

16 2021-04-26
NLP文本分类语料库复旦语料训练集

NLP文本分类语料库(复旦)语料训练集

67 2020-09-24
应用用于数字语料库的应用源码

digitalcorpora.org python应用此存储库为网站提供了自定义编写的Python代码。该网站使用WordPress运行。此存储库在子域运行,并提供S3存储桶的浏览功能。该仓库

15 2021-02-25
spacy语料库英文版3.0.0

spacy语料库英文版3.0.0

9 2020-12-31
text8英文语料库

Text8语料库,自己从ewik8语料库中提取出来的,可以用来训练模型,例如word2Vec模型的训练,注意,只适用于英文!

93 2020-09-21
商品评论情感语料库.txt

中文情感分析语料库，包含酒店、服装、水果、平板、洗发水等5个领域的评价数据，每个领域各包含5000条正面和负面评价，数据抓取于携程网和京东，仅供科研学习之用，欢迎下载使用！

29 2020-06-03
垃圾邮件语料库正常邮件

垃圾邮件语料库（正常邮件），实验室课题组使用

27 2020-05-18
用于文本分类的语料库

分为10个类大概2000篇多文本，可用于文本分类的语料库

32 2020-01-05

corpora tools:语料库工具 源码

文件列表

用户评论

推荐下载

corpora tools:语料库工具源码