Ta上传的资源 (0)

pytesser,OCRinPythonusingtheTesseractenginefromGoogle。是谷歌OCR开源项目的一个模块,可将图片中的文字转换成文本(主要是英文)。压缩包包括:pytesser_v0.0.1.zipPIL-1.1.7.win32-py2.7.exeREADME.tx

数据来源于中文维基百科,利用gensim进行数据抽取,再经过繁体字转换成简体字,得到纯净的文本语料,可用于词向量训练。

中文反义词词表,包含约7400个反义词组antonym.txt,同时包含词语的注释description.txt,可用于反义词向量的训练,以及词语反义置换。