typeface corpus:用于训练Tesseract和OCRopus以进行自然历史收藏和数字人文的字体库

qqbrain37305 4 0 zip 2024-09-21 02:09:42

字体语料库该存储库最初侧重于汇编与自然历史收藏社区和数字人文社区中进行的OCR活动相关的数据。这些社区面临着需要从包含各种字体的文档和图像中提取高质量文本的挑战。该存储库的目标是编译标准化格式的字体样本语料库，以帮助自然历史收藏和数字人文社区显着提高由Tesseract和OCRopus等OCR引擎生成的文本质量。

文件列表

typeface-corpus-master.zip (预估有个9文件)

typeface-corpus-master

letter_gothic12_ibm_selectric-1

glyphs.box 5KB

glyphs.tif 4.5MB

README.txt 0B

README.md 755B

submission_procedures.md 6KB

courier_12_ibm_selectric-1

glyphs.txt 311B

glyphs.box 5KB

glyphs.tif 4.99MB

README.txt 0B

用户评论

暂无评论

Georg用于自然历史收藏的地理配准工具源码

格奥尔格 Georg是一个Web应用程序,旨在支持自然历史采集数据的地理配准或从位置描述获取地理坐标的过程。它允许用户在与输入的文本字符串的建议匹配项中进行选择,或者通过选择地图点,然后根据与标记的

7 2021-02-20
pgdevdb:一个bash脚本，用于快速创建Postgres用户和数据库以进行测试和开发

数据库Pgdevdb是一个bash脚本，它通过一个命令创建postgres数据库和用户（带密码）。目的是动态创建测试postgres用户和数据库，以便快速测试和开发。要使用它，请克隆repo并将pgd

2 2024-10-06
Zoorbar3.0Zoorbar3.0用于对动物学收藏进行管理和数字化的软件开源

Zoorbar 3.0是基于MS-Access的软件应用程序的更新版本,旨在管理和数字化动物学收藏。在其网站上找到有关Zoorbar 3.0的积分和更多信息:http://www.gbif.es/z

0 2021-04-29
squamatabase配置为索引Grundler MC2020SquamataBase自然历史数据库和R包用于比较蛇食习惯的生物学特性生物多样性数

鳞状基础 Grundler MC(2020)SquamataBase:自然历史数据库和R包,用于比较蛇食习惯的生物学特性。生物多样性数据期刊8:e49943。可通过。

2 2021-03-01
eea.corpus通过spaCyTextacy和pyLDAvis以及其他有用的NLP算法对EEA语料库进行机器学习和自然语言处理源码

EEA语料库(Alpha阶段) 该docker图像基于spaCy,Textacy,pyLDAvis和其他文件,以分析EEA语料库(所有已发布的EEA文档的集合)或带有文本列的任何其他CSV文件。它提

2 2021-02-07
Adaptnlp易于使用的自然语言处理库和框架用于预测训练微调和提供最新的NLP模型源码

一个高级框架和库,用于运行,培训和部署用于端到端任务的最新自然语言处理(NLP)模型。 AdaptNLP允许从初学者python编码器到经验丰富的机器学习工程师的用户,在一个易于使用的python软件

9 2021-02-19
tsmoothie用于以向量化方式进行时间序列平滑和离群值检测的python库源码

tsmoothie 一个用于以向量化方式进行时间序列平滑和离群值检测的python库。总览 tsmoothie以快速有效的方式计算单个或多个时间序列的平滑度。可用的平滑技术是: 指数平滑具有各种

41 2021-02-01
DMDetect与训练评估评估和部署CNN分类器相关的代码以进行数字乳腺X射线摄影图像的图像分类和分段源码

DMDetect 与训练,评估,评估和部署卷积神经网络(CNN)进行多类图像分类和数字化乳腺X线摄影(DM)图像分割相关的代码。定义项目和代码的目的是使它易于使用,因为项目结构的定义。例如,我已经

2 2021-04-21
nba.js一个Node.js库用于存储当前和历史的NBA统计数据得分和数据源码

nba.js 一个Node.js库,用于存储当前和历史的NBA统计数据,得分和数据。目录完整的文档和使用指南可在找到。安装通过安装。 $ npm install --save nba.js 用

8 2021-02-08
数字识别该项目的目的是将手写数字作为输入对数字进行处理使用处理后的数据训练神经网络算法以识别模式并成功识别测试数字流行的MNIST数据集用于培训和测试目的

数字识别:该项目的目的是将手写数字作为输入,对数字进行处理,使用处理后的数据训练神经网络算法,以识别模式并成功识别测试数字。流行的MNIST数据集用于培训和测试目的。使用的IDE是MATLAB

1 2021-02-25

typeface corpus:用于训练Tesseract和OCRopus以进行自然历史收藏和数字人文的字体库

文件列表

用户评论

推荐下载