字体语料库该存储库最初侧重于汇编与自然历史收藏社区和数字人文社区中进行的OCR活动相关的数据。这些社区面临着需要从包含各种字体的文档和图像中提取高质量文本的挑战。该存储库的目标是编译标准化格式的字体样本语料库,以帮助自然历史收藏和数字人文社区显着提高由Tesseract和OCRopus等OCR引擎生成的文本质量。
typeface corpus:用于训练Tesseract和OCRopus以进行自然历史收藏和数字人文的字体库
文件列表
typeface-corpus-master.zip
(预估有个9文件)
typeface-corpus-master
letter_gothic12_ibm_selectric-1
glyphs.box
5KB
glyphs.tif
4.5MB
README.txt
0B
README.md
755B
submission_procedures.md
6KB
courier_12_ibm_selectric-1
glyphs.txt
311B
glyphs.box
5KB
暂无评论