字体语料库该存储库最初侧重于汇编与自然历史收藏社区和数字人文社区中进行的OCR活动相关的数据。这些社区面临着需要从包含各种字体的文档和图像中提取高质量文本的挑战。该存储库的目标是编译标准化格式的字体样本语料库,以帮助自然历史收藏和数字人文社区显着提高由Tesseract和OCRopus等OCR引擎生成的文本质量。