pd3f – PDF文本提取器 超越PDF 实验性使用,请谨慎使用。 pd3f是一个PDF文本提取管道,该管道是自托管,本地优先和基于Docker的。 它借助机器学习来重建原始连续文本。 pd3f可以使用 (Tesseract)进行OCR扫描的PDF,并使用和提取表。 它基于的输出。 Parsr检测文本的层次结构,并将文本拆分为单词,行和段落。 即使Parsr为PDF带来了一些结构,但文本仍然是混乱的,即由于连字符引起的。 底层的Python包尝试通过删除连字符, 行和/或空格来重建原始的连续文本。 它使用来猜测原始文本的外观。 pd3f对于长单词的语言(例如德语)特别有用。 它主要用于解析德语信件和官方文件。 除德语外, pd3f支持英语,西班牙语和法语。 稍后将添加更多语言。 pd3f包括基于Web的GUI和基于的微服务(API)。 您可以在找到演示。 文献资料 在以下位置