pdf格式存在的,比如:论文,技术文档,标准文件,书籍等。pdf格式使机器提取信息格外困难。 pdf的文本和表格处理用多种方式可以实现,本文介绍pdfplumber对文本和表格提取。这个库在GitHub上星600多,不过使用起来很方便,效果也很好,可以满足对pdf中信息的提取需求。