十进制表 该项目旨在使用光学字符识别从扫描的图像PDF中提取表格。 安装要求 Tesseract OCR sudo apt-get install tesseract-ocr 影像魔术师 sudo apt-get install imagemagick PDF实用程序 sudo apt-get install poppler-utils Python包 sudo pip install -r requirements.txt 用法 清除文件夹并复制所有要扫描的pdf文件。 运行OCR: python3 shellocr.py 一旦过程完成,扫描的文本文件应在文件夹中可用。 备用