有时我们需要将一份或者多份PDF文件中的图片提取出来,如果采取在线的网站实现的话又担心图片泄漏,手动操作又觉得麻烦,其实用Python也可以轻松搞定!有一个简单的方法是通过大小过滤,pix 像素在 fitz 库中存在一个重要的方法 pix.size 可以反映像素多少,简单的色素块该值较低,可以通过设置一个阈值过滤。以阈值 10000 为例过滤:可以看到,全部图片都被正常提取!基于 pdf2image 库的两种方法一看名字就知道这个库的用处了,官方文档为可以简单通过。具体发挥作用的代码官方文档也给出了详细的说明:那么我们就分别尝试这两种方法:可以成功提取图片。再试试第二种方法:可以看到结果和之前一致,PDF中全部图片都被提取出来!

python 三种方法提取pdf中的图片

python 三种方法提取pdf中的图片

python 三种方法提取pdf中的图片

python 三种方法提取pdf中的图片

python 三种方法提取pdf中的图片