解决PDF 转图片时丢文字的一种可能方式

qqarmor37980 14 0 pdf 2021-06-12 18:06:41

问题Python 中 PDF 转图片一般用的是 pdf2image。有时我们会发现 PDF 转出来的图片都是空白，或者缺失了一些字，具体表现就是一些应该有字的区域是空白。由于某些原因我不能把出现问题的文件放上来，不过大致就是这个情况。主要的代码如下：运行时可能会发现代码没有任何异常，但是结果不对。分析和解决其实 pdf2image 底层默认使用的是 pdftoppm 来转图片，我们可以直接使用其来测试有问题的 PDF，会发现输出了一些警告：除 pdftoppm 外，pdf2image 在两种情况下会使用 pdftocairo 来转图片，当要转成 tif/tiff 格式时当 transparent=True且要转成很明显是缺失了语言包。而且字缺失，自然而然想到的是字体缺失，即系统中没有 PDF 中的字体。对于中文来说，Noto CJK 字体可以覆盖所有的字，可以尝试下载安装此字体，有些系统可能自带。

资源预览

用户评论

暂无评论

嵌入式中参数存储的一种方式

如果有几个设置参数需要存储到Flash中,我们一般会怎么存储呢?将不同的参数都存储到不同的页中,还是将这几个参数捆绑成一种结构体,每次修改都同时写入呢? 将参数存储到固定的地址,则每个参数都将占用Fl

5 2021-02-25
xfire加spring加hibernate的一种整合方式

这一个使用org.codehaus.xfire.spring.XFireSpringServlet整合三个框架的配置。只需要配置这两个文件就可以正确发布webservice。比较简单的一种整合方式

19 2019-01-03
一种简单实用的光面爆破装药方式

根据作者实际施工经验,介绍一种简单实用的光面爆破技术。该技术可以利用现场施工条件和常用的爆破器材完成,爆破效果好,可以大大缩短工期,节省人力物力的投入。

13 2020-08-17
一种快速以太网卡芯片时钟恢复电路

电路设计方案

4 2023-03-01
一种解决遮挡问题的跟踪方法_吴水琴.pdf

一种解决遮挡问题的跟踪方法

2 2021-01-29
论文研究TMK一种解决拓扑匹配的DHT模型.pdf

TMK：一种解决拓扑匹配的DHT模型，马志新，潘伟国，在结构化P2P系统中，由于使用DHT技术构建逻辑覆盖图时没有考虑实际物理层的拓扑结构，从而导致覆盖网与物理网络的严重失配，使得逻

9 2020-07-16
一种解析和处理PDF格式文档的解决方案

本文提出了一个将PDF 文件转换成XML 格式的解决方案，以使程序设计人员能够方便地处理PDF 文件，将所有PDF 文件转换成 XML 格式，并可进而将XML 格式转换为HTML、WML 等格式，来方

10 2020-07-29
一种无线公网通信安全的解决方案.pdf

一种无线公网通信安全的解决方案pdf,一种无线公网通信安全的解决方案安全生产控制大区前置应用或数据采集SCADA服务器网交换机终端服务器小终端服务器无线公网区域终端服务器N终端服务器交换杠防火墙公共通

8 2020-07-30
VxWorks环境下网络过载的一种解决方法.pdf

VxWorks环境下网络过载的一种解决方法.pdf

16 2021-04-06
一种单片ZigBee解决方案

CEL公司的ZIC2410是兼容ZigBee和IEEE802.15.4的完整单片无线解决方案。它包含一个带有基带调制解调器的RF收发器、硬连线MAC以及一个带有内部闪存的嵌入式8051微控制器。该器件

9 2020-10-28

解决PDF 转图片时丢文字的一种可能方式

资源预览

用户评论

推荐下载