本文介绍用Python简单读取*.docx文件信息,一些python-word库就是对这种方法的扩展。大约在2008年以前,Office产品中Word用.doc文件格式,这种二进制格式很难与其他软件兼容。其内容如下:改变其后缀名为test.zip,然后解压,会得到如下文件:其中Word文件的正文内容被保持在word/document.xml中,我们可以打开查看:根据Word文件格式,我们遵循如下步骤进行正文信息的提取: 1 解压.docx文件 具体代码如下:

Python读取Word(.docx)正文信息的方法

Python读取Word(.docx)正文信息的方法

Python读取Word(.docx)正文信息的方法