Python读取Word(.docx)正文信息的方法
Python  /  管理员 发布于 8年前   347
本文介绍用Python简单读取*.docx文件信息,一些python-word库就是对这种方法的扩展。
介绍分两部分:
Word(*.docx)文件简述
大约在2008年以前,Office产品中Word用.doc文件格式,这种二进制格式很难与其他软件兼容。
为了跟上时代,微软采用类XML格式标准定义其新版Word文件.docx。
.docx实际上是一个zip的压缩文件,比如我们有一个test.docx的文件:
其内容如下:
改变其后缀名为test.zip,然后解压,会得到如下文件:
其中Word文件的正文内容被保持在word/document.xml中,我们可以打开查看:
Python提取Word信息
根据Word(.docx)文件格式,我们遵循如下步骤进行正文信息的提取:
1 解压.docx文件
2 用BeautifulSoup解析word/document.xml提取正文信息
具体代码如下:
from zipfile import ZipFilefrom bs4 import BeautifulSoupdocument=ZipFile('test.docx')xml=document.read("word/document.xml")wordObj=BeautifulSoup(xml.decode("utf-8"))texts=wordObj.findAll("w:t")for text in texts: print(text.text)以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持。
test1 在
opencode + Oh-my-openagent,我的第一个免费的ai编程智能体管家:Sisyphus中评论 test..122 在
学历:一种延缓就业设计,生活需求下的权衡之选中评论 工作几年后,报名考研了,到现在还没认真学习备考,迷茫中。作为一名北漂互联网打工人..Zita 在
Google AI Studio升级全栈 vibe coding体验,可直接构建带登录和数据库的应用中评论 111222..123 在
Clash for Windows作者删库跑路了,github已404中评论 按理说只要你在国内,所有的流量进出都在监控范围内,不管你怎么隐藏也没用,想搞你分..原梓番博客 在
在Laravel框架中使用模型Model分表最简单的方法中评论 好久好久都没看友情链接申请了,今天刚看,已经添加。..
Copyright·© 2019 侯体宗版权所有·
粤ICP备20027696号
