侯体宗的博客
  • 首页
  • 人生(杂谈)
  • 技术
  • 关于我
  • 更多分类
    • 文件下载
    • 文字修仙
    • 中国象棋ai
    • 群聊
    • 九宫格抽奖
    • 拼图
    • 消消乐
    • 相册

Python实现XML文件解析的示例代码

Python  /  管理员 发布于 7年前   210

1. XML简介

XML(eXtensible Markup Language)指可扩展标记语言,被设计用来传输和存储数据,已经日趋成为当前许多新生技术的核心,在不同的领域都有着不同的应用。它是web发展到一定阶段的必然产物,既具有SGML的核心特征,又有着HTML的简单特性,还具有明确和结构良好等许多新的特性。

test.XML文件

<?xml version="1.0" encoding="utf-8"?><catalog>  <maxid>4</maxid>  <login username="pytest" passwd='123456'>    <caption>Python</caption>    <item id="4">      <caption>测试</caption>    </item>  </login>  <item id="2">    <caption>Zope</caption>  </item></catalog>

XML详细介绍可以参考: http://www.w3school.com.cn/xmldom/dom_nodetype.asp

2. XML文件解析

python解析XML常见的有三种方法:一是xml.dom.*模块,它是W3C DOM API的实现,若需要处理DOM API则该模块很适合;二是xml.sax.*模块,它是SAX API的实现,这个模块牺牲了便捷性来换取速度和内存占用,SAX是一个基于事件的API,这就意味着它可以“在空中”处理庞大数量的的文档,不用完全加载进内存;三是xml.etree.ElementTree模块(简称 ET),它提供了轻量级的Python式的API,相对于DOM来说ET 快了很多,而且有很多令人愉悦的API可以使用,相对于SAX来说ET的ET.iterparse也提供了 “在空中” 的处理方式,没有必要加载整个文档到内存,ET的性能的平均值和SAX差不多,但是API的效率更高一点而且使用起来很方便。

2.1 xml.dom.*

文件对象模型(Document Object Model,简称DOM),是W3C组织推荐的处理可扩展置标语言的标准编程接口。一个 DOM 的解析器在解析一个XML文档时,一次性读取整个文档,把文档中所有元素保存在内存中的一个树结构里,之后你可以利用DOM 提供的不同的函数来读取或修改文档的内容和结构,也可以把修改过的内容写入xml文件。python中用xml.dom.minidom来解析xml文件。

a. 获得子标签

b. 区分相同标签名的标签

c. 获取标签属性值

d. 获取标签对之间的数据

#coding=utf-8#通过minidom解析xml文件import xml.dom.minidom as xmldomimport os''' XML文件读取 <?xml version="1.0" encoding="utf-8"?><catalog>  <maxid>4</maxid>  <login username="pytest" passwd='123456'>dasdas    <caption>Python</caption>    <item id="4">      <caption>测试</caption>    </item>  </login>  <item id="2">    <caption>Zope</caption>  </item></catalog>'''xmlfilepath = os.path.abspath("test.xml")print ("xml文件路径:", xmlfilepath)# 得到文档对象domobj = xmldom.parse(xmlfilepath)print("xmldom.parse:", type(domobj))# 得到元素对象elementobj = domobj.documentElementprint ("domobj.documentElement:", type(elementobj))#获得子标签subElementObj = elementobj.getElementsByTagName("login")print ("getElementsByTagName:", type(subElementObj))print (len(subElementObj))# 获得标签属性值print (subElementObj[0].getAttribute("username"))print (subElementObj[0].getAttribute("passwd"))#区分相同标签名的标签subElementObj1 = elementobj.getElementsByTagName("caption")for i in range(len(subElementObj1)):  print ("subElementObj1[i]:", type(subElementObj1[i]))  print (subElementObj1[i].firstChild.data) #显示标签对之间的数据

输出结果:

>>> D:\Pystu>python xml_instance.py
>>> xml文件路径: D:\Pystu\test.xml
>>> xmldom.parse: <class 'xml.dom.minidom.Document'>
>>> domobj.documentElement: <class 'xml.dom.minidom.Element'>
>>> getElementsByTagName: <class 'xml.dom.minicompat.NodeList'>
>>> username: pytest
>>> passwd: 123456
>>> subElementObj1[i]: <class 'xml.dom.minidom.Element'>
>>> Python
>>> subElementObj1[i]: <class 'xml.dom.minidom.Element'>
>>> 测试
>>> subElementObj1[i]: <class 'xml.dom.minidom.Element'>
>>> Zope

2.2 xml.etree.ElementTree

ElementTree生来就是为了处理XML,它在Python标准库中有两种实现:一种是纯Python实现的,如xml.etree.ElementTree,另一种是速度快一点的xml.etree.cElementTree。注意:尽量使用C语言实现的那种,因为它速度更快,而且消耗的内存更少。

a. 遍历根节点的下一层

b. 下标访问各个标签、属性、文本

c. 查找root下的指定标签

d. 遍历XML文件

e. 修改XML文件

#coding=utf-8#通过解析xml文件'''try:  import xml.etree.CElementTree as ETexcept:  import xml.etree.ElementTree as ET从Python3.3开始ElementTree模块会自动寻找可用的C库来加快速度  '''import xml.etree.ElementTree as ETimport osimport sys''' XML文件读取 <?xml version="1.0" encoding="utf-8"?><catalog>  <maxid>4</maxid>  <login username="pytest" passwd='123456'>dasdas    <caption>Python</caption>    <item id="4">      <caption>测试</caption>    </item>  </login>  <item id="2">    <caption>Zope</caption>  </item></catalog>'''#遍历xml文件def traverseXml(element):  #print (len(element))  if len(element)>0:    for child in element:      print (child.tag, "----", child.attrib)      traverseXml(child)  #else:    #print (element.tag, "----", element.attrib)    if __name__ == "__main__":  xmlFilePath = os.path.abspath("test.xml")  print(xmlFilePath)  try:    tree = ET.parse(xmlFilePath)    print ("tree type:", type(tree))      # 获得根节点    root = tree.getroot()  except Exception as e: #捕获除与程序退出sys.exit()相关之外的所有异常    print ("parse test.xml fail!")    sys.exit()  print ("root type:", type(root))    print (root.tag, "----", root.attrib)    #遍历root的下一层  for child in root:    print ("遍历root的下一层", child.tag, "----", child.attrib)  #使用下标访问  print (root[0].text)  print (root[1][1][0].text)  print (20 * "*")  #遍历xml文件  traverseXml(root)  print (20 * "*")  #根据标签名查找root下的所有标签  captionList = root.findall("item") #在当前指定目录下遍历  print (len(captionList))  for caption in captionList:    print (caption.tag, "----", caption.attrib, "----", caption.text)  #修改xml文件,将passwd修改为999999  login = root.find("login")  passwdValue = login.get("passwd")  print ("not modify passwd:", passwdValue)  login.set("passwd", "999999")  #修改,若修改text则表示为login.text  print ("modify passwd:", login.get("passwd"))

输出结果:

>>> D:\Pystu\test.xml
>>> tree type: <class 'xml.etree.ElementTree.ElementTree'>
>>> root type: <class 'xml.etree.ElementTree.Element'>
>>> catalog ---- {}
>>> 遍历root的下一层 maxid ---- {}
>>> 遍历root的下一层 login ---- {'username': 'pytest', 'passwd': '123456'}
>>> 遍历root的下一层 item ---- {'id': '2'}
>>> 4
>>> 测试
>>> ********************
>>> maxid ---- {}
>>> login ---- {'username': 'pytest', 'passwd': '123456'}
>>> caption ---- {}
>>> item ---- {'id': '4'}
>>> caption ---- {}
>>> item ---- {'id': '2'}
>>> caption ---- {}
>>> ********************
>>> 1
>>> item ---- {'id': '2'} ----
>>> not modify passwd: 123456
>>> modify passwd: 999999

附:

#coding=utf-8'''  XML解析类  @功能-结点的增删改查'''import xml.etree.ElementTree as ETimport sysimport os.pathclass XmlParse:  def __init__(self, file_path):    self.tree = None    self.root = None    self.xml_file_path = file_path  def ReadXml(self):    try:      print("xmlfile:", self.xml_file_path)      self.tree = ET.parse(self.xml_file_path)      self.root = self.tree.getroot()    except Exception as e:      print ("parse xml faild!")      sys.exit()    else:      print ("parse xml success!")          finally:       return self.tree          def CreateNode(self, tag, attrib, text):    element = ET.Element(tag, attrib)    element.text = text    print ("tag:%s;attrib:%s;text:%s" %(tag, attrib, text))    return element         def AddNode(self, Parent, tag, attrib, text):    element = self.CreateNode(tag, attrib, text)    if Parent:      Parent.append(element)      el = self.root.find("lizhi")      print (el.tag, "----", el.attrib, "----", el.text)    else:      print ("parent is none")  def WriteXml(self, destfile):    dest_xml_file = os.path.abspath(destfile)    self.tree.write(dest_xml_file, encoding="utf-8",xml_declaration=True)    if __name__ == "__main__":  xml_file = os.path.abspath("test.xml")  parse = XmlParse(xml_file)  tree = parse.ReadXml()  root = tree.getroot()  print (root)  parse.AddNode(root, "Python", {"age":"22", "hello":"world"}, "YES")    parse.WriteXml("testtest.xml")

2.3 xml.sax.*

SAX是一种基于事件驱动的API,利用SAX解析XML牵涉到两个部分:解析器和事件处理器。

解析器负责读取XML文档,并向事件处理器发送事件,如元素开始跟元素结束事件

事件处理器则负责对事件作出相应,对传递的XML数据进行处理

常用场景:

(1)对大型文件进行处理

(2)只需文件的部分内容,或只需从文件中得到特定信息

(3)想建立自己的对象模型

基于事件驱动的SAX解析XML内容的知识后续补充!

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持。


  • 上一条:
    Python打印菱形星号代码方法
    下一条:
    Python下载网络文本数据到本地内存的四种实现方法示例
  • 昵称:

    邮箱:

    0条评论 (评论内容有缓存机制,请悉知!)
    最新最热
    • 分类目录
    • 人生(杂谈)
    • 技术
    • linux
    • Java
    • php
    • 框架(架构)
    • 前端
    • ThinkPHP
    • 数据库
    • 微信(小程序)
    • Laravel
    • Redis
    • Docker
    • Go
    • swoole
    • Windows
    • Python
    • 苹果(mac/ios)
    • 相关文章
    • 在python语言中Flask框架的学习及简单功能示例(0个评论)
    • 在Python语言中实现GUI全屏倒计时代码示例(0个评论)
    • Python + zipfile库实现zip文件解压自动化脚本示例(0个评论)
    • python爬虫BeautifulSoup快速抓取网站图片(1个评论)
    • vscode 配置 python3开发环境的方法(0个评论)
    • 近期文章
    • 在windows10中升级go版本至1.24后LiteIDE的Ctrl+左击无法跳转问题解决方案(0个评论)
    • 智能合约Solidity学习CryptoZombie第四课:僵尸作战系统(0个评论)
    • 智能合约Solidity学习CryptoZombie第三课:组建僵尸军队(高级Solidity理论)(0个评论)
    • 智能合约Solidity学习CryptoZombie第二课:让你的僵尸猎食(0个评论)
    • 智能合约Solidity学习CryptoZombie第一课:生成一只你的僵尸(0个评论)
    • 在go中实现一个常用的先进先出的缓存淘汰算法示例代码(0个评论)
    • 在go+gin中使用"github.com/skip2/go-qrcode"实现url转二维码功能(0个评论)
    • 在go语言中使用api.geonames.org接口实现根据国际邮政编码获取地址信息功能(1个评论)
    • 在go语言中使用github.com/signintech/gopdf实现生成pdf分页文件功能(95个评论)
    • gmail发邮件报错:534 5.7.9 Application-specific password required...解决方案(0个评论)
    • 近期评论
    • 122 在

      学历:一种延缓就业设计,生活需求下的权衡之选中评论 工作几年后,报名考研了,到现在还没认真学习备考,迷茫中。作为一名北漂互联网打工人..
    • 123 在

      Clash for Windows作者删库跑路了,github已404中评论 按理说只要你在国内,所有的流量进出都在监控范围内,不管你怎么隐藏也没用,想搞你分..
    • 原梓番博客 在

      在Laravel框架中使用模型Model分表最简单的方法中评论 好久好久都没看友情链接申请了,今天刚看,已经添加。..
    • 博主 在

      佛跳墙vpn软件不会用?上不了网?佛跳墙vpn常见问题以及解决办法中评论 @1111老铁这个不行了,可以看看近期评论的其他文章..
    • 1111 在

      佛跳墙vpn软件不会用?上不了网?佛跳墙vpn常见问题以及解决办法中评论 网站不能打开,博主百忙中能否发个APP下载链接,佛跳墙或极光..
    • 2016-10
    • 2016-11
    • 2018-04
    • 2020-03
    • 2020-04
    • 2020-05
    • 2020-06
    • 2022-01
    • 2023-07
    • 2023-10
    Top

    Copyright·© 2019 侯体宗版权所有· 粤ICP备20027696号 PHP交流群

    侯体宗的博客