侯体宗的博客
  • 首页
  • Hyperf版
  • beego仿版
  • 人生(杂谈)
  • 技术
  • 关于我
  • 更多分类
    • 文件下载
    • 文字修仙
    • 中国象棋ai
    • 群聊
    • 九宫格抽奖
    • 拼图
    • 消消乐
    • 相册

Python使用get_text()方法从大段html中提取文本的实例

Python  /  管理员 发布于 7年前   295

如下所示:

<textarea rows="" cols="" name="id"><DIV style="TEXT-INDENT: 18pt; mso-char-indent-count: 2.0000" class=MsoNormal><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><?xml:namespace prefix = o ns = "urn:schemas-microsoft-com:office:office" /><o:p> </o:p></SPAN></DIV><DIV style="TEXT-INDENT: 18pt; mso-char-indent-count: 2.0000" class=MsoNormal><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><FONT face=宋体>第一条 为促进微博客信息服务健康有序发展,保护公民、法人和其他组织的合法权益,维护国家安全和公共利益,根据《中华人民共和国网络安全法》《国务院关于授权国家互联网信息办公室负责互联网信息内容管理工作的通知》,制定本规定。</SPAN><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><o:p></o:p></SPAN></DIV><DIV style="TEXT-INDENT: 18pt; mso-char-indent-count: 2.0000" class=MsoNormal><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><FONT face=宋体>第二条 在中华人民共和国境内从事微博客信息服务,应当遵守本规定。</SPAN><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><o:p></o:p></SPAN></DIV><DIV style="TEXT-INDENT: 18pt; mso-char-indent-count: 2.0000" class=MsoNormal><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><FONT face=宋体>本规定所称微博客,是指基于使用者关注机制,主要以简短文字、图片、视频等形式实现信息传播、获取的社交网络服务。</SPAN><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><o:p></o:p></SPAN></DIV><DIV style="TEXT-INDENT: 18pt; mso-char-indent-count: 2.0000" class=MsoNormal><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><FONT face=宋体>微博客服务提供者是指提供微博客平台服务的主体。微博客服务使用者是指使用微博客平台从事信息发布、互动交流等的行为主体。</SPAN><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><o:p></o:p></SPAN></DIV><DIV style="TEXT-INDENT: 18pt; mso-char-indent-count: 2.0000" class=MsoNormal><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><FONT face=宋体>微博客信息服务是指提供微博客平台服务及使用微博客平台从事信息发布、传播等行为。</SPAN><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><o:p></o:p></SPAN></DIV><DIV style="TEXT-INDENT: 18pt; mso-char-indent-count: 2.0000" class=MsoNormal><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><FONT face=宋体>第三条 国家互联网信息办公室负责全国微博客信息服务的监督管理执法工作。地方互联网信息办公室依据职责负责本行政区域内的微博客信息服务的监督管理执法工作。</SPAN><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><o:p></o:p></SPAN></DIV><DIV style="TEXT-INDENT: 18pt; mso-char-indent-count: 2.0000" class=MsoNormal><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><FONT face=宋体>第四条 微博客服务提供者应当依法取得法律法规规定的相关资质。</SPAN><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><o:p></o:p></SPAN></DIV><DIV style="TEXT-INDENT: 18pt; mso-char-indent-count: 2.0000" class=MsoNormal><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><FONT face=宋体>向社会公众提供互联网新闻信息服务的,应当依法取得互联网新闻信息服务许可,并在许可范围内开展服务,禁止未经许可或超越许可范围开展互联网新闻信息服务活动。</SPAN><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><o:p></o:p></SPAN></DIV><DIV style="TEXT-INDENT: 18pt; mso-char-indent-count: 2.0000" class=MsoNormal><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><FONT face=宋体>第五条 微博客服务提供者应当发挥促进经济发展、服务社会大众的积极作用,弘扬社会主义核心价值观,传播先进文化,坚持正确舆论导向,倡导依法上网、文明上网、安全上网。</SPAN><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><o:p></o:p></SPAN></DIV><DIV style="TEXT-INDENT: 18pt; mso-char-indent-count: 2.0000" class=MsoNormal><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><FONT face=宋体>第六条 微博客服务提供者应当落实信息内容安全管理主体责任,建立健全用户注册、信息发布审核、跟帖评论管理、应急处置、从业人员教育培训等制度及总编辑制度,具有安全可控的技术保障和防范措施,配备与服务规模相适应的管理人员。</SPAN><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><o:p></o:p></SPAN></DIV><DIV style="TEXT-INDENT: 18pt; mso-char-indent-count: 2.0000" class=MsoNormal><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><FONT face=宋体>微博客服务提供者应当制定平台服务规则,与微博客服务使用者签订服务协议,明确双方权利、义务,要求微博客服务使用者遵守相关法律法规。</SPAN><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><o:p></o:p></SPAN></DIV><DIV style="TEXT-INDENT: 18pt; mso-char-indent-count: 2.0000" class=MsoNormal><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><FONT face=宋体>第七条 微博客服务提供者应当按照“后台实名、前台自愿”的原则,对微博客服务使用者进行基于组织机构代码、身份证件号码、移动电话号码等方式的真实身份信息认证、定期核验。微博客服务使用者不提供真实身份信息的,微博客服务提供者不得为其提供信息发布服务。</SPAN><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><o:p></o:p></SPAN></DIV><DIV style="TEXT-INDENT: 18pt; mso-char-indent-count: 2.0000" class=MsoNormal><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><FONT face=宋体>微博客服务提供者应当保障微博客服务使用者的信息安全,不得泄露、篡改、毁损,不得出售或者非法向他人提供。</SPAN><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><o:p></o:p></SPAN></DIV><DIV style="TEXT-INDENT: 18pt; mso-char-indent-count: 2.0000" class=MsoNormal><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><FONT face=宋体>第八条 微博客服务使用者申请前台实名认证账号的,应当提供与认证信息相符的有效证明材料。</SPAN><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><o:p></o:p></SPAN></DIV><DIV style="TEXT-INDENT: 18pt; mso-char-indent-count: 2.0000" class=MsoNormal><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><FONT face=宋体>境内具有组织机构特征的微博客服务使用者申请前台实名认证账号的,应当提供组织机构代码证、营业执照等有效证明材料。</SPAN><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><o:p></o:p></SPAN></DIV><DIV style="TEXT-INDENT: 18pt; mso-char-indent-count: 2.0000" class=MsoNormal><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><FONT face=宋体>境外组织和机构申请前台实名认证账号的,应当提供驻华机构出具的有效证明材料。</SPAN><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><o:p></o:p></SPAN></DIV><DIV style="TEXT-INDENT: 18pt; mso-char-indent-count: 2.0000" class=MsoNormal><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><FONT face=宋体>第九条 微博客服务提供者应当按照分级分类管理原则,根据微博客服务使用者主体类型、发布内容、关注者数量、信用等级等制定具体管理制度,提供相应服务,并向国家或省、自治区、直辖市互联网信息办公室备案。</SPAN><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><o:p></o:p></SPAN></DIV><DIV style="TEXT-INDENT: 18pt; mso-char-indent-count: 2.0000" class=MsoNormal><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><FONT face=宋体>第十条 微博客服务提供者应当对申请前台实名认证账号的微博客服务使用者进行认证信息审核,并按照注册地向国家或省、自治区、直辖市互联网信息办公室分类备案。微博客服务使用者提供的证明材料与认证信息不相符的,微博客服务提供者不得为其提供前台实名认证服务。</SPAN><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><o:p></o:p></SPAN></DIV><DIV style="TEXT-INDENT: 18pt; mso-char-indent-count: 2.0000" class=MsoNormal><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><FONT face=宋体>各级党政机关、企事业单位、人民团体和新闻媒体等组织机构对所开设的前台实名认证账号发布的信息内容及其跟帖评论负有管理责任。微博客服务提供者应当提供管理权限等必要支持。</SPAN><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><o:p></o:p></SPAN></DIV><DIV style="TEXT-INDENT: 18pt; mso-char-indent-count: 2.0000" class=MsoNormal><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><FONT face=宋体>第十一条 微博客服务提供者应当建立健全辟谣机制,发现微博客服务使用者发布、传播谣言或不实信息,应当主动采取辟谣措施。</SPAN><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><o:p></o:p></SPAN></DIV><DIV style="TEXT-INDENT: 18pt; mso-char-indent-count: 2.0000" class=MsoNormal><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><FONT face=宋体>第十二条 微博客服务提供者和微博客服务使用者不得利用微博客发布、传播法律法规禁止的信息内容。</SPAN><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><o:p></o:p></SPAN></DIV><DIV style="TEXT-INDENT: 18pt; mso-char-indent-count: 2.0000" class=MsoNormal><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><FONT face=宋体>微博客服务提供者发现微博客服务使用者发布、传播法律法规禁止的信息内容,应当依法立即停止传输该信息、采取消除等处置措施,保存有关记录,并向有关主管部门报告。</SPAN><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><o:p></o:p></SPAN></DIV><DIV style="TEXT-INDENT: 18pt; mso-char-indent-count: 2.0000" class=MsoNormal><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><FONT face=宋体>第十三条 微博客服务提供者应用新技术、调整增设具有新闻舆论属性或社会动员能力的应用功能,应当报国家或省、自治区、直辖市互联网信息办公室进行安全评估。</SPAN><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><o:p></o:p></SPAN></DIV><DIV style="TEXT-INDENT: 18pt; mso-char-indent-count: 2.0000" class=MsoNormal><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><FONT face=宋体>第十四条 微博客服务提供者应当自觉接受社会监督,设置便捷的投诉举报入口,及时处理公众投诉举报。</SPAN><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><o:p></o:p></SPAN></DIV><DIV style="TEXT-INDENT: 18pt; mso-char-indent-count: 2.0000" class=MsoNormal><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><FONT face=宋体>第十五条 国家鼓励和指导互联网行业组织建立健全微博客行业自律制度和行业准则,推动微博客行业信用等级评价和信用体系建设,督促微博客服务提供者依法提供服务、接受社会监督。</SPAN><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><o:p></o:p></SPAN></DIV><DIV style="TEXT-INDENT: 18pt; mso-char-indent-count: 2.0000" class=MsoNormal><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><FONT face=宋体>第十六条 微博客服务提供者应当遵守国家相关法律法规规定,配合有关部门开展监督管理执法工作,并提供必要的技术支持和协助。</SPAN><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><o:p></o:p></SPAN></DIV><DIV style="TEXT-INDENT: 18pt; mso-char-indent-count: 2.0000" class=MsoNormal><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><FONT face=宋体>微博客服务提供者应当记录微博客服务使用者日志信息,保存时间不少于六个月。</SPAN><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><o:p></o:p></SPAN></DIV><DIV style="TEXT-INDENT: 18pt; mso-char-indent-count: 2.0000" class=MsoNormal><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><FONT face=宋体>第十七条 微博客服务提供者违反本规定的,由有关部门依照相关法律法规处理。</SPAN><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><o:p></o:p></SPAN></DIV><DIV style="TEXT-INDENT: 18pt; mso-char-indent-count: 2.0000" class=MsoNormal><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><FONT face=宋体>第十八条 本规定自2018年3月20日起施行。</SPAN><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><o:p></o:p></SPAN></DIV><!--EndFragment--></textarea>

比如这儿有这么一大段带html的字串,想要从中提取文本,首先发现这是一个textarea

我们使用beautifulsoup

def get_content(url): resp = urllib.request.urlopen(url) html = resp.read() bs = BeautifulSoup(html, "html.parser") return bs.textarea.get_text()

首先用那段html字符串初始化beautifulsoup对象

然后bs.textarea返回找到的第一个textarea,找到后使用get_text()清空所有html标签元素

之后就会返回干净的文字

以上这篇Python使用get_text()方法从大段html中提取文本的实例就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持。


  • 上一条:
    python操作openpyxl导出Excel 设置单元格格式及合并处理代码实例
    下一条:
    python多任务之协程的使用详解
  • 昵称:

    邮箱:

    0条评论 (评论内容有缓存机制,请悉知!)
    最新最热
    • 分类目录
    • 人生(杂谈)
    • 技术
    • linux
    • Java
    • php
    • 框架(架构)
    • 前端
    • ThinkPHP
    • 数据库
    • 微信(小程序)
    • Laravel
    • Redis
    • Docker
    • Go
    • swoole
    • Windows
    • Python
    • 苹果(mac/ios)
    • 相关文章
    • 在python语言中Flask框架的学习及简单功能示例(0个评论)
    • 在Python语言中实现GUI全屏倒计时代码示例(0个评论)
    • Python + zipfile库实现zip文件解压自动化脚本示例(0个评论)
    • python爬虫BeautifulSoup快速抓取网站图片(1个评论)
    • vscode 配置 python3开发环境的方法(0个评论)
    • 近期文章
    • 在go语言中使用api.geonames.org接口实现根据国际邮政编码获取地址信息功能(1个评论)
    • 在go语言中使用github.com/signintech/gopdf实现生成pdf分页文件功能(0个评论)
    • gmail发邮件报错:534 5.7.9 Application-specific password required...解决方案(0个评论)
    • 欧盟关于强迫劳动的规定的官方举报渠道及官方举报网站(0个评论)
    • 在go语言中使用github.com/signintech/gopdf实现生成pdf文件功能(0个评论)
    • Laravel从Accel获得5700万美元A轮融资(0个评论)
    • 在go + gin中gorm实现指定搜索/区间搜索分页列表功能接口实例(0个评论)
    • 在go语言中实现IP/CIDR的ip和netmask互转及IP段形式互转及ip是否存在IP/CIDR(0个评论)
    • PHP 8.4 Alpha 1现已发布!(0个评论)
    • Laravel 11.15版本发布 - Eloquent Builder中添加的泛型(0个评论)
    • 近期评论
    • 122 在

      学历:一种延缓就业设计,生活需求下的权衡之选中评论 工作几年后,报名考研了,到现在还没认真学习备考,迷茫中。作为一名北漂互联网打工人..
    • 123 在

      Clash for Windows作者删库跑路了,github已404中评论 按理说只要你在国内,所有的流量进出都在监控范围内,不管你怎么隐藏也没用,想搞你分..
    • 原梓番博客 在

      在Laravel框架中使用模型Model分表最简单的方法中评论 好久好久都没看友情链接申请了,今天刚看,已经添加。..
    • 博主 在

      佛跳墙vpn软件不会用?上不了网?佛跳墙vpn常见问题以及解决办法中评论 @1111老铁这个不行了,可以看看近期评论的其他文章..
    • 1111 在

      佛跳墙vpn软件不会用?上不了网?佛跳墙vpn常见问题以及解决办法中评论 网站不能打开,博主百忙中能否发个APP下载链接,佛跳墙或极光..
    • 2016-10
    • 2016-11
    • 2018-04
    • 2020-03
    • 2020-04
    • 2020-05
    • 2020-06
    • 2022-01
    • 2023-07
    • 2023-10
    Top

    Copyright·© 2019 侯体宗版权所有· 粤ICP备20027696号 PHP交流群

    侯体宗的博客