Python3实现抓取javascript动态生成的html网页功能示例
Python  /  管理员 发布于 7年前   187
本文实例讲述了Python3实现抓取javascript动态生成的html网页功能。分享给大家供大家参考,具体如下:
用urllib等抓取网页,只能读取网页的静态源文件,而抓不到由javascript生成的内容。
究其原因,是因为urllib是瞬时抓取,它不会等javascript的加载延迟,所以页面中由javascript生成的内容,urllib读取不到。
那由javascript生成的内容就真的没有办法读取了吗?非也!
这里要介绍一个python库:selenium,本文使用的版本是 2.44.0
先安装:
pip install -U selenium
下面用三个例子来说明其用法:
【例0】
打开一个Firefox浏览器
载入所给url地址的页面
from selenium import webdriverbrowser = webdriver.Firefox()browser.get('http://www.baidu.com/')
【例1】
打开一个Firefox浏览器
载入百度主页
搜索 “seleniumhq”
关闭浏览器
from selenium import webdriverfrom selenium.webdriver.common.keys import Keysbrowser = webdriver.Firefox()browser.get('http://www.baidu.com')assert '百度' in browser.titleelem = browser.find_element_by_name('p') # Find the search boxelem.send_keys('seleniumhq' + Keys.RETURN) # 模拟按键browser.quit()
【例2】
Selenium WebDriver 常用于网络程序的测试。 下面是一个使用Python标准库 unittest 的例子:
import unittestclass BaiduTestCase(unittest.TestCase): def setUp(self): self.browser = webdriver.Firefox() self.addCleanup(self.browser.quit) def testPageTitle(self): self.browser.get('http://www.baidu.com') self.assertIn('百度', self.browser.title)if __name__ == '__main__': unittest.main(verbosity=2)
更多关于Python相关内容感兴趣的读者可查看本站专题:《Python进程与线程操作技巧总结》、《Python Socket编程技巧总结》、《Python数据结构与算法教程》、《Python函数使用技巧总结》、《Python字符串操作技巧汇总》、《Python入门与进阶经典教程》及《Python文件与目录操作技巧汇总》
希望本文所述对大家Python程序设计有所帮助。
122 在
学历:一种延缓就业设计,生活需求下的权衡之选中评论 工作几年后,报名考研了,到现在还没认真学习备考,迷茫中。作为一名北漂互联网打工人..123 在
Clash for Windows作者删库跑路了,github已404中评论 按理说只要你在国内,所有的流量进出都在监控范围内,不管你怎么隐藏也没用,想搞你分..原梓番博客 在
在Laravel框架中使用模型Model分表最简单的方法中评论 好久好久都没看友情链接申请了,今天刚看,已经添加。..博主 在
佛跳墙vpn软件不会用?上不了网?佛跳墙vpn常见问题以及解决办法中评论 @1111老铁这个不行了,可以看看近期评论的其他文章..1111 在
佛跳墙vpn软件不会用?上不了网?佛跳墙vpn常见问题以及解决办法中评论 网站不能打开,博主百忙中能否发个APP下载链接,佛跳墙或极光..
Copyright·© 2019 侯体宗版权所有·
粤ICP备20027696号