使用python实现抓取腾讯视频所有电影的爬虫-侯体宗的博客

使用python实现抓取腾讯视频所有电影的爬虫
Python / 管理员发布于 7年前 355

用python实现的抓取腾讯视频所有电影的爬虫

# -*- coding: utf-8 -*-import reimport urllib2from bs4import BeautifulSoupimport string, timeimport pymongoNUM   =0 #全局变量,电影数量m_type = u'' #全局变量,电影类型m_site = u'qq' #全局变量,电影网站#根据指定的URL获取网页内容def gethtml(url):  req = urllib2.Request(url)  response = urllib2.urlopen(req)  html = response.read()  return html#从电影分类列表页面获取电影分类def gettags(html):  global m_type  soup = BeautifulSoup(html)   #过滤出分类内容  #print soup  #<ulclass="clearfix _group" gname="mi_type" gtype="1">  tags_all = soup.find_all('ul', {'class' :'clearfix _group' ,'gname' :'mi_type'})  #print len(tags_all), tags_all  #print str(tags_all[1]).replace('\n','')  #<a _hot="tag.sub" class="_gtag _hotkey" href="http://v.qq.com/list/1_0_-1_-1_1_0_0_20_0_-1_0.html" title="动作" tvalue="0">动作</a>  re_tags = r'<a _hot=\"tag\.sub\" class=\"_gtag _hotkey\" href=\"(.+?)\" title=\"(.+?)\" tvalue=\"(.+?)\">.+?</a>'  p = re.compile(re_tags, re.DOTALL)  tags = p.findall(str(tags_all[0]))  if tags:    tags_url = {}    #print tags    for tagin tags:      tag_url = tag[0].decode('utf-8')      #print tag_url      m_type = tag[1].decode('utf-8')      tags_url[m_type] = tag_url  else:      print"Not Find"  return tags_url#获取每个分类的页数def get_pages(tag_url):  tag_html = gethtml(tag_url)  #divclass="paginator  soup = BeautifulSoup(tag_html)   #过滤出标记页面的html  #print soup  #<divclass="mod_pagenav" id="pager">  div_page = soup.find_all('div', {'class' :'mod_pagenav','id' :'pager'})  #print div_page #len(div_page), div_page[0]  #<aclass="c_txt6" href="http://v.qq.com/list/1_2_-1_-1_1_0_24_20_0_-1_0.html" title="25"><span>25</span></a>  re_pages = r'<a class=.+?><span>(.+?)</span></a>'  p = re.compile(re_pages, re.DOTALL)  pages = p.findall(str(div_page[0]))  #print pages  if len(pages) >1:    return pages[-2]  else:    return 1def getmovielist(html):  soup = BeautifulSoup(html)  #<ulclass="mod_list_pic_130">  divs = soup.find_all('ul', {'class' :'mod_list_pic_130'})  #print divs  for div_htmlin divs:    div_html = str(div_html).replace('\n','')    #print div_html    getmovie(div_html)def getmovie(html):  global NUM  global m_type  global m_site  re_movie = r'<li><a class=\"mod_poster_130\" href=\"(.+?)\" target=\"_blank\" title=\"(.+?)\"><img.+?</li>'  p = re.compile(re_movie, re.DOTALL)  movies = p.findall(html)  if movies:    conn = pymongo.Connection('localhost',27017)    movie_db = conn.dianying    playlinks = movie_db.playlinks    #print movies    for moviein movies:      #print movie      NUM +=1      print"%s : %d" % ("=" *70, NUM)      values = dict(        movie_title = movie[1],        movie_url  = movie[0],        movie_site   = m_site,        movie_type   = m_type        )      print values      playlinks.insert(values)      print"_" *70      NUM +=1      print"%s : %d" % ("=" *70, NUM)  #else:  #  print"Not Find"def getmovieinfo(url):  html = gethtml(url)  soup = BeautifulSoup(html)  #pack pack_album album_cover  divs = soup.find_all('div', {'class' :'pack pack_album album_cover'})  #print divs[0]  #<a href="http://www.tudou.com/albumplay/9NyofXc_lHI/32JqhiKJykI.html" target="new" title="《血滴子》独家纪录片" wl="1"> </a>  re_info = r'<a href=\"(.+?)\" target=\"new\" title=\"(.+?)\" wl=\".+?\"> </a>'  p_info = re.compile(re_info, re.DOTALL)  m_info = p_info.findall(str(divs[0]))  if m_info:    return m_info  else:    print"Not find movie info"  return m_infodef insertdb(movieinfo):  global conn  movie_db = conn.dianying_at  movies = movie_db.movies  movies.insert(movieinfo)if __name__ =="__main__":  global conn  tags_url ="http://v.qq.com/list/1_-1_-1_-1_1_0_0_20_0_-1_0.html"  #print tags_url  tags_html = gethtml(tags_url)  #print tags_html  tag_urls = gettags(tags_html)  #print tag_urls  for urlin tag_urls.items():    print str(url[1]).encode('utf-8') #,url[0]    maxpage =int(get_pages(str(url[1]).encode('utf-8')))    print maxpage    for xin range(0, maxpage):      #http://v.qq.com/list/1_0_-1_-1_1_0_0_20_0_-1_0.html      m_url = str(url[1]).replace('0_20_0_-1_0.html','')      movie_url ="%s%d_20_0_-1_0.html" % (m_url, x)      print movie_url      movie_html = gethtml(movie_url.encode('utf-8'))      #print movie_html      getmovielist(movie_html)      time.sleep(0.1)

总结

以上所述是小编给大家介绍的使用python实现抓取腾讯视频所有电影的爬虫，希望对大家有所帮助，如果大家有任何疑问欢迎给我留言，小编会及时回复大家的！

上一条：
Pythony运维入门之Socket网络编程详解
下一条：
Python 编程速成(推荐)

0条评论 (评论内容有缓存机制,请悉知!)

最新最热

近期文章
在go语言中实现字符串可逆性压缩及解压缩功能(0个评论)
使用go + gin + jwt + qrcode实现网站生成登录二维码在app中扫码登录功能(0个评论)
在windows10中升级go版本至1.24后LiteIDE的Ctrl+左击无法跳转问题解决方案(0个评论)
智能合约Solidity学习CryptoZombie第四课:僵尸作战系统(0个评论)
智能合约Solidity学习CryptoZombie第三课:组建僵尸军队(高级Solidity理论)(0个评论)
智能合约Solidity学习CryptoZombie第二课:让你的僵尸猎食(0个评论)
智能合约Solidity学习CryptoZombie第一课:生成一只你的僵尸(0个评论)
在go中实现一个常用的先进先出的缓存淘汰算法示例代码(0个评论)
在go+gin中使用"github.com/skip2/go-qrcode"实现url转二维码功能(0个评论)
在go语言中使用api.geonames.org接口实现根据国际邮政编码获取地址信息功能(1个评论)

近期评论
122 在
学历：一种延缓就业设计，生活需求下的权衡之选中评论工作几年后，报名考研了，到现在还没认真学习备考，迷茫中。作为一名北漂互联网打工人..
123 在
Clash for Windows作者删库跑路了，github已404中评论按理说只要你在国内，所有的流量进出都在监控范围内，不管你怎么隐藏也没用，想搞你分..
原梓番博客在
在Laravel框架中使用模型Model分表最简单的方法中评论好久好久都没看友情链接申请了，今天刚看，已经添加。..
博主在
佛跳墙vpn软件不会用?上不了网?佛跳墙vpn常见问题以及解决办法中评论 @1111老铁这个不行了，可以看看近期评论的其他文章..
1111 在
佛跳墙vpn软件不会用?上不了网?佛跳墙vpn常见问题以及解决办法中评论网站不能打开，博主百忙中能否发个APP下载链接，佛跳墙或极光..

Top