侯体宗的博客
  • 首页
  • Hyperf版
  • beego仿版
  • 人生(杂谈)
  • 技术
  • 关于我
  • 更多分类
    • 文件下载
    • 文字修仙
    • 中国象棋ai
    • 群聊
    • 九宫格抽奖
    • 拼图
    • 消消乐
    • 相册

使用python实现抓取腾讯视频所有电影的爬虫

Python  /  管理员 发布于 7年前   333

用python实现的抓取腾讯视频所有电影的爬虫

# -*- coding: utf-8 -*-import reimport urllib2from bs4import BeautifulSoupimport string, timeimport pymongoNUM   =0 #全局变量,电影数量m_type = u'' #全局变量,电影类型m_site = u'qq' #全局变量,电影网站#根据指定的URL获取网页内容def gethtml(url):  req = urllib2.Request(url)  response = urllib2.urlopen(req)  html = response.read()  return html#从电影分类列表页面获取电影分类def gettags(html):  global m_type  soup = BeautifulSoup(html)   #过滤出分类内容  #print soup  #<ulclass="clearfix _group" gname="mi_type" gtype="1">  tags_all = soup.find_all('ul', {'class' :'clearfix _group' ,'gname' :'mi_type'})  #print len(tags_all), tags_all  #print str(tags_all[1]).replace('\n','')  #<a _hot="tag.sub" class="_gtag _hotkey" href="http://v.qq.com/list/1_0_-1_-1_1_0_0_20_0_-1_0.html" title="动作" tvalue="0">动作</a>  re_tags = r'<a _hot=\"tag\.sub\" class=\"_gtag _hotkey\" href=\"(.+?)\" title=\"(.+?)\" tvalue=\"(.+?)\">.+?</a>'  p = re.compile(re_tags, re.DOTALL)  tags = p.findall(str(tags_all[0]))  if tags:    tags_url = {}    #print tags    for tagin tags:      tag_url = tag[0].decode('utf-8')      #print tag_url      m_type = tag[1].decode('utf-8')      tags_url[m_type] = tag_url  else:      print"Not Find"  return tags_url#获取每个分类的页数def get_pages(tag_url):  tag_html = gethtml(tag_url)  #divclass="paginator  soup = BeautifulSoup(tag_html)   #过滤出标记页面的html  #print soup  #<divclass="mod_pagenav" id="pager">  div_page = soup.find_all('div', {'class' :'mod_pagenav','id' :'pager'})  #print div_page #len(div_page), div_page[0]  #<aclass="c_txt6" href="http://v.qq.com/list/1_2_-1_-1_1_0_24_20_0_-1_0.html" title="25"><span>25</span></a>  re_pages = r'<a class=.+?><span>(.+?)</span></a>'  p = re.compile(re_pages, re.DOTALL)  pages = p.findall(str(div_page[0]))  #print pages  if len(pages) >1:    return pages[-2]  else:    return 1def getmovielist(html):  soup = BeautifulSoup(html)  #<ulclass="mod_list_pic_130">  divs = soup.find_all('ul', {'class' :'mod_list_pic_130'})  #print divs  for div_htmlin divs:    div_html = str(div_html).replace('\n','')    #print div_html    getmovie(div_html)def getmovie(html):  global NUM  global m_type  global m_site  re_movie = r'<li><a class=\"mod_poster_130\" href=\"(.+?)\" target=\"_blank\" title=\"(.+?)\"><img.+?</li>'  p = re.compile(re_movie, re.DOTALL)  movies = p.findall(html)  if movies:    conn = pymongo.Connection('localhost',27017)    movie_db = conn.dianying    playlinks = movie_db.playlinks    #print movies    for moviein movies:      #print movie      NUM +=1      print"%s : %d" % ("=" *70, NUM)      values = dict(        movie_title = movie[1],        movie_url  = movie[0],        movie_site   = m_site,        movie_type   = m_type        )      print values      playlinks.insert(values)      print"_" *70      NUM +=1      print"%s : %d" % ("=" *70, NUM)  #else:  #  print"Not Find"def getmovieinfo(url):  html = gethtml(url)  soup = BeautifulSoup(html)  #pack pack_album album_cover  divs = soup.find_all('div', {'class' :'pack pack_album album_cover'})  #print divs[0]  #<a href="http://www.tudou.com/albumplay/9NyofXc_lHI/32JqhiKJykI.html" target="new" title="《血滴子》独家纪录片" wl="1"> </a>  re_info = r'<a href=\"(.+?)\" target=\"new\" title=\"(.+?)\" wl=\".+?\"> </a>'  p_info = re.compile(re_info, re.DOTALL)  m_info = p_info.findall(str(divs[0]))  if m_info:    return m_info  else:    print"Not find movie info"  return m_infodef insertdb(movieinfo):  global conn  movie_db = conn.dianying_at  movies = movie_db.movies  movies.insert(movieinfo)if __name__ =="__main__":  global conn  tags_url ="http://v.qq.com/list/1_-1_-1_-1_1_0_0_20_0_-1_0.html"  #print tags_url  tags_html = gethtml(tags_url)  #print tags_html  tag_urls = gettags(tags_html)  #print tag_urls  for urlin tag_urls.items():    print str(url[1]).encode('utf-8') #,url[0]    maxpage =int(get_pages(str(url[1]).encode('utf-8')))    print maxpage    for xin range(0, maxpage):      #http://v.qq.com/list/1_0_-1_-1_1_0_0_20_0_-1_0.html      m_url = str(url[1]).replace('0_20_0_-1_0.html','')      movie_url ="%s%d_20_0_-1_0.html" % (m_url, x)      print movie_url      movie_html = gethtml(movie_url.encode('utf-8'))      #print movie_html      getmovielist(movie_html)      time.sleep(0.1)

总结

以上所述是小编给大家介绍的使用python实现抓取腾讯视频所有电影的爬虫,希望对大家有所帮助,如果大家有任何疑问欢迎给我留言,小编会及时回复大家的!


  • 上一条:
    Pythony运维入门之Socket网络编程详解
    下一条:
    Python 编程速成(推荐)
  • 昵称:

    邮箱:

    0条评论 (评论内容有缓存机制,请悉知!)
    最新最热
    • 分类目录
    • 人生(杂谈)
    • 技术
    • linux
    • Java
    • php
    • 框架(架构)
    • 前端
    • ThinkPHP
    • 数据库
    • 微信(小程序)
    • Laravel
    • Redis
    • Docker
    • Go
    • swoole
    • Windows
    • Python
    • 苹果(mac/ios)
    • 相关文章
    • 在python语言中Flask框架的学习及简单功能示例(0个评论)
    • 在Python语言中实现GUI全屏倒计时代码示例(0个评论)
    • Python + zipfile库实现zip文件解压自动化脚本示例(0个评论)
    • python爬虫BeautifulSoup快速抓取网站图片(1个评论)
    • vscode 配置 python3开发环境的方法(0个评论)
    • 近期文章
    • 在windows10中升级go版本至1.24后LiteIDE的Ctrl+左击无法跳转问题解决方案(0个评论)
    • 智能合约Solidity学习CryptoZombie第四课:僵尸作战系统(0个评论)
    • 智能合约Solidity学习CryptoZombie第三课:组建僵尸军队(高级Solidity理论)(0个评论)
    • 智能合约Solidity学习CryptoZombie第二课:让你的僵尸猎食(0个评论)
    • 智能合约Solidity学习CryptoZombie第一课:生成一只你的僵尸(0个评论)
    • 在go中实现一个常用的先进先出的缓存淘汰算法示例代码(0个评论)
    • 在go+gin中使用"github.com/skip2/go-qrcode"实现url转二维码功能(0个评论)
    • 在go语言中使用api.geonames.org接口实现根据国际邮政编码获取地址信息功能(1个评论)
    • 在go语言中使用github.com/signintech/gopdf实现生成pdf分页文件功能(0个评论)
    • gmail发邮件报错:534 5.7.9 Application-specific password required...解决方案(0个评论)
    • 近期评论
    • 122 在

      学历:一种延缓就业设计,生活需求下的权衡之选中评论 工作几年后,报名考研了,到现在还没认真学习备考,迷茫中。作为一名北漂互联网打工人..
    • 123 在

      Clash for Windows作者删库跑路了,github已404中评论 按理说只要你在国内,所有的流量进出都在监控范围内,不管你怎么隐藏也没用,想搞你分..
    • 原梓番博客 在

      在Laravel框架中使用模型Model分表最简单的方法中评论 好久好久都没看友情链接申请了,今天刚看,已经添加。..
    • 博主 在

      佛跳墙vpn软件不会用?上不了网?佛跳墙vpn常见问题以及解决办法中评论 @1111老铁这个不行了,可以看看近期评论的其他文章..
    • 1111 在

      佛跳墙vpn软件不会用?上不了网?佛跳墙vpn常见问题以及解决办法中评论 网站不能打开,博主百忙中能否发个APP下载链接,佛跳墙或极光..
    • 2016-10
    • 2016-11
    • 2018-04
    • 2020-03
    • 2020-04
    • 2020-05
    • 2020-06
    • 2022-01
    • 2023-07
    • 2023-10
    Top

    Copyright·© 2019 侯体宗版权所有· 粤ICP备20027696号 PHP交流群

    侯体宗的博客