侯体宗的博客
  • 首页
  • 人生(杂谈)
  • 技术
  • 关于我
  • 更多分类
    • 文件下载
    • 文字修仙
    • 中国象棋ai
    • 群聊
    • 九宫格抽奖
    • 拼图
    • 消消乐
    • 相册

python爬虫之自动登录与验证码识别

Python  /  管理员 发布于 7年前   179

在用爬虫爬取网站数据时,有些站点的一些关键数据的获取需要使用账号登录,这里可以使用requests发送登录请求,并用Session对象来自动处理相关Cookie。

另外在登录时,有些网站有时会要求输入验证码,比较简单的验证码可以直接用pytesser来识别,复杂的验证码可以依据相应的特征自己采集数据训练分类器。

以CSDN网站的登录为例,这里用Python的requests库与pytesser库写了一个登录函数。如果需要输入验证码,函数会首先下载验证码到本地,然后用pytesser识别验证码后登录,对于CSDN登录验证码,pytesser的识别率很高。

其中的pytesser的下载地址为: pytesser下载

具体代码如下:

#coding:utf-8import sysimport timeimport urllibimport shutilimport pytesserimport requestsfrom lxml import etreeconfig = {'gid': 1}def parse(s, html, idx): result = {} tree = etree.HTML(html) try:  result['lt'] = tree.xpath('//input[@name="lt"]/@value')[0]  result['execution'] = tree.xpath('//input[@name="execution"]/@value')[0]  result['path'] = tree.xpath('//form[@id="fm1"]/@action')[0] except IndexError, e:  return None valimg = None valimgs = tree.xpath('//img[@id="yanzheng"]/@src') if len(valimgs) > 0:  valimg = valimgs[0] validateCode = None if valimg:  fname = 'img/' + str(idx) + '_' + str(config['gid']) + '.jpg'  config['gid'] = config['gid'] + 1  ri = s.get("https://passport.csdn.net" + valimg)  with open(fname, 'wb') as f:   for chk in ri:    f.write(chk)   f.close()  validateCode = pytesser.image_file_to_string(fname)  validateCode = validateCode.strip()  validateCode = validateCode.replace(' ', '')  validateCode = validateCode.replace('\n', '')  result['validateCode'] = validateCode return resultdef login(usr, pwd, idx): s = requests.Session() r = s.get('https://passport.csdn.net/account/login', headers={'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:41.0) Gecko/20100101 Firefox/41.0', 'Host': 'passport.csdn.net', }) while True:  res = parse(s, r.text, idx)  if res == None:   return False  url = 'https://passport.csdn.net' + res['path']  form = {'username': usr, 'password':pwd, '_eventId':'submit', 'execution':res['execution'], 'lt':res['lt'],}  if res.has_key('validateCode'):   form['validateCode'] = res['validateCode']  s.headers.update({   'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:41.0) Gecko/20100101 Firefox/41.0',   'Accept-Language': 'zh-CN,zh;q=0.8,en-US;q=0.6,en;q=0.4',   'Content-Type': 'application/x-www-form-urlencoded',   'Host': 'passport.csdn.net',   'Origin': 'https://passport.csdn.net',   'Referer': 'https://passport.csdn.net/account/login',   'Upgrade-Insecure-Requests': 1,   })  r = s.post(url, data=form)  tree = etree.HTML(r.text)  err_strs = tree.xpath('//span[@id="error-message"]/text()')  if len(err_strs) == 0:   return True  err_str = err_strs[0]  print err_str  err = err_str.encode('utf8')  validate_code_err = '验证码错误'  usr_pass_err = '帐户名或登录密码不正确,请重新输入'  try_later_err = '登录失败连续超过5次,请10分钟后再试'  if err[:5] == validate_code_err[:5]:   pass  elif err[:5] == usr_pass_err[:5]:   return False  elif err[:5] == try_later_err[:5]:   return False  else:   return Trueif __name__ == '__main__': main(sys.argv[1], sys.argv[2], 0)

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持。


  • 上一条:
    一百多行python代码实现抢票助手
    下一条:
    python使用matplotlib模块绘制多条折线图、散点图
  • 昵称:

    邮箱:

    0条评论 (评论内容有缓存机制,请悉知!)
    最新最热
    • 分类目录
    • 人生(杂谈)
    • 技术
    • linux
    • Java
    • php
    • 框架(架构)
    • 前端
    • ThinkPHP
    • 数据库
    • 微信(小程序)
    • Laravel
    • Redis
    • Docker
    • Go
    • swoole
    • Windows
    • Python
    • 苹果(mac/ios)
    • 相关文章
    • 在python语言中Flask框架的学习及简单功能示例(0个评论)
    • 在Python语言中实现GUI全屏倒计时代码示例(0个评论)
    • Python + zipfile库实现zip文件解压自动化脚本示例(0个评论)
    • python爬虫BeautifulSoup快速抓取网站图片(1个评论)
    • vscode 配置 python3开发环境的方法(0个评论)
    • 近期文章
    • 在go语言中实现字符串可逆性压缩及解压缩功能(0个评论)
    • 使用go + gin + jwt + qrcode实现网站生成登录二维码在app中扫码登录功能(0个评论)
    • 在windows10中升级go版本至1.24后LiteIDE的Ctrl+左击无法跳转问题解决方案(0个评论)
    • 智能合约Solidity学习CryptoZombie第四课:僵尸作战系统(0个评论)
    • 智能合约Solidity学习CryptoZombie第三课:组建僵尸军队(高级Solidity理论)(0个评论)
    • 智能合约Solidity学习CryptoZombie第二课:让你的僵尸猎食(0个评论)
    • 智能合约Solidity学习CryptoZombie第一课:生成一只你的僵尸(0个评论)
    • 在go中实现一个常用的先进先出的缓存淘汰算法示例代码(0个评论)
    • 在go+gin中使用"github.com/skip2/go-qrcode"实现url转二维码功能(0个评论)
    • 在go语言中使用api.geonames.org接口实现根据国际邮政编码获取地址信息功能(1个评论)
    • 近期评论
    • 122 在

      学历:一种延缓就业设计,生活需求下的权衡之选中评论 工作几年后,报名考研了,到现在还没认真学习备考,迷茫中。作为一名北漂互联网打工人..
    • 123 在

      Clash for Windows作者删库跑路了,github已404中评论 按理说只要你在国内,所有的流量进出都在监控范围内,不管你怎么隐藏也没用,想搞你分..
    • 原梓番博客 在

      在Laravel框架中使用模型Model分表最简单的方法中评论 好久好久都没看友情链接申请了,今天刚看,已经添加。..
    • 博主 在

      佛跳墙vpn软件不会用?上不了网?佛跳墙vpn常见问题以及解决办法中评论 @1111老铁这个不行了,可以看看近期评论的其他文章..
    • 1111 在

      佛跳墙vpn软件不会用?上不了网?佛跳墙vpn常见问题以及解决办法中评论 网站不能打开,博主百忙中能否发个APP下载链接,佛跳墙或极光..
    • 2016-10
    • 2016-11
    • 2018-04
    • 2020-03
    • 2020-04
    • 2020-05
    • 2020-06
    • 2022-01
    • 2023-07
    • 2023-10
    Top

    Copyright·© 2019 侯体宗版权所有· 粤ICP备20027696号 PHP交流群

    侯体宗的博客