python利用Tesseract识别验证码的方法示例
Python  /  管理员 发布于 7年前   156
无论是是自动化登录还是爬虫,总绕不开验证码,这次就来谈谈python中光学识别验证码模块tesserocr
和pytesseract
。tesserocr
和pytesseract
是Python的一个OCR识别库,但其实是对tesseract
做的一层Python API封装,pytesseract
是Google的Tesseract-OCR
引擎包装器;所以它们的核心是tesseract
,因此在安装tesserocr
之前,我们需要先安装tesseract
。
下载安装
下载地址:https://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-w64-setup-v4.0.0.20181030.exe
下载完成后,双击安装,可以勾选Additional language data(download)
选项来安装OCR识别支持的语言包,但下载语言包实在是慢,我们可以直接从https://github.com/tesseract-ocr/tessdata/下载zip的语言包压缩文件,解压后将tessdata-master
中的文件复制到Tesseract
的安装目录C:\Program Files (x86)\Tesseract-OCR\tessdata
目录下,最后我们配置下环境变量,我们将C:\Program Files (x86)\Tesseract-OCR
添加到环境变量中。进入命令提示符,输入tesseract
,显示下图结果,说明配置完成
查看安装了的语言包:tesseract --list-langs
显示我一共安装了167种语言包,里边包含英文或者其他字符。
测试
实验用的二维码
基本使用语法tesseract image.png result
(tesseract 图片名称 生成文件名称)
结果
由结果来看,识别出来了P、2和X,但是把C识别成了G,识别度还是比较高,接下来看在python中的使用
python引入tesseract
在python下使用pip命令即可完成下载安装 pip install pytesseract
识别验证码脚本
import pytesseractfrom PIL import Imageim=Image.open('pin.png')print(pytesseract.image_to_string(im))
结果
这样识别的结果同样跟上文一样,个别字符识别的不是很准确
图像处理
现在网站上的二维码设计的通常很难复杂,如果直接识别的话很难识别出来,下面这段代码是进行灰度处理和二值化
import pytesseractfrom PIL import Imageim=Image.open('5.jpg')#进行置灰处理im=im.convert('L')#这个是二值化阈值threshold=150table=[]for i in range(256): if i<threshold: table.append(0) else: table.append(1)#通过表格转换成二进制图片,1的作用是白色,0就是黑色im=im.point(table,"1")im.show()print(pytesseract.image_to_string(im))
原图
置灰和二值化后
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持。
122 在
学历:一种延缓就业设计,生活需求下的权衡之选中评论 工作几年后,报名考研了,到现在还没认真学习备考,迷茫中。作为一名北漂互联网打工人..123 在
Clash for Windows作者删库跑路了,github已404中评论 按理说只要你在国内,所有的流量进出都在监控范围内,不管你怎么隐藏也没用,想搞你分..原梓番博客 在
在Laravel框架中使用模型Model分表最简单的方法中评论 好久好久都没看友情链接申请了,今天刚看,已经添加。..博主 在
佛跳墙vpn软件不会用?上不了网?佛跳墙vpn常见问题以及解决办法中评论 @1111老铁这个不行了,可以看看近期评论的其他文章..1111 在
佛跳墙vpn软件不会用?上不了网?佛跳墙vpn常见问题以及解决办法中评论 网站不能打开,博主百忙中能否发个APP下载链接,佛跳墙或极光..
Copyright·© 2019 侯体宗版权所有·
粤ICP备20027696号