侯体宗的博客
  • 首页
  • 人生(杂谈)
  • 技术
  • 关于我
  • 更多分类
    • 文件下载
    • 文字修仙
    • 中国象棋ai
    • 群聊
    • 九宫格抽奖
    • 拼图
    • 消消乐
    • 相册

Python实现识别手写数字大纲

Python  /  管理员 发布于 7年前   196

写在前面

其实我之前写过一个简单的识别手写数字的程序,但是因为逻辑比较简单,而且要求比较严苛,是在50x50大小像素的白底图上手写黑色数字,并且给的训练材料也不够多,导致准确率只能五五开。所以这一次准备写一个加强升级版的,借此来提升我对Python处理文件与图片的能力。

这次准备加强难度:

  • 被识别图片可以是任意大小;
  • 不一定是白底图,只要数字颜色是黑色,周围环境是浅色就行;
  • 加强识别手写数字的逻辑,提升准确率。

因为我还没开始正式写,并且最近专业课程学习也比较紧迫,所以可能更新的比较慢。不过放心,代码质量肯定是不会下降的,我会尽我所能写的逻辑明确、通俗易懂点。

所以这次面向的人群是拥有一定Python基础,对数学算发有一点了解(识别图像的算法嘛)的人。

但毕竟我不是专业的,也没有看那么多论文,所以我这里运用的算法仅仅是我一个粗浅的想法,只是为了练手而已。如果和实际应用脱节,还望莫怪。

当然,如果诸位有什么比较好的想法,可以在下方评论或者私信我,我们可以探讨一下,相互进步。

整体思路

大纲

对图片的预处理

在最开始的时候,我们假设只拥有一个训练库,里面是从0到9的手写数字图案若干组。

所以我们首先应该将这些图案读入程序中,然后运用某种方式保存好,用来后面识别图片。

这里的图案我们假设是大小不一的,里面手写的数字也是有大有小。所以我们可以将包住手写数字图案的最小矩形给裁剪出来,然后将裁剪出来的图案统一给拉伸成相同大小的图案。

以上操作得出一个矩阵,这个矩阵的值是图案的灰度值。对于训练用的图片和被检测的图片我们都是这样处理。

图像识别的算法处理

我这里想用两个方法来让数字识别准确点:

  • 识别所写数字的“洞数”;
  • 将图片转为1xn的向量,然后根据根据训练图片分出的类对被识别图片图片进行分类。

洞数就是某个数字是否有闭合的曲线,比如说7没有洞,6有一个洞,8有两个洞。所以我们根据洞数可以分成以下三类

0洞:1, 2, 3, 4, 5, 7
1洞:6, 9, 0
2洞:8

但是因为各种手写差异,比如说6, 9, 8之类的没有闭合,4上面闭合,所以会导致下面这种可能情况

0洞:1, 2, 3, 4, 5, 6, 7, 9
1洞:6, 8, 9, 0
2洞:8

虽然说这样分类0洞占大多数,但是聊胜于无。

对于将图片转为向量的意思就是将图片原本的二维矩阵展开称为一维向量。这个用numpy的函数可以可以很简单的实现。

对于这个分类,下面我就简单的讲一下原理。

假设我们在二维平面上有两个点A=(1,1)和B=(5,5),我现在再放一个点C=(2,2),那么请问,C点离哪一个更近?

学过初中数学的都会知道肯定是离A点更近。所以我们换一种说法,我们现在有两个类A和B,A类中包括了点(1,1),B类中包括了点(5,5),所以对于点(2,2),它可能属于哪一类?

因为这个点离A类的点更近一点,所以它可能属于A类。这就是结论。那么对于3维空间,A类是点(1,1,1)和B类是(5,5,5),那么对于点(2,2,2)肯定也是属于A类。

可以看出,我们这里是将两个点的距离来作为判断属于哪一类的标准。那么对于我们将图片拉成的1xn维向量,他实际上投影到n维空间上就是一个点,所以我们将训练向量分成10类,分别代表十个数字,那么被识别数字靠近哪一个类,那说明它有可能属于这一个类。

那么我们这里可以假设对于被识别向量,列出距离他最近的前十个向量分别属于哪一类别,然后根据名次加上一个权重,并计算出一个值。该值代表了可能是属于哪一个类,因此这就是我们得出的最终的一个结果――被识别手写数字图片的值。

难点

保存已训练图片的向量。这一条我想就直接保存在csv文件中,每一次运算时先判断是否有新的训练图片加入,如果有,则把新的图片向量也存入csv文件中。若没有,则直接读取所有向量保存在一个大矩阵中用于计算。

将手写数字从背景中分离。因为我这里令手写数字为黑色(灰度值为0),其他背景色尽量为,所以就令灰度值大于某个界限(如50)的点全部为255(白色),其余不变。这样子只要非255,那就是手写数字的点。

识别手写数字的洞。这个有算法,搞过程序设计竞赛的应该会了解。具体我就不细讲了,大概就是利用递归之类的去寻找。

求向量距离。这个更简单了,求解每一个训练向量与识别向量的距离就行,只不过当训练向量比较大的时候可能比较慢。

总结

以上就是全部思路,如果诸位有更好的想法,欢迎评论/私信我,让我们一起相互学习进步,谢谢。


  • 上一条:
    Python实现PS滤镜特效Marble Filter玻璃条纹扭曲效果示例
    下一条:
    Python实现PS滤镜Fish lens图像扭曲效果示例
  • 昵称:

    邮箱:

    0条评论 (评论内容有缓存机制,请悉知!)
    最新最热
    • 分类目录
    • 人生(杂谈)
    • 技术
    • linux
    • Java
    • php
    • 框架(架构)
    • 前端
    • ThinkPHP
    • 数据库
    • 微信(小程序)
    • Laravel
    • Redis
    • Docker
    • Go
    • swoole
    • Windows
    • Python
    • 苹果(mac/ios)
    • 相关文章
    • 在python语言中Flask框架的学习及简单功能示例(0个评论)
    • 在Python语言中实现GUI全屏倒计时代码示例(0个评论)
    • Python + zipfile库实现zip文件解压自动化脚本示例(0个评论)
    • python爬虫BeautifulSoup快速抓取网站图片(1个评论)
    • vscode 配置 python3开发环境的方法(0个评论)
    • 近期文章
    • 在windows10中升级go版本至1.24后LiteIDE的Ctrl+左击无法跳转问题解决方案(0个评论)
    • 智能合约Solidity学习CryptoZombie第四课:僵尸作战系统(0个评论)
    • 智能合约Solidity学习CryptoZombie第三课:组建僵尸军队(高级Solidity理论)(0个评论)
    • 智能合约Solidity学习CryptoZombie第二课:让你的僵尸猎食(0个评论)
    • 智能合约Solidity学习CryptoZombie第一课:生成一只你的僵尸(0个评论)
    • 在go中实现一个常用的先进先出的缓存淘汰算法示例代码(0个评论)
    • 在go+gin中使用"github.com/skip2/go-qrcode"实现url转二维码功能(0个评论)
    • 在go语言中使用api.geonames.org接口实现根据国际邮政编码获取地址信息功能(1个评论)
    • 在go语言中使用github.com/signintech/gopdf实现生成pdf分页文件功能(95个评论)
    • gmail发邮件报错:534 5.7.9 Application-specific password required...解决方案(0个评论)
    • 近期评论
    • 122 在

      学历:一种延缓就业设计,生活需求下的权衡之选中评论 工作几年后,报名考研了,到现在还没认真学习备考,迷茫中。作为一名北漂互联网打工人..
    • 123 在

      Clash for Windows作者删库跑路了,github已404中评论 按理说只要你在国内,所有的流量进出都在监控范围内,不管你怎么隐藏也没用,想搞你分..
    • 原梓番博客 在

      在Laravel框架中使用模型Model分表最简单的方法中评论 好久好久都没看友情链接申请了,今天刚看,已经添加。..
    • 博主 在

      佛跳墙vpn软件不会用?上不了网?佛跳墙vpn常见问题以及解决办法中评论 @1111老铁这个不行了,可以看看近期评论的其他文章..
    • 1111 在

      佛跳墙vpn软件不会用?上不了网?佛跳墙vpn常见问题以及解决办法中评论 网站不能打开,博主百忙中能否发个APP下载链接,佛跳墙或极光..
    • 2016-10
    • 2016-11
    • 2018-04
    • 2020-03
    • 2020-04
    • 2020-05
    • 2020-06
    • 2022-01
    • 2023-07
    • 2023-10
    Top

    Copyright·© 2019 侯体宗版权所有· 粤ICP备20027696号 PHP交流群

    侯体宗的博客