Python信息抽取之乱码解决办法
Python  /  管理员 发布于 7年前   190
Python信息抽取之乱码解决办法
就事论事,直说自己遇到的情况,和我不一样的路过吧,一样的就看看吧
信息抓取,用python,beautifulSoup,lxml,re,urllib2,urllib2去获取想要抽取的页面内容,然后使用lxml或者beautifulSoup进行解析,插入mysql 具体的内容,好了貌似很简单很easy的样子,可是里面的恶心之处就来了,第一,国内开发网站的人在指定网站编码或者是保存网站源码的时候并没有考虑什么编码,反正一句话,一个网站即使你用工具查看或者查看源码头信息查看到他们的源码是utf-8,或者GBK之类的,也别信,哎,什么东西信了就遭殃了,即<meta http-equiv="Content-Type" content="text/html; charset=UTF-8" />
以下给出一些流程:(具体各个库不是我这里向说的哦)
import urllib2 import chardet html = urllib2.urlopen("某网站") print chardet.detect(html) #这里会输出一个字典{'a':0.99999,'encoding':'utf-8'}好,这整个html的编码都知道,该插入以utf-8建立的mysql数据库了吧,但是我就在插入的时候发生错误了,因为我使用lxml以后的字符串不是utf-8,而是Big5(繁体字编码),还有各种未知编码EUC-JP(日本语编码),OK,我采取了unicode方法,先对这个字段进行解码,在进行编码
if chardet.detect(name)['encoding'] == 'GB2312': name = unicode(name,'GB2312','ignore').encode('utf-8','ignore')elif chardet.detect(name)['encoding'] == 'Big5': name = unicode(name,'Big5','ignore').encode('utf-8','ignore')elif chardet.detect(name)['encoding'] == 'ascii': name = unicode(name,'ascii','ignore').encode('utf-8','ignore')elif chardet.detect(name)['encoding'] == 'GBK': name = unicode(name,'GBK','ignore').encode('utf-8','ignore')elif chardet.detect(name)['encoding'] == 'EUC-JP': name = unicode(name,'EUC-JP','ignore').encode('utf-8','ignore')else: name = '未知'感谢阅读,希望能帮助到大家,谢谢大家对本站的支持!
122 在
学历:一种延缓就业设计,生活需求下的权衡之选中评论 工作几年后,报名考研了,到现在还没认真学习备考,迷茫中。作为一名北漂互联网打工人..123 在
Clash for Windows作者删库跑路了,github已404中评论 按理说只要你在国内,所有的流量进出都在监控范围内,不管你怎么隐藏也没用,想搞你分..原梓番博客 在
在Laravel框架中使用模型Model分表最简单的方法中评论 好久好久都没看友情链接申请了,今天刚看,已经添加。..博主 在
佛跳墙vpn软件不会用?上不了网?佛跳墙vpn常见问题以及解决办法中评论 @1111老铁这个不行了,可以看看近期评论的其他文章..1111 在
佛跳墙vpn软件不会用?上不了网?佛跳墙vpn常见问题以及解决办法中评论 网站不能打开,博主百忙中能否发个APP下载链接,佛跳墙或极光..
Copyright·© 2019 侯体宗版权所有·
粤ICP备20027696号
