python 爬虫 批量获取代理ip的实例代码
Python  /  管理员 发布于 7年前   175
实例如下所示:
import urllib.requestimport os, re,sys,timetry: from StringIO import StringIOexcept ImportError: from io import StringIOloca = re.compile(r"""ion":"\D+", "ti""")#伪装成浏览器header = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/44.0.2403.157 Safari/537.36'}class Getip(): def __init__(self,diqu): self.ur ={"xicidaili国内普通代理 --1线":"http://www.xicidaili.com/nt/","ip84国内普通代理 --2线":'http://www.ip84.com/dlpn-http/','xicidaili国内高匿名代理 --1线':'http://www.xicidaili.com/nn/', 'ip84国内高匿名代理 --2线':'http://www.ip84.com/dlgn-http/', 'xicidaili国外高匿名代理 --1线':'http://www.xicidaili.com/wn/', 'ip84国外高匿名代理 --2线':'http://www.ip84.com/gwgn-http/', 'xicidaili国外普通代理 --1线':'http://www.xicidaili.com/wt/', 'haodailiip国内混合代理 --3线':'http://www.haodailiip.com/guonei/', 'haodailiip国外混合代理 --3线':'http://www.haodailiip.com/guoji/', } self.diqu = diqu def urlopen(self,url): global header try: req = urllib.request.Request(url, None, header) res=urllib.request.urlopen(req) return res except: pass def getip(self,ren): '''url = "http://proxy.ipcn.org/proxylist.html"#代理IP页面 ip_proxy_re = re.compile(r"""\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3}:\d{1,}""")# 直接匹配 xxx.xxx.xxx.xxx:xxxx''' url = self.ur[self.diqu]+str(ren) ip_proxy_re = re.compile(r'(\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3})\s*</td>\s*<td>\s*(\d{1,})\s*</td>\s*<[^\u4E00-\u9FA5]+>([\u4E00-\u9FA5]*\s*[\u4E00-\u9FA5]*\s*[\u4E00-\u9FA5]*)\s*<') #################################通用正则匹配的 格式 是 (IP,端口,地区) 地区有可能包含换行和空格 try: data = self.urlopen(url).read().decode('utf-8') except: return None self.rel = [] ip = ip_proxy_re.findall(data) ##########返回的IP 就是 正则匹配的结果(IP,端口,地区) 地区有可能包含换行和空格 return ip if __name__ == '__main__': g=Getip("xicidaili国内普通代理 --1线") import pprint for x in range(4): ips = g.getip(1) print('获取到ip地址一共:',len(ips)) pprint.pprint(ips)
以上这篇python 爬虫 批量获取代理ip的实例代码就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持。
122 在
学历:一种延缓就业设计,生活需求下的权衡之选中评论 工作几年后,报名考研了,到现在还没认真学习备考,迷茫中。作为一名北漂互联网打工人..123 在
Clash for Windows作者删库跑路了,github已404中评论 按理说只要你在国内,所有的流量进出都在监控范围内,不管你怎么隐藏也没用,想搞你分..原梓番博客 在
在Laravel框架中使用模型Model分表最简单的方法中评论 好久好久都没看友情链接申请了,今天刚看,已经添加。..博主 在
佛跳墙vpn软件不会用?上不了网?佛跳墙vpn常见问题以及解决办法中评论 @1111老铁这个不行了,可以看看近期评论的其他文章..1111 在
佛跳墙vpn软件不会用?上不了网?佛跳墙vpn常见问题以及解决办法中评论 网站不能打开,博主百忙中能否发个APP下载链接,佛跳墙或极光..
Copyright·© 2019 侯体宗版权所有·
粤ICP备20027696号