侯体宗的博客
  • 首页
  • Hyperf版
  • beego仿版
  • 人生(杂谈)
  • 技术
  • 关于我
  • 更多分类
    • 文件下载
    • 文字修仙
    • 中国象棋ai
    • 群聊
    • 九宫格抽奖
    • 拼图
    • 消消乐
    • 相册

Python实现爬虫爬取NBA数据功能示例

Python  /  管理员 发布于 7年前   221

本文实例讲述了Python实现爬虫爬取NBA数据功能。分享给大家供大家参考,具体如下:

爬取的网站为:stat-nba.com,这里爬取的是NBA2016-2017赛季常规赛至2017年1月7日的数据

改变url_header和url_tail即可爬取特定的其他数据。

源代码如下:

#coding=utf-8import sysreload(sys)sys.setdefaultencoding('utf-8')import requestsimport timeimport urllibfrom bs4 import BeautifulSoupimport refrom pyExcelerator import *def getURLLists(url_header,url_tail,pages):  """  获取所有页面的URL列表  """  url_lists = []  url_0 = url_header+'0'+url_tail  print url_0  url_lists.append(url_0)  for i in range(1,pages+1):    url_temp = url_header+str(i)+url_tail    url_lists.append(url_temp)  return url_listsdef getNBAAllData(url_lists):  """  获取所有2017赛季NBA常规赛数据  """  datasets = ['']  for item in url_lists:    data1 = getNBASingleData(item)    datasets.extend(data1)  #去掉数据里的空元素  for item in datasets[:]:    if len(item) == 0:      datasets.remove(item)  return datasetsdef getNBASingleData(url):  """  获取1个页面NBA常规赛数据  """  # url = 'http://stat-nba.com/query_team.php?QueryType=game&order=1&crtcol=date_out&GameType=season&PageNum=3000&Season0=2016&Season1=2017'  # html = requests.get(url).text  html = urllib.urlopen(url).read()  # print html  soup = BeautifulSoup(html)  data = soup.html.body.find('tbody').text  list_data = data.split('\n')  # with open('nba_data.txt','a') as fp:  #   fp.write(data)  # for item in list_data[:]:  #   if len(item) == 0:  #     list_data.remove(item)  return list_datadef saveDataToExcel(datasets,sheetname,filename):  book = Workbook()  sheet = book.add_sheet(sheetname)  sheet.write(0,0,u'序号')  sheet.write(0,1,u'球队')  sheet.write(0,2,u'时间')  sheet.write(0,3,u'结果')  sheet.write(0,4,u'主客')  sheet.write(0,5,u'比赛')  sheet.write(0,6,u'投篮命中率')  sheet.write(0,7,u'命中数')  sheet.write(0,8,u'出手数')  sheet.write(0,9,u'三分命中率')  sheet.write(0,10,u'三分命中数')  sheet.write(0,11,u'三分出手数')  sheet.write(0,12,u'罚球命中率')  sheet.write(0,13,u'罚球命中数')  sheet.write(0,14,u'罚球出手数')  sheet.write(0,15,u'篮板')  sheet.write(0,16,u'前场篮板')  sheet.write(0,17,u'后场篮板')  sheet.write(0,18,u'助攻')  sheet.write(0,19,u'抢断')  sheet.write(0,20,u'盖帽')  sheet.write(0,21,u'失误')  sheet.write(0,22,u'犯规')  sheet.write(0,23,u'得分')  num = 24  row_cnt = 0  data_cnt = 0  data_len = len(datasets)  print 'data_len:',data_len  while(data_cnt< data_len):    row_cnt += 1    print '序号:',row_cnt    for col in range(num):        # print col        sheet.write(row_cnt,col,datasets[data_cnt])        data_cnt += 1  book.save(filename)def writeDataToTxt(datasets):  fp = open('nba_data.txt','w')  line_cnt = 1  for i in range(len(datasets)-1):    #球队名称对齐的操作:如果球队名字过短或者为76人队是 球队名字后面加两个table 否则加1个table    if line_cnt % 24 == 2 and len(datasets[i]) < 5 or datasets[i] == u'费城76人':      fp.write(datasets[i]+'\t\t')    else:      fp.write(datasets[i]+'\t')    line_cnt += 1    if line_cnt % 24 == 1:      fp.write('\n')  fp.close()if __name__ == "__main__":  pages = int(1132/150)  url_header = 'http://stat-nba.com/query_team.php?page='  url_tail = '&QueryType=game&order=1&crtcol=date_out&GameType=season&PageNum=3000&Season0=2016&Season1=2017#label_show_result'  url_lists = getURLLists(url_header,url_tail,pages)  datasets = getNBAAllData(url_lists)  writeDataToTxt(datasets)  sheetname = 'nba normal data 2016-2017'  str_time = time.strftime('%Y-%m-%d',time.localtime(time.time()))  filename = 'nba_normal_data'+str_time+'.xls'  saveDataToExcel(datasets,sheetname,filename)

更多关于Python相关内容可查看本站专题:《Python Socket编程技巧总结》、《Python正则表达式用法总结》、《Python数据结构与算法教程》、《Python函数使用技巧总结》、《Python字符串操作技巧汇总》、《Python入门与进阶经典教程》及《Python文件与目录操作技巧汇总》

希望本文所述对大家Python程序设计有所帮助。


  • 上一条:
    Python+selenium实现自动循环扔QQ邮箱漂流瓶
    下一条:
    Python实现合并两个列表的方法分析
  • 昵称:

    邮箱:

    0条评论 (评论内容有缓存机制,请悉知!)
    最新最热
    • 分类目录
    • 人生(杂谈)
    • 技术
    • linux
    • Java
    • php
    • 框架(架构)
    • 前端
    • ThinkPHP
    • 数据库
    • 微信(小程序)
    • Laravel
    • Redis
    • Docker
    • Go
    • swoole
    • Windows
    • Python
    • 苹果(mac/ios)
    • 相关文章
    • 在python语言中Flask框架的学习及简单功能示例(0个评论)
    • 在Python语言中实现GUI全屏倒计时代码示例(0个评论)
    • Python + zipfile库实现zip文件解压自动化脚本示例(0个评论)
    • python爬虫BeautifulSoup快速抓取网站图片(1个评论)
    • vscode 配置 python3开发环境的方法(0个评论)
    • 近期文章
    • 在go语言中使用api.geonames.org接口实现根据国际邮政编码获取地址信息功能(1个评论)
    • 在go语言中使用github.com/signintech/gopdf实现生成pdf分页文件功能(0个评论)
    • gmail发邮件报错:534 5.7.9 Application-specific password required...解决方案(0个评论)
    • 欧盟关于强迫劳动的规定的官方举报渠道及官方举报网站(0个评论)
    • 在go语言中使用github.com/signintech/gopdf实现生成pdf文件功能(0个评论)
    • Laravel从Accel获得5700万美元A轮融资(0个评论)
    • 在go + gin中gorm实现指定搜索/区间搜索分页列表功能接口实例(0个评论)
    • 在go语言中实现IP/CIDR的ip和netmask互转及IP段形式互转及ip是否存在IP/CIDR(0个评论)
    • PHP 8.4 Alpha 1现已发布!(0个评论)
    • Laravel 11.15版本发布 - Eloquent Builder中添加的泛型(0个评论)
    • 近期评论
    • 122 在

      学历:一种延缓就业设计,生活需求下的权衡之选中评论 工作几年后,报名考研了,到现在还没认真学习备考,迷茫中。作为一名北漂互联网打工人..
    • 123 在

      Clash for Windows作者删库跑路了,github已404中评论 按理说只要你在国内,所有的流量进出都在监控范围内,不管你怎么隐藏也没用,想搞你分..
    • 原梓番博客 在

      在Laravel框架中使用模型Model分表最简单的方法中评论 好久好久都没看友情链接申请了,今天刚看,已经添加。..
    • 博主 在

      佛跳墙vpn软件不会用?上不了网?佛跳墙vpn常见问题以及解决办法中评论 @1111老铁这个不行了,可以看看近期评论的其他文章..
    • 1111 在

      佛跳墙vpn软件不会用?上不了网?佛跳墙vpn常见问题以及解决办法中评论 网站不能打开,博主百忙中能否发个APP下载链接,佛跳墙或极光..
    • 2016-10
    • 2016-11
    • 2018-04
    • 2020-03
    • 2020-04
    • 2020-05
    • 2020-06
    • 2022-01
    • 2023-07
    • 2023-10
    Top

    Copyright·© 2019 侯体宗版权所有· 粤ICP备20027696号 PHP交流群

    侯体宗的博客