python3 实现爬取TOP500的音乐信息并存储到mongoDB数据库中-侯体宗的博客

python3 实现爬取TOP500的音乐信息并存储到mongoDB数据库中
Python / 管理员发布于 8年前 253

爬取TOP500的音乐信息，包括排名情况、歌曲名、歌曲时间。

网页版酷狗不能手动翻页进行下一步的浏览，仔细观察第一页的URL：

http://www.kugou.com/yy/rank/home/1-8888.html

这里尝试将1改为2，再进行浏览，恰好是第二页的信息，再改为3，恰好是第三页的信息，多次尝试发现不同的数字即为不同的页面。因此只需更改home/后面的数字即可。由于每页显示的为22首歌曲，所以总共需要23个URL。

import requestsfrom bs4 import BeautifulSoupfrom time import sleepimport pymongo#连接数据库client = pymongo.MongoClient(‘localhost',27017)mydb = client[‘yourdb']#创建数据库musicTop = mydb[‘musicTop']#使用header是用于伪装为浏览器，让爬虫更稳定Headers = {‘User-Agent': ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.67 Safari/537.36'}#定义获取信息的函数def get_info(url):wd_data = requests.get(url,headers=Headers)soup = BeautifulSoup(wd_data.text,‘lxml')#获取排名情况ranks = soup.select(‘span.pc_temp_num')#获取标题titles = soup.select(‘div.pc_temp_songlist > ul > li > a')#获取时间times = soup.select(‘span.pc_temp_tips_r > span')for rank,title,time in zip(ranks,titles,times):data = {‘rank':rank.get_text().strip(),‘singer':title.get_text(),‘song':title.get_text(),‘time':time.get_text().strip()}musicTop.insert_one(data) #存入数据库中if name == ‘main':urls = [‘http://www.kugou.com/yy/rank/home/{}-8888.html'.format(number) for number in range(1,24)]for url in urls:get_info(url)sleep(2)

运行后，爬取的数据在mongoDB数据库中显示如下：

以上这篇python3 实现爬取TOP500的音乐信息并存储到mongoDB数据库中就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持。

上一条：
python爬虫之爬取百度音乐的实现方法
下一条：
python处理自动化任务之同时批量修改word里面的内容的方法

0条评论 (评论内容有缓存机制,请悉知!)

最新最热

近期评论
test1 在
opencode + Oh-my-openagent,我的第一个免费的ai编程智能体管家:Sisyphus中评论 test..
122 在
学历：一种延缓就业设计，生活需求下的权衡之选中评论工作几年后，报名考研了，到现在还没认真学习备考，迷茫中。作为一名北漂互联网打工人..
Zita 在
Google AI Studio升级全栈 vibe coding体验，可直接构建带登录和数据库的应用中评论 111222..
123 在
Clash for Windows作者删库跑路了，github已404中评论按理说只要你在国内，所有的流量进出都在监控范围内，不管你怎么隐藏也没用，想搞你分..
原梓番博客在
在Laravel框架中使用模型Model分表最简单的方法中评论好久好久都没看友情链接申请了，今天刚看，已经添加。..

Top