使用Python做垃圾分类的原理及实例代码附源码-侯体宗的博客

使用Python做垃圾分类的原理及实例代码附源码
Python / 管理员发布于 7年前 137

0 引言

纸巾再湿也是干垃圾？瓜子皮再干也是湿垃圾？？最近大家都被垃圾分类折磨的不行，傻傻的你是否拎得清？😭😭😭自2019.07.01开始，上海已率先实施垃圾分类制度，违反规定的还会面临罚款。

为了避免巨额损失，我决定来b站学习下垃圾分类的技巧。为什么要来b站，听说这可是当下年轻人最流行的学习途径之一。

打开b站，搜索了下垃圾分类，上来就被这个标题吓(吸)到(引)了：在上海丢人的正确姿势。

当然，这里的丢人非彼丢人，指的是丢垃圾的丢。

点开发现，原来是一段对口相声啊，还是两个萌妹子(AI)的对口相声，瞬间就来了兴趣，阐述的是关于如何进行垃圾分类的。

原视频链接：https://www.bilibili.com/video/av57129646?from=search&seid=9101123388170190749

看完一遍又一遍，简直停不下来了，已经开启了洗脑模式，毕竟视频很好玩，视频中的弹幕更是好玩！

独乐乐不如众乐乐，且不如用Python把弹幕保存下来，做个词云图？就这么愉快地决定了！

1 环境

操作系统：Windows

Python版本：3.7.3

2 需求分析

我们先需要通过开发调试工具，查询这条视频的弹幕的 cid 数据。

拿到 cid 之后，再填入下面的链接中。

http://comment.bilibili.com/{cid}.xml

打开之后，就可以看到该视频的弹幕列表。

有了弹幕数据后，我们需要先将解析好，并保存在本地，方便进一步的加工处理，如制成词云图进行展示。

3 代码实现

在这里，我们获取网页的请求使用 requests 模块；解析网址借助 beautifulsoup4 模块；保存为CSV数据，这里借用 pandas 模块。因为都是第三方模块，如环境中没有可以使用 pip 进行安装。

pip install requestspip install beautifulsoup4pip install lxmlpip install pandas

模块安装好之后，进行导入

import requestsfrom bs4 import BeautifulSoupimport pandas as pd

请求、解析、保存弹幕数据

# 请求弹幕数据url = 'http://comment.bilibili.com/99768393.xml'html = requests.get(url).content# 解析弹幕数据html_data = str(html, 'utf-8')bs4 = BeautifulSoup(html_data, 'lxml')results = bs4.find_all('d')comments = [comment.text for comment in results]comments_dict = {'comments': comments}# 将弹幕数据保存在本地br = pd.DataFrame(comments_dict)br.to_csv('barrage.csv', encoding='utf-8')

接下来，我们就对保存好的弹幕数据进行深加工。

制作词云，我们需要用到 wordcloud 模块、matplotlib 模块、jieba 模块，同样都是第三方模块，直接用 pip 进行安装。

pip install wordcloudpip install matplotlibpip install jieba

模块安装好之后，进行导入，因为我们读取文件用到了 panda 模块，所以一并导入即可

from wordcloud import WordCloud, ImageColorGeneratorimport matplotlib.pyplot as pltimport pandas as pdimport jieba

我们可以自行选择一张图片，并基于此图片来生成一张定制的词云图。我们可以自定义一些词云样式，代码如下：

# 解析背景图片mask_img = plt.imread('Bulb.jpg')'''设置词云样式'''wc = WordCloud( # 设置字体  font_path='SIMYOU.TTF', # 允许最大词汇量 max_words = 2000, # 设置最大号字体大小 max_font_size = 80, # 设置使用的背景图片 mask = mask_img, # 设置输出的图片背景色 background_color=None, mode="RGBA", # 设置有多少种随机生成状态，即有多少种配色方案 random_state=30)

接下来，我们要读取文本信息（弹幕数据），进行分词并连接起来：

# 读取文件内容br = pd.read_csv('barrage.csv', header=None)# 进行分词，并用空格连起来text = ''for line in br[1]: text += ' '.join(jieba.cut(line, cut_all=False))

最后来看看我们效果图

有没有感受到大家对垃圾分类这个话题的热情，莫名喜感涌上心头。

4 后记

这两个AI萌妹子说的相声很不错，就不知道郭德纲看到这个作品会作何感想。回到垃圾分类的话题，目前《上海市生活垃圾管理条例》已正式施行，不在上海的朋友们也不要太开心，住建部表示，全国其它46个重点城市也即将体验到……

源码，请点击此处。

以上所述是小编给大家介绍的使用Python做垃圾分类的原理及实例代码,希望对大家有所帮助，如果大家有任何疑问请给我留言，小编会及时回复大家的。在此也非常感谢大家对站的支持！
如果你觉得本文对你有帮助，欢迎转载，烦请注明出处，谢谢！

上一条：
Python Pandas分组聚合的实现方法
下一条：
python flask框架实现重定向功能示例

0条评论 (评论内容有缓存机制,请悉知!)

最新最热

近期文章
在go语言中实现字符串可逆性压缩及解压缩功能(0个评论)
使用go + gin + jwt + qrcode实现网站生成登录二维码在app中扫码登录功能(0个评论)
在windows10中升级go版本至1.24后LiteIDE的Ctrl+左击无法跳转问题解决方案(0个评论)
智能合约Solidity学习CryptoZombie第四课:僵尸作战系统(0个评论)
智能合约Solidity学习CryptoZombie第三课:组建僵尸军队(高级Solidity理论)(0个评论)
智能合约Solidity学习CryptoZombie第二课:让你的僵尸猎食(0个评论)
智能合约Solidity学习CryptoZombie第一课:生成一只你的僵尸(0个评论)
在go中实现一个常用的先进先出的缓存淘汰算法示例代码(0个评论)
在go+gin中使用"github.com/skip2/go-qrcode"实现url转二维码功能(0个评论)
在go语言中使用api.geonames.org接口实现根据国际邮政编码获取地址信息功能(1个评论)

近期评论
122 在
学历：一种延缓就业设计，生活需求下的权衡之选中评论工作几年后，报名考研了，到现在还没认真学习备考，迷茫中。作为一名北漂互联网打工人..
123 在
Clash for Windows作者删库跑路了，github已404中评论按理说只要你在国内，所有的流量进出都在监控范围内，不管你怎么隐藏也没用，想搞你分..
原梓番博客在
在Laravel框架中使用模型Model分表最简单的方法中评论好久好久都没看友情链接申请了，今天刚看，已经添加。..
博主在
佛跳墙vpn软件不会用?上不了网?佛跳墙vpn常见问题以及解决办法中评论 @1111老铁这个不行了，可以看看近期评论的其他文章..
1111 在
佛跳墙vpn软件不会用?上不了网?佛跳墙vpn常见问题以及解决办法中评论网站不能打开，博主百忙中能否发个APP下载链接，佛跳墙或极光..

Top