Python3 解决读取中文文件txt编码的问题-侯体宗的博客

Python3 解决读取中文文件txt编码的问题
Python / 管理员发布于 8年前 469

问题描述

尝试用Python写一个Wordcloud的时候，出现了编码问题。

照着网上某些博客的说法添添改改后，结果是变成了“UnicodeDecodeError: ‘utf-8' codec can't decode byte…”这个错误。

捣鼓了一天啊，TXT（此处为本人现下内心表情）。最后，干脆写个最简单的文件读取，竟然还是报错。于是就考虑是不是txt的编码问题，因为读取的txt文件是在Mac上面新建的纯文本文件，一时没找到在哪里查看编码，最后拷贝到Windows系统上，查看了txt文件的编码，竟然是ASCII，不是我最爱的utf-8，Mac你辜负了我对你的一番信任啊！ε(┬┬n┬┬)3

解决方法

将txt文件的编码格式改为utf-8即可

此外，在打开文件的时候，要加上第三个参数encoding=‘utf8'(没有横杠)。

with open('./test3.txt','r',encoding='utf8') as fin:  for line in fin.readlines():    line = line.strip('\n')

下面附上第一次成功显示的词云的源码（参考网上他人的，注释很详细）

import jiebaimport jieba.analysefrom matplotlib import pyplot as pltfrom scipy.misc import imreadfrom wordcloud import WordCloud,STOPWORDS,ImageColorGenerator # 1.读取数据with open("./test.txt","r",encoding="utf8") as f:  text = f.read() # 2.基于 TextRank 算法的关键词抽取,top50keywords = jieba.analyse.textrank(text, topK=50, withWeight=False, allowPOS=('ns', 'n', 'vn', 'v'))file = ",".join(keywords) # 指定中文字体，不然中文显示框框font = r'./HYQiHei-25J.ttf'print(file)# 指定背景图,随意image = imread('cake.jpg')wc = WordCloud(  font_path=font,  background_color='white',#背景色  mask=image,#背景图  stopwords=STOPWORDS,#设置停用词  max_words=100,#设置最大文字数  max_font_size=100,#设置最大字体  width=800,  height=1000, ) #生成词云image_colors = ImageColorGenerator(image)wc.generate(file) # 使用matplotlib,显示词云图plt.imshow(wc) #显示词云图plt.axis('off') #关闭坐标轴plt.show()# 保存图片wc.to_file('news.png')

以上这篇Python3 解决读取中文文件txt编码的问题就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持。

上一条：
基于Python 中函数的收集参数机制
下一条：
python 类之间的参数传递方式

0条评论 (评论内容有缓存机制,请悉知!)

最新最热

近期评论
test1 在
opencode + Oh-my-openagent,我的第一个免费的ai编程智能体管家:Sisyphus中评论 test..
122 在
学历：一种延缓就业设计，生活需求下的权衡之选中评论工作几年后，报名考研了，到现在还没认真学习备考，迷茫中。作为一名北漂互联网打工人..
Zita 在
Google AI Studio升级全栈 vibe coding体验，可直接构建带登录和数据库的应用中评论 111222..
123 在
Clash for Windows作者删库跑路了，github已404中评论按理说只要你在国内，所有的流量进出都在监控范围内，不管你怎么隐藏也没用，想搞你分..
原梓番博客在
在Laravel框架中使用模型Model分表最简单的方法中评论好久好久都没看友情链接申请了，今天刚看，已经添加。..

Top