python jieba分词并统计词频后输出结果到Excel和txt文档方法-侯体宗的博客

python jieba分词并统计词频后输出结果到Excel和txt文档方法
Python / 管理员发布于 8年前 303

前两天，班上同学写论文，需要将很多篇论文题目按照中文的习惯分词并统计每个词出现的频率。

让我帮她实现这个功能，我在网上查了之后发现jieba这个库还挺不错的。

运行环境：

安装python2.7.13：https://www.python.org/downloads/release/python-2713/
安装jieba：pip install jieba
安装xlwt：pip install xlwt

具体代码如下：

#!/usr/bin/python # -*- coding:utf-8 -*-  import sys reload(sys)  sys.setdefaultencoding('utf-8')  import jieba import jieba.analyse import xlwt #写入Excel表的库  if __name__=="__main__":   wbk = xlwt.Workbook(encoding = 'ascii')  sheet = wbk.add_sheet("wordCount")#Excel单元格名字  word_lst = []  key_list=[]  for line in open('1.txt'):#1.txt是需要分词统计的文档    item = line.strip('\n\r').split('\t') #制表格切分   # print item   tags = jieba.analyse.extract_tags(item[0]) #jieba分词   for t in tags:    word_lst.append(t)   word_dict= {}  with open("wordCount.txt",'w') as wf2: #打开文件    for item in word_lst:    if item not in word_dict: #统计数量     word_dict[item] = 1    else:     word_dict[item] += 1    orderList=list(word_dict.values())   orderList.sort(reverse=True)   # print orderList   for i in range(len(orderList)):    for key in word_dict:     if word_dict[key]==orderList[i]:      wf2.write(key+' '+str(word_dict[key])+'\n') #写入txt文档      key_list.append(key)      word_dict[key]=0      for i in range(len(key_list)):   sheet.write(i, 1, label = orderList[i])   sheet.write(i, 0, label = key_list[i])  wbk.save('wordCount.xls') #保存为 wordCount.xls文件

1.txt是你需要分词统计的文本内容，最后会生成wordCount.txt和wordCount.xls两个文件。下图是最后结果

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持。

上一条：
分析Python读取文件时的路径问题
下一条：
python实现媒体播放器功能

0条评论 (评论内容有缓存机制,请悉知!)

最新最热

近期评论
test1 在
opencode + Oh-my-openagent,我的第一个免费的ai编程智能体管家:Sisyphus中评论 test..
122 在
学历：一种延缓就业设计，生活需求下的权衡之选中评论工作几年后，报名考研了，到现在还没认真学习备考，迷茫中。作为一名北漂互联网打工人..
Zita 在
Google AI Studio升级全栈 vibe coding体验，可直接构建带登录和数据库的应用中评论 111222..
123 在
Clash for Windows作者删库跑路了，github已404中评论按理说只要你在国内，所有的流量进出都在监控范围内，不管你怎么隐藏也没用，想搞你分..
原梓番博客在
在Laravel框架中使用模型Model分表最简单的方法中评论好久好久都没看友情链接申请了，今天刚看，已经添加。..

Top