侯体宗的博客
  • 首页
  • Hyperf版
  • beego仿版
  • 人生(杂谈)
  • 技术
  • 关于我
  • 更多分类
    • 文件下载
    • 文字修仙
    • 中国象棋ai
    • 群聊
    • 九宫格抽奖
    • 拼图
    • 消消乐
    • 相册

python实现机械分词之逆向最大匹配算法代码示例

Python  /  管理员 发布于 7年前   192

逆向最大匹配方法

有正即有负,正向最大匹配算法大家可以参阅///article/127404.htm

逆向最大匹配分词是中文分词基本算法之一,因为是机械切分,所以它也有分词速度快的优点,且逆向最大匹配分词比起正向最大匹配分词更符合人们的语言习惯。逆向最大匹配分词需要在已有词典的基础上,从被处理文档的末端开始匹配扫描,每次取最末端的i个字符(分词所确定的阈值i)作为匹配字段,若匹配失败,则去掉匹配字段最前面的一个字,继续匹配。而且选择的阈值越大,分词越慢,但准确性越好。

逆向最大匹配算法python实现:

分词文本示例:

分词词典words.xlsx示例:

#!/usr/bin/env python #-*- coding:utf-8 -*-  ''''' 用逆向最大匹配法分词,不去除停用词 ''' import codecs import xlrd  #读取待分词文本,readlines()返回句子list def readfile(raw_file_path):   with codecs.open(raw_file_path,"r",encoding="ANSI") as f:     raw_file=f.readlines()     return raw_file #读取分词词典,返回分词词典list def read_dic(dic_path):   excel = xlrd.open_workbook(dic_path)   sheet = excel.sheets()[0]   # 读取第二列的数据   data_list = list(sheet.col_values(1))[1:]   return data_list #逆向最大匹配法分词 def cut_words(raw_sentences,word_dic):   word_cut=[]   #最大词长,分词词典中的最大词长,为初始分词的最大词长   max_length=max(len(word) for word in word_dic)   for sentence in raw_sentences:     #strip()函数返回一个没有首尾空白字符(‘\n'、‘\r'、‘\t'、‘')的sentence,避免分词错误     sentence=sentence.strip()     #单句中的字数     words_length = len(sentence)     #存储切分出的词语     cut_word_list=[]     #判断句子是否切分完毕     while words_length > 0:       max_cut_length = min(words_length, max_length)       for i in range(max_cut_length, 0, -1):         #根据切片性质,截取words_length-i到words_length-1索引的字,不包括words_length,所以不会溢出         new_word = sentence[words_length - i: words_length]         if new_word in word_dic:           cut_word_list.append(new_word)           words_length = words_length - i           break         elif i == 1:           cut_word_list.append(new_word)           words_length = words_length - 1     #因为是逆向最大匹配,所以最终需要把结果逆向输出,转换为原始顺序     cut_word_list.reverse()     words="/".join(cut_word_list)     #最终把句子首端的分词符号删除,是避免以后将分词结果转化为列表时会出现空字符串元素     word_cut.append(words.lstrip("/"))   return word_cut #输出分词文本 def outfile(out_path,sentences):   #输出模式是“a”即在原始文本上继续追加文本   with codecs.open(out_path,"a","utf8") as f:     for sentence in sentences:       f.write(sentence)   print("well done!") def main():   #读取待分词文本   rawfile_path = r"逆向分词文本.txt"   raw_file=readfile(rawfile_path)   #读取分词词典   wordfile_path = r"words.xlsx"   words_dic = read_dic(wordfile_path)   #逆向最大匹配法分词   content_cut = cut_words(raw_file,words_dic)   #输出文本   outfile_path = r"分词结果.txt"   outfile(outfile_path,content_cut) if __name__=="__main__":   main() 

总结

分析分词结果可以知道,机械分词的效果优劣,一方面与分词匹配算法有关,另外一方面极其依赖分词词典。所以若想得到好的分词效果,处理相关领域的文本时,需要在分词词典中加入特定领域的词汇。

以上就是本文关于python实现机械分词之逆向最大匹配算法代码示例的全部内容,希望对大家有所帮助。感兴趣的朋友可以继续参阅本站其他相关专题,如有不足之处,欢迎留言指出。感谢朋友们对本站的支持!


  • 上一条:
    Python编程产生非均匀随机数的几种方法代码分享
    下一条:
    Python语言描述KNN算法与Kd树
  • 昵称:

    邮箱:

    0条评论 (评论内容有缓存机制,请悉知!)
    最新最热
    • 分类目录
    • 人生(杂谈)
    • 技术
    • linux
    • Java
    • php
    • 框架(架构)
    • 前端
    • ThinkPHP
    • 数据库
    • 微信(小程序)
    • Laravel
    • Redis
    • Docker
    • Go
    • swoole
    • Windows
    • Python
    • 苹果(mac/ios)
    • 相关文章
    • 在python语言中Flask框架的学习及简单功能示例(0个评论)
    • 在Python语言中实现GUI全屏倒计时代码示例(0个评论)
    • Python + zipfile库实现zip文件解压自动化脚本示例(0个评论)
    • python爬虫BeautifulSoup快速抓取网站图片(1个评论)
    • vscode 配置 python3开发环境的方法(0个评论)
    • 近期文章
    • 在windows10中升级go版本至1.24后LiteIDE的Ctrl+左击无法跳转问题解决方案(0个评论)
    • 智能合约Solidity学习CryptoZombie第四课:僵尸作战系统(0个评论)
    • 智能合约Solidity学习CryptoZombie第三课:组建僵尸军队(高级Solidity理论)(0个评论)
    • 智能合约Solidity学习CryptoZombie第二课:让你的僵尸猎食(0个评论)
    • 智能合约Solidity学习CryptoZombie第一课:生成一只你的僵尸(0个评论)
    • 在go中实现一个常用的先进先出的缓存淘汰算法示例代码(0个评论)
    • 在go+gin中使用"github.com/skip2/go-qrcode"实现url转二维码功能(0个评论)
    • 在go语言中使用api.geonames.org接口实现根据国际邮政编码获取地址信息功能(1个评论)
    • 在go语言中使用github.com/signintech/gopdf实现生成pdf分页文件功能(0个评论)
    • gmail发邮件报错:534 5.7.9 Application-specific password required...解决方案(0个评论)
    • 近期评论
    • 122 在

      学历:一种延缓就业设计,生活需求下的权衡之选中评论 工作几年后,报名考研了,到现在还没认真学习备考,迷茫中。作为一名北漂互联网打工人..
    • 123 在

      Clash for Windows作者删库跑路了,github已404中评论 按理说只要你在国内,所有的流量进出都在监控范围内,不管你怎么隐藏也没用,想搞你分..
    • 原梓番博客 在

      在Laravel框架中使用模型Model分表最简单的方法中评论 好久好久都没看友情链接申请了,今天刚看,已经添加。..
    • 博主 在

      佛跳墙vpn软件不会用?上不了网?佛跳墙vpn常见问题以及解决办法中评论 @1111老铁这个不行了,可以看看近期评论的其他文章..
    • 1111 在

      佛跳墙vpn软件不会用?上不了网?佛跳墙vpn常见问题以及解决办法中评论 网站不能打开,博主百忙中能否发个APP下载链接,佛跳墙或极光..
    • 2016-10
    • 2016-11
    • 2018-04
    • 2020-03
    • 2020-04
    • 2020-05
    • 2020-06
    • 2022-01
    • 2023-07
    • 2023-10
    Top

    Copyright·© 2019 侯体宗版权所有· 粤ICP备20027696号 PHP交流群

    侯体宗的博客