侯体宗的博客
  • 首页
  • Hyperf版
  • beego仿版
  • 人生(杂谈)
  • 技术
  • 关于我
  • 更多分类
    • 文件下载
    • 文字修仙
    • 中国象棋ai
    • 群聊
    • 九宫格抽奖
    • 拼图
    • 消消乐
    • 相册

python代码实现ID3决策树算法

Python  /  管理员 发布于 7年前   193

本文实例为大家分享了python实现ID3决策树算法的具体代码,供大家参考,具体内容如下

''''' Created on Jan 30, 2015  @author: 史帅 '''  from math import log import operator import re  def fileToDataSet(fileName):   '''''   此方法功能是:从文件中读取样本集数据,样本数据的格式为:数据以空白字符分割,最后一列为类标签          参数:       fileName:存放样本集数据的文件路径          返回值:       dataSet:样本集数据组成的二维数组   '''   file=open(fileName, mode='r')   lines=file.readlines()   dataSet=[]   index=0   p=re.compile(r"\s+")   for line in lines:     line=p.split(line.strip())     dataSet.append(line)     index+=1   return dataSet  def calculateShannonEntropy(dataSet):   '''''   此方法功能是:计算样本集数据类别的信息熵,样本数据的格式为二维数组          参数:       dataSet:样本集数据组成的二维数组          返回值:       shannonEntropy:样本集数据类别的信息熵   '''   dataCount=len(dataSet)   classCountDic={}   for data in dataSet:     label=data[-1]     if label not in classCountDic.keys():       classCountDic[label]=0     classCountDic[label]+=1   shannonEntropy=0.0   for key in classCountDic:     prob=float(classCountDic[key])/dataCount     shannonEntropy-=prob*log(prob,2)   return shannonEntropy  def splitDataSet(dataSet,axis,value):   '''''   此方法功能是:对样本集数据按照某一特征进行分割,使得分割后的数据集中该特征的值全部等于同一个值,并且将分割后的数据中该特征列去除        参数:       dataSet:待分割的样本集数据,二维数组       axis:特征所在样本集数据列中的位置       value:样本集数据分割后该特征的值返回值:       splitedDataSet:按照所在位置为axis的特征进行分割,并且该特征值为value的样本集数据的子集   '''   splitedDataSet=[]   for data in dataSet:     if data[axis]==value:       splitedData=data[:axis]       splitedData.extend(data[axis+1:])       splitedDataSet.append(splitedData)   return splitedDataSet  def chooseBestFeatureToSlipt(dataSet):   '''''   此方法功能是:分别计算整个样本集数据的信息熵与按照各个特征分割后的数据集的信息熵之差,得到使差值最大的分割方案,得到该分割方案的特征        参数:       dataSet:待分割的样本集数据,二维数组返回值:       bestFeature:按照分割前后信息熵差值最大的分割方案得到的特征,返回此特征所在样本集数据列中的位置   '''   bestFeature=-1   dataSetShannonEntropy=calculateShannonEntropy(dataSet)   infoGain=0   featureCount=len(dataSet[0])-1   for i in range(featureCount):     featureList=[example[i] for example in dataSet]     featureSet=set(featureList)     splitedDataSetShannonEntropy=0     for feature in featureSet:       splitedDataSet=splitDataSet(dataSet,i,feature)       splitedDataSetShannonEntropy+=float(len(splitedDataSet))/len(dataSet)*calculateShannonEntropy(splitedDataSet)     if dataSetShannonEntropy-splitedDataSetShannonEntropy>infoGain:       infoGain=dataSetShannonEntropy-splitedDataSetShannonEntropy       bestFeature=i   return bestFeature  def majorityClass(classList):   '''''   此方法功能是:从类别列表中得到个数最多的类别        参数:       classList:类别列表,一维数组返回值:       类别列表中个数最多的类别   '''   classCountDic={}   for label in classList:     if label not in classCountDic.keys():       classCountDic[label]=0     classCountDic[label]+=1   classCountDic=sorted(classCountDic.item(),key=operator.itemgetter(1),reverse=True)   return classCountDic[0][0]   def createTree(dataSet,features):   '''''   此方法功能是:根据训练样本集数据创建对分类最有效的决策树        参数:       dataSet:训练样本集数据,二维数组       features:与训练样本集数据中各列的特征值相对应的特征名称集合,一维数组          返回值:       tree:根据训练样本集数据所创建的,对分类最有效的决策树   '''   subFeatures=features[:]   classList=[example[-1] for example in dataSet]   if classList.count(classList[0])==len(classList):     return classList[0]   if len(dataSet[0])==1:     return majorityClass(classList)   bestFeature=chooseBestFeatureToSlipt(dataSet)   label=subFeatures[bestFeature]   tree={label:{}}   del(subFeatures[bestFeature])   featureList=[example[bestFeature] for example in dataSet]   featureSet=set(featureList)   for feature in featureSet:     splitedDataSet=splitDataSet(dataSet,bestFeature,feature)     tree[label][feature]=createTree(splitedDataSet, subFeatures)   return tree    def classify(inX,tree,features):   '''''   此方法功能是:根据创建好的决策树,对特定的数据进行分类        参数:       inX:待分类的数据,特征值向量,一维数组       tree:根据决策树算法创建好的最有效的决策树       features:与训练样本集数据中各列的特征值相对应的特征名称集合,一维数组返回值:       label:待分类的数据通过决策树分类之后的类别   '''   feature=list(tree.keys())[0]   featureIndex=features.index(feature)   secondTree=tree[feature][inX[featureIndex]]   if type(secondTree).__name__=="dict":     label=classify(inX,secondTree,features)   else:     label=secondTree   return label 

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持。


  • 上一条:
    Python绘制七段数码管实例代码
    下一条:
    python决策树之CART分类回归树详解
  • 昵称:

    邮箱:

    0条评论 (评论内容有缓存机制,请悉知!)
    最新最热
    • 分类目录
    • 人生(杂谈)
    • 技术
    • linux
    • Java
    • php
    • 框架(架构)
    • 前端
    • ThinkPHP
    • 数据库
    • 微信(小程序)
    • Laravel
    • Redis
    • Docker
    • Go
    • swoole
    • Windows
    • Python
    • 苹果(mac/ios)
    • 相关文章
    • 在python语言中Flask框架的学习及简单功能示例(0个评论)
    • 在Python语言中实现GUI全屏倒计时代码示例(0个评论)
    • Python + zipfile库实现zip文件解压自动化脚本示例(0个评论)
    • python爬虫BeautifulSoup快速抓取网站图片(1个评论)
    • vscode 配置 python3开发环境的方法(0个评论)
    • 近期文章
    • 在go语言中使用api.geonames.org接口实现根据国际邮政编码获取地址信息功能(1个评论)
    • 在go语言中使用github.com/signintech/gopdf实现生成pdf分页文件功能(0个评论)
    • gmail发邮件报错:534 5.7.9 Application-specific password required...解决方案(0个评论)
    • 欧盟关于强迫劳动的规定的官方举报渠道及官方举报网站(0个评论)
    • 在go语言中使用github.com/signintech/gopdf实现生成pdf文件功能(0个评论)
    • Laravel从Accel获得5700万美元A轮融资(0个评论)
    • 在go + gin中gorm实现指定搜索/区间搜索分页列表功能接口实例(0个评论)
    • 在go语言中实现IP/CIDR的ip和netmask互转及IP段形式互转及ip是否存在IP/CIDR(0个评论)
    • PHP 8.4 Alpha 1现已发布!(0个评论)
    • Laravel 11.15版本发布 - Eloquent Builder中添加的泛型(0个评论)
    • 近期评论
    • 122 在

      学历:一种延缓就业设计,生活需求下的权衡之选中评论 工作几年后,报名考研了,到现在还没认真学习备考,迷茫中。作为一名北漂互联网打工人..
    • 123 在

      Clash for Windows作者删库跑路了,github已404中评论 按理说只要你在国内,所有的流量进出都在监控范围内,不管你怎么隐藏也没用,想搞你分..
    • 原梓番博客 在

      在Laravel框架中使用模型Model分表最简单的方法中评论 好久好久都没看友情链接申请了,今天刚看,已经添加。..
    • 博主 在

      佛跳墙vpn软件不会用?上不了网?佛跳墙vpn常见问题以及解决办法中评论 @1111老铁这个不行了,可以看看近期评论的其他文章..
    • 1111 在

      佛跳墙vpn软件不会用?上不了网?佛跳墙vpn常见问题以及解决办法中评论 网站不能打开,博主百忙中能否发个APP下载链接,佛跳墙或极光..
    • 2016-10
    • 2016-11
    • 2018-04
    • 2020-03
    • 2020-04
    • 2020-05
    • 2020-06
    • 2022-01
    • 2023-07
    • 2023-10
    Top

    Copyright·© 2019 侯体宗版权所有· 粤ICP备20027696号 PHP交流群

    侯体宗的博客