python代码实现ID3决策树算法-侯体宗的博客

python代码实现ID3决策树算法
Python / 管理员发布于 7年前 200

本文实例为大家分享了python实现ID3决策树算法的具体代码，供大家参考，具体内容如下

''''' Created on Jan 30, 2015  @author: 史帅 '''  from math import log import operator import re  def fileToDataSet(fileName):   '''''   此方法功能是:从文件中读取样本集数据,样本数据的格式为:数据以空白字符分割,最后一列为类标签          参数:       fileName:存放样本集数据的文件路径          返回值:       dataSet:样本集数据组成的二维数组   '''   file=open(fileName, mode='r')   lines=file.readlines()   dataSet=[]   index=0   p=re.compile(r"\s+")   for line in lines:     line=p.split(line.strip())     dataSet.append(line)     index+=1   return dataSet  def calculateShannonEntropy(dataSet):   '''''   此方法功能是:计算样本集数据类别的信息熵,样本数据的格式为二维数组          参数:       dataSet:样本集数据组成的二维数组          返回值:       shannonEntropy:样本集数据类别的信息熵   '''   dataCount=len(dataSet)   classCountDic={}   for data in dataSet:     label=data[-1]     if label not in classCountDic.keys():       classCountDic[label]=0     classCountDic[label]+=1   shannonEntropy=0.0   for key in classCountDic:     prob=float(classCountDic[key])/dataCount     shannonEntropy-=prob*log(prob,2)   return shannonEntropy  def splitDataSet(dataSet,axis,value):   '''''   此方法功能是:对样本集数据按照某一特征进行分割,使得分割后的数据集中该特征的值全部等于同一个值,并且将分割后的数据中该特征列去除        参数:       dataSet:待分割的样本集数据,二维数组       axis:特征所在样本集数据列中的位置       value:样本集数据分割后该特征的值返回值:       splitedDataSet:按照所在位置为axis的特征进行分割,并且该特征值为value的样本集数据的子集   '''   splitedDataSet=[]   for data in dataSet:     if data[axis]==value:       splitedData=data[:axis]       splitedData.extend(data[axis+1:])       splitedDataSet.append(splitedData)   return splitedDataSet  def chooseBestFeatureToSlipt(dataSet):   '''''   此方法功能是:分别计算整个样本集数据的信息熵与按照各个特征分割后的数据集的信息熵之差,得到使差值最大的分割方案,得到该分割方案的特征        参数:       dataSet:待分割的样本集数据,二维数组返回值:       bestFeature:按照分割前后信息熵差值最大的分割方案得到的特征，返回此特征所在样本集数据列中的位置   '''   bestFeature=-1   dataSetShannonEntropy=calculateShannonEntropy(dataSet)   infoGain=0   featureCount=len(dataSet[0])-1   for i in range(featureCount):     featureList=[example[i] for example in dataSet]     featureSet=set(featureList)     splitedDataSetShannonEntropy=0     for feature in featureSet:       splitedDataSet=splitDataSet(dataSet,i,feature)       splitedDataSetShannonEntropy+=float(len(splitedDataSet))/len(dataSet)*calculateShannonEntropy(splitedDataSet)     if dataSetShannonEntropy-splitedDataSetShannonEntropy>infoGain:       infoGain=dataSetShannonEntropy-splitedDataSetShannonEntropy       bestFeature=i   return bestFeature  def majorityClass(classList):   '''''   此方法功能是:从类别列表中得到个数最多的类别        参数:       classList:类别列表,一维数组返回值:       类别列表中个数最多的类别   '''   classCountDic={}   for label in classList:     if label not in classCountDic.keys():       classCountDic[label]=0     classCountDic[label]+=1   classCountDic=sorted(classCountDic.item(),key=operator.itemgetter(1),reverse=True)   return classCountDic[0][0]   def createTree(dataSet,features):   '''''   此方法功能是:根据训练样本集数据创建对分类最有效的决策树        参数:       dataSet:训练样本集数据,二维数组       features:与训练样本集数据中各列的特征值相对应的特征名称集合,一维数组          返回值:       tree:根据训练样本集数据所创建的，对分类最有效的决策树   '''   subFeatures=features[:]   classList=[example[-1] for example in dataSet]   if classList.count(classList[0])==len(classList):     return classList[0]   if len(dataSet[0])==1:     return majorityClass(classList)   bestFeature=chooseBestFeatureToSlipt(dataSet)   label=subFeatures[bestFeature]   tree={label:{}}   del(subFeatures[bestFeature])   featureList=[example[bestFeature] for example in dataSet]   featureSet=set(featureList)   for feature in featureSet:     splitedDataSet=splitDataSet(dataSet,bestFeature,feature)     tree[label][feature]=createTree(splitedDataSet, subFeatures)   return tree    def classify(inX,tree,features):   '''''   此方法功能是:根据创建好的决策树,对特定的数据进行分类        参数:       inX:待分类的数据,特征值向量,一维数组       tree:根据决策树算法创建好的最有效的决策树       features:与训练样本集数据中各列的特征值相对应的特征名称集合,一维数组返回值:       label:待分类的数据通过决策树分类之后的类别   '''   feature=list(tree.keys())[0]   featureIndex=features.index(feature)   secondTree=tree[feature][inX[featureIndex]]   if type(secondTree).__name__=="dict":     label=classify(inX,secondTree,features)   else:     label=secondTree   return label

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持。

上一条：
Python绘制七段数码管实例代码
下一条：
python决策树之CART分类回归树详解

0条评论 (评论内容有缓存机制,请悉知!)

最新最热

近期文章
智能合约Solidity学习CryptoZombie第三课:组建僵尸军队(高级Solidity理论)(0个评论)
智能合约Solidity学习CryptoZombie第二课:让你的僵尸猎食(0个评论)
智能合约Solidity学习CryptoZombie第一课:生成一只你的僵尸(0个评论)
在go中实现一个常用的先进先出的缓存淘汰算法示例代码(0个评论)
在go+gin中使用"github.com/skip2/go-qrcode"实现url转二维码功能(0个评论)
在go语言中使用api.geonames.org接口实现根据国际邮政编码获取地址信息功能(1个评论)
在go语言中使用github.com/signintech/gopdf实现生成pdf分页文件功能(0个评论)
gmail发邮件报错:534 5.7.9 Application-specific password required...解决方案(0个评论)
欧盟关于强迫劳动的规定的官方举报渠道及官方举报网站(0个评论)
在go语言中使用github.com/signintech/gopdf实现生成pdf文件功能(0个评论)

近期评论
122 在
学历：一种延缓就业设计，生活需求下的权衡之选中评论工作几年后，报名考研了，到现在还没认真学习备考，迷茫中。作为一名北漂互联网打工人..
123 在
Clash for Windows作者删库跑路了，github已404中评论按理说只要你在国内，所有的流量进出都在监控范围内，不管你怎么隐藏也没用，想搞你分..
原梓番博客在
在Laravel框架中使用模型Model分表最简单的方法中评论好久好久都没看友情链接申请了，今天刚看，已经添加。..
博主在
佛跳墙vpn软件不会用?上不了网?佛跳墙vpn常见问题以及解决办法中评论 @1111老铁这个不行了，可以看看近期评论的其他文章..
1111 在
佛跳墙vpn软件不会用?上不了网?佛跳墙vpn常见问题以及解决办法中评论网站不能打开，博主百忙中能否发个APP下载链接，佛跳墙或极光..

Top