Python3.0 实现决策树算法的流程-侯体宗的博客

Python3.0 实现决策树算法的流程
Python / 管理员发布于 7年前 290

决策树的一般流程

检测数据集中的每个子项是否属于同一个分类

if so return 类标签Else

寻找划分数据集的最好特征

划分数据集

创建分支节点

from math import logimport operator#生成样本数据集def createDataSet():  dataSet = [[1,1,'yes'],        [1,1,'yes'],        [1,0,'no'],        [0,1,'no'],        [0,1,'no']]  labels = ['no surfacing','flipper']  return dataSet,labels# 计算香农熵 香农 大神必须要膜拜啊，信息界的根目录人物啊# no surfacing 指的是 不浮出水面能否生存 1 标识 是 0 指的是否# flipper 指的是是否有脚# yes no指的是否是鱼类def calcShannonEnt(dataSet):  numEntries = len(dataSet) # 用上面的createDataSet dataSet 这个值就是5  #定义标签字典  labelCounts = {}  # 为所有可能的分类创建字典  for featVec in dataSet:    currentLabel = featVec[-1] #这个-1指的是去取最后一个维度 对应数据dataSet 这里取的是yes和no    if currentLabel not in labelCounts.keys():      # 如果当前分类标签不在 标签字典中      labelCounts[currentLabel] = 0    # 其他情况 分类标签分类加1    labelCounts[currentLabel] += 1  #定义香农熵 以2为底数求对数  shannonEnt = 0.0  for key in labelCounts:    #计算 yes 或者No 出现的概率    pro = float(labelCounts[key])/numEntries    # 计算香农熵    shannonEnt -= pro*log(pro,2)  return shannonEnt#dataSet是待划分的数据集， 划分数据集的特征 axis 特征的返回值value#最后是创建了一个新的列表对象def splitDataSet(dataSet, axis , value):  # 创建新list对象  retDataSet = []  for featVec in dataSet:    if featVec[axis] == value:      reducedFeatVec = featVec[:axis]      reducedFeatVec.extend(featVec[axis+1:])      retDataSet.append(reducedFeatVec)  return retDataSet# 选择最好的特征值进行数据集划分def chooseBestFeatureToSplit(dataSet):  # len(dataSet[0]）是计算这一行有多少列，即有多少个特征值  numFeatures = len(dataSet[0])-1 # -1 是最后一个特征值就不要记录在内了，算baseEntrop的时候已经算了最后一个特征值yes no  baseEntropy = calcShannonEnt(dataSet)  bestInfoGain = 0.0  bestFeature = -1  for i in range(numFeatures):    #创建唯一的分类标签列表 也就是说提取dataSet每一行第i个值 就提取dat    featList = [example[i] for example in dataSet]    # 取出有几种特征值    uniqueVals = set(featList)    newEntropy = 0.0    for value in uniqueVals:      #创建特征值的子数据集      subDataSet = splitDataSet(dataSet,i, value)      #计算该特征值数据对总数在数据对总数出现的概率      pro = len(subDataSet)/float(len(dataSet))      #计算分割出来的子集香农熵      newEntropy += pro*calcShannonEnt(subDataSet)    #计算信息增益 得到最好的特征值 这个理论是这样的g(D,A) = H(D)-H(D/A）    infoGain = baseEntropy-newEntropy    #取出最大的信息增益，此时特征值最大    if(infoGain >bestInfoGain):      bestInfoGain = infoGain      bestFeature = i  return bestFeature'''#构建决策树是根据特征值的消耗来计算的，如果后面的特征值已经全部用完了但是还没有分出结果，这个时候就需要使用多数表决方式计算节点分类最后返回最大的分类'''def majorityCnt(classList):  # 分类的字典  classCount = {}  for vote in range(classList):    #如果不在 分类字典中    if vote not in classCount.keys(): classCount[vote] = 0    classCount[vote] += 1    # 根据出现的次数大到小排序    sortedClassCount = sorted(classCount.items(),key=operator.itemgetter(1),reverse=True)  return sortedClassCount[0][0]#创建决策树def createTree(dataSet, labels):  # 获取数据样本每组最后一组的特征值 这里是yes,no  classList = [example[-1] for example in dataSet]  # 如果说这个classList 全部都是 yes 或者全部是no 那肯定子返回yes 或者no  if(classList.count(classList[0]) == len(classList)):    return classList[0]  #如果遍历完所有的特征返回出现次数最多的  #是用消耗特征值的方式进行构造决策树的，每次会消掉一个特征值  if len(dataSet[0]) == 1:    return majorityCnt(classList)  #选择最好的特征值  bestFeat = chooseBestFeatureToSplit(dataSet)  bestFeatLabel = labels[bestFeat]  myTree = {bestFeatLabel:{}}  # 删除labels中的一特征值  del(labels[bestFeat])  #找到特征值那一列  featValues = [example[bestFeat] for example in dataSet]  uniqueVals = set(featValues)  for value in uniqueVals:    # labels列表的赋值    subLabels = labels[:]    myTree[bestFeatLabel][value]=createTree(splitDataSet(dataSet,bestFeat,value),subLabels)  return myTreedataSet,lables = createDataSet()shannonEnt= calcShannonEnt(dataSet)my = createTree(dataSet,lables)print(my)

总结

以上所述是小编给大家介绍的Python3.0 实现决策树算法的流程,希望对大家有所帮助，如果大家有任何疑问请给我留言，小编会及时回复大家的。在此也非常感谢大家对站的支持！
如果你觉得本文对你有帮助，欢迎转载，烦请注明出处，谢谢！

上一条：
python各类经纬度转换的实例代码
下一条：
Python使用ffmpy将amr格式的音频转化为mp3格式的例子

0条评论 (评论内容有缓存机制,请悉知!)

最新最热

近期文章
在go语言中实现字符串可逆性压缩及解压缩功能(0个评论)
使用go + gin + jwt + qrcode实现网站生成登录二维码在app中扫码登录功能(0个评论)
在windows10中升级go版本至1.24后LiteIDE的Ctrl+左击无法跳转问题解决方案(0个评论)
智能合约Solidity学习CryptoZombie第四课:僵尸作战系统(0个评论)
智能合约Solidity学习CryptoZombie第三课:组建僵尸军队(高级Solidity理论)(0个评论)
智能合约Solidity学习CryptoZombie第二课:让你的僵尸猎食(0个评论)
智能合约Solidity学习CryptoZombie第一课:生成一只你的僵尸(0个评论)
在go中实现一个常用的先进先出的缓存淘汰算法示例代码(0个评论)
在go+gin中使用"github.com/skip2/go-qrcode"实现url转二维码功能(0个评论)
在go语言中使用api.geonames.org接口实现根据国际邮政编码获取地址信息功能(1个评论)

近期评论
122 在
学历：一种延缓就业设计，生活需求下的权衡之选中评论工作几年后，报名考研了，到现在还没认真学习备考，迷茫中。作为一名北漂互联网打工人..
123 在
Clash for Windows作者删库跑路了，github已404中评论按理说只要你在国内，所有的流量进出都在监控范围内，不管你怎么隐藏也没用，想搞你分..
原梓番博客在
在Laravel框架中使用模型Model分表最简单的方法中评论好久好久都没看友情链接申请了，今天刚看，已经添加。..
博主在
佛跳墙vpn软件不会用?上不了网?佛跳墙vpn常见问题以及解决办法中评论 @1111老铁这个不行了，可以看看近期评论的其他文章..
1111 在
佛跳墙vpn软件不会用?上不了网?佛跳墙vpn常见问题以及解决办法中评论网站不能打开，博主百忙中能否发个APP下载链接，佛跳墙或极光..

Top