侯体宗的博客
  • 首页
  • Hyperf版
  • beego仿版
  • 人生(杂谈)
  • 技术
  • 关于我
  • 更多分类
    • 文件下载
    • 文字修仙
    • 中国象棋ai
    • 群聊
    • 九宫格抽奖
    • 拼图
    • 消消乐
    • 相册

python实现k-means聚类算法

Python  /  管理员 发布于 7年前   200

k-means聚类算法

k-means是发现给定数据集的k个簇的算法,也就是将数据集聚合为k类的算法。

算法过程如下:
1)从N个文档随机选取K个文档作为质心
2)对剩余的每个文档测量其到每个质心的距离,并把它归到最近的质心的类,我们一般取欧几里得距离
3)重新计算已经得到的各个类的质心
4)迭代步骤(2)、(3)直至新的质心与原质心相等或迭代次数大于指定阈值,算法结束

算法实现

随机初始化k个质心,用dict保存质心的值以及被聚类到该簇中的所有data。

def initCent(dataSet , k): N = shape(dataSet)[1] cents = {} randIndex=[] #随机生成k个不重复的索引 for i in range(k):  rand = random.randint(0,N) while rand in randIndex:  rand = random.randint(0, N) randIndex.append(rand) #按索引取dataSet中的data作为质心 for i in range(k): templist = [] templist.append(dataSet[randIndex[i]]) templist.append([dataSet[randIndex[i]]]) cents[i] = templist return cents

对dataSet中的所有数据进行一次聚类。返回值cents为dict类型的数据,int类型的key,list类型的value。其中cents[i][0]为质心位置,cents[i][1]为存储该簇中所有data的列表。

#计算两个向量的欧氏距离def calDist(X1 , X2): sum = 0 for x1 , x2 in zip(X1 , X2): sum += (x1 - x2) ** 2 return sum ** 0.5#聚类def doKmeans(dataSet , k , cents): #清空上一次迭代后的簇中元素,只记录质心 for i in range(k): cents[i][1] = [] for data in dataSet: no = 0#初始化簇标号 minDist = sys.maxint#初始化data与k个质心的最短距离 for i in range(k):  dist = calDist(data , cents[i][0])  if dist < minDist:  minDist = dist  no = i #找到距离最近的质心 cents[no][1].append(data) #更新质心 for i in range(k): for j in range(shape(dataSet)[0]):  cents[i][0] = mean(cents[i][1],axis=0).tolist() return cents

k-means主方法

#判断两次聚类的结果是否相同def isEqual(old , new): for i in range(len(old)): if(old[i] != new[i][0]):  return 0 return 1#主方法def kmeans_main(dataSet,k): cents = initCent(dataSet, k) for x in range(1000): oldcents = [] #拷贝上一次迭代的结果 for i in cents.keys():  oldcents.append(cents[i][0]) newcents = doKmeans(dataSet, k , cents) #若相邻两次迭代结果相同,算法结束 if isEqual(oldcents , newcents)>0:  break cents = newcents return cents

结果测试

数据集(虚构)

2 3 2.54
2 1 0.72
3 5 3.66
4 3 1.71
3.11 5.29 4.13
4.15 2 3.1
3.12 3.33 3.72
1.49 5 2.6
3 5 2.88
3.9 1.78 2.56
-2 3 5
3 1 0.4
-2 1 2.2
-3 0 1.7
-4 1 2
8 -1 0
2 3.2 7.1
1 3 5
2 4 3
0.1 2 5.4
2 0 5.54
2 1 1.72
3 5 2.66
1 8 1.71
5.11 1.29 4.13
7.15 2 7.1
1.12 5.33 4.72
6.49 4 3.6
4 8 6.88
1.9 5.78 6.56
-2 -3 2.5
1 -1 2.4
-2 1 3.2
-1 0 5.7
-2 3 2
1 -1 4
3 4.2 6.1
5 2 5
3 5.7 13
0.9 2.9 1.4

画图方法

def draw(cents): color = [ 'y', 'g', 'b'] X = [] Y = [] Z = [] fig = plt.figure() ax = Axes3D(fig) for i in cents.keys(): X.append(cents[i][0][0]) Y.append(cents[i][0][1]) Z.append(cents[i][0][2]) ax.scatter(X, Y, Z,alpha=0.4,marker='o',color='r', label=str(i)) for i in cents.keys(): X = [] Y = [] Z = [] data = cents[i][1] for vec in data:  X.append(vec[0])  Y.append(vec[1])  Z.append(vec[2]) ax.scatter(X, Y, Z, alpha=0.4,marker='o', color=color[i], label=str(i),) plt.show()

测试及结果展示(红点表示质心)

dataSet = loadDataSet("dataSet.txt")cents = kmeans_main(dataSet , 3)draw(cents)

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持。


  • 上一条:
    python实现SOM算法
    下一条:
    python写一个md5解密器示例
  • 昵称:

    邮箱:

    0条评论 (评论内容有缓存机制,请悉知!)
    最新最热
    • 分类目录
    • 人生(杂谈)
    • 技术
    • linux
    • Java
    • php
    • 框架(架构)
    • 前端
    • ThinkPHP
    • 数据库
    • 微信(小程序)
    • Laravel
    • Redis
    • Docker
    • Go
    • swoole
    • Windows
    • Python
    • 苹果(mac/ios)
    • 相关文章
    • 在python语言中Flask框架的学习及简单功能示例(0个评论)
    • 在Python语言中实现GUI全屏倒计时代码示例(0个评论)
    • Python + zipfile库实现zip文件解压自动化脚本示例(0个评论)
    • python爬虫BeautifulSoup快速抓取网站图片(1个评论)
    • vscode 配置 python3开发环境的方法(0个评论)
    • 近期文章
    • 智能合约Solidity学习CryptoZombie第三课:组建僵尸军队(高级Solidity理论)(0个评论)
    • 智能合约Solidity学习CryptoZombie第二课:让你的僵尸猎食(0个评论)
    • 智能合约Solidity学习CryptoZombie第一课:生成一只你的僵尸(0个评论)
    • 在go中实现一个常用的先进先出的缓存淘汰算法示例代码(0个评论)
    • 在go+gin中使用"github.com/skip2/go-qrcode"实现url转二维码功能(0个评论)
    • 在go语言中使用api.geonames.org接口实现根据国际邮政编码获取地址信息功能(1个评论)
    • 在go语言中使用github.com/signintech/gopdf实现生成pdf分页文件功能(0个评论)
    • gmail发邮件报错:534 5.7.9 Application-specific password required...解决方案(0个评论)
    • 欧盟关于强迫劳动的规定的官方举报渠道及官方举报网站(0个评论)
    • 在go语言中使用github.com/signintech/gopdf实现生成pdf文件功能(0个评论)
    • 近期评论
    • 122 在

      学历:一种延缓就业设计,生活需求下的权衡之选中评论 工作几年后,报名考研了,到现在还没认真学习备考,迷茫中。作为一名北漂互联网打工人..
    • 123 在

      Clash for Windows作者删库跑路了,github已404中评论 按理说只要你在国内,所有的流量进出都在监控范围内,不管你怎么隐藏也没用,想搞你分..
    • 原梓番博客 在

      在Laravel框架中使用模型Model分表最简单的方法中评论 好久好久都没看友情链接申请了,今天刚看,已经添加。..
    • 博主 在

      佛跳墙vpn软件不会用?上不了网?佛跳墙vpn常见问题以及解决办法中评论 @1111老铁这个不行了,可以看看近期评论的其他文章..
    • 1111 在

      佛跳墙vpn软件不会用?上不了网?佛跳墙vpn常见问题以及解决办法中评论 网站不能打开,博主百忙中能否发个APP下载链接,佛跳墙或极光..
    • 2016-10
    • 2016-11
    • 2018-04
    • 2020-03
    • 2020-04
    • 2020-05
    • 2020-06
    • 2022-01
    • 2023-07
    • 2023-10
    Top

    Copyright·© 2019 侯体宗版权所有· 粤ICP备20027696号 PHP交流群

    侯体宗的博客