侯体宗的博客
  • 首页
  • Hyperf版
  • beego仿版
  • 人生(杂谈)
  • 技术
  • 关于我
  • 更多分类
    • 文件下载
    • 文字修仙
    • 中国象棋ai
    • 群聊
    • 九宫格抽奖
    • 拼图
    • 消消乐
    • 相册

python基于物品协同过滤算法实现代码

Python  /  管理员 发布于 7年前   165

本次测试基于MovieLens数据集实现的基于物品的协同过滤,目前只是在小样本上实现,主要问题是计算太耗内存,后期代码继续优化与完善。

数据集说明:movies.dat中数据是用户对电影的评分。数据格式:UserID::MovieID::Rating::Timestamp。

代码

import pandas as pdimport numpy as npimport math import osimport timeimport datetimeos.chdir(r'f:\zxx\pthon_work\CF')def loadData(): #读入movies.dat, rating.dat,tags.dat #mnames=['movie_id','title','genres'] #movies=pd.read_table(r'.\data\movies.dat',sep='::',header=None,names=mnames) rnames=['UserID','MovieID','Rating','Timestamp'] all_ratings=pd.read_table(r'.\data\ratings.dat',sep='::',header=None,names=rnames,nrows=300000) #tnames=['UserID','MovieID','Tag','Timestamp'] #tags=pd.read_table(r'.\data\tags.dat',sep='::',header=None,names=tnames) return all_ratings#数据探索:ratingdef data_alay(ratings): """rating nums10000054, 3,  示例 : 1  122  5 838985046 col:'UserID','MovieID','Rating','Timestamp'  """ #一个用户只对一个电影打分一次 UR=ratings.groupby([ratings['UserID'],ratings['MovieID']]) len(UR.size)#计算每部电影的平均打分,电影数10677def avgRating(ratings): movies_mean=ratings['Rating'].groupby(ratings['MovieID']).mean()#计算所有用户对电影X的平均打分 movies_id=movies_mean.index movies_avg_rating=movies_mean.values return movies_id,movies_avg_rating,movies_mean#计算电影相似度矩阵相,即建立10677*10677矩阵def calculatePC(ratings): movies_id,movies_avg_rating,movies_mean=avgRating(ratings) #pc_mat=np.eye(3)#建立电影相似度单位矩阵 pc_dic={} top_movie=len(movies_id) for i in range(0,top_movie):  for j in range(i+1,top_movie):   movieAID=movies_id[i]   movieBID=movies_id[j]   see_moviesA_user=ratings['UserID'][ratings['MovieID']==movieAID]   see_moviesB_user=ratings['UserID'][ratings['MovieID']==movieBID]   join_user=np.intersect1d(see_moviesA_user.values,see_moviesB_user.values)#同时给电影A、B评分的用户   movieA_avg=movies_mean[movieAID]   movieB_avg=movies_mean[movieBID]   key1=str(movieAID)+':'+str(movieBID)   key2=str(movieBID)+':'+str(movieAID)   value=twoMoviesPC(join_user,movieAID,movieBID,movieA_avg,movieB_avg,ratings)   pc_dic[key1]=value      pc_dic[key2]=value         #pc_mat[i][i+1]=twoMoviesPC(join_user,movieAID,movieBID,movieA_avg,movieB_avg,ratings)   #print ('---the %s, %d,%d:--movie %s--%s--pc is %f' % (key1,movieAID,movieBID,movieAID,movieBID,pc_dic[key1])) return pc_dic#计算电影A与电影B的相似度,皮尔森相似度=sum(A-A^)*sum(B-B^)/sqrt(sum[(A-A^)*(A-A^)]*sum[(B-B^)*(B-B^)])def twoMoviesPC(join_user,movieAID,movieBID,movieA_avg,movieB_avg,ratings): cent_AB_sum=0.0#相似度分子 centA_sum=0.0#分母 centB_sum=0.0#分母 movieAB_pc=0.0#电影A,B的相似度 count=0 for u in range(len(join_user)):  #print '---------',u  count=count+1  ratA=ratings['Rating'][ratings['UserID']==join_user[u]][ratings['MovieID']==movieAID].values[0]#用户给电影A评分  ratB=ratings['Rating'][ratings['UserID']==join_user[u]][ratings['MovieID']==movieBID].values[0]#用户给电影B评分  cent_AB=(ratA-movieA_avg)*(ratB-movieB_avg) #去均值中心化  centA_square=(ratA-movieA_avg)*(ratA-movieA_avg) #去均值平方  centB_square=(ratB-movieB_avg)*(ratB-movieB_avg)#去均值平方  cent_AB_sum=cent_AB_sum+cent_AB  centA_sum=centA_sum+centA_square  centB_sum=centB_sum+centB_square if(centA_sum>0 and centB_sum>0 ):  movieAB_pc=cent_AB_sum/math.sqrt(centA_sum*centB_sum) return movieAB_pc"""预测用户U对那些电影感兴趣。分三步, 1)用户U过去X天看过的电影。 2)提出用户U已看过的电影,根据用户U过去看过的电影,计算用户U对其他电影的打分. 3) 拉去打分最高的的电影给用户推荐。预测用户U对电影C的打分。分三步:(先只做这个) 1)用户U过去X天看过的电影。 2)利用加权去中心化公式预测用户U对电影C的打分."""#日期处理: -3天,然后转换为uinxtimedef timePro(last_rat_time,UserU): lastDate= datetime.datetime.fromtimestamp(last_rat_time[UserU]) #unix转为日期 date_sub3=lastDate+datetime.timedelta(days=-3)#减去3天 unix_sub3=time.mktime(date_sub3.timetuple())#日期转为unix return unix_sub3#取用户最后一次评分前3天评估的电影进行预测def getHisRat(ratings,last_rat_time,UserUID): unix_sub3= timePro(last_rat_time,UserUID) UserU_info=ratings[ratings['UserID']==UserUID][ratings['Timestamp']>unix_sub3] return UserU_info#预测用户U对电影C的打分def hadSeenMovieByUser(UserUID,MovieA,ratings,pc_dic,movies_mean): pre_rating=0.0  last_rat_time=ratings['Timestamp'].groupby([ratings['UserID']]).max()#获取用户U最近一次评分日期 UserU_info= getHisRat(ratings,last_rat_time,UserUID)#获取用户U过去看过的电影 flag=0#表示新电影,用户U是否给电影A打过分 wmv=0.0#相似度*mv平均打分去均值后之和 w=0.0#相似度之和 movie_userU=UserU_info['MovieID'].values#当前用户看过的电影 if MovieA in movie_userU:  flag=1  pre_rating=UserU_info['Rating'][UserU_info['MovieID']==MovieA].values else:  for mv in movie_userU:   key=str(mv)+':'+str(MovieA)   rat_U_mv=UserU_info['Rating'][UserU_info['MovieID']==mv][UserU_info['UserID']==UserUID].values#用户U对看过电影mv的打分   wmv=(wmv+pc_dic[key]*(rat_U_mv-movies_mean[mv]))#相似度*mv平均打分去均值后之和   w=(w+pc_dic[key])#看过电影与新电影相似度之和   #print ('---have seen mv %d with new mv %d,%f,%f'%(mv,MovieA,wmv,w))     pre_rating=(movies_mean[MovieA]+wmv/w) print ('-flag:%d---User:%d rating movie:%d with %f score----' %(flag,UserUID,MovieA,pre_rating)) return pre_rating,flagif __name__=='__main__': all_ratings=loadData() movie_num=100#控制电影数,只针对电影ID在该范围的数据进行计算,否则数据量太大  ratings=all_ratings[all_ratings['MovieID']<=movie_num] movies_id,movies_avg_rating,movies_mean=avgRating(ratings) pc_dic=calculatePC(ratings)#电影相似度矩阵 #预测 UserUID=10#当前数据集只看过电影4,7, MovieA=6  pre_rating,flag=hadSeenMovieByUser(UserUID,MovieA,ratings,pc_dic,movies_mean) "-----------------测试ID提取------------------" #选取UserUID ratings.head(10)#从前10行中随机选取一个用户ID,例如:UserID=10 #查看该用户在当前数据集中看过那些电影,方便选取新电影(防止选择的是用户已经看过的电影) ratings[ratings['UserID']==10]#该用户在当前数据集中,只看过电影MovieID in(4,7),则可选择不是4,7的电影ID进行预测,例如6.

运行结果:

-flag:0---User:10 rating movie:6 with 4.115996 score----

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持。


  • 上一条:
    Python中if elif else及缩进的使用简述
    下一条:
    python写入并获取剪切板内容的实例
  • 昵称:

    邮箱:

    0条评论 (评论内容有缓存机制,请悉知!)
    最新最热
    • 分类目录
    • 人生(杂谈)
    • 技术
    • linux
    • Java
    • php
    • 框架(架构)
    • 前端
    • ThinkPHP
    • 数据库
    • 微信(小程序)
    • Laravel
    • Redis
    • Docker
    • Go
    • swoole
    • Windows
    • Python
    • 苹果(mac/ios)
    • 相关文章
    • 在python语言中Flask框架的学习及简单功能示例(0个评论)
    • 在Python语言中实现GUI全屏倒计时代码示例(0个评论)
    • Python + zipfile库实现zip文件解压自动化脚本示例(0个评论)
    • python爬虫BeautifulSoup快速抓取网站图片(1个评论)
    • vscode 配置 python3开发环境的方法(0个评论)
    • 近期文章
    • 在go语言中使用api.geonames.org接口实现根据国际邮政编码获取地址信息功能(1个评论)
    • 在go语言中使用github.com/signintech/gopdf实现生成pdf分页文件功能(0个评论)
    • gmail发邮件报错:534 5.7.9 Application-specific password required...解决方案(0个评论)
    • 欧盟关于强迫劳动的规定的官方举报渠道及官方举报网站(0个评论)
    • 在go语言中使用github.com/signintech/gopdf实现生成pdf文件功能(0个评论)
    • Laravel从Accel获得5700万美元A轮融资(0个评论)
    • 在go + gin中gorm实现指定搜索/区间搜索分页列表功能接口实例(0个评论)
    • 在go语言中实现IP/CIDR的ip和netmask互转及IP段形式互转及ip是否存在IP/CIDR(0个评论)
    • PHP 8.4 Alpha 1现已发布!(0个评论)
    • Laravel 11.15版本发布 - Eloquent Builder中添加的泛型(0个评论)
    • 近期评论
    • 122 在

      学历:一种延缓就业设计,生活需求下的权衡之选中评论 工作几年后,报名考研了,到现在还没认真学习备考,迷茫中。作为一名北漂互联网打工人..
    • 123 在

      Clash for Windows作者删库跑路了,github已404中评论 按理说只要你在国内,所有的流量进出都在监控范围内,不管你怎么隐藏也没用,想搞你分..
    • 原梓番博客 在

      在Laravel框架中使用模型Model分表最简单的方法中评论 好久好久都没看友情链接申请了,今天刚看,已经添加。..
    • 博主 在

      佛跳墙vpn软件不会用?上不了网?佛跳墙vpn常见问题以及解决办法中评论 @1111老铁这个不行了,可以看看近期评论的其他文章..
    • 1111 在

      佛跳墙vpn软件不会用?上不了网?佛跳墙vpn常见问题以及解决办法中评论 网站不能打开,博主百忙中能否发个APP下载链接,佛跳墙或极光..
    • 2016-10
    • 2016-11
    • 2018-04
    • 2020-03
    • 2020-04
    • 2020-05
    • 2020-06
    • 2022-01
    • 2023-07
    • 2023-10
    Top

    Copyright·© 2019 侯体宗版权所有· 粤ICP备20027696号 PHP交流群

    侯体宗的博客