Python Pandas实现数据分组求平均值并填充nan的示例
Python  /  管理员 发布于 7年前   350
Python实现按某一列关键字分组,并计算各列的平均值,并用该值填充该分类该列的nan值。
DataFrame数据格式
fillna方式实现
groupby方式实现
DataFrame数据格式
以下是数据存储形式:
fillna方式实现
1、按照industryName1列,筛选出业绩
2、筛选出相同行业的Series
3、计算平均值mean,采用fillna函数填充
4、append到新DataFrame中
5、循环遍历行业名称,完成2,3,4步骤
factordatafillna = pd.DataFrame()industrys = newfactordata1.industryName1.unique()for ind in industrys: t = newfactordata1.industryName1 == ind a = newfactordata1[t].fillna(newfactordata1[t].mean()) factordatafillna = factordatafillna.append(a)
groupby方式实现
采用groupby计算,详细见代码注释
df = pd.DataFrame({'code':[1,2,3,4,5,6,7,8], 'value':[np.nan,5,7,8,9,10,11,12], 'value2':[5,np.nan,7,np.nan,9,10,11,12], 'indstry':['农业1','农业1','农业1','农业2','农业2','农业4','农业2','农业3']}, columns=['code','value','value2','indstry'], index=list('ABCDEFGH'))# 只留下需要处理的列cols = [col for col in df.columns if col not in['code','indstry']]# 分组的列gp_col = 'indstry'# 查询nan的列df_na = df[cols].isna()# 根据分组计算平均值df_mean = df.groupby(gp_col)[cols].mean()print(df)# 依次处理每一列for col in cols: na_series = df_na[col] names = list(df.loc[na_series,gp_col]) t = df_mean.loc[names,col] t.index = df.loc[na_series,col].index # 相同的index进行赋值 df.loc[na_series,col] = tprint(df)
code value value2 indstryA 1 NaN 5.0 农业1B 2 5.0 NaN 农业1C 3 7.0 7.0 农业1D 4 8.0 NaN 农业2E 5 9.0 9.0 农业2F 6 10.0 10.0 农业4G 7 11.0 11.0 农业2H 8 12.0 12.0 农业3 code value value2 indstryA 1 6.0 5.0 农业1B 2 5.0 6.0 农业1C 3 7.0 7.0 农业1D 4 8.0 10.0 农业2E 5 9.0 9.0 农业2F 6 10.0 10.0 农业4G 7 11.0 11.0 农业2H 8 12.0 12.0 农业3
以上这篇Python Pandas实现数据分组求平均值并填充nan的示例就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持。
122 在
学历:一种延缓就业设计,生活需求下的权衡之选中评论 工作几年后,报名考研了,到现在还没认真学习备考,迷茫中。作为一名北漂互联网打工人..123 在
Clash for Windows作者删库跑路了,github已404中评论 按理说只要你在国内,所有的流量进出都在监控范围内,不管你怎么隐藏也没用,想搞你分..原梓番博客 在
在Laravel框架中使用模型Model分表最简单的方法中评论 好久好久都没看友情链接申请了,今天刚看,已经添加。..博主 在
佛跳墙vpn软件不会用?上不了网?佛跳墙vpn常见问题以及解决办法中评论 @1111老铁这个不行了,可以看看近期评论的其他文章..1111 在
佛跳墙vpn软件不会用?上不了网?佛跳墙vpn常见问题以及解决办法中评论 网站不能打开,博主百忙中能否发个APP下载链接,佛跳墙或极光..
Copyright·© 2019 侯体宗版权所有·
粤ICP备20027696号