pandas数据预处理之dataframe的groupby操作方法-侯体宗的博客

pandas数据预处理之dataframe的groupby操作方法
技术 / 管理员发布于 8年前 206

在数据预处理过程中可能会遇到这样的问题，如下图：数据中某一个key有多组数据，如何分别对每个key进行相同的运算？

dataframe里面给出了一个group by的一个操作，对于”group by”操作，我们通常是指以下一个或多个操作步骤：

l （Splitting）按照一些规则将数据分为不同的组；

l （Applying）对于每组数据分别执行一个函数；

l （Combining）将结果组合到一个数据结构中；

使用dataframe实现groupby的用法：

# -*- coding: UTF-8 -*-import pandas as pddf = pd.DataFrame([{'col1':'a', 'col2':1, 'col3':'aa'}, {'col1':'b', 'col2':2, 'col3':'bb'}, {'col1':'c', 'col2':3, 'col3':'cc'}, {'col1':'a', 'col2':44, 'col3':'aa'}])print df# 按col1分组并按col2求和print df.groupby(by='col1').agg({'col2':sum}).reset_index()# 按col1分组并按col2求最值print df.groupby(by='col1').agg({'col2':['max', 'min']}).reset_index()# 按col1 ，col3分组并按col2求和print df.groupby(by=['col1', 'col3']).agg({'col2':sum}).reset_index()

输出结果为：

 col1 col2 col3 0  a   1  aa 1  b   2  bb 2  c   3  cc 3  a  44  aa

 col1 col2 0  a  45 1  b   2 2  c   3

 col1 col2       max min 0  a  44  1 1  b  2  2 2  c  3  3

 col1 col3 col2 0  a  aa  45 1  b  bb   2 2  c  cc   3

注意点：

代码中调用了reset_index() 函数, 如果不使用这个函数输出的结果将是：

   col2col1   a    45b    2c    3   col2     max mincol1     a   44  1b    2  2c    3  3      col2col1 col3   a  aa   45b  bb    2c  cc    3

上下两个结果还是有区别的，但是具体区别暂时不太清楚，不过下面的一种输出结果是不能跟使用df['col1']来提取第一列的。至于是什么原因暂时还不清楚，如果您对pandas比较理解或者知道原因，欢迎在评论中留言。

以上这篇pandas数据预处理之dataframe的groupby操作方法就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持。

上一条：
Pandas中把dataframe转成array的方法
下一条：
DataFrame 将某列数据转为数组的方法

0条评论 (评论内容有缓存机制,请悉知!)

最新最热

相关文章
Apifox桌面端被曝遭供应链投毒：CDN 脚本被篡改，窃取 SSH 密钥与 Git 凭证(0个评论)
智能合约Solidity学习CryptoZombie第四课:僵尸作战系统(0个评论)
智能合约Solidity学习CryptoZombie第三课:组建僵尸军队(高级Solidity理论)(0个评论)
智能合约Solidity学习CryptoZombie第二课:让你的僵尸猎食(0个评论)
智能合约Solidity学习CryptoZombie第一课:生成一只你的僵尸(0个评论)

近期评论
test1 在
opencode + Oh-my-openagent,我的第一个免费的ai编程智能体管家:Sisyphus中评论 test..
122 在
学历：一种延缓就业设计，生活需求下的权衡之选中评论工作几年后，报名考研了，到现在还没认真学习备考，迷茫中。作为一名北漂互联网打工人..
Zita 在
Google AI Studio升级全栈 vibe coding体验，可直接构建带登录和数据库的应用中评论 111222..
123 在
Clash for Windows作者删库跑路了，github已404中评论按理说只要你在国内，所有的流量进出都在监控范围内，不管你怎么隐藏也没用，想搞你分..
原梓番博客在
在Laravel框架中使用模型Model分表最简单的方法中评论好久好久都没看友情链接申请了，今天刚看，已经添加。..

Top