侯体宗的博客
  • 首页
  • Hyperf版
  • beego仿版
  • 人生(杂谈)
  • 技术
  • 关于我
  • 更多分类
    • 文件下载
    • 文字修仙
    • 中国象棋ai
    • 群聊
    • 九宫格抽奖
    • 拼图
    • 消消乐
    • 相册

pandas dataframe的合并实现(append, merge, concat)

技术  /  管理员 发布于 7年前   425

创建2个DataFrame:

>>> df1 = pd.DataFrame(np.ones((4, 4))*1, columns=list('DCBA'), index=list('4321'))>>> df2 = pd.DataFrame(np.ones((4, 4))*2, columns=list('FEDC'), index=list('6543'))>>> df3 = pd.DataFrame(np.ones((4, 4))*3, columns=list('FEBA'), index=list('6521'))>>> df1  D  C  B  A4 1.0 1.0 1.0 1.03 1.0 1.0 1.0 1.02 1.0 1.0 1.0 1.01 1.0 1.0 1.0 1.0>>> df2  F  E  D  C6 2.0 2.0 2.0 2.05 2.0 2.0 2.0 2.04 2.0 2.0 2.0 2.03 2.0 2.0 2.0 2.0>>> df3  F  E  B  A6 3.0 3.0 3.0 3.05 3.0 3.0 3.0 3.02 3.0 3.0 3.0 3.01 3.0 3.0 3.0 3.0   

1,concat

pd.concat(objs, axis=0, join='outer', join_axes=None, ignore_index=False,     keys=None, levels=None, names=None, verify_integrity=False,     copy=True) 

 示例:

>>> pd.concat([df1, df2])  A  B  C  D  E  F4 1.0 1.0 1.0 1.0 NaN NaN3 1.0 1.0 1.0 1.0 NaN NaN2 1.0 1.0 1.0 1.0 NaN NaN1 1.0 1.0 1.0 1.0 NaN NaN6 NaN NaN 2.0 2.0 2.0 2.05 NaN NaN 2.0 2.0 2.0 2.04 NaN NaN 2.0 2.0 2.0 2.03 NaN NaN 2.0 2.0 2.0 2.0 

1.1,axis

默认值:axis=0
axis=0:竖方向(index)合并,合并方向index作列表相加,非合并方向columns取并集
axis=1:横方向(columns)合并,合并方向columns作列表相加,非合并方向index取并集
axis=0:

>>> pd.concat([df1, df2], axis=0)  A  B  C  D  E  F4 1.0 1.0 1.0 1.0 NaN NaN3 1.0 1.0 1.0 1.0 NaN NaN2 1.0 1.0 1.0 1.0 NaN NaN1 1.0 1.0 1.0 1.0 NaN NaN6 NaN NaN 2.0 2.0 2.0 2.05 NaN NaN 2.0 2.0 2.0 2.04 NaN NaN 2.0 2.0 2.0 2.03 NaN NaN 2.0 2.0 2.0 2.0  

axis=1:

>>> pd.concat([df1, df2], axis=1)  D  C  B  A  F  E  D  C1 1.0 1.0 1.0 1.0 NaN NaN NaN NaN2 1.0 1.0 1.0 1.0 NaN NaN NaN NaN3 1.0 1.0 1.0 1.0 2.0 2.0 2.0 2.04 1.0 1.0 1.0 1.0 2.0 2.0 2.0 2.05 NaN NaN NaN NaN 2.0 2.0 2.0 2.06 NaN NaN NaN NaN 2.0 2.0 2.0 2.0 

备注:原df中,取并集的行/列名称不能有重复项,即axis=0时columns不能有重复项,axis=1时index不能有重复项:

>>> df1.columns = list('DDBA')>>> pd.concat([df1, df2], axis=0)ValueError: Plan shapes are not aligned 

1.2,join

默认值:join=‘outer'
非合并方向的行/列名称:取交集(inner),取并集(outer)。
axis=0时join='inner',columns取交集:

>>> pd.concat([df1, df2], axis=0, join='inner')  D  C4 1.0 1.03 1.0 1.02 1.0 1.01 1.0 1.06 2.0 2.05 2.0 2.04 2.0 2.03 2.0 2.0 

axis=1时join='inner',index取交集:

>>> pd.concat([df1, df2], axis=1, join='inner')  D  C  B  A  F  E  D  C4 1.0 1.0 1.0 1.0 2.0 2.0 2.0 2.03 1.0 1.0 1.0 1.0 2.0 2.0 2.0 2.0 

1.3,join_axes

默认值:join_axes=None,取并集
合并后,可以设置非合并方向的行/列名称,使用某个df的行/列名称
axis=0时join_axes=[df1.columns],合并后columns使用df1的:

>>> pd.concat([df1, df2], axis=0, join_axes=[df1.columns])  D  C  B  A4 1.0 1.0 1.0 1.03 1.0 1.0 1.0 1.02 1.0 1.0 1.0 1.01 1.0 1.0 1.0 1.06 2.0 2.0 NaN NaN5 2.0 2.0 NaN NaN4 2.0 2.0 NaN NaN3 2.0 2.0 NaN NaN 

axis=1时axes=[df1.index],合并后index使用df2的:

pd.concat([df1, df2], axis=1, join_axes=[df1.index])  D  C  B  A  F  E  D  C4 1.0 1.0 1.0 1.0 2.0 2.0 2.0 2.03 1.0 1.0 1.0 1.0 2.0 2.0 2.0 2.02 1.0 1.0 1.0 1.0 NaN NaN NaN NaN1 1.0 1.0 1.0 1.0 NaN NaN NaN NaN 

同时设置join和join_axes的,以join_axes为准:

>>> pd.concat([df1, df2], axis=0, join='inner', join_axes=[df1.columns])  D  C  B  A4 1.0 1.0 1.0 1.03 1.0 1.0 1.0 1.02 1.0 1.0 1.0 1.01 1.0 1.0 1.0 1.06 2.0 2.0 NaN NaN5 2.0 2.0 NaN NaN4 2.0 2.0 NaN NaN3 2.0 2.0 NaN NaN 

1.4,ignore_index

默认值:ignore_index=False

合并方向是否忽略原行/列名称,而采用系统默认的索引,即从0开始的int。

axis=0时ignore_index=True,index采用系统默认索引:

>>> pd.concat([df1, df2], axis=0, ignore_index=True)  A  B  C  D  E  F0 1.0 1.0 1.0 1.0 NaN NaN1 1.0 1.0 1.0 1.0 NaN NaN2 1.0 1.0 1.0 1.0 NaN NaN3 1.0 1.0 1.0 1.0 NaN NaN4 NaN NaN 2.0 2.0 2.0 2.05 NaN NaN 2.0 2.0 2.0 2.06 NaN NaN 2.0 2.0 2.0 2.07 NaN NaN 2.0 2.0 2.0 2.0 

axis=1时ignore_index=True,columns采用系统默认索引:

>>> pd.concat([df1, df2], axis=1, ignore_index=True)  0  1  2  3  4  5  6  71 1.0 1.0 1.0 1.0 NaN NaN NaN NaN2 1.0 1.0 1.0 1.0 NaN NaN NaN NaN3 1.0 1.0 1.0 1.0 2.0 2.0 2.0 2.04 1.0 1.0 1.0 1.0 2.0 2.0 2.0 2.05 NaN NaN NaN NaN 2.0 2.0 2.0 2.06 NaN NaN NaN NaN 2.0 2.0 2.0 2.0 

1.5,keys

默认值:keys=None

可以加一层标签,标识行/列名称属于原来哪个df。

axis=0时设置keys:

>>> pd.concat([df1, df2], axis=0, keys=['x', 'y'])   A  B  C  D  E  Fx 4 1.0 1.0 1.0 1.0 NaN NaN 3 1.0 1.0 1.0 1.0 NaN NaN 2 1.0 1.0 1.0 1.0 NaN NaN 1 1.0 1.0 1.0 1.0 NaN NaNy 6 NaN NaN 2.0 2.0 2.0 2.0 5 NaN NaN 2.0 2.0 2.0 2.0 4 NaN NaN 2.0 2.0 2.0 2.0 3 NaN NaN 2.0 2.0 2.0 2.0 

axis=1时设置keys:

>>> pd.concat([df1, df2], axis=1, keys=['x', 'y'])   x          y           D  C  B  A  F  E  D  C1 1.0 1.0 1.0 1.0 NaN NaN NaN NaN2 1.0 1.0 1.0 1.0 NaN NaN NaN NaN3 1.0 1.0 1.0 1.0 2.0 2.0 2.0 2.04 1.0 1.0 1.0 1.0 2.0 2.0 2.0 2.05 NaN NaN NaN NaN 2.0 2.0 2.0 2.06 NaN NaN NaN NaN 2.0 2.0 2.0 2.0  

也可以传字典取代keys:

>>> pd.concat({'x': df1, 'y': df2}, axis=0)   A  B  C  D  E  Fx 4 1.0 1.0 1.0 1.0 NaN NaN 3 1.0 1.0 1.0 1.0 NaN NaN 2 1.0 1.0 1.0 1.0 NaN NaN 1 1.0 1.0 1.0 1.0 NaN NaNy 6 NaN NaN 2.0 2.0 2.0 2.0 5 NaN NaN 2.0 2.0 2.0 2.0 4 NaN NaN 2.0 2.0 2.0 2.0 3 NaN NaN 2.0 2.0 2.0 2.0 

1.6,levels

默认值:levels=None

明确行/列名称取值范围:

>>> pd.concat([df1, df2], axis=0, keys=['x', 'y'], levels=[['x', 'y', 'z', 'w']])>>> df.index.levels[['x', 'y', 'z', 'w'], ['1', '2', '3', '4', '5', '6']] 

1.7,sort

默认值:sort=True,提示新版本会设置默认为False,并取消该参数

但0.22.0中虽然取消了,还是设置为True

非合并方向的行/列名称是否排序。例如1.1中默认axis=0时columns进行了排序,axis=1时index进行了排序。

axis=0时sort=False,columns不作排序:

>>> pd.concat([df1, df2], axis=0, sort=False)  D  C  B  A  F  E4 1.0 1.0 1.0 1.0 NaN NaN3 1.0 1.0 1.0 1.0 NaN NaN2 1.0 1.0 1.0 1.0 NaN NaN1 1.0 1.0 1.0 1.0 NaN NaN6 2.0 2.0 NaN NaN 2.0 2.05 2.0 2.0 NaN NaN 2.0 2.04 2.0 2.0 NaN NaN 2.0 2.03 2.0 2.0 NaN NaN 2.0 2.0 

axis=1时sort=False,index不作排序:

>>> pd.concat([df1, df2], axis=1, sort=False)  D  C  B  A  F  E  D  C4 1.0 1.0 1.0 1.0 2.0 2.0 2.0 2.03 1.0 1.0 1.0 1.0 2.0 2.0 2.0 2.02 1.0 1.0 1.0 1.0 NaN NaN NaN NaN1 1.0 1.0 1.0 1.0 NaN NaN NaN NaN6 NaN NaN NaN NaN 2.0 2.0 2.0 2.05 NaN NaN NaN NaN 2.0 2.0 2.0 2.0 

1.8,concat多个DataFrame

>>> pd.concat([df1, df2, df3], sort=False, join_axes=[df1.columns])  D  C  B  A4 1.0 1.0 1.0 1.03 1.0 1.0 1.0 1.02 1.0 1.0 1.0 1.01 1.0 1.0 1.0 1.06 2.0 2.0 NaN NaN5 2.0 2.0 NaN NaN4 2.0 2.0 NaN NaN3 2.0 2.0 NaN NaN6 NaN NaN 3.0 3.05 NaN NaN 3.0 3.02 NaN NaN 3.0 3.01 NaN NaN 3.0 3.0 

2,append

append(self, other, ignore_index=False, verify_integrity=False) 

竖方向合并df,没有axis属性

不会就地修改,而是会创建副本

示例:

>>> df1.append(df2)  # 相当于pd.concat([df1, df2])  A  B  C  D  E  F4 1.0 1.0 1.0 1.0 NaN NaN3 1.0 1.0 1.0 1.0 NaN NaN2 1.0 1.0 1.0 1.0 NaN NaN1 1.0 1.0 1.0 1.0 NaN NaN6 NaN NaN 2.0 2.0 2.0 2.05 NaN NaN 2.0 2.0 2.0 2.04 NaN NaN 2.0 2.0 2.0 2.03 NaN NaN 2.0 2.0 2.0 2.0   

2.1,ignore_index属性

>>> df1.append(df2, ignore_index=True)  A  B  C  D  E  F0 1.0 1.0 1.0 1.0 NaN NaN1 1.0 1.0 1.0 1.0 NaN NaN2 1.0 1.0 1.0 1.0 NaN NaN3 1.0 1.0 1.0 1.0 NaN NaN4 NaN NaN 2.0 2.0 2.0 2.05 NaN NaN 2.0 2.0 2.0 2.06 NaN NaN 2.0 2.0 2.0 2.07 NaN NaN 2.0 2.0 2.0 2.0

2.2,append多个DataFrame

和concat相同,append也支持append多个DataFrame

>>> df1.append([df2, df3], ignore_index=True)   A  B  C  D  E  F0  1.0 1.0 1.0 1.0 NaN NaN1  1.0 1.0 1.0 1.0 NaN NaN2  1.0 1.0 1.0 1.0 NaN NaN3  1.0 1.0 1.0 1.0 NaN NaN4  NaN NaN 2.0 2.0 2.0 2.05  NaN NaN 2.0 2.0 2.0 2.06  NaN NaN 2.0 2.0 2.0 2.07  NaN NaN 2.0 2.0 2.0 2.08  3.0 3.0 NaN NaN 3.0 3.09  3.0 3.0 NaN NaN 3.0 3.010 3.0 3.0 NaN NaN 3.0 3.011 3.0 3.0 NaN NaN 3.0 3.0 

3,merge

pd.merge(left, right, how='inner', on=None, left_on=None, right_on=None,     left_index=False, right_index=False, sort=True,     suffixes=('_x', '_y'), copy=True, indicator=False,     validate=None) 

示例:  

>>> left = pd.DataFrame({'A': ['a0', 'a1', 'a2', 'a3'], 'B': ['b0', 'b1', 'b2', 'b3'], 'k1': ['x', 'x', 'y', 'y']})>>> right = pd.DataFrame({'C': ['c1', 'c2', 'c3', 'c4'], 'D': ['d1', 'd2', 'd3', 'd4'], 'k1': ['y', 'y', 'z', 'z']})>>> left  A  B k10 a0 b0 x1 a1 b1 x2 a2 b2 y3 a3 b3 y>>> right  C  D k10 c1 d1 y1 c2 d2 y2 c3 d3 z3 c4 d4 z 

对df1和df2进行merge:

>>> pd.merge(left, right)  A  B k1 C  D0 a2 b2 y c1 d11 a2 b2 y c2 d22 a3 b3 y c1 d13 a3 b3 y c2 d2 

可以看到只有df1和df2的key1=y的行保留了下来,即默认合并后只保留有共同列项并且值相等行(即交集)。

本例中left和right的k1=y分别有2个,最终构成了2*2=4行。

如果没有共同列会报错:

>>> del left['k1']>>> pd.merge(left, right)pandas.errors.MergeError: No common columns to perform merge on 

3.1,on属性

新增一个共同列,但没有相等的值,发现合并返回是空列表,因为默认只保留所有共同列都相等的行:

>>> left['k2'] = list('1234')>>> right['k2'] = list('5678')>>> pd.merge(left, right)Empty DataFrameColumns: [B, A, k1, k2, F, E]Index: [] 

可以指定on,设定合并基准列,就可以根据k1进行合并,并且left和right共同列k2会同时变换名称后保留下来:

>>> pd.merge(left, right, on='k1')  A  B k1 k2_x  C  D  k2_y0 a2 b2 y   3  c1 d1  51 a2 b2 y   3  c2 d2  62 a3 b3 y   4  c1 d1  53 a3 b3 y   4  c2 d2  6

默认值:on的默认值是所有共同列,本例为:on=['k1', 'k2']

3.2,how属性

how取值范围:'inner', 'outer', 'left', 'right'

默认值:how='inner'

‘inner':共同列的值必须完全相等:

>>> pd.merge(left, right, on='k1', how='inner')  A  B k1 k2_x  C  D  k2_y0 a2 b2 y   3  c1 d1  51 a2 b2 y   3  c2 d2  62 a3 b3 y   4  c1 d1  53 a3 b3 y   4  c2 d2  6 

‘outer':共同列的值都会保留,left或right在共同列上的差集,会对它们的缺失列项的值赋上NaN:

>>> pd.merge(left, right, on='k1', how='outer')  A  B k1  k2_x C  D k2_y0  a0  b0 x  1 NaN NaN NaN1  a1  b1 x  2 NaN NaN NaN2  a2  b2 y  3  c1  d1  53  a2  b2 y  3  c2  d2  64  a3  b3 y  4  c1  d1  55  a3  b3 y  4  c2  d2  66 NaN NaN z NaN  c3  d3  77 NaN NaN z NaN  c4  d4  8 

‘left':根据左边的DataFrame确定共同列的保留值,右边缺失列项的值赋上NaN:

pd.merge(left, right, on='k1', how='left')  A  B k1 k2_x C  D  k2_y0 a0 b0 x  1 NaN NaN NaN1 a1 b1 x  2 NaN NaN NaN2 a2 b2 y  3  c1  d1  53 a2 b2 y  3  c2  d2  64 a3 b3 y  4  c1  d1  55 a3 b3 y  4  c2  d2  6 

‘right':根据右边的DataFrame确定共同列的保留值,左边缺失列项的值赋上NaN:

>>> pd.merge(left, right, on='k1', how='right')   A  B k1 k2_x C  D  k2_y0  a2  b2 y  3 c1 d1  51  a3  b3 y  4 c1 d1  52  a2  b2 y  3 c2 d2  63  a3  b3 y  4 c2 d2  64 NaN NaN z NaN c3 d3  75 NaN NaN z NaN c4 d4  8 

3.3,indicator

默认值:indicator=False,不显示合并方式

设置True表示显示合并方式,即left / right / both:

>>> pd.merge(left, right, on='k1', how='outer', indicator=True)   A  B k1 k2_x C  D  k2_y   _merge0  a0  b0 x  1 NaN NaN NaN  left_only1  a1  b1 x  2 NaN NaN NaN  left_only2  a2  b2 y  3  c1  d1  5    both3  a2  b2 y  3  c2  d2  6    both4  a3  b3 y  4  c1  d1  5    both5  a3  b3 y  4  c2  d2  6    both6 NaN NaN z NaN  c3  d3  7 right_only7 NaN NaN z NaN  c4  d4  8 right_only 

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持。


  • 上一条:
    pandas DataFrame 交集并集补集的实现
    下一条:
    pandas.cut具体使用总结
  • 昵称:

    邮箱:

    0条评论 (评论内容有缓存机制,请悉知!)
    最新最热
    • 分类目录
    • 人生(杂谈)
    • 技术
    • linux
    • Java
    • php
    • 框架(架构)
    • 前端
    • ThinkPHP
    • 数据库
    • 微信(小程序)
    • Laravel
    • Redis
    • Docker
    • Go
    • swoole
    • Windows
    • Python
    • 苹果(mac/ios)
    • 相关文章
    • gmail发邮件报错:534 5.7.9 Application-specific password required...解决方案(0个评论)
    • 2024.07.09日OpenAI将终止对中国等国家和地区API服务(0个评论)
    • 2024/6/9最新免费公益节点SSR/V2ray/Shadowrocket/Clash节点分享|科学上网|免费梯子(1个评论)
    • 国外服务器实现api.openai.com反代nginx配置(0个评论)
    • 2024/4/28最新免费公益节点SSR/V2ray/Shadowrocket/Clash节点分享|科学上网|免费梯子(1个评论)
    • 近期文章
    • 在go中实现一个常用的先进先出的缓存淘汰算法示例代码(0个评论)
    • 在go+gin中使用"github.com/skip2/go-qrcode"实现url转二维码功能(0个评论)
    • 在go语言中使用api.geonames.org接口实现根据国际邮政编码获取地址信息功能(1个评论)
    • 在go语言中使用github.com/signintech/gopdf实现生成pdf分页文件功能(0个评论)
    • gmail发邮件报错:534 5.7.9 Application-specific password required...解决方案(0个评论)
    • 欧盟关于强迫劳动的规定的官方举报渠道及官方举报网站(0个评论)
    • 在go语言中使用github.com/signintech/gopdf实现生成pdf文件功能(0个评论)
    • Laravel从Accel获得5700万美元A轮融资(0个评论)
    • 在go + gin中gorm实现指定搜索/区间搜索分页列表功能接口实例(0个评论)
    • 在go语言中实现IP/CIDR的ip和netmask互转及IP段形式互转及ip是否存在IP/CIDR(0个评论)
    • 近期评论
    • 122 在

      学历:一种延缓就业设计,生活需求下的权衡之选中评论 工作几年后,报名考研了,到现在还没认真学习备考,迷茫中。作为一名北漂互联网打工人..
    • 123 在

      Clash for Windows作者删库跑路了,github已404中评论 按理说只要你在国内,所有的流量进出都在监控范围内,不管你怎么隐藏也没用,想搞你分..
    • 原梓番博客 在

      在Laravel框架中使用模型Model分表最简单的方法中评论 好久好久都没看友情链接申请了,今天刚看,已经添加。..
    • 博主 在

      佛跳墙vpn软件不会用?上不了网?佛跳墙vpn常见问题以及解决办法中评论 @1111老铁这个不行了,可以看看近期评论的其他文章..
    • 1111 在

      佛跳墙vpn软件不会用?上不了网?佛跳墙vpn常见问题以及解决办法中评论 网站不能打开,博主百忙中能否发个APP下载链接,佛跳墙或极光..
    • 2016-10
    • 2016-11
    • 2017-07
    • 2017-08
    • 2017-09
    • 2018-01
    • 2018-07
    • 2018-08
    • 2018-09
    • 2018-12
    • 2019-01
    • 2019-02
    • 2019-03
    • 2019-04
    • 2019-05
    • 2019-06
    • 2019-07
    • 2019-08
    • 2019-09
    • 2019-10
    • 2019-11
    • 2019-12
    • 2020-01
    • 2020-03
    • 2020-04
    • 2020-05
    • 2020-06
    • 2020-07
    • 2020-08
    • 2020-09
    • 2020-10
    • 2020-11
    • 2021-04
    • 2021-05
    • 2021-06
    • 2021-07
    • 2021-08
    • 2021-09
    • 2021-10
    • 2021-12
    • 2022-01
    • 2022-02
    • 2022-03
    • 2022-04
    • 2022-05
    • 2022-06
    • 2022-07
    • 2022-08
    • 2022-09
    • 2022-10
    • 2022-11
    • 2022-12
    • 2023-01
    • 2023-02
    • 2023-03
    • 2023-04
    • 2023-05
    • 2023-06
    • 2023-07
    • 2023-08
    • 2023-09
    • 2023-10
    • 2023-12
    • 2024-02
    • 2024-04
    • 2024-05
    • 2024-06
    • 2025-02
    Top

    Copyright·© 2019 侯体宗版权所有· 粤ICP备20027696号 PHP交流群

    侯体宗的博客