侯体宗的博客
  • 首页
  • Hyperf版
  • beego仿版
  • 人生(杂谈)
  • 技术
  • 关于我
  • 更多分类
    • 文件下载
    • 文字修仙
    • 中国象棋ai
    • 群聊
    • 九宫格抽奖
    • 拼图
    • 消消乐
    • 相册

从列表或字典创建Pandas的DataFrame对象的方法

技术  /  管理员 发布于 7年前   213

介绍

每当我使用pandas进行分析时,我的第一个目标是使用众多可用选项中的一个将数据导入Pandas的DataFrame 。
对于绝大多数情况下,我使用的 read_excel , read_csv 或 read_sql 。

但是,有些情况下我只需要几行数据或包含这些数据里的一些计算。

在这些情况下,了解如何从标准python列表或字典创建DataFrames会很有帮助。

基本过程并不困难,但因为有几种不同的选择,所以有助于理解每种方法的工作原理。

我永远记不住我是否应该使用 from_dict , from_records , from_items 或默认的 DataFrame 构造函数。

通常情况下,通过一些反复试验和错误,我能搞定它。但由于它仍然让我感到困惑,我想我会通过以下几个例子来澄清这些不同的方法。

在本文的最后,我简要介绍了在生成Excel报表时如何使用它。

从Python的数据结构中生成DataFrame

您可以使用多种方法来获取标准python数据结构并创建Pandas的DataFrame。

出于这些示例的目的,我将为3个虚构公司创建一个包含3个月销售信息的DataFrame。

字典

在展示下面的示例之前,我假设已执行以下导入:

import pandas as pdfrom collections import OrderedDictfrom datetime import date

从python创建DataFrame的“默认”方式是使用字典列表。在这种情况下,每个字典键用于列标题。将自动创建默认索引:

sales = [{'account': 'Jones LLC', 'Jan': 150, 'Feb': 200, 'Mar': 140},     {'account': 'Alpha Co', 'Jan': 200, 'Feb': 210, 'Mar': 215},     {'account': 'Blue Inc', 'Jan': 50, 'Feb': 90, 'Mar': 95 }]df = pd.DataFrame(sales)


如您所见,这种方法非常“面向行”。如果您想以“面向列”的方式创建DataFrame,您可以使用 from_dict

sales = {'account': ['Jones LLC', 'Alpha Co', 'Blue Inc'],     'Jan': [150, 200, 50],sheng cheng     'Feb': [200, 210, 90],     'Mar': [140, 215, 95]}df = pd.DataFrame.from_dict(sales)

使用此方法,您可以获得与上面相同的结果。需要考虑的关键点是哪种方法更容易理解您独特的使用场景。

有时,以面向行的方式获取数据更容易,而其他时候以列为导向的则更容易。

了解这些选项将有助于使您的代码更简单,更易于理解,以满足您的特定需求。

大多数人会注意到列的顺序看起来不对。这个问题出现的原因是标准的python字典不保留其键的顺序。

如果要控制列顺序,则有两种方式。

第一种,您可以手动重新排序列:

df = df[['account', 'Jan', 'Feb', 'Mar']]

或者你可以使用python中的OrderedDict 创建你的有序字典 。

sales = OrderedDict([ ('account', ['Jones LLC', 'Alpha Co', 'Blue Inc']),     ('Jan', [150, 200, 50]),     ('Feb', [200, 210, 90]),     ('Mar', [140, 215, 95]) ] )df = pd.DataFrame.from_dict(sales)

这两种方法都会按照您可能期望的顺序为您提供结果。


由于我在下面概述的原因,我倾向于专门重新排序我的列,尽管使用OrderedDict一直是一个很好理解的选项。

列表

从python创建DataFrame的另一个选择是将数据包含在列表结构中。
第一种方法是使用pandas进行面向行的方法 from_records 。此方法类似于字典方法,但您需要显式调出列标签。

sales = [('Jones LLC', 150, 200, 50),     ('Alpha Co', 200, 210, 90),     ('Blue Inc', 140, 215, 95)]labels = ['account', 'Jan', 'Feb', 'Mar']df = pd.DataFrame.from_records(sales, columns=labels)

第二种方法是 from_items 面向列的,实际上看起来类似于 OrderedDict 上面的例子。

sales = [('account', ['Jones LLC', 'Alpha Co', 'Blue Inc']),     ('Jan', [150, 200, 50]),     ('Feb', [200, 210, 90]),     ('Mar', [140, 215, 95]),     ]df = pd.DataFrame.from_items(sales)

这两个示例都将生成以下DataFrame:

各种选项的直观总结

为了保持各种选项在我的脑海中清晰,我将这个简单的图形放在一起,以显示字典与列表选项以及行与列导向的方法。

这是一个2X2的网格,所以我希望所有来询问的人都留下深刻的印象!

为简单起见,我没有展示 OrderedDict 方法,因为这种 from_items 方法可能更像是一个现实世界的解决方案。

如果这有点难以阅读,您也可以获得PDF版本。

简单的例子

对于一个简单的概念,这似乎有很多解释。

但是,我经常使用这些方法来构建小型DataFrame,并将其与更复杂的分析结合起来。

举一个例子,假设我们要保存我们的DataFrame并包含一个页脚,以便我们知道它何时被创建以及它是由谁创建的。
如果我们填充DataFrame并将其写入Excel比我们尝试将单个单元格写入Excel更容易。

拿我们现有的DataFrame:

sales = [('account', ['Jones LLC', 'Alpha Co', 'Blue Inc']),     ('Jan', [150, 200, 50]),     ('Feb', [200, 210, 90]),     ('Mar', [140, 215, 95]),     ]df = pd.DataFrame.from_items(sales)

现在构建一个页脚(以列为导向):

from datetime import datecreate_date = "{:%m-%d-%Y}".format(date.today())created_by = "CM"footer = [('Created by', [created_by]), ('Created on', [create_date]), ('Version', [1.1])]df_footer = pd.DataFrame.from_items(footer)


合并进入一个Excel中的一个sheet:

writer = pd.ExcelWriter('simple-report.xlsx', engine='xlsxwriter')df.to_excel(writer, index=False)df_footer.to_excel(writer, startrow=6, index=False)writer.save()


这里的秘诀是使用 startrow 在销售数据框架下面写入页脚DataFrame。还有一个相应的startcol,所以你可以控制成为你想要的列布局。

这使得基本 to_excel 功能具有很大的灵活性。

总结

大多数Pandas用户很快就熟悉了电子表格,CSV和SQL数据的摄取。

但是,有时您会在基本列表或字典中包含数据并希望填充DataFrame。

Pandas提供了几种选择,但可能并不总是立即明确何时使用哪种选择。

没有一种方法是“最好的”,它实际上取决于您的需求。

我倾向于喜欢基于列表的方法,因为我通常关心排序,列表确保我保留顺序。

最重要的是要知道这些选项是可用的,这样您就可以聪明地使用最简单的选项来满足您的特定情况。

从表面上看,这些代码样例看似简单,但我发现使用这些方法生成快速的信息片非常常见,他们可以增加或澄清更复杂的分析。

DataFrame中数据的好处在于它很容易转换为其他格式,如Excel,CSV, HTML,LaTeX等。

这种灵活性对于临时报告生成非常方便。

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持。


  • 上一条:
    pandas.DataFrame的pivot()和unstack()实现行转列
    下一条:
    pandas的qcut()方法详解
  • 昵称:

    邮箱:

    0条评论 (评论内容有缓存机制,请悉知!)
    最新最热
    • 分类目录
    • 人生(杂谈)
    • 技术
    • linux
    • Java
    • php
    • 框架(架构)
    • 前端
    • ThinkPHP
    • 数据库
    • 微信(小程序)
    • Laravel
    • Redis
    • Docker
    • Go
    • swoole
    • Windows
    • Python
    • 苹果(mac/ios)
    • 相关文章
    • 智能合约Solidity学习CryptoZombie第三课:组建僵尸军队(高级Solidity理论)(0个评论)
    • 智能合约Solidity学习CryptoZombie第二课:让你的僵尸猎食(0个评论)
    • 智能合约Solidity学习CryptoZombie第一课:生成一只你的僵尸(0个评论)
    • gmail发邮件报错:534 5.7.9 Application-specific password required...解决方案(0个评论)
    • 2024.07.09日OpenAI将终止对中国等国家和地区API服务(0个评论)
    • 近期文章
    • 智能合约Solidity学习CryptoZombie第三课:组建僵尸军队(高级Solidity理论)(0个评论)
    • 智能合约Solidity学习CryptoZombie第二课:让你的僵尸猎食(0个评论)
    • 智能合约Solidity学习CryptoZombie第一课:生成一只你的僵尸(0个评论)
    • 在go中实现一个常用的先进先出的缓存淘汰算法示例代码(0个评论)
    • 在go+gin中使用"github.com/skip2/go-qrcode"实现url转二维码功能(0个评论)
    • 在go语言中使用api.geonames.org接口实现根据国际邮政编码获取地址信息功能(1个评论)
    • 在go语言中使用github.com/signintech/gopdf实现生成pdf分页文件功能(0个评论)
    • gmail发邮件报错:534 5.7.9 Application-specific password required...解决方案(0个评论)
    • 欧盟关于强迫劳动的规定的官方举报渠道及官方举报网站(0个评论)
    • 在go语言中使用github.com/signintech/gopdf实现生成pdf文件功能(0个评论)
    • 近期评论
    • 122 在

      学历:一种延缓就业设计,生活需求下的权衡之选中评论 工作几年后,报名考研了,到现在还没认真学习备考,迷茫中。作为一名北漂互联网打工人..
    • 123 在

      Clash for Windows作者删库跑路了,github已404中评论 按理说只要你在国内,所有的流量进出都在监控范围内,不管你怎么隐藏也没用,想搞你分..
    • 原梓番博客 在

      在Laravel框架中使用模型Model分表最简单的方法中评论 好久好久都没看友情链接申请了,今天刚看,已经添加。..
    • 博主 在

      佛跳墙vpn软件不会用?上不了网?佛跳墙vpn常见问题以及解决办法中评论 @1111老铁这个不行了,可以看看近期评论的其他文章..
    • 1111 在

      佛跳墙vpn软件不会用?上不了网?佛跳墙vpn常见问题以及解决办法中评论 网站不能打开,博主百忙中能否发个APP下载链接,佛跳墙或极光..
    • 2016-10
    • 2016-11
    • 2017-07
    • 2017-08
    • 2017-09
    • 2018-01
    • 2018-07
    • 2018-08
    • 2018-09
    • 2018-12
    • 2019-01
    • 2019-02
    • 2019-03
    • 2019-04
    • 2019-05
    • 2019-06
    • 2019-07
    • 2019-08
    • 2019-09
    • 2019-10
    • 2019-11
    • 2019-12
    • 2020-01
    • 2020-03
    • 2020-04
    • 2020-05
    • 2020-06
    • 2020-07
    • 2020-08
    • 2020-09
    • 2020-10
    • 2020-11
    • 2021-04
    • 2021-05
    • 2021-06
    • 2021-07
    • 2021-08
    • 2021-09
    • 2021-10
    • 2021-12
    • 2022-01
    • 2022-02
    • 2022-03
    • 2022-04
    • 2022-05
    • 2022-06
    • 2022-07
    • 2022-08
    • 2022-09
    • 2022-10
    • 2022-11
    • 2022-12
    • 2023-01
    • 2023-02
    • 2023-03
    • 2023-04
    • 2023-05
    • 2023-06
    • 2023-07
    • 2023-08
    • 2023-09
    • 2023-10
    • 2023-12
    • 2024-02
    • 2024-04
    • 2024-05
    • 2024-06
    • 2025-02
    • 2025-07
    Top

    Copyright·© 2019 侯体宗版权所有· 粤ICP备20027696号 PHP交流群

    侯体宗的博客