侯体宗的博客
  • 首页
  • Hyperf版
  • beego仿版
  • 人生(杂谈)
  • 技术
  • 关于我
  • 更多分类
    • 文件下载
    • 文字修仙
    • 中国象棋ai
    • 群聊
    • 九宫格抽奖
    • 拼图
    • 消消乐
    • 相册

python pandas库的安装和创建

Python  /  管理员 发布于 7年前   385

pandas 对于数据分析的人员来说都是必须熟悉的第三方库,pandas 在科学计算上有很大的优势,特别是对于数据分析人员来说,相当的重要。python中有了Numpy ,但是Numpy 还是比较数学化,还需要有一种库能够更加具体的代表数据模型,我们都非常的清楚在数据处理中EXCEL 扮演着非常重要的作用,表格的模式是数据模型最好的一种展现形式。

pandas 是对表格数据模型在python上的模拟,它有简单的像SQL 对数据的处理,能够方便的在python上实现。

pandas 的安装

pandas 在python上的安装同样的使用pip进行:

pip install pandas

pandas 创建对象

pandas 有两种数据结构:Series 和 DataFrame 。

Series

Series 像python中的数据list 一样,每个数据都有自己的索引。从list创建 Series。

>>> import pandas as pd>>> s1 = pd.Series([100,23,'bugingcode'])>>> s10   1001   232 bugingcodedtype: object>>>

在Series 中添加相应的索引:

>>> import numpy as np>>> ts = pd.Series(np.random.randn(365), index=np.arange(1,366))>>> ts

在index中设置索引值是一个从1到366的值。

Series 的数据结构最像的是python中的字典,从字典中创建Series:

sd = {'xiaoming':14,'tom':15,'john':13}s4 = pd.Series(sd)

这时候可以看到Series 已经是自带索引index。

pandas 本身跟 python的另外一个第三方库Matplotlib 有很多的连接,Matplotlib 一个最经常用到的是用来展示数据的,如果还对Matplotlib 不了解的话,后面的章节会进行介绍,现在先拿过来直接用下,如果还没有安装的话,一样的用pip命令安装 pip install Matplotlib , 展示如下数据:

import pandas as pdimport numpy as npimport matplotlib.pyplot as pltts = pd.Series(np.random.randn(365), index=np.arange(1,366))ts.plot()plt.show()

一个不规则的图形,在数据分析中,时间是一个重要的特性,因为很多数据都是跟时间是有关系的,销售额跟时间有关系,天气跟时间有关系。。。,在pandas 中也提供了关于时间的一些函数,使用date_range 生成一系列时间。

>>> pd.date_range('01/01/2017',periods=365)DatetimeIndex(['2017-01-01', '2017-01-02', '2017-01-03', '2017-01-04',    '2017-01-05', '2017-01-06', '2017-01-07', '2017-01-08',    '2017-01-09', '2017-01-10',    ...    '2017-12-22', '2017-12-23', '2017-12-24', '2017-12-25',    '2017-12-26', '2017-12-27', '2017-12-28', '2017-12-29',    '2017-12-30', '2017-12-31'],    dtype='datetime64[ns]', length=365, freq='D')>>>

之前我们的图形不规则,有一个原因是数据不是连续的,使用cumsum让数据连续:

如下:

import pandas as pdimport numpy as npimport matplotlib.pyplot as pltts = pd.Series(np.random.randn(365), index=pd.date_range('01/01/2017',periods=365))ts = ts.cumsum()ts.plot()plt.show()

DataFrame

DataFrame 相当于Series 一维的一个扩展,是一种二维的数据模型,相当于EXcel表格中的数据,有横竖两种坐标,横轴很Series 一样使用index,竖轴用columns 来确定,在建立DataFrame 对象的时候,需要确定三个元素:数据,横轴,竖轴。

df = pd.DataFrame(np.random.randn(8,6), index=pd.date_range('01/01/2018',periods=8),columns=list('ABCDEF'))print df

数据如下:

     A   B   C   D   E   F2018-01-01 0.712636 0.546680 -0.847866 -0.629005 2.152686 0.5639072018-01-02 -1.292799 1.122098 0.743293 0.656412 0.989738 2.4682002018-01-03 1.762894 0.783614 -0.301468 0.289608 -0.780844 0.8730742018-01-04 -0.818066 1.629542 -0.595451 0.910141 0.160980 0.3066602018-01-05 2.008658 0.456592 -0.839597 1.615013 0.718422 -0.5645842018-01-06 0.480893 0.724015 -1.076434 -0.253731 0.337147 -0.0282122018-01-07 -0.672501 0.739550 -1.316094 1.118234 -1.456680 -0.6018902018-01-08 -1.028436 -1.036542 -0.459044 1.321962 -0.198338 -1.034822

在数据分析的过程中,很常见的一种情况是数据直接从excel 或者cvs 过来,可以excel中读取数据到DataFrame ,数据在 DataFrame 中进行处理:

df = pd.read_excel('data.xlsx',sheet_name= 'Sheet1')print df

同样的有保存数据到excel 中 to_excel。

处理cvs数据的函数是:read_cvs 和 to_cvs ,处理HDF5的函数为 read_hdf 和 to_hdf 。

访问DataFrame 可以跟二位数组一样的访问方式:

print df['A']

带出横轴标签:

2018-01-01 0.7126362018-01-02 -1.2927992018-01-03 1.7628942018-01-04 -0.8180662018-01-05 2.0086582018-01-06 0.4808932018-01-07 -0.6725012018-01-08 -1.028436

同样的可以指定某一个元素:

print df['A']['2018-01-01']

对数组进行切片出来,认清横轴和纵轴:

>>> import pandas as pd>>> df = pd.read_excel('data.xlsx',sheet_name= 'Sheet1')>>> df[:][0:3]     A   B   C   D   E   F2018-01-01 0.712636 0.546680 -0.847866 -0.629005 2.152686 0.5639072018-01-02 -1.292799 1.122098 0.743293 0.656412 0.989738 2.4682002018-01-03 1.762894 0.783614 -0.301468 0.289608 -0.780844 0.873074>>>

DataFrame 涉及的较多的函数,接下来会有更多的介绍。

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持。


  • 上一条:
    对python PLT中的image和skimage处理图片方法详解
    下一条:
    Python绘制并保存指定大小图像的方法
  • 昵称:

    邮箱:

    0条评论 (评论内容有缓存机制,请悉知!)
    最新最热
    • 分类目录
    • 人生(杂谈)
    • 技术
    • linux
    • Java
    • php
    • 框架(架构)
    • 前端
    • ThinkPHP
    • 数据库
    • 微信(小程序)
    • Laravel
    • Redis
    • Docker
    • Go
    • swoole
    • Windows
    • Python
    • 苹果(mac/ios)
    • 相关文章
    • 在python语言中Flask框架的学习及简单功能示例(0个评论)
    • 在Python语言中实现GUI全屏倒计时代码示例(0个评论)
    • Python + zipfile库实现zip文件解压自动化脚本示例(0个评论)
    • python爬虫BeautifulSoup快速抓取网站图片(1个评论)
    • vscode 配置 python3开发环境的方法(0个评论)
    • 近期文章
    • 在go语言中使用api.geonames.org接口实现根据国际邮政编码获取地址信息功能(1个评论)
    • 在go语言中使用github.com/signintech/gopdf实现生成pdf分页文件功能(0个评论)
    • gmail发邮件报错:534 5.7.9 Application-specific password required...解决方案(0个评论)
    • 欧盟关于强迫劳动的规定的官方举报渠道及官方举报网站(0个评论)
    • 在go语言中使用github.com/signintech/gopdf实现生成pdf文件功能(0个评论)
    • Laravel从Accel获得5700万美元A轮融资(0个评论)
    • 在go + gin中gorm实现指定搜索/区间搜索分页列表功能接口实例(0个评论)
    • 在go语言中实现IP/CIDR的ip和netmask互转及IP段形式互转及ip是否存在IP/CIDR(0个评论)
    • PHP 8.4 Alpha 1现已发布!(0个评论)
    • Laravel 11.15版本发布 - Eloquent Builder中添加的泛型(0个评论)
    • 近期评论
    • 122 在

      学历:一种延缓就业设计,生活需求下的权衡之选中评论 工作几年后,报名考研了,到现在还没认真学习备考,迷茫中。作为一名北漂互联网打工人..
    • 123 在

      Clash for Windows作者删库跑路了,github已404中评论 按理说只要你在国内,所有的流量进出都在监控范围内,不管你怎么隐藏也没用,想搞你分..
    • 原梓番博客 在

      在Laravel框架中使用模型Model分表最简单的方法中评论 好久好久都没看友情链接申请了,今天刚看,已经添加。..
    • 博主 在

      佛跳墙vpn软件不会用?上不了网?佛跳墙vpn常见问题以及解决办法中评论 @1111老铁这个不行了,可以看看近期评论的其他文章..
    • 1111 在

      佛跳墙vpn软件不会用?上不了网?佛跳墙vpn常见问题以及解决办法中评论 网站不能打开,博主百忙中能否发个APP下载链接,佛跳墙或极光..
    • 2016-10
    • 2016-11
    • 2018-04
    • 2020-03
    • 2020-04
    • 2020-05
    • 2020-06
    • 2022-01
    • 2023-07
    • 2023-10
    Top

    Copyright·© 2019 侯体宗版权所有· 粤ICP备20027696号 PHP交流群

    侯体宗的博客