文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

Pandas.DataFrame时间序列数据处理如何实现

2023-07-05 06:03

关注

本篇内容主要讲解“Pandas.DataFrame时间序列数据处理如何实现”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“Pandas.DataFrame时间序列数据处理如何实现”吧!

将pandas.DataFrame,pandas.Series的索引设置为datetime64 [ns]类型时,将其视为DatetimeIndex,并且可以使用各种处理时间序列数据的函数。可以按年或月指定行,并按切片指定提取周期,这在处理包含日期和时间信息(例如日期和时间)的数据时非常方便。

如何将一列现有数据指定为DatetimeIndex

将pandas.DataFrame与默认的基于0的索引和一个字符串列作为日期。

import pandas as pddf = pd.read_csv('./data/26/sample_date.csv')print(df)#           date  val_1  val_2# 0   2017-11-01     65     76# 1   2017-11-07     26     66# 2   2017-11-18     47     47# 3   2017-11-27     20     38# 4   2017-12-05     65     85# 5   2017-12-12      4     29# 6   2017-12-22     31     54# 7   2017-12-29     21      8# 8   2018-01-03     98     76# 9   2018-01-08     48     64# 10  2018-01-19     18     48# 11  2018-01-23     86     70print(type(df.index))# <class 'pandas.core.indexes.range.RangeIndex'>print(df['date'].dtype)# object

将to_datetime()应用于日期字符串列,并转换为datetime64 [ns]类型。

df['date'] = pd.to_datetime(df['date'])print(df['date'].dtype)# datetime64[ns]

使用set_index()方法将datetime64 [ns]类型的列指定为索引。

Pandas.DataFrame,重置列的行名(set_index)

索引现在是DatetimeIndex。索引的每个元素都是时间戳类型。

df.set_index('date', inplace=True)print(df)#             val_1  val_2# date                    # 2017-11-01     65     76# 2017-11-07     26     66# 2017-11-18     47     47# 2017-11-27     20     38# 2017-12-05     65     85# 2017-12-12      4     29# 2017-12-22     31     54# 2017-12-29     21      8# 2018-01-03     98     76# 2018-01-08     48     64# 2018-01-19     18     48# 2018-01-23     86     70print(type(df.index))# <class 'pandas.core.indexes.datetimes.DatetimeIndex'>print(df.index[0])print(type(df.index[0]))# 2017-11-01 00:00:00# <class 'pandas._libs.tslib.Timestamp'>

可以按年或月指定行,并按切片提取周期。

print(df['2018'])#             val_1  val_2# date                    # 2018-01-03     98     76# 2018-01-08     48     64# 2018-01-19     18     48# 2018-01-23     86     70print(df['2017-11'])#             val_1  val_2# date                    # 2017-11-01     65     76# 2017-11-07     26     66# 2017-11-18     47     47# 2017-11-27     20     38print(df['2017-12-15':'2018-01-15'])#             val_1  val_2# date                    # 2017-12-22     31     54# 2017-12-29     21      8# 2018-01-03     98     76# 2018-01-08     48     64

还可以指定各种格式的行。

print(df.loc['01/19/2018', 'val_1'])# 18print(df.loc['20180103', 'val_2'])# 76

读取CSV时如何指定DatetimeIndex

如果原始数据是CSV文件,则在使用read_csv()进行读取时可以指定DatetimeIndex。

在参数index_col中指定要用作索引的日期和时间数据的列名(或从0开始的列号),并将parse_dates设置为True。

df = pd.read_csv('./data/26/sample_date.csv', index_col='date', parse_dates=True)print(df)#             val_1  val_2# date# 2017-11-01     65     76# 2017-11-07     26     66# 2017-11-18     47     47# 2017-11-27     20     38# 2017-12-05     65     85# 2017-12-12      4     29# 2017-12-22     31     54# 2017-12-29     21      8# 2018-01-03     98     76# 2018-01-08     48     64# 2018-01-19     18     48# 2018-01-23     86     70print(type(df.index))# <class 'pandas.core.indexes.datetimes.DatetimeIndex'>

如果CSV文件的日期字符串为非标准格式,请在read_csv()的参数date_parser中指定由lambda表达式定义的解析器。

parser = lambda date: pd.to_datetime(date, format='%Y年%m月%d日')df_jp = pd.read_csv('./data/26/sample_date_cn.csv', index_col='date', parse_dates=True, date_parser=parser)print(df_jp)#             val_1  val_2# date# 2017-11-01     65     76# 2017-11-07     26     66# 2017-11-18     47     47# 2017-11-27     20     38# 2017-12-05     65     85# 2017-12-12      4     29# 2017-12-22     31     54# 2017-12-29     21      8# 2018-01-03     98     76# 2018-01-08     48     64# 2018-01-19     18     48# 2018-01-23     86     70print(type(df_jp.index))# <class 'pandas.core.indexes.datetimes.DatetimeIndex'>

关于pandas.Series

这可能不是实际的模式,但是如果pandas.Series索引是日期字符串。

s = pd.read_csv('./data/26/sample_date.csv', index_col=0, usecols=[0, 1], squeeze=True)print(s)# date# 2017-11-01    65# 2017-11-07    26# 2017-11-18    47# 2017-11-27    20# 2017-12-05    65# 2017-12-12     4# 2017-12-22    31# 2017-12-29    21# 2018-01-03    98# 2018-01-08    48# 2018-01-19    18# 2018-01-23    86# Name: val_1, dtype: int64print(type(s))print(type(s.index))# <class 'pandas.core.series.Series'># <class 'pandas.core.indexes.base.Index'>

如果要将此索引转换为DatetimeIndex,则可以通过将用to_datetime转换的索引替换为属性索引来覆盖它。

s.index = pd.to_datetime(s.index)print(s)# date# 2017-11-01    65# 2017-11-07    26# 2017-11-18    47# 2017-11-27    20# 2017-12-05    65# 2017-12-12     4# 2017-12-22    31# 2017-12-29    21# 2018-01-03    98# 2018-01-08    48# 2018-01-19    18# 2018-01-23    86# Name: val_1, dtype: int64print(type(s))print(type(s.index))# <class 'pandas.core.series.Series'># <class 'pandas.core.indexes.datetimes.DatetimeIndex'>print(s['2017-12-15':'2018-01-15'])# date# 2017-12-22    31# 2017-12-29    21# 2018-01-03    98# 2018-01-08    48# Name: val_1, dtype: int64

到此,相信大家对“Pandas.DataFrame时间序列数据处理如何实现”有了更深的了解,不妨来实际操作一番吧!这里是编程网网站,更多相关内容可以进入相关频道进行查询,关注我们,继续学习!

阅读原文内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     813人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     354人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     318人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     435人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     224人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯