airpassengers, co2, globaltemp, jj, uschange, h02

github2021-04-18 更新2024-05-31 收录

下载链接：

https://github.com/mjuez/pytsdatasets

下载链接

链接失效反馈

官方服务：

资源简介：

The classic Box & Jenkins airline data. Monthly totals of international airline passengers, 1949 to 1960.

经典的 Box & Jenkins 航空公司数据集。记录了1949年至1960年期间的每月国际航空旅客总数量。

创建时间：

2019-01-14

原始信息汇总

数据集概述

pytsdatasets 是一个提供时间序列数据集的Python包，这些数据集源自R分布和astsa R包。数据集以**pandas DataFrame**格式存储，适用于教育和科学研究。

数据集格式

所有数据集均采用pandas DataFrame格式。

可用数据集列表

airpassengers: 国际航空公司每月乘客总数，1949至1960年。
co2: 每月在Mauna Loa Observatory, Hawaii测量的平均二氧化碳浓度（ppm）。
globaltemp: 全球平均陆地-海洋温度偏差（相对于1951-1980年平均值），1880至2015年。
jj: Johnson and Johnson季度每股收益，1960年第一季度至1980年第四季度，共84个季度。
uschange: 美国季度个人消费支出、个人可支配收入、生产、储蓄和失业率的百分比变化，1960至2016年。
h02: 澳大利亚健康保险委员会记录的ATC代码H02下的每月药品处方总数，以百万计。

数据集用途

此数据集包适用于教育和科学研究目的。

搜集汇总

数据集介绍

构建方式

该数据集源自多个经典的时间序列数据源，包括R语言中的`datasets`包和`astsa`包。通过Python的`pandas`库，这些数据被封装为DataFrame格式，便于在Python环境中进行数据处理和分析。数据集的构建过程严格遵循时间序列数据的标准化处理流程，确保数据的完整性和一致性。

特点

该数据集涵盖了多个领域的时间序列数据，包括航空乘客数量、二氧化碳浓度、全球温度变化、企业季度收益、美国经济指标变化以及澳大利亚药品销售数据。这些数据具有时间跨度长、数据点密集的特点，能够为时间序列分析提供丰富的样本。此外，数据集中的每个子集都经过严格的清洗和预处理，确保了数据的准确性和可用性。

使用方法

用户可以通过安装`pytsdatasets`包轻松加载数据集。例如，使用`tsds.jj.info()`可以快速查看Johnson & Johnson季度收益数据的基本信息。数据集以`pandas` DataFrame格式提供，用户可以直接使用`pandas`库进行数据操作和分析。此外，数据集还支持与其他Python数据分析工具（如`matplotlib`、`statsmodels`等）无缝集成，便于进行可视化和建模。

背景与挑战

背景概述

pytsdatasets数据集由西班牙布尔戈斯大学的Mario Juez-Gil及其研究团队于2020年创建，旨在为时间序列分析领域提供高质量的教育和科研数据资源。该数据集整合了多个经典时间序列数据，包括航空乘客数量、二氧化碳浓度、全球温度变化、企业季度收益等，涵盖了从1949年至2016年的广泛时间跨度。这些数据最初来源于R语言中的astsa包，经过格式转换后以pandas DataFrame的形式提供，极大地方便了Python用户的使用。该数据集不仅为时间序列分析的教学和研究提供了丰富的素材，还推动了相关领域的数据驱动研究。

当前挑战

pytsdatasets数据集在解决时间序列分析问题时面临多重挑战。首先，时间序列数据通常具有非平稳性、季节性和趋势性等复杂特征，如何有效提取这些特征并构建准确的预测模型是一个核心难题。其次，数据集中的某些变量（如全球温度变化）涉及长期趋势分析，数据的时间跨度较长，可能导致模型训练时的计算复杂度增加。此外，数据集的构建过程中，研究人员需要确保数据的准确性和一致性，尤其是在跨平台数据格式转换时，如何保持数据的完整性和可解释性也是一个重要挑战。这些挑战不仅考验了数据处理技术，也对时间序列分析算法的鲁棒性提出了更高要求。

常用场景

经典使用场景

在时间序列分析领域，`airpassengers`数据集常被用于展示季节性分解和预测模型的构建。该数据集记录了1949年至1960年间国际航空乘客的月度总数，其明显的季节性和趋势性使其成为检验时间序列模型性能的理想选择。通过分析该数据集，研究者能够深入理解时间序列的季节性、趋势和随机波动成分，从而为复杂的时间序列预测提供理论基础。

衍生相关工作

`jj`数据集衍生了许多经典的时间序列分析研究。该数据集记录了强生公司1960年至1980年间每季度的每股收益，时间跨度为21年。基于该数据集，研究者开发了多种时间序列预测模型，如ARIMA模型和状态空间模型，用于分析企业收益的长期趋势和季节性波动。这些研究不仅推动了时间序列分析方法的发展，还为金融领域的收益预测提供了重要参考。

数据集最近研究