MONSTER

github2025-03-01 更新2025-02-28 收录

下载链接：

https://github.com/Navidfoumani/monster

下载链接

链接失效反馈

官方服务：

资源简介：

MONSTER是一个大规模时间序列分类数据集集合，旨在为时间序列分类领域提供更大规模的数据集，以促进从大量数据中有效学习的理论和实践挑战。

MONSTER is a large-scale collection of time series classification datasets, which aims to provide larger-scale datasets for the field of time series classification and advance the theoretical and practical research related to the challenges of effective learning from massive amounts of data.

创建时间：

2025-02-20

原始信息汇总

MONSTER 数据集概述

数据集简介

名称: MONSTER (Monash Scalable Time Series Evaluation Repository)
类型: 时间序列分类数据集集合
特点: 大规模时间序列数据集，旨在解决现有基准数据集规模过小的问题
目标: 促进时间序列分类领域在理论和实践上的进步，特别是针对大规模数据的学习

数据集规模与特点

与UCR和UEA时间序列分类库相比，规模显著更大
中位数规模：UCR为217个样本，UEA为255个样本
设计目的：鼓励开发能有效处理大规模数据的模型

访问方式

托管平台: Hugging Face
访问地址: https://huggingface.co/monster-monash
下载方法:
- 使用hf_hub_download函数
- 使用load_dataset函数

数据集使用示例代码

python

方法1: 使用hf_hub_download

from huggingface_hub import hf_hub_download path = hf_hub_download(repo_id="monster-monash/Pedestrian", filename="Pedestrian_X.npy", repo_type="dataset") X = np.load(path, mmap_mode="r")

方法2: 使用load_dataset

from datasets import load_dataset dataset = load_dataset("monster-monash/Pedestrian", "fold_0", trust_remote_code=True)

引用格式

bibtex @article{dempster_etal_2025, author = {Dempster, Angus and Foumani, Navid Mohammadi and Tan, Chang Wei and Miller, Lynn and Mishra, Amish and Salehi, Mahsa and Pelletier, Charlotte and Schmidt, Daniel F and Webb, Geoffrey I}, title = {MONSTER: Monash Scalable Time Series Evaluation Repository}, year = {2025}, journal = {arXiv:2502.15122}, }

项目结构

experiments/: 实验脚本和演示
models/: 模型定义
- deep_learning/: 深度学习模型
- non_deep/: 非深度学习模型
notebook/: 分析和探索的Jupyter笔记本
src/: 数据处理和训练的源代码

搜集汇总

数据集介绍

构建方式

MONSTER数据集，即Monash可扩展时间序列评估库，其构建方式旨在满足时间序列分类领域对大规模数据集的需求。该数据集的构建源于对现有小型数据集基准的不足，通过收集大规模时间序列数据，以促进对可扩展性和计算效率的关注，进而拓宽模型选择的空间。

使用方法

用户可以通过Hugging Face平台访问MONSTER数据集。数据集的下载可以通过`hf_hub_download`函数或`load_data`函数实现，这些函数提供了便捷的数据加载和预处理接口。此外，项目还提供了实验脚本和模型参数调整的示例，用户可以轻松地运行和修改模型参数，以适应不同的研究需求。

背景与挑战

背景概述

MONSTER数据集，全称为Monash Scalable Time Series Evaluation Repository，是由Monash大学的研究团队创建的大型时间序列分类数据集。该数据集的创建旨在解决现有时间序列分类基准数据集规模较小的问题，推动该领域在处理大量数据方面的理论研究与实践进步。自2025年发布以来，MONSTER数据集已成为相关领域研究的重要资源，对时间序列分类领域的发展产生了显著影响。

当前挑战

MONSTER数据集在构建过程中面临的主要挑战包括：1)如何有效处理大规模数据集，保证模型的扩展性；2)在保证模型性能的同时，解决计算资源受限的问题。在研究领域问题方面，该数据集挑战了传统时间序列分类模型在小数据集上过分优化的问题，要求模型在处理大规模数据时仍能保持良好的分类性能。

常用场景

经典使用场景

MONSTER数据集作为时间序列分类领域的大型数据集集合，其经典的使用场景在于为研究者提供了一个可以评估和比较时间序列分类算法性能的平台。研究者可以通过该数据集对各种深度学习模型和非深度学习模型进行训练和测试，以探索在大规模数据上的时间序列分类问题。

解决学术问题

MONSTER数据集解决了现有时间序列分类数据集规模较小的问题，这些小规模数据集往往导致研究偏向于优化那些在小数据集上表现良好的模型，而忽略了模型的泛化能力和计算的可扩展性。通过引入更大规模的数据集，MONSTER有助于推动领域内对于处理大量数据时的理论及实践挑战的研究，促进新进展。

实际应用

在实际应用中，MONSTER数据集可以被用于开发能够处理大规模时间序列数据的高效算法，这些算法可以应用于金融市场分析、健康监测系统、物联网等领域的实时数据分类和异常检测任务。

数据集最近研究