MONSTER
收藏arXiv2025-02-21 更新2025-02-25 收录
下载链接:
https://huggingface.co/monster-monash
下载链接
链接失效反馈官方服务:
资源简介:
MONSTER是由莫纳什大学推出的一个大规模时间序列分类数据集,旨在补充现有的UCR和UEA时间序列分类仓库。该数据集包含了29个单变量和多变量数据集,涵盖了音频、卫星图像、脑电图、人类活动识别、计数和其他类别,共有10,299至59,268,823个时间序列不等。数据集以.npy和.csv格式提供,并带有5折交叉验证的索引,以便于研究者直接进行比较。这些数据集大多已有公开可用,本文对其进行了处理后统一格式,以降低研究门槛。该数据集的推出有望推动时间序列分类领域的研究发展。
MONSTER is a large-scale time series classification dataset developed by Monash University, intended to supplement the existing UCR and UEA time series classification repositories. This dataset includes 29 univariate and multivariate datasets covering audio, satellite imagery, electroencephalography (EEG), human activity recognition, counting and other categories, with the number of time series ranging from 10,299 to 59,268,823. The datasets are provided in .npy and .csv formats, along with pre-defined 5-fold cross-validation indices to allow researchers to conduct direct comparative evaluations. Most of these datasets were previously publicly available, and this work has standardized their formats to lower the research threshold. The release of this dataset is expected to advance research progress in the field of time series classification.
提供机构:
莫纳什大学
创建时间:
2025-02-21
搜集汇总
数据集介绍

构建方式
MONSTER数据集,即Monash可扩展时间序列评估存储库,旨在提供大量数据集以促进时间序列分类领域的研究。该数据集的构建基于对现有UCR和UEA时间序列分类存储库中数据集规模的不足的认识,这些存储库中的数据集规模较小,平均训练集大小分别为217和255个示例。为了解决这个问题,MONSTER数据集包含了大量的单变量和多变量时间序列数据集,涵盖了从10,299到59,268,823个时间序列。数据集被组织成六个类别:音频、卫星图像时间序列、脑电图、人体活动识别、计数和其他,以便于研究人员针对不同类型的时间序列数据进行研究。为了方便使用,数据集被处理成通用的格式(.npy和.csv),并且每个数据集都提供了5折交叉验证的索引。
特点
MONSTER数据集的特点在于其规模庞大,提供了比现有UCR和UEA存储库中数据集更大的样本数量,从而能够支持对更大规模数据集进行学习和评估的研究。这些数据集涵盖了不同领域的时间序列数据,包括音频、卫星图像、脑电图、人体活动识别、计数等,为时间序列分类研究提供了广泛的测试场景。此外,数据集在处理过程中保持了原始数据的完整性,并且以易于使用的格式提供,降低了使用门槛。数据集还提供了5折交叉验证的索引,便于研究人员进行直接比较和评估。
使用方法
MONSTER数据集的使用方法相对简单。首先,研究人员可以从HuggingFace或GitHub上获取数据集。数据集以.npy格式提供,方便使用Python进行操作,并且可以通过内存映射直接访问。其次,数据集已经按照5折交叉验证进行了划分,研究人员可以直接使用这些划分进行模型训练和评估。此外,每个数据集都提供了相应的元数据,如类别分布、数据来源等,方便研究人员了解数据集的基本信息。最后,研究人员可以根据自己的研究需要,选择合适的时间序列分类算法在MONSTER数据集上进行训练和评估,以便更好地理解和解决大规模时间序列分类问题。
背景与挑战
背景概述
在时间序列分类领域,MONSTER(Monash Scalable Time Series Evaluation Repository)数据集的创建旨在解决现有数据集规模较小的问题。UCR和UEA时间序列分类仓库中的数据集通常规模较小,中位数分别为217和255个示例,这导致研究倾向于优化在较小数据集上实现低分类误差的模型,这些模型倾向于最小化方差,而对可扩展性等计算问题关注较少。MONSTER数据集的创建时间是2025年,由Monash大学和法国南布列塔尼大学的IRISA机构的研究人员共同完成。该数据集的核心研究问题是推动时间序列分类领域的发展,通过引入更大的数据集来鼓励研究人员解决学习大量数据的有效性问题,从而实现新的研究进展。
当前挑战
MONSTER数据集所面临的挑战主要包括:1)领域问题挑战:现有时间序列分类数据集规模较小,导致研究倾向于优化在较小数据集上实现低分类误差的模型,这些模型倾向于最小化方差,而对可扩展性等计算问题关注较少。MONSTER数据集的引入旨在鼓励研究人员解决学习大量数据的有效性问题,从而实现新的研究进展。2)构建过程中所遇到的挑战:构建MONSTER数据集需要收集和处理大量数据,这需要研究人员投入大量时间和精力。此外,为了确保数据集的质量和可重复性,研究人员还需要进行数据清洗、标注和格式化等步骤。
常用场景
经典使用场景
MONSTER数据集主要被用于时间序列分类的研究与模型评估。它提供了大量的单变量和多变量时间序列数据,为研究者提供了评估模型在大规模数据上的性能的机会。例如,研究者可以使用MONSTER数据集来测试深度学习模型在处理大规模时间序列数据时的效果,从而推动时间序列分类领域的发展。
实际应用
MONSTER数据集的实际应用场景包括但不限于:1. 环境监测:利用MONSTER数据集中的卫星图像时间序列数据,可以监测土地覆盖变化、湖泊冰情变化等环境变化。2. 生物多样性保护:利用MONSTER数据集中的音频数据,可以识别不同物种的声音,从而帮助进行生物多样性保护。3. 人类活动识别:利用MONSTER数据集中的人类活动数据,可以识别和分类不同的人类活动,从而帮助进行健康管理。
衍生相关工作
MONSTER数据集的发布促进了时间序列分类领域的研究,衍生了许多相关工作。例如,研究者利用MONSTER数据集测试和改进了深度学习模型,提出了新的时间序列分类方法。此外,MONSTER数据集的发布也促进了时间序列分类领域的标准化和规范化,为未来的研究提供了重要的参考。
以上内容由遇见数据集搜集并总结生成



