UEA UCR time series classification datasets|时间序列分类数据集|机器学习数据集

github2024-05-20 更新2024-05-31 收录

时间序列分类

机器学习

下载链接：

https://github.com/BorgwardtLab/uea_ucr_datasets

下载链接

链接失效反馈

资源简介：

该数据集包含UEA UCR时间序列分类档案，用于时间序列分类任务。数据集可以通过提供的函数和类进行访问和处理，支持PyTorch的DataLoader类。

创建时间：

2019-11-05

原始信息汇总

数据集概述

数据集名称

uea_ucr_datasets

数据集功能

Dataset 类：用于加载UEA UCR数据集，存储于~/.data/UEA_UCR/或通过UEA_UCR_DATA_DIR环境变量指定的路径。此类与pytorch的DataLoader类兼容。
list_datasets 函数：列出~/.data/UEA_UCR/或UEA_UCR_DATA_DIR指定路径中的可用数据集。

数据集使用示例

python

import uea_ucr_datasets uea_ucr_datasets.list_datasets() [LSST,..] d = uea_ucr_datasets.Dataset(UWaveGestureLibrary, train=True) first_instance = d[0] instance_x, instance_y = first_instance

数据存储路径

数据集可以存储在其他位置，需通过设置UEA_UCR_DATA_DIR环境变量来指定数据集的位置。

AI搜集汇总

数据集介绍

构建方式

UEA UCR时间序列分类数据集的构建基于广泛收集的多种时间序列数据，这些数据涵盖了从传感器记录到生物信号等多个领域。数据集的组织形式遵循`sktime`格式，确保了数据的标准化和易于处理。通过将各个数据集的文件夹移动到指定的路径`~/.data/UEA_UCR/`，用户可以方便地访问和加载这些数据。此外，通过设置环境变量`UEA_UCR_DATA_DIR`，用户还可以自定义数据存储路径，增强了数据集的灵活性和可扩展性。

特点

该数据集的一个显著特点是其多样性和广泛的应用领域，涵盖了从简单的传感器数据到复杂的生物信号，为时间序列分类研究提供了丰富的资源。数据集的组织方式使得每个数据集都可以独立加载和处理，便于研究人员针对特定问题进行深入分析。此外，数据集与`pytorch`的`DataLoader`类兼容，使得其在深度学习框架中的应用更加便捷，进一步提升了数据集的实用性和研究价值。

使用方法

使用UEA UCR时间序列分类数据集时，用户首先需要下载并解压`sktime`版本的UEA和UCR数据集，然后将各个数据集的文件夹移动到指定的路径`~/.data/UEA_UCR/`。通过导入`uea_ucr_datasets`包，用户可以列出可用的数据集，并使用`Dataset`类加载特定数据集进行训练或测试。例如，用户可以通过`uea_ucr_datasets.list_datasets()`查看所有可用数据集，并通过`uea_ucr_datasets.Dataset('UWaveGestureLibrary', train=True)`加载特定数据集。此外，用户还可以通过设置环境变量`UEA_UCR_DATA_DIR`来指定数据存储路径，以适应不同的使用场景。

背景与挑战

背景概述

UEA UCR时间序列分类数据集是由英国东安格利亚大学（UEA）和美国加州大学河滨分校（UCR）共同创建的，旨在推动时间序列分类领域的研究。该数据集包含了多种时间序列数据，涵盖了从传感器数据到生物信号等多个应用领域。其创建时间为2018年，主要研究人员包括Anthony Bagnall和Jason Lines等，他们致力于通过提供高质量的时间序列数据集来促进机器学习和数据挖掘技术的进步。该数据集的核心研究问题是如何在复杂的时间序列数据中进行有效的分类，其影响力在于为时间序列分类算法的研究和评估提供了标准化的基准。

当前挑战

UEA UCR时间序列分类数据集在构建和应用过程中面临多项挑战。首先，时间序列数据的多样性和复杂性使得分类任务变得异常困难，尤其是在处理非平稳、非线性以及高维数据时。其次，数据集的构建过程中需要确保数据的代表性和平衡性，以避免分类算法在特定数据集上的过拟合或欠拟合。此外，时间序列数据的标注和预处理也是一项耗时且技术要求高的任务，尤其是在处理大规模数据时。最后，如何有效地利用这些数据集来评估和改进现有的时间序列分类算法，仍然是一个开放的研究问题。

常用场景

经典使用场景

UEA UCR时间序列分类数据集在时间序列分析领域中被广泛应用于分类任务。其经典使用场景包括但不限于时间序列数据的特征提取与分类模型的训练。通过加载数据集中的特定数据子集，研究者可以利用这些数据进行深度学习模型的训练和验证，特别是在处理复杂的时间序列数据时，如手势识别、生物信号分析等。

衍生相关工作

基于UEA UCR时间序列分类数据集，研究者们开发了多种先进的分类算法和模型，如基于深度学习的时间序列分类网络、基于特征工程的传统机器学习方法等。这些工作不仅提升了时间序列分类的准确性，还为相关领域的研究提供了新的思路和方法。

数据集最近研究

最新研究方向

在时间序列分类领域，UEA UCR时间序列分类数据集的研究方向主要集中在提升模型性能和扩展应用场景。近年来，随着深度学习技术的快速发展，研究者们致力于开发更加高效的时间序列特征提取方法，如基于卷积神经网络（CNN）和长短期记忆网络（LSTM）的混合模型，以应对复杂的时间序列数据。此外，数据集的多样性和规模也推动了迁移学习和多任务学习的研究，旨在提高模型在不同领域和任务中的泛化能力。这些研究不仅在学术界引起了广泛关注，也在工业界如金融预测、医疗诊断等领域展现了巨大的应用潜力。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国1km分辨率逐月降水量数据集（1901-2023）

该数据集为中国逐月降水量数据，空间分辨率为0.0083333°（约1km），时间为1901.1-2023.12。数据格式为NETCDF，即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集，通过Delta空间降尺度方案在中国降尺度生成的。并且，使用496个独立气象观测点数据进行验证，验证结果可信。本数据集包含的地理空间范围是全国主要陆地（包含港澳台地区），不含南海岛礁等区域。为了便于存储，数据均为int16型存于nc文件中，降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理，Matlab发布了读入与存储nc文件的函数，读取函数为ncread，切换到nc文件存储文件夹，语句表达为：ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent])，其中XXX.nc为文件名，为字符串需要’’；var是从XXX.nc中读取的变量名，为字符串需要’’；i、j、t分别为读取数据的起始行、列、时间，leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样，研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令，可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心收录

Subway Dataset

该数据集包含了全球多个城市的地铁系统数据，包括车站信息、线路图、列车时刻表、乘客流量等。数据集旨在帮助研究人员和开发者分析和模拟城市交通系统，优化地铁运营和乘客体验。

www.kaggle.com 收录

MIT Indoor Scenes

室内场景识别是高水平视觉中一个具有挑战性的开放性问题。大多数适用于室外场景的场景识别模型在室内领域的表现都较差。该数据库包含67个室内类别，共15620张图像。图像的数量因类别而异，但每个类别至少有100张图像。所有图像均为jpg格式。此处提供的图像仅用于研究目的。

阿里云天池收录

FMA (Free Music Archive)

免费音乐档案 (FMA) 是一个大型数据集，用于评估音乐信息检索中的多个任务。它包含 343 天的音频，来自 16,341 位艺术家的 106,574 首曲目和 14,854 张专辑，按 161 种流派的分级分类排列。它提供完整长度和高质量的音频、预先计算的功能，以及轨道和用户级元数据、标签和自由格式的文本，例如传记。作者定义了四个子集：Full：完整数据集，Large：音频限制为 30 秒的完整数据集从轨道中间提取的剪辑（如果短于 30 秒，则为整个轨道），Medium：选择25,000 个具有单一根流派的 30 年代剪辑，小：一个平衡的子集，包含 8,000 个 30 年代剪辑，其中 8 种根流派中的每一个都有 1,000 个剪辑。官方分为训练集、验证集和测试集（80/10/10）使用分层抽样来保留每个流派的曲目百分比。同一艺术家的歌曲只是一组的一部分。资料来源：FMA：音乐分析数据集

OpenDataLab 收录

LibriSpeech

LibriSpeech 是一个大约 1000 小时的 16kHz 英语朗读语音语料库，由 Vassil Panayotov 在 Daniel Povey 的协助下编写。数据来自 LibriVox 项目的已读有声读物，并经过仔细分割和对齐。

OpenDataLab 收录