thuml/UTSD|时间序列分析数据集|多领域数据集数据集
收藏数据集概述
数据集名称
- 名称: Unified Time Series Dataset (UTSD)
数据集描述
- 描述: UTSD是一个包含7个领域,最多达10亿时间点的时间序列数据集,旨在促进大规模模型研究和时间序列领域的预训练。该数据集精心整合了公开可访问的在线数据资源和来自实际机器操作的经验数据。
数据集配置
- 配置名称:
- default
- UTSD-1G
- UTSD-2G
- UTSD-4G
- UTSD-12G
- 数据文件路径:
- default:
*/*.arrow
- UTSD-1G:
UTSD-1G/*.arrow
- UTSD-2G:
UTSD-2G/*.arrow
- UTSD-4G:
UTTSD-4G/*.arrow
- UTSD-12G:
UTSD-12G/*.arrow
- default:
数据集任务类别
- 任务类别:
- 时间序列预测
数据集标签
- 标签:
- 时间序列预测
- 时间序列分析
- 时间序列
数据集大小
- 大小类别:
- 100M<n<1B
数据集详细信息
- 领域:
- Energy
- Environment
- Health
- IoT
- Nature
- Transportation
- Web
- 数据集详情:
- 每个数据集通过平稳性和预测性进行分析,以描述每个数据集固有的复杂性水平。
- 详细信息包括时间点、文件大小、频率、ADF值和预测性。
数据集使用
- 加载示例: python import datasets UTSD_12G = datasets.load_from_disk(UTSD-12G)
数据集许可证
- 许可证:
- Apache-2.0

Med-MAT
Med-MAT是一个包含106个开源医学数据集的视觉问答(VQA)数据集,旨在推动医学多模态大语言模型(MLLMs)的泛化实验和训练。数据集通过将图像-标签对转换为VQA格式,展示了组合泛化(CG)是MLLMs理解未见图像的关键机制。数据集包括106个医学数据集的问答对、53个按模态、解剖区域和任务(MAT)分类的子集的问答对,以及部分数据集的图像下载链接。
huggingface 收录
中国区域交通网络数据集
该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。
data.stats.gov.cn 收录
FMA (Free Music Archive)
免费音乐档案 (FMA) 是一个大型数据集,用于评估音乐信息检索中的多个任务。它包含 343 天的音频,来自 16,341 位艺术家的 106,574 首曲目和 14,854 张专辑,按 161 种流派的分级分类排列。它提供完整长度和高质量的音频、预先计算的功能,以及轨道和用户级元数据、标签和自由格式的文本,例如传记。作者定义了四个子集:Full:完整数据集,Large:音频限制为 30 秒的完整数据集 从轨道中间提取的剪辑(如果短于 30 秒,则为整个轨道),Medium:选择25,000 个具有单一根流派的 30 年代剪辑,小:一个平衡的子集,包含 8,000 个 30 年代剪辑,其中 8 种根流派中的每一个都有 1,000 个剪辑。官方分为训练集、验证集和测试集(80/10/10)使用分层抽样来保留每个流派的曲目百分比。同一艺术家的歌曲只是一组的一部分。资料来源:FMA:音乐分析数据集
OpenDataLab 收录
Sleep
该数据集包含关于睡眠效率和持续时间的信息,每个条目代表一个独特的睡眠体验,并包括ID、年龄、性别、睡眠持续时间、睡眠效率、REM睡眠百分比、深度睡眠百分比、轻度睡眠百分比、觉醒次数、咖啡因消费、酒精消费和吸烟状况等列。
github 收录
REFIT Smart Home dataset
REFIT Smart Home数据集是一个公开可用的智能家居数据集。
github 收录