Salesforce/lotsa_data
收藏Hugging Face2025-01-21 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/Salesforce/lotsa_data
下载链接
链接失效反馈资源简介:
LOTSA(大规模开放时间序列档案)是一个用于时间序列预测的开放时间序列数据集集合。该数据集旨在为大型时间序列模型的预训练提供支持。
LOTSA(大规模开放时间序列档案)是一个用于时间序列预测的开放时间序列数据集集合。该数据集旨在为大型时间序列模型的预训练提供支持。
提供机构:
Salesforce
原始信息汇总
数据集概述
数据集名称
- LOTSA Data(Large-scale Open Time Series Archive)
数据集用途
- 用于时间序列预测的开放时间序列数据集集合,主要用于预训练大型时间序列模型。
数据集配置
数据集包含多个配置,每个配置对应不同的数据文件和路径。以下是部分配置示例:
-
config_name: default
- data_files:
- split: train
- path: "/.arrow"
- split: train
- data_files:
-
config_name: BEIJING_SUBWAY_30MIN
- data_files:
- split: train
- path: "BEIJING_SUBWAY_30MIN/*.arrow"
- split: train
- data_files:
-
config_name: HZMETRO
- data_files:
- split: train
- path: "HZMETRO/*.arrow"
- split: train
- data_files:
-
config_name: SHMETRO
- data_files:
- split: train
- path: "SHMETRO/*.arrow"
- split: train
- data_files:
数据集许可证
- Apache-2.0
AI搜集汇总
数据集介绍

构建方式
LOTSA数据集的构建基于大规模开放时间序列档案,旨在为时间序列预测模型的预训练提供丰富的数据资源。该数据集通过整合多个领域的公开时间序列数据,包括交通、能源、气象、经济等多个子领域,确保了数据的多样性和广泛性。每个子数据集均以Arrow格式存储,便于高效的数据读取和处理。
特点
LOTSA数据集的显著特点在于其庞大的规模和多样性,涵盖了从每日交通流量到年度经济指标的广泛时间序列数据。此外,数据集的结构化存储方式(Arrow格式)确保了高效的数据访问和处理能力。数据集还包含了多个特定领域的子集,如北京地铁流量、上海地铁流量等,为特定应用场景提供了详尽的数据支持。
使用方法
使用LOTSA数据集时,用户可以通过指定配置名称(config_name)来选择特定的子数据集,如'BEIJING_SUBWAY_30MIN'或'SHMETRO'。每个配置对应一个或多个Arrow文件,用户可以通过路径(path)直接访问这些文件。数据集的多样性和结构化存储方式使其适用于各种时间序列分析和预测任务,特别是在需要大规模预训练模型的场景中。
背景与挑战
背景概述
LOTSA(Large-scale Open Time Series Archive)数据集由Salesforce AI Research团队创建,旨在为大规模时间序列预测模型的预训练提供丰富的数据资源。该数据集汇集了多种领域的时间序列数据,包括交通流量、能源消耗、气象数据等,涵盖了从1850年至今的广泛时间跨度。LOTSA的创建不仅推动了时间序列分析领域的发展,还为研究人员提供了一个统一的平台,以便在不同应用场景中验证和改进预测模型。
当前挑战
LOTSA数据集在构建过程中面临多重挑战。首先,数据来源多样,涵盖了全球多个地区和不同领域的数据,这要求在数据整合和标准化方面进行大量工作。其次,时间序列数据通常包含缺失值和噪声,如何有效处理这些数据质量问题是一个重要挑战。此外,随着数据规模的扩大,如何高效地存储和处理这些大规模数据集,以及如何在预训练模型中充分利用这些数据,也是当前研究的热点问题。
常用场景
经典使用场景
在时间序列分析领域,LOTSA数据集被广泛应用于大规模时间序列模型的预训练。其丰富的数据配置,如'BEIJING_SUBWAY_30MIN'和'PEMS04',为研究人员提供了多样化的数据源,用于开发和验证时间序列预测模型。这些数据集的经典使用场景包括但不限于交通流量预测、能源消耗分析和气象数据预测,为模型训练提供了坚实的基础。
衍生相关工作
LOTSA数据集的发布催生了多项相关研究工作,特别是在时间序列预测领域。例如,基于LOTSA数据集,研究人员开发了多种时间序列预测模型,如Transformer模型和深度学习模型,这些模型在多个基准测试中表现优异。此外,LOTSA还激发了关于时间序列数据预处理和特征工程的研究,推动了时间序列分析技术的发展。
数据集最近研究
最新研究方向
在时间序列分析领域,Salesforce/lotsa_data数据集的最新研究方向主要集中在利用大规模时间序列数据进行预训练,以提升通用时间序列预测模型的性能。该数据集包含了多种类型的时序数据,如交通流量、电力需求、气象数据等,为研究者提供了丰富的资源来探索和验证新的预测算法。当前的研究热点包括开发更高效的预训练策略、设计能够处理多变量和多尺度时间序列的模型架构,以及利用迁移学习技术在不同领域之间共享知识。这些研究不仅推动了时间序列预测技术的发展,也为实际应用中的预测准确性和效率提供了新的解决方案。
以上内容由AI搜集并总结生成



