five

FoundTS|时间序列预测数据集|模型评估数据集

收藏
arXiv2024-10-16 更新2024-10-17 收录
时间序列预测
模型评估
下载链接:
https://anonymous.4open.science/r/FoundTS-C2B0
下载链接
链接失效反馈
资源简介:
FoundTS是一个用于时间序列预测的基础模型综合评估和比较的基准数据集。该数据集由华东师范大学创建,涵盖了多个领域和不同特征的时间序列数据,旨在全面评估和比较不同基础模型在时间序列预测中的表现。数据集包括来自股票、健康、能源、电力、环境、交通、自然、银行、网络和经济等十个领域的数据,具有季节性、趋势、平稳性等多种特征。FoundTS支持零样本、少样本和全样本等多种评估策略,通过标准化数据分割、加载、归一化和少样本采样等流程,确保评估的公平性和全面性。该数据集主要应用于时间序列预测领域,旨在解决现有模型在新领域或未见数据上泛化能力不足的问题。
提供机构:
华东师范大学
创建时间:
2024-10-16
AI搜集汇总
数据集介绍
main_image_url
构建方式
FoundTS数据集的构建方式旨在全面评估时间序列预测基础模型的性能。该数据集涵盖了来自不同领域的多样化数据集,包括金融、天气服务和能源管理等。通过整合多种时间序列基础模型,包括基于大型语言模型和预训练时间序列模型,FoundTS支持零样本、少样本和全样本等多种预测策略,从而实现对模型性能的全面评估。此外,FoundTS还提供了一个标准化的评估流程,包括数据集分割、加载、归一化和少样本采样,以确保评估的公平性和一致性。
使用方法
使用FoundTS数据集时,研究人员可以利用其提供的多样化数据集和多种预测策略来评估和比较不同的时间序列预测模型。首先,用户可以选择适合自己研究需求的数据集和预测策略。然后,通过标准化的数据处理流程,包括数据分割、加载和归一化,确保实验设置的一致性。最后,利用FoundTS提供的评估指标,如均方误差(MSE)和平均绝对误差(MAE),对模型的预测性能进行量化分析。通过这种方式,研究人员可以全面了解模型在不同条件下的表现,并为进一步的模型优化提供指导。
背景与挑战
背景概述
FoundTS数据集由华东师范大学、松鼠AI和奥尔堡大学的主要研究人员于2024年创建,旨在为时间序列预测(TSF)领域的基础模型提供一个全面且统一的基准。时间序列预测在金融、天气服务和能源管理等多个领域中具有关键功能。尽管近年来出现了多种TSF方法,但许多方法需要特定领域的数据收集和模型训练,并且在新的领域中泛化性能较差。基础模型旨在克服这一限制,通过在大规模语言或时间序列数据上预训练,展现出在新数据上的推理能力。FoundTS数据集的提出,旨在通过覆盖多种基于大语言模型和时间序列预训练的TSF基础模型,支持零样本、少样本和全样本的不同预测策略,并提供标准化的评估流程,从而促进对这些模型的全面和公平评估。
当前挑战
FoundTS数据集面临的挑战主要包括两个方面。首先,解决时间序列预测领域中的泛化问题,即模型在新领域或未见数据上的表现。其次,在构建过程中,如何确保数据集的多样性和代表性,以及如何设计有效的评估策略和标准化流程,以确保不同模型之间的公平比较。此外,FoundTS还需要应对不同实验设置带来的挑战,如零样本、少样本和全样本预测策略的差异,以及不同采样方法对模型性能的影响。这些挑战要求FoundTS在数据选择、模型覆盖和评估策略上进行细致的设计和优化。
常用场景
经典使用场景
FoundTS数据集在时间序列预测领域中被广泛用于评估基础模型的性能。其经典使用场景包括对大规模语言模型和时间序列预训练模型进行零样本、少样本和全样本的预测策略评估。通过这些策略,研究者可以全面评估模型在新数据集上的泛化能力和适应性,从而为模型设计和优化提供有力支持。
解决学术问题
FoundTS数据集解决了时间序列预测中基础模型泛化能力不足的学术问题。传统的时间序列预测模型通常需要针对特定数据集进行训练,难以在新领域中表现良好。FoundTS通过提供多样化的数据集和全面的评估策略,帮助研究者识别现有基础模型的优缺点,并为未来模型的设计提供方向。其意义在于推动时间序列预测技术的发展,提升模型在不同领域中的应用效果。
实际应用
FoundTS数据集在实际应用中具有广泛的应用场景。例如,在金融领域,可以通过该数据集评估模型对股票价格、汇率等时间序列数据的预测能力;在能源管理中,可以用于预测电力需求和太阳能发电量;在天气服务中,可以用于预测气象指标的变化。通过这些实际应用,FoundTS数据集为各行业提供了可靠的模型评估工具,有助于提升决策的准确性和效率。
数据集最近研究
最新研究方向
在时间序列预测领域,FoundTS数据集的最新研究方向主要集中在基础模型的综合评估与比较上。研究者们致力于通过FoundTS基准测试,全面评估和比较不同基础模型在时间序列预测中的表现,包括基于大语言模型和预训练时间序列模型的多种方法。FoundTS支持零样本、少样本和全样本等多种预测策略,旨在通过标准化评估流程,确保评估的公平性和全面性。此外,研究还关注现有基础模型的优缺点及其在不同领域和统计特征数据集上的表现,为未来模型设计提供指导。
相关研究论文
  • 1
    FoundTS: Comprehensive and Unified Benchmarking of Foundation Models for Time Series Forecasting华东师范大学 · 2024年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Figshare

Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

Wind Turbine Data

该数据集包含风力涡轮机的运行数据,包括风速、风向、发电量等参数。数据记录了多个风力涡轮机在不同时间点的运行状态,适用于风能研究和风力发电系统的优化分析。

www.kaggle.com 收录

OpenSonarDatasets

OpenSonarDatasets是一个致力于整合开放源代码声纳数据集的仓库,旨在为水下研究和开发提供便利。该仓库鼓励研究人员扩展当前的数据集集合,以增加开放源代码声纳数据集的可见性,并提供一个更容易查找和比较数据集的方式。

github 收录

中国1km分辨率逐月降水量数据集(1901-2024)

该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2024.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录

HAM10000

HAM10000数据集是一个全面收集的皮肤镜图像集合,用于皮肤病变分类,广泛应用于医学影像和机器学习领域。该数据集包含多种皮肤病变,旨在推动皮肤病学研究,特别是皮肤癌的诊断。数据集由10,000张高分辨率的皮肤病变图像组成,来源多样,有助于训练稳健的机器学习模型,使其能够很好地泛化到未见过的数据。数据集的主要挑战是其显著的不平衡性。

github 收录