five

TimeSeriesGym

收藏
arXiv2025-05-20 更新2025-05-21 收录
下载链接:
https://github.com/moment-timeseries-foundation-model/TimeSeriesGym
下载链接
链接失效反馈
官方服务:
资源简介:
TimeSeriesGym是一个可扩展的基准测试框架,用于评估人工智能代理在时间序列机器学习工程挑战中的能力。该数据集目前包含34个挑战,涵盖8个独特的时间序列问题,涉及超过15个领域。数据集的设计旨在评估AI代理在数据处理、模型开发、代码迁移等方面的能力,并通过定量和定性的评估方法对代理的输出进行全面的评价。TimeSeriesGym旨在解决现有基准测试框架的局限性,例如缺乏可扩展性、过于依赖模型构建和评估方法的单一性。该数据集的创建过程涉及到从Kaggle竞赛、GitHub存储库和手工设计的任务中收集和设计挑战。TimeSeriesGym适用于各种类型的代理,并可用于评估机器学习工程中的人工智能代理的能力。

TimeSeriesGym is a scalable benchmarking framework designed to evaluate the capabilities of AI Agents in time series machine learning engineering challenges. Currently, it includes 34 challenges spanning 8 distinct time series problem categories and covering more than 15 application domains. The framework is developed to assess AI Agents' performance across multiple aspects including data processing, model development, and code migration, and enables comprehensive evaluations of agents' outputs via both quantitative and qualitative assessment methods. TimeSeriesGym aims to address the limitations of existing benchmarking frameworks, such as insufficient scalability, over-reliance on a singular paradigm for both model construction and evaluation. The development of TimeSeriesGym involves collecting and curating challenges sourced from Kaggle competitions, GitHub repositories, as well as manually designed tasks. This framework is compatible with various types of agents, and can be utilized to evaluate the capabilities of AI Agents in machine learning engineering scenarios.
提供机构:
卡内基梅隆大学计算机科学学院自主实验室
创建时间:
2025-05-20
原始信息汇总

TimeSeriesGym 数据集概述

数据集简介

TimeSeriesGym 是一个用于评估AI代理在时间序列机器学习工程挑战上的综合基准测试框架。当前版本包含:

  • 34个挑战
  • 23个独特数据源
  • 8种不同时间序列问题
  • 覆盖15个以上领域

核心功能

  • 数据预处理和标注
  • 模型选择和超参数调优
  • 研究代码利用和改进
  • 框架间代码迁移
  • 特征工程和增强

系统要求

  • Python: 3.9或更高
  • 存储空间: 5-20GB(取决于比赛)
  • 内存: 至少8GB RAM
  • 网络: 数据集下载需要
  • 依赖: 核心科学Python库(NumPy, Pandas, SciPy等)

安装与设置

基础安装

bash git clone https://github.com/your-org/timeseriesgym.git cd timeseriesgym pip install -e .

开发环境

bash pip install -e ".[dev]" pre-commit install

数据集准备

准备比赛数据集

bash

准备单个比赛

timeseriesgym prepare -c amp-parkinsons-disease-progression-prediction

准备所有比赛

timeseriesgym prepare -a

准备TimeSeriesGym-Lite(推荐入门集)

timeseriesgym prepare --lite

比赛评估

评估多个提交

bash timeseriesgym grade --submission submissions.jsonl --output-dir results/

评估单个提交

bash timeseriesgym grade-sample predictions.csv amp-parkinsons-disease-progression-prediction

比赛集

TimeSeriesGym-Lite

包含6个精选挑战,覆盖多个领域和问题类型:

amp-parkinsons-disease-progression-prediction context-is-key-moirai g2net-gravitational-wave-detection optiver-realized-volatility-prediction-hyperparameter-search ptb-xl-classification-challenge-feature-enhancement stomp-R-to-python

引用

bibtex @article{cai2025timeseriesgym, title={TimeSeriesGym: A Scalable Benchmark for(Time Series) Machine Learning Engineering Agents}, author={Cai, Yifu and Li, Xinyu and Goswami, Mononito and Wili{ }ski, Micha{l} and Welter, Gus and Dubrawski, Artur}, year={2025}, primaryClass={cs.CL}, }

许可证

MIT License

搜集汇总
数据集介绍
main_image_url
构建方式
TimeSeriesGym数据集通过整合来自Kaggle竞赛和GitHub开源项目的34个时间序列任务,构建了一个多领域、多任务的评估框架。数据集的构建过程包括从Meta Kaggle数据集中筛选出453个可能涉及时间序列数据的竞赛,并基于参与人数、奖励金额和公开排行榜等指标进行排名,最终精选出12个Kaggle挑战。此外,团队还设计了14个原创挑战,以评估高级技术能力,如利用最先进的模型和代码迁移。数据集涵盖了医疗、金融、能源等15个领域,确保任务的多样性和现实相关性。
特点
TimeSeriesGym数据集的特点在于其多维度的评估机制和任务设计的多样性。数据集不仅包含传统的预测和分类任务,还涉及时间序列理解、异常检测等复杂问题。其评估方法结合了精确的定量指标(如准确率、均方误差)和灵活的定性评估(如基于LLM的代码效用评判),以全面衡量AI代理的机器学习工程能力。此外,数据集提供了工具支持,用于生成新的挑战和评估多种输出形式(如CSV文件、代码和模型),增强了其可扩展性和实用性。
使用方法
使用TimeSeriesGym数据集时,研究人员可以通过其开源的交互式环境,兼容不同类型的AI代理框架(如AIDE和OpenHands),进行无缝评估。数据集提供了详细的挑战描述、资源文件和评分函数,支持对代理的多模态输出(预测文件、模型、代码)进行全面评估。用户可以根据需要选择完整数据集或其精简版TimeSeriesGym-Lite,以在资源有限的情况下快速评估代理的关键能力。此外,数据集还支持通过轨迹数据收集,用于后续的代理改进和训练。
背景与挑战
背景概述
TimeSeriesGym是由卡内基梅隆大学Auton实验室的研究团队于2025年推出的一个可扩展的时间序列机器学习工程基准测试框架。该数据集旨在解决现有AI代理评估基准在可扩展性和任务多样性方面的不足,特别关注时间序列分析这一在医疗、金融等领域至关重要但现有基准中代表性不足的数据模态。数据集包含34个跨15个领域的挑战任务,涵盖预测、分类、异常检测等多种时间序列问题,通过整合Kaggle竞赛和自主设计的原创任务,为评估AI代理在真实机器学习工程场景中的综合能力提供了标准化平台。
当前挑战
TimeSeriesGym面临的核心挑战体现在两个方面:领域问题层面,时间序列数据的非平稳性、多尺度特征以及缺失值处理等特性对模型构建提出了独特要求,而现有代理在代码迁移、超参数优化等工程技能上表现欠佳;构建过程层面,需平衡任务设计的自由度与评估精确性,开发支持多模态输出(包括代码、模型和预测文件)的混合评估体系,并解决LLM预训练数据污染带来的基准有效性风险。此外,资源密集型实验的高成本也促使团队开发轻量级评估子集TimeSeriesGym-Lite以提升可及性。
常用场景
经典使用场景
TimeSeriesGym作为一个可扩展的基准测试框架,专注于评估AI代理在时间序列机器学习工程任务中的表现。其经典使用场景包括时间序列预测、分类和异常检测等多个领域。通过整合来自Kaggle竞赛和GitHub仓库的多样化任务,TimeSeriesGym能够全面评估代理在数据预处理、模型构建和代码迁移等方面的能力。该框架特别适用于需要处理复杂时间序列数据的场景,如金融预测、医疗诊断和环境监测等。
实际应用
在实际应用中,TimeSeriesGym可显著提升机器学习工程流程的效率和质量。在金融领域,该框架可用于开发高精度的股票价格预测模型;在医疗健康领域,则能帮助构建更准确的患者监测系统。其评估机制还能指导企业选择最适合其需求的AI代理解决方案。通过提供标准化的测试环境,TimeSeriesGym使组织能够客观比较不同代理在真实工程场景中的表现,从而优化资源分配和技术选型。
衍生相关工作
TimeSeriesGym的推出催生了一系列相关研究工作。基于其框架,研究者开发了更专注于特定时间序列问题的衍生基准,如长期预测和跨域迁移学习测试集。该框架还启发了新型代理架构的研发,特别是在处理多文件代码库和迭代式问题解决方面。其开源特性促进了社区贡献,目前已集成AIDE、OpenHands等多种代理脚手架,为比较不同代理设计提供了统一平台。这些衍生工作共同推动了时间序列分析和AI代理技术的交叉发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作