timeomni-1-testbed
收藏TimeOmni-1 Testbed (TSR-Suite) 数据集概述
数据集基本信息
- 许可证: MIT
- 任务类别: 问答
- 标签: 时间序列、评估、推理、时间序列推理、决策制定
- 语言: 英语
- 数据规模: 1K<n<10K
核心能力与任务类型
该数据集旨在评估时间序列推理的三个核心能力,涵盖以下四种任务类型:
- 感知能力
- 任务1:场景理解:识别生成给定时间序列的场景。
- 任务2:因果发现:发现时间序列之间的因果关系。
- 外推能力
- 任务3:事件感知预测:在考虑外部事件的情况下进行预测。
- 决策制定能力
- 任务4:决策制定:做出最大化下游效用(例如利润)的最优行动。
数据集信息
1. 数据集划分
- id_test: 分布内测试集(1,606个样本)
- ood_test: 分布外测试集(2,448个样本)
2. 数据集统计
| 任务类型 | ID 测试集 | OOD 测试集 | 总计 |
|---|---|---|---|
| 场景理解 | 200 | 899 | 1,099 |
| 因果发现 | 800 | 800 | 1,600 |
| 事件感知预测 | 418 | 476 | 894 |
| 决策制定 | 188 | 273 | 461 |
| 总计 | 1,606 | 2,448 | 4,054 |
3. 数据字段
question_id: 唯一标识符,格式为{数字}_{任务类型}_testproblem: 问题陈述,包含时间序列(及任何辅助上下文)和问题。response: 真实答案(通常为单个大写字母或预测序列)task_type: 上述四种任务类型之一domain: 时间序列的源领域(例如,水文学、能源电池套利)system: 模型输出格式的系统提示
使用方法
python from datasets import load_dataset
dataset = load_dataset("anton-hugging/timeomni-1-testbed") id_test = dataset["id_test"] ood_test = dataset["ood_test"]
评估方法
报告成功率(SR),即模型输出产生有效且可提取答案的比例。所有后续评估指标仅在这些有效案例上计算,以确保性能反映时间序列推理能力而非指令遵循合规性。
- 对于任务1、2和4:模型输出单个大写字母(A、B、C或D)。准确率(ACC)为正确预测的百分比。
- 对于任务3:模型输出预测序列(例如,[2, 20, 21, ..., 83])。准确率通过平均绝对误差(MAE)衡量。
引用
bibtex @inproceedings{ guan2026timeomni, title={TimeOmni-1: Incentivizing Complex Reasoning with Time Series in Large Language Models}, author={Tong Guan and Zijie Meng and Dianqi Li and Shiyu Wang and Chao-Han Huck Yang and Qingsong Wen and Zuozhu Liu and Sabato Marco Siniscalchi and Ming Jin and Shirui Pan}, booktitle={The Fourteenth International Conference on Learning Representations}, year={2026}, url={https://openreview.net/forum?id=kOIclg7muL} }




