LongDS
收藏数据集概述
数据集名称:LongDS (LongDS-Bench)
许可证:其他(license: other)
任务类别:问答(question-answering)、文本生成(text-generation)
语言:英文(en)
标签:datamind, longds, data-analysis, multi-turn, benchmark
数据规模:1K < n < 10K
配置:包含一个配置 task_index,对应的数据文件为 task/longds/task_list.json
数据集描述
LongDS-Bench 是一个用于评估长时域、多轮智能体数据分析的基准测试。真实世界的数据分析很少是一系列独立的问答:过滤器、指标定义、假设、中间表和分支特定的结果会在多轮对话中不断演变。LongDS 旨在测试智能体能否正确维护和应用这些不断演化的分析状态。
数据集包含 68 个任务,这些任务基于真实的 Kaggle Notebooks 和数据集构建,涵盖 2,225 轮交互,涉及以下六个领域:
- 商业(Business)
- 社区(Community)
- 教育(Education)
- 地球科学(Geoscience)
- 社会公益(Social Good)
- 体育(Sports)
任务覆盖了典型的分析状态演化模式,包括:
- 初始分析状态构建
- 状态继承
- 状态更新
- 反事实扰动
- 回滚到早期状态
- 多状态组合
数据集结构
任务索引
任务索引文件位于 task/longds/task_list.json,每条记录格式如下:
json { "task_domain": "business", "dataset_name": "goodbooks_10k", "task_id": "task1" }
任务文件路径
每个任务对应的文件位于:
text task/longds/{task_domain}/{dataset_name}/{task_id}/ ├── task.ipynb ├── task.py ├── task.json └── metadata.json
数据文件路径
每个任务对应的数据文件位于:
text data/longds/{task_domain}/{dataset_name}/{task_id}/data/
仓库结构
text . ├── data/ │ └── longds/ └── task/ └── longds/ ├── task_list.json └── {domain}/{dataset}/taskN/
引用信息
如需引用该数据集,请参考以下 BibTeX:
bibtex @misc{xu2026longdsbench, title = {LongDS-Bench: On the Failure of Long-Horizon Agentic Data Analysis}, author = {Xu, Kewei and Lu, Xiaoben and Qiao, Shuofei and Ding, Zihan and Xu, Haoming and Liang, Lei and Zhang, Ningyu}, year = {2026}, howpublished = {url{https://github.com/zjunlp/DataMind}} }




