five

LongDS

收藏
Hugging Face2026-05-31 更新2026-06-01 收录
下载链接:
https://huggingface.co/datasets/zjunlp/LongDS
下载链接
链接失效反馈
官方服务:
资源简介:
LongDS(LongDS-Bench)是一个用于评估长周期、多轮次智能体数据分析能力的基准测试数据集。在现实世界的数据分析中,分析过程很少是一系列独立的问题序列,而是涉及过滤器、指标定义、假设、中间表以及分支特定结果等分析状态在多次交互中不断演化的过程。LongDS 旨在测试智能体是否能够正确维护并应用这些不断演化的分析状态。该数据集包含从真实世界的 Kaggle 笔记本和数据集中构建的 68 个任务,覆盖了商业、社区、教育、地球科学、社会公益和体育六个领域,总计包含 2,225 轮次交互。这些任务涵盖了具有代表性的状态演化模式,包括:初始分析状态构建、状态继承、状态更新、反事实扰动、回滚至早期状态以及多状态组合。数据集的结构包括一个任务索引文件(task_list.json),其中列出了每个任务所属的领域、使用的数据集名称和任务ID。每个具体任务对应一个目录,其中包含任务定义文件(如 task.ipynb, task.py, task.json)和元数据文件(metadata.json)。相关的数据文件则存放在对应的数据目录中。
提供机构:
ZJUNLP
创建时间:
2026-05-30
原始信息汇总

数据集概述

数据集名称:LongDS (LongDS-Bench)

许可证:其他(license: other)

任务类别:问答(question-answering)、文本生成(text-generation)

语言:英文(en)

标签:datamind, longds, data-analysis, multi-turn, benchmark

数据规模:1K < n < 10K

配置:包含一个配置 task_index,对应的数据文件为 task/longds/task_list.json


数据集描述

LongDS-Bench 是一个用于评估长时域、多轮智能体数据分析的基准测试。真实世界的数据分析很少是一系列独立的问答:过滤器、指标定义、假设、中间表和分支特定的结果会在多轮对话中不断演变。LongDS 旨在测试智能体能否正确维护和应用这些不断演化的分析状态。

数据集包含 68 个任务,这些任务基于真实的 Kaggle Notebooks 和数据集构建,涵盖 2,225 轮交互,涉及以下六个领域:

  • 商业(Business)
  • 社区(Community)
  • 教育(Education)
  • 地球科学(Geoscience)
  • 社会公益(Social Good)
  • 体育(Sports)

任务覆盖了典型的分析状态演化模式,包括:

  • 初始分析状态构建
  • 状态继承
  • 状态更新
  • 反事实扰动
  • 回滚到早期状态
  • 多状态组合

数据集结构

任务索引

任务索引文件位于 task/longds/task_list.json,每条记录格式如下:

json { "task_domain": "business", "dataset_name": "goodbooks_10k", "task_id": "task1" }

任务文件路径

每个任务对应的文件位于:

text task/longds/{task_domain}/{dataset_name}/{task_id}/ ├── task.ipynb ├── task.py ├── task.json └── metadata.json

数据文件路径

每个任务对应的数据文件位于:

text data/longds/{task_domain}/{dataset_name}/{task_id}/data/

仓库结构

text . ├── data/ │ └── longds/ └── task/ └── longds/ ├── task_list.json └── {domain}/{dataset}/taskN/


引用信息

如需引用该数据集,请参考以下 BibTeX:

bibtex @misc{xu2026longdsbench, title = {LongDS-Bench: On the Failure of Long-Horizon Agentic Data Analysis}, author = {Xu, Kewei and Lu, Xiaoben and Qiao, Shuofei and Ding, Zihan and Xu, Haoming and Liang, Lei and Zhang, Ningyu}, year = {2026}, howpublished = {url{https://github.com/zjunlp/DataMind}} }

搜集汇总
数据集介绍
main_image_url
构建方式
LongDS数据集基于真实世界的Kaggle笔记本与数据集构建,涵盖商业、社区、教育、地球科学、社会公益与体育六大领域,共计68个任务与2225轮交互。每个任务通过task_list.json索引,包含任务域、数据集名称与任务ID,并对应存储任务文件(如task.ipynb、task.py、task.json)及原始数据文件,形成结构化的多轮分析流程。
特点
LongDS以长时程、多轮次的数据分析智能体评估为核心,聚焦分析状态的演化机制。数据集覆盖初始状态构建、状态继承、状态更新、反事实扰动、状态回滚及多状态组合等典型模式,旨在检验智能体在复杂分析场景中维护与利用动态分析状态的能力,填补了现有基准对多轮分析演进评估的空白。
使用方法
用户可通过加载task_list.json获取任务索引,随后按任务域、数据集名称与任务ID路径获取对应任务文件(含Jupyter Notebook、Python脚本与元数据),并结合data目录下的原始数据进行评估。数据集适用于问答与文本生成任务,支持多轮交互式数据分析基准测试,便于研究者评估智能体在长期分析中的状态追踪与推理能力。
背景与挑战
背景概述
LongDS-Bench(简称LongDS)是由浙江大学DataMind团队于2026年提出的一项新型基准测试,旨在评估长程、多轮交互的智能体数据分析能力。在现实数据分析场景中,过滤条件、指标定义、假设条件和中间结果常随对话进程不断演化,传统单轮问答基准难以捕捉这种复杂的分析状态变迁。LongDS基于真实Kaggle竞赛笔记与数据集构建,涵盖商业、社区、教育、地球科学、社会公益及体育六大领域,包含68个任务,总计2225轮交互。该基准聚焦于分析状态的构建、继承、更新、反事实扰动、回滚及多状态组合等演化模式,成为检验大规模语言模型在复杂数据分析任务中持续推理与状态管理能力的重要标杆。
当前挑战
LongDS所解决的核心领域挑战在于,现有智能体在长程数据分析中难以准确维护和运用不断演化的分析状态,导致跨轮推理结果不一致或错误。其构建过程中面临多重难题:如何从非结构化的Kaggle笔记中提取出可复现、多状态演化的真实分析流程,如何设计覆盖状态构建、继承、更新、反事实扰动、回滚与多状态组合等多样模式的标准化任务,以及如何在保证任务复杂度的同时兼顾评估的可量化性与可复现性。这些挑战使得LongDS成为评估下一代数据分析智能体能力的重要测试平台。
常用场景
经典使用场景
LongDS数据集专为评估长时域、多轮交互的自主数据分析代理而设计,其经典使用场景聚焦于模拟真实世界中复杂、递进的分析流程。不同于简单的单轮问答,该数据集通过68个源自Kaggle竞赛与真实数据集的任务,涵盖商业、教育、地球科学等六大领域,构建了超过两千轮的对话式分析轨迹。研究者可借助该基准,测试代理在分析过程中对不断演化的分析状态——包括初始化、继承、更新、反事实扰动、回滚及多状态组合——进行精确维护与应用的能力,从而衡量其能否胜任现实世界中需要长期上下文记忆和动态决策的复杂数据分析任务。
实际应用
在实际应用中,LongDS数据集所定义的分析能力对构建企业级智能数据分析助手至关重要。例如,在商业智能场景下,分析师可能先定义用户活跃度指标,随后根据筛选条件细化细分群体、更新指标计算方式,再回退到历史定义进行比较。使用LongDS评估的代理系统能够可靠地完成这类多步骤、状态依赖的分析流程,降低人工干预成本。此外,该基准还可用于教育领域个性化学习路径生成、社会科学中的纵向数据探索,以及体育赛事中的动态策略分析,其应用价值在于赋予机器在复杂、动态的真实数据环境中持续推理与灵活调整的协作能力。
衍生相关工作
LongDS数据集的发布催生了一系列围绕长时域数据分析代理的前沿工作。在其基础上,研究者已开始探索如何将分析状态显式编码为可检索的记忆模块,以提升代理对历史上下文的利用率。另有工作借鉴该基准中的状态演化模式,设计了新的训练策略,通过反事实扰动与多轮回滚机制增强模型的因果推理能力。这些衍生工作不仅限于数据科学领域,更辐射至交互式机器学习、对话式数据可视化及自动化报告生成等方向,共同推动了AI系统从静态响应向具备连贯分析心智的长期自主决策者进化,为下一代智能数据平台奠定了评估与优化基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作