KDD Cup 2026 DataAgent-Bench Demo Dataset

github2026-04-08 更新2026-04-10 收录

下载链接：

https://github.com/HKUSTDial/kddcup2026-data-agents-starter-kit

下载链接

链接失效反馈

官方服务：

资源简介：

公开演示数据集位于`data/public/input/`目录下。每个任务目录包含`task.json`和`context/`子目录。`task.json`包含任务ID、难度和问题，`context/`目录可能包含CSV、JSON、SQLite/DB文件或文本文档。对应的公开演示答案位于`data/public/output/task_<id>/gold.csv`。

The public demo dataset is stored in the `data/public/input/` directory. Each task directory contains a `task.json` file and a `context/` subdirectory. The `task.json` file includes the task ID, difficulty level, and the problem description. The `context/` directory may contain CSV, JSON, SQLite/DB files, or plain text documents. The corresponding public demo answers are located at `data/public/output/task_<id>/gold.csv`.

创建时间：

2026-03-24

原始信息汇总

数据集概述

数据集基本信息

数据集名称: DataAgent-Bench Starter Kit
关联竞赛: KDD Cup 2026 DataAgent-Bench challenge
官方仓库地址: https://github.com/HKUSTDial/kddcup2026-data-agents-starter-kit
官方网址: https://dataagent.top
演示数据集下载地址: https://drive.google.com/file/d/1lICQVM_LfyQ5DMEIZjssq6aaOPTWCtNd/view?usp=share_link

数据集内容与结构

数据目录

公开演示数据集输入路径: data/public/input/
公开演示数据集答案路径: data/public/output/task_<id>/gold.csv
隐藏测试数据集: 仅包含 input/ 目录，不包含 output/ 目录。

任务结构

每个任务目录 (data/public/input/task_<id>/) 包含以下内容：

task.json 文件，包含字段：
- task_id
- difficulty
- question
context/ 目录，可能包含以下一种或多种文件类型：
- CSV 文件
- JSON 文件
- SQLite / DB 文件
- 文本文档

工具集

基线模型可使用以下工具与数据集上下文交互：

工具名称	用途	关键输入参数
`list_context`	列出 `context/` 下的文件和目录。	`max_depth`
`read_csv`	读取 CSV 文件预览。	`path`, `max_rows`
`read_json`	读取 JSON 文件预览。	`path`, `max_chars`
`read_doc`	读取文本文档预览。	`path`, `max_chars`
`inspect_sqlite_schema`	检查 SQLite / DB 文件中的表。	`path`
`execute_context_sql`	对 `context/` 中的 SQLite / DB 文件执行只读 SQL。	`path`, `sql`, `limit`
`execute_python`	在任务 `context/` 目录内执行任意 Python 代码。	`code`
`answer`	提交最终答案表并终止任务。	`columns`, `rows`

注意: 传递给工具的所有文件路径必须相对于任务的 context/ 目录。

输出与评估

运行输出

每次成功的任务运行可能产生：

trace.json
prediction.csv

输出目录结构

单任务输出路径: artifacts/runs/<run_id>/<task_id>/
基准测试运行额外输出: artifacts/runs/<run_id>/summary.json

配置与使用

主要配置字段

配置文件示例位于 configs/react_baseline.example.yaml。

配置字段	含义
`dataset.root_path`	公开演示 `input/` 数据集的根目录。相对路径从项目根目录解析。
`agent.model`	模型名称。
`agent.api_base`	OpenAI 兼容的 API 基础 URL。
`agent.api_key`	API 密钥，直接从配置文件读取。
`agent.max_steps`	每个任务的最大 ReAct 步数。
`agent.temperature`	采样温度。
`run.output_dir`	运行产物的输出目录。
`run.run_id`	可选的运行目录名称。如果省略，默认为 UTC 时间戳。必须是单个目录名；已存在的运行目录会被拒绝。
`run.max_workers`	`run-benchmark` 的并行工作线程数。
`run.task_timeout_seconds`	每个任务的最大挂钟时间。设置为 `0` 或负值以禁用任务级超时。

命令行接口 (CLI)

基础命令格式：uv run dabench <command> --config PATH [options]

命令	用途	示例
`status`	显示项目路径、配置路径、数据集根目录和公共任务数量。	`uv run dabench status --config configs/react_baseline.example.yaml`
`inspect-task`	显示任务元数据并列出 `context/` 下的可访问文件。	`uv run dabench inspect-task task_1 --config configs/react_baseline.local.yaml`
`run-task`	在单个任务上运行基线并写入输出。	`uv run dabench run-task task_1 --config configs/react_baseline.local.yaml`
`run-benchmark`	在整个公共数据集上运行基线。	`uv run dabench run-benchmark --config configs/react_baseline.local.yaml`

run-benchmark 命令支持 --limit N 参数以限制任务数量。

联系与社区

问题反馈: https://github.com/HKUSTDial/kddcup2026-data-agents-starter-kit/issues
Discord 社区: https://discord.com/invite/7eFwJQN3Fx
微信公众号: 数据智能与分析实验室 DIAL

搜集汇总

数据集介绍

构建方式

在数据智能领域，构建一个能够全面评估智能体数据操作能力的基准数据集至关重要。KDD Cup 2026 DataAgent-Bench Demo Dataset 的构建采用了模块化与任务驱动的设计理念。数据集以任务为单位进行组织，每个任务目录包含一个定义任务元数据的 `task.json` 文件以及一个存放多样化数据文件的 `context/` 子目录。`context/` 目录内精心嵌入了多种结构化与非结构化数据格式，包括 CSV、JSON、SQLite 数据库以及文本文档，旨在模拟真实世界数据分析场景中复杂的数据环境。公开演示集的参考答案则独立存放于对应的 `output` 路径下，而隐藏测试集仅提供输入部分，以此构建一个封闭的评估框架。

特点

该数据集的核心特点在于其面向智能体评估的综合性设计。数据集任务覆盖了从简单查询到复杂分析的多种难度级别，并通过 `task.json` 中的 `difficulty` 字段进行标注。其最显著的特征是提供了丰富的上下文数据工具集，智能体可以通过预定义的 API 工具，如 `read_csv`、`execute_context_sql` 和 `execute_python` 等，与 `context/` 目录中的数据进行交互式探索与计算。这种设计不仅评估智能体的最终答案准确性，更着重考察其在多模态数据环境中进行推理、规划与执行的多步骤问题解决能力。

使用方法

使用该数据集进行基准测试遵循一套标准化的工程流程。研究人员首先需通过 `uv` 工具安装项目依赖并完成环境配置。核心操作通过命令行接口执行，用户需准备一个定义了数据集路径、智能体模型参数及运行设置的 YAML 配置文件。通过 `dabench run-benchmark` 命令可启动对整个公开数据集的批量评估，系统将自动调用智能体模型，使其利用提供的工具链处理每个任务，并将产生的预测结果与运行轨迹分别输出为 `prediction.csv` 和 `trace.json` 文件。整个过程支持并行处理与超时控制，确保了评估的高效性与可复现性。

背景与挑战

背景概述

KDD Cup 2026 DataAgent-Bench Demo Dataset 作为数据智能领域的前沿基准测试平台，由香港科技大学数据智能与分析实验室（DIAL）主导构建，旨在应对自动化数据代理（Data Agent）在复杂现实场景中的综合能力评估。该数据集围绕数据驱动的决策任务设计，核心研究问题聚焦于如何使智能体能够自主理解多模态数据上下文、执行精确的数据操作与推理，并生成结构化答案。其推出标志着数据科学竞赛从传统的静态模型训练向动态、交互式智能体评估的范式转变，为学术界与工业界提供了衡量数据代理泛化能力与实用性的重要标尺。

当前挑战

该数据集旨在解决数据代理在开放域环境中进行端到端数据任务执行的挑战，具体包括智能体需在异构数据源（如CSV、JSON、SQLite及文本文档）中动态检索信息、执行复杂查询与计算，并最终输出准确的结构化表格。构建过程中的挑战则体现在任务设计的多样性与真实性平衡，需模拟现实世界数据的不完整性、噪声及多步骤依赖性，同时确保评估框架能够可靠追踪智能体的推理轨迹与决策过程，避免过拟合或评价偏差。

常用场景

经典使用场景

在数据智能与分析领域，KDD Cup 2026 DataAgent-Bench Demo Dataset 作为基准测试平台，其经典使用场景聚焦于评估和优化数据智能代理（Data Agent）的多模态数据处理能力。该数据集通过模拟真实世界的数据任务，如结构化查询、文档解析和代码执行，为研究者提供了一个标准化的环境，用以测试代理在复杂数据环境中的推理与决策效率。

实际应用

在实际应用中，该数据集可服务于企业数据管理、自动化报告生成和智能决策支持系统。例如，在金融或医疗领域，代理能够利用数据集中的工具链，快速整合多源异构数据，执行复杂分析并生成可视化结果，从而提升数据驱动决策的准确性与时效性，降低人工干预成本。

衍生相关工作

围绕该数据集，已衍生出多项经典研究工作，如基于ReAct（Reasoning and Acting）框架的代理优化、多工具协同的自动化数据管道设计，以及针对SQLite和Python执行环境的交互式学习模型。这些工作不仅推动了数据智能代理的算法创新，还为KDD Cup竞赛社区提供了可复现的基线系统与评估标准。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集