Ambig-DS-T
收藏Ambig-DS-T: 目标模糊性基准数据集
数据集概述
Ambig-DS-T 是一个用于评估数据科学智能体处理模糊预测目标能力的基准数据集。该数据集基于 Kaggle 表格竞赛,专门测量智能体在面对隐藏真实目标、包含诱饵列的数据时,能否正确选择并预测真实目标。
- 许可协议: CC-BY-NC-4.0
- 任务类型: 表格分类与表格回归
- 语言: 英语
- 数据集大小: 少于 1000 条记录(任务级别)
- 数据集构成: 包含 51 个配对任务(33 个分类任务,18 个回归任务)
基准设计
每个任务包含两种提示变体:
| 变体 | 文件 | 描述 |
|---|---|---|
| 完整版 (Full) | tasks/{slug}/task.txt |
原始任务描述,直接命名目标列,特征使用语义名称 |
| 模糊版 (Ambiguous) | tasks/{slug}/task_ambig.txt |
目标身份隐藏:特征名匿名化为 f_01, f_02, …,训练数据包含两个候选目标列 val_1 和 val_2,其中恰好一个为真实目标,另一个是具有相同边际分布但几乎与真实目标不相关的诱饵列 |
- 完整版: 建立性能上界基准
- 模糊版: 诊断条件,测试智能体是否会错误选择诱饵列
数据集结构
tasks/ {slug}/ task.txt # 完整版任务描述 task_ambig.txt # 模糊版任务描述(隐藏目标) eval.py # 每个任务的评估脚本(DSBench CLI) _manifest.json # 数据来源、诱饵生成配方和诊断信息 tasks.csv # 51 个任务的索引文件
_manifest.json 关键字段
| 字段 | 功能 |
|---|---|
source |
任务来源信息(平台、URL、规则链接) |
task |
任务类型、真实目标列(val_1 或 val_2)、诱饵列、原始目标名、特征数量、训练/测试样本数 |
ambig_recipe |
可重现的诱饵生成方法,包括匿名化映射、种子等 |
diagnostics |
交叉验证分数、真实目标与诱饵的相关性、边际分布匹配等诊断信息 |
使用说明
数据获取
本数据集仅包含提示、评估器和诱饵生成配方,不包含原始的 Kaggle 竞赛数据。用户需自行:
- 接受每个竞赛的使用规则(通过
_manifest.json中的source.rules_url链接) - 使用 Kaggle CLI 下载数据:
kaggle competitions download -c <slug> - 使用构建脚本根据
_manifest.json中的诱饵配方重建模糊版 CSV 文件
评估提交
每个任务都提供 eval.py 评估脚本,使用 DSBench 风格的命令行接口:
bash python eval.py --answer_file data/test_answer.csv --predict_file my_submission.csv --path out --name <slug>
输出将写入 out/<slug>/result.txt,格式为单个浮点数(竞赛原始指标,如 RMSLE、AUC、RMSE、准确率等)。
任务列表(51 个任务摘要)
| 编号 | 竞赛名称 | 类型 | 真实目标列 | 训练样本数 | 测试样本数 | 特征数 |
|---|---|---|---|---|---|---|
| 1 | bike-sharing-demand |
回归 | val_1 |
8,708 | 2,178 | 8 |
| 2 | cat-in-the-dat |
分类 | val_1 |
240,000 | 60,000 | 23 |
| 3 | cat-in-the-dat-ii |
分类 | val_2 |
480,000 | 120,000 | 23 |
| 4 | dont-overfit-ii |
分类 | val_1 |
200 | 50 | 300 |
| 5 | instant-gratification |
分类 | val_2 |
209,715 | 52,429 | 256 |
| … | (其余任务略) | … | … | … | … | … |
| 49 | titanic |
分类 | val_1 |
712 | 179 | 10 |
| 50 | tmdb-box-office-prediction |
回归 | val_1 |
2,400 | 600 | 21 |
| 51 | ventilator-pressure-prediction |
回归 | val_1 |
500,000 | 1,207,200 | 6 |
注:真实目标列 列中的信息是澄清实验条件下回答者 LLM 用于解析智能体查询的真相来源,在模糊条件下不会提供给智能体。
关键诊断特性
- 诱饵列与真实目标列具有相似的特征可预测性(中位数比率约 1.0)
- 诱饵列与真实目标列几乎正交(中位数 Spearman 相关系数绝对值 = 0.017)
- 智能体若错误选择诱饵列,仍可获得正常的交叉验证表现,但在测试数据上得分很低
引用
bibtex @article{ambig-ds-2026, title = {Ambig-DS: Diagnosing Unflagged Misframings in Data-Science Agents}, year = {2026}, note = {NeurIPS 2026 Datasets & Benchmarks submission (under review)} }




