Ambig-DS-T

Hugging Face2026-05-06 更新2026-05-07 收录

下载链接：

https://huggingface.co/datasets/anonymous222bit/Ambig-DS-T

下载链接

链接失效反馈

官方服务：

资源简介：

Ambig-DS-T（目标模糊数据科学基准）是一个包含53个Kaggle数据科学任务的基准数据集，每个任务提供两种变体：原始任务描述和目标模糊改写。目标模糊版本通过匿名化特征名称和隐藏原始目标列名，引入两个候选目标列（一个真实目标和一个可预测的干扰项），以评估模型在目标选择上的准确性。数据集不包含原始CSV数据，需用户通过Kaggle CLI下载并应用提供的生成脚本来复现模糊版本。数据集适用于表格分类和回归任务，特别关注数据科学中的模糊性问题。数据集结构包括任务索引、任务提示、评估脚本和元数据文件，旨在为LLM代理和数据科学工具提供测试场景。

Ambig-DS-T (Ambiguous Data Science Benchmark) is a benchmark dataset containing 53 Kaggle data science tasks, each providing two variants: the original task description and an ambiguous rewritten version. The ambiguous version anonymizes feature names and hides the original target column name, introducing two candidate target columns (one true target and one predictable distractor) to evaluate model accuracy in target selection. The dataset does not include original CSV data; users need to download it via Kaggle CLI and apply the provided generation script to reproduce the ambiguous version. The dataset is suitable for tabular classification and regression tasks, with a particular focus on ambiguity issues in data science. The dataset structure includes task indices, task prompts, evaluation scripts, and metadata files, aiming to provide test scenarios for LLM agents and data science tools.

创建时间：

2026-05-05

原始信息汇总

Ambig-DS-T: 目标模糊性基准数据集

数据集概述

Ambig-DS-T 是一个用于评估数据科学智能体处理模糊预测目标能力的基准数据集。该数据集基于 Kaggle 表格竞赛，专门测量智能体在面对隐藏真实目标、包含诱饵列的数据时，能否正确选择并预测真实目标。

许可协议: CC-BY-NC-4.0
任务类型: 表格分类与表格回归
语言: 英语
数据集大小: 少于 1000 条记录（任务级别）
数据集构成: 包含 51 个配对任务（33 个分类任务，18 个回归任务）

基准设计

每个任务包含两种提示变体：

变体	文件	描述
完整版 (Full)	`tasks/{slug}/task.txt`	原始任务描述，直接命名目标列，特征使用语义名称
模糊版 (Ambiguous)	`tasks/{slug}/task_ambig.txt`	目标身份隐藏：特征名匿名化为 `f_01, f_02, …`，训练数据包含两个候选目标列 `val_1` 和 `val_2`，其中恰好一个为真实目标，另一个是具有相同边际分布但几乎与真实目标不相关的诱饵列

完整版: 建立性能上界基准
模糊版: 诊断条件，测试智能体是否会错误选择诱饵列

数据集结构

tasks/ {slug}/ task.txt # 完整版任务描述 task_ambig.txt # 模糊版任务描述（隐藏目标） eval.py # 每个任务的评估脚本（DSBench CLI） _manifest.json # 数据来源、诱饵生成配方和诊断信息 tasks.csv # 51 个任务的索引文件

_manifest.json 关键字段

字段	功能
`source`	任务来源信息（平台、URL、规则链接）
`task`	任务类型、真实目标列（`val_1` 或 `val_2`）、诱饵列、原始目标名、特征数量、训练/测试样本数
`ambig_recipe`	可重现的诱饵生成方法，包括匿名化映射、种子等
`diagnostics`	交叉验证分数、真实目标与诱饵的相关性、边际分布匹配等诊断信息

使用说明

数据获取

本数据集仅包含提示、评估器和诱饵生成配方，不包含原始的 Kaggle 竞赛数据。用户需自行：

接受每个竞赛的使用规则（通过 _manifest.json 中的 source.rules_url 链接）
使用 Kaggle CLI 下载数据：kaggle competitions download -c <slug>
使用构建脚本根据 _manifest.json 中的诱饵配方重建模糊版 CSV 文件

评估提交

每个任务都提供 eval.py 评估脚本，使用 DSBench 风格的命令行接口：

bash python eval.py --answer_file data/test_answer.csv --predict_file my_submission.csv --path out --name <slug>

输出将写入 out/<slug>/result.txt，格式为单个浮点数（竞赛原始指标，如 RMSLE、AUC、RMSE、准确率等）。

任务列表（51 个任务摘要）

编号	竞赛名称	类型	真实目标列	训练样本数	测试样本数	特征数
1	`bike-sharing-demand`	回归	`val_1`	8,708	2,178	8
2	`cat-in-the-dat`	分类	`val_1`	240,000	60,000	23
3	`cat-in-the-dat-ii`	分类	`val_2`	480,000	120,000	23
4	`dont-overfit-ii`	分类	`val_1`	200	50	300
5	`instant-gratification`	分类	`val_2`	209,715	52,429	256
…	（其余任务略）	…	…	…	…	…
49	`titanic`	分类	`val_1`	712	179	10
50	`tmdb-box-office-prediction`	回归	`val_1`	2,400	600	21
51	`ventilator-pressure-prediction`	回归	`val_1`	500,000	1,207,200	6

注：真实目标列 列中的信息是澄清实验条件下回答者 LLM 用于解析智能体查询的真相来源，在模糊条件下不会提供给智能体。

关键诊断特性

诱饵列与真实目标列具有相似的特征可预测性（中位数比率约 1.0）
诱饵列与真实目标列几乎正交（中位数 Spearman 相关系数绝对值 = 0.017）
智能体若错误选择诱饵列，仍可获得正常的交叉验证表现，但在测试数据上得分很低

引用

bibtex @article{ambig-ds-2026, title = {Ambig-DS: Diagnosing Unflagged Misframings in Data-Science Agents}, year = {2026}, note = {NeurIPS 2026 Datasets & Benchmarks submission (under review)} }

搜集汇总

数据集介绍

构建方式

Ambig-DS-T源自DSBench基准测试，通过将Kaggle竞赛任务转化为成对的提示变体而构建。每个竞赛任务均被赋予两种版本：其一为完整描述，明确标注目标列名称及语义化特征名；另一为模糊版本，将特征名匿名化为统一编号，剔除原始目标列标识，并用两个候选目标列val_1与val_2替代，其中仅一列为真实目标，另一列则为通过特定算法生成的诱饵变量。该诱饵经由rank_map_lowcorr_pool+label_noise等方法精心构造，使其与真实目标保持近乎零相关性，同时具备相近的可预测性。整个基准包含51组配对任务（33项分类与18项回归），确保评估的全面性与严谨性。

特点

该基准的核心特性在于精准诊断数据科学智能体在处理模糊预测目标时的隐性失败模式。其诱饵列设计巧妙，在交叉验证中表现出与真实目标近似的特征可预测性（中位比约1.0），但与真实目标的Spearman相关系数中位数仅为0.017，几乎正交。这使得仅依赖常规验证指标而无明确指导的智能体极易误选诱饵，导致测试集性能骤降。此外，每项任务均附带详尽的_manifest.json文件，记录包括源信息、诱饵配方、种子参数及诊断数据在内的完整元数据，为失效分析提供了透明且可复现的支撑。

使用方法

使用者需首先通过Kaggle官方命令行工具下载各竞赛数据，并遵照许可条款完成授权。随后利用独立发布的构建脚本，结合_manifest.json中记录的确定性配方及种子参数，重建模糊版本的数据集。基准提供了简洁的评估接口，每个任务的eval.py接受统一的DSBench风格命令行参数，通过比对预测文件与标准答案文件，输出该竞赛原始评分指标。为建立性能基线，完整描述版本应被先行评估；智能体在模糊条件下的表现下降幅度，直接量化了其对目标不确定性处理的鲁棒性程度。

背景与挑战

背景概述

Ambig-DS-T数据集于2026年由研究团队构建，作为NeurIPS 2026数据集与基准测试的投稿作品，聚焦于数据科学智能体在处理表格数据时的目标模糊性问题。该基准测试源自DSBench框架，包含51个来自Kaggle竞赛的配对任务（33个分类任务与18个回归任务），通过设计清晰的完整提示与隐去目标列的模糊提示两种变体，系统评估智能体识别并预测真实目标变量的能力。研究揭示了当前数据科学智能体在面临预测目标不明确时，极易因交叉验证分数误导而选择虚假目标列的关键缺陷，对推动智能体鲁棒性研究具有重要价值。

当前挑战

该数据集面临的核心挑战在于：首先，表格数据预测任务中目标变量的模糊性是数据科学实践中普遍存在但被忽视的问题——智能体在未明确指定预测目标时，可能因交叉验证结果看似正常而错误选取与真实目标几乎正交的伪装列，导致模型性能严重退化。其次，数据集构建过程面临双重技术难题：一是需要生成与真实目标具有相似特征可预测性但彼此低相关的伪装列，这通过标签噪声注入与秩映射等确定性方法实现；二是确保伪装列与真实目标边际分布完全一致，以模拟真实场景中难以区分的模糊性，同时维持评估过程的可复现性。

常用场景

经典使用场景

在数据科学和机器学习工程领域，数据集常被用于评估智能代理在面对预测目标模糊性时的鲁棒性。Ambig-DS-T基准测试通过构建51组配对任务，每组包含清晰标注目标变量的完整版本与将真实目标隐藏在两个候选列中的模糊版本，为研究者提供了系统化的测试平台。该数据集的核心应用是考察数据科学代理能否从多个表面相似的候选列中准确识别出真实的预测目标，并据此进行建模与提交。这种设计特别适合检验代理在缺乏明确目标指引时，如何利用领域知识和推理能力完成数据科学工作流的全过程。

衍生相关工作

Ambig-DS-T的提出催生了多项相关研究工作。其上游基础DSBench为数据科学代理提供了系统的评估框架，而本数据集则聚焦于目标歧义这一特定故障模式。研究者基于此基准开发了多种澄清策略，例如利用大型语言模型的问答能力，通过与用户交互来消除目标不确定性，这些方法显著提升了代理在模糊场景下的表现。此外，该数据集也启发了对抗性数据生成技术，即通过构建难以察觉的诱饵列来测试代理的鲁棒性边界，相关方法论已被应用于更广泛的机器学习代理评估场景中。

数据集最近研究