AmbiK
收藏arXiv2025-06-04 更新2025-06-06 收录
下载链接:
https://github.com/cog-model/AmbiK-dataset
下载链接
链接失效反馈资源简介:
AmbiK是一个完全文本的英语数据集,包含2000个成对的模糊和明确指令,用于评估机器人在厨房环境中的模糊性检测能力。该数据集由1000对任务组成,每对任务包括一个模糊任务和一个对应的明确任务,以及环境描述、澄清问题和答案、用户意图和任务计划。任务分为三种模糊类型:人类偏好、常识知识和安全。AmbiK数据集旨在帮助研究人员进行统一的模糊性检测方法比较。
提供机构:
俄罗斯莫斯科人工智能研究院
创建时间:
2025-06-04
原始信息汇总
AmbiK数据集概述
数据集简介
- 名称: AmbiK (Ambiguous Tasks in Kitchen Environment)
- 目的: 为厨房环境中的机器人提供模糊指令数据集,用于统一比较模糊检测方法
- 特点:
- 完全文本形式
- 通过LLMs辅助收集并经过人工验证
- 包含1000对模糊任务及其明确对应任务
数据类型与结构
- 任务类型:
- 模糊任务
- 明确任务(直接明确和间接明确)
- 分类:
- 人类偏好 (Human Preferences)
- 常识知识 (Common Sense Knowledge)
- 安全性 (Safety)
数据字段
- 环境描述:
- Environment short: 自然语言描述
- Environment full: 对象列表形式
- 任务描述:
- Unambiguous direct: 使用对象确切名称的明确任务
- Unambiguous indirect: 重新表述的明确任务
- Ambiguous task: 与明确直接任务对应的模糊任务
- 模糊信息:
- Ambiguity type: 消除模糊所需的知识类型
- Ambiguity shortlist/Variants: 消除模糊的对象集合(仅偏好类型)
- Question: 消除模糊的澄清问题
- Answer: 澄清问题的答案
- 任务计划:
- Plan for unambiguous task: 明确任务的详细计划
- Plan for ambiguous task: 模糊任务的详细计划
- Start of ambiguity: 模糊开始的计划点编号
数据集规模
- 总任务数: 2000(1000对模糊与明确任务)
- 校准数据: 100个示例 (
ambik_calibrate_100.csv) - 测试数据: 900个示例 (
ambik_test_900.csv),或400个示例 (ambik_test_400.csv)
实验运行说明
- 准备:
- 测试LofreeCP方法需下载
en_core_web_md模型
- 测试LofreeCP方法需下载
- 校准:
- 运行
<experiment folder>/calibrate.py进行校准
- 运行
- 测试:
- 运行
<experiment folder>/pipeline.py进行测试 - 结果保存在新文件夹
<CP value>_<LLM1>_<LLM2>中
- 运行
仓库结构
ambik_dataset: 包含AmbiK数据的.csv文件configs: 包含用于更改LLMs及其参数的.yaml文件utils: 包含指标计算和LLM启动的代码- 实验方法文件夹 (
knowno,lofree,LAP,binary,nohelp): 包含运行实验的代码 requirements.txt: 实验使用的Python库版本
AI搜集汇总
数据集介绍

构建方式
AmbiK数据集通过结合大型语言模型(LLM)的生成能力与人工验证的方式构建而成。首先,研究人员手动创建了一个包含750多种厨房物品和食物的列表,并将其按相似性分组。随后,通过随机采样生成1000个厨房环境场景,每个场景包含2至5组食物和2至5组厨房物品。对于每个场景,使用Mistral模型生成明确的任务,并通过人工筛选确保任务质量。接着,利用ChatGPT生成对应的模糊任务及其澄清问题和答案,并根据模糊类型(如人类偏好、常识知识、安全性)进行分类。最后,通过人工验证确保数据的准确性和一致性。
使用方法
AmbiK数据集主要用于评估大型语言模型(LLM)在处理模糊指令时的能力。研究人员可以通过该数据集测试模型在生成澄清问题、识别模糊类型以及制定任务计划等方面的表现。具体使用方法包括:1)将模糊任务输入模型,评估其生成的澄清问题的合理性;2)测试模型在不同模糊类型(如人类偏好、常识知识、安全性)下的表现差异;3)使用数据集中的任务计划和环境描述,验证模型在多步任务中的执行能力。此外,AmbiK还可用于比较不同模糊检测方法的性能,如基于提示的方法和基于共形预测(CP)的方法。
背景与挑战
背景概述
AmbiK(Ambiguous Tasks in Kitchen Environment)是由Anastasiia Ivanova等研究人员于2025年提出的一个专注于厨房环境中模糊任务处理的文本数据集。该数据集由LMU、MIPT和AIRI等机构联合开发,旨在为大型语言模型(LLMs)在实体代理中的行为规划提供统一的模糊指令检测基准。AmbiK包含1000对模糊和非模糊任务,涵盖三种模糊类型(人类偏好、常识知识和安全性),并附带环境描述、澄清问题与答案、用户意图和任务计划等丰富标注。该数据集的推出填补了现有基准在模糊任务检测方面的空白,为研究者提供了系统评估LLMs处理模糊指令能力的工具。
当前挑战
AmbiK面临的挑战主要体现在两个方面:领域问题层面,现有方法在区分模糊与非模糊指令时表现不佳,尤其难以处理多步骤任务中的局部模糊性,且模型常因过度自信而忽略必要的澄清请求;构建过程层面,需确保模糊指令的自然性和多样性,同时精确标注模糊类型和对应的澄清逻辑,这对人工验证提出了极高要求。此外,数据集的厨房领域限制和英语语言特性也影响了其泛化能力。
常用场景
经典使用场景
AmbiK数据集在厨房环境中为大型语言模型(LLMs)处理模糊指令提供了标准化的评估平台。通过包含1000对模糊与非模糊任务,该数据集支持研究者系统性地测试模型在人类偏好、常识知识和安全相关模糊场景下的表现。其经典应用场景包括评估模型在对象选择、动作顺序及操作方式等模糊情境下的决策能力,例如在多个杯子中选择特定容器或判断加热水的安全方式。
解决学术问题
AmbiK解决了现有研究中模糊指令检测方法缺乏统一基准的问题。通过分类标注的模糊类型(偏好/常识/安全),该数据集为衡量模型是否应在特定场景下触发人工协助提供了理论框架。其核心学术价值在于揭示了LLMs在物理环境交互中存在的过度自信缺陷,并证明模型对数概率的依赖可能无法有效反映真实不确定性,为改进具身智能的交互可靠性提供了关键见解。
实际应用
在智能家居机器人领域,AmbiK可直接用于优化家庭助手机器人的指令理解系统。例如当用户发出“清洗水果”这类模糊指令时,基于该数据集训练的模型能识别潜在风险(如未明确清洁剂选择),主动询问“是否使用食品级洗涤剂”。实际部署中,这种能力可减少因指令歧义导致的执行错误,提升人机协作安全性,特别适用于老年护理或无障碍生活场景。
数据集最近研究
最新研究方向
AmbiK数据集作为厨房环境中模糊任务检测的基准,近期研究聚焦于提升大型语言模型(LLMs)在实体代理任务中对模糊指令的处理能力。前沿探索方向包括:1)基于概率校准的模糊检测方法优化,如改进的Conformal Prediction框架在零样本场景下的泛化性;2)多模态融合研究,探索文本环境描述与视觉场景图的联合表征对模糊类型(偏好/常识/安全)的区分效能;3)人机协作机制设计,通过对话历史建模实现动态消歧。该数据集推动的跨学科研究涉及认知语言学中的格赖斯合作原则计算化,以及机器人安全决策中的不确定性量化,对家庭服务机器人的自然交互具有重要实践意义。
相关研究论文
- 1AmbiK: Dataset of Ambiguous Tasks in Kitchen Environment俄罗斯莫斯科人工智能研究院 · 2025年
以上内容由AI搜集并总结生成



