CrafText
收藏arXiv2025-05-17 更新2025-05-21 收录
下载链接:
https://anonymous.4open.science/r/CrafText-D217/
下载链接
链接失效反馈官方服务:
资源简介:
CrafText 数据集是一个为评估智能体在多模态环境中遵循复杂自然语言指令的能力而设计的基准。该数据集由 3,924 条指令和 3,423 个独特词汇组成,涵盖了定位、条件、建设和成就四大任务类型。这些指令与验证函数相匹配,以系统地评估智能体是否成功地完成了指定的目标。CrafText 还提出了一种专门的评估协议,以测试智能体对新指令公式和未见目标配置的泛化能力。该数据集为智能体在动态环境中进行目标驱动任务的自然语言指令训练提供了一个全面而具有挑战性的评估平台。
The CrafText dataset is a benchmark designed to evaluate the ability of AI Agents to follow complex natural language instructions in multimodal environments. It consists of 3,924 instructions and 3,423 unique vocabulary items, covering four core task categories: Localization, Conditional, Construction, and Achievement. Each instruction is paired with a validation function to systematically assess whether an AI Agent has successfully completed the specified objectives. The CrafText dataset also introduces a specialized evaluation protocol to test an AI Agent's generalization ability to novel instruction formulations and unseen target configurations. This dataset provides a comprehensive and challenging evaluation platform for training AI Agents on natural language instruction-driven goal-directed tasks in dynamic environments.
提供机构:
俄罗斯莫斯科 AIRI, MIPT, FRC CSC RAS
创建时间:
2025-05-17
搜集汇总
数据集介绍

构建方式
CrafText数据集的构建基于多模态动态环境中的复杂指令遵循任务,通过结合程序化目标生成与大型语言模型(GPT-4)的语义扩展能力实现。具体流程包括:(1)定义12类核心场景(如定位、条件任务等)及其验证函数;(2)通过参数化模板生成3,480个潜在目标,筛选496个作为基准任务;(3)利用GPT-4为每个目标生成5-6种自然语言指令变体,最终形成包含3,924条指令的高词汇量(3,423唯一词)数据集。所有验证逻辑通过JAX加速实现,确保动态环境下的高效计算。
特点
CrafText的核心特点体现在三方面:动态性、语言复杂性和评估系统性。其环境继承自Craftax的开放世界机制,支持对象属性实时变化和随机状态转移;指令集涵盖建筑、空间定位等四类任务,包含从简单(单步成就)到困难(多步组合)的复杂度分级;独创的双重评估协议(Paraphrased测试集检验语言泛化能力,New Objects测试集评估目标组合迁移性)为多模态智能体提供了严格的基准。数据层级结构(场景-目标-指令)支持任务的可扩展性研究。
使用方法
使用CrafText需通过JAX加速的环境接口加载,每个episode随机选择指令及对应验证函数。智能体接收视觉/矢量观测与文本指令的联合输入,通过强化学习框架(如PPO、Dynalang)进行训练。评估时需分别在训练集、Paraphrased测试集(相同目标的新表述)和New Objects测试集(新目标组合)上测量成功率(SR)。数据集提供XLA编译的验证函数,支持实时任务完成度检测。研究建议结合规划模块(如GPT-4生成的子任务分解)以提升复杂指令的处理能力。
背景与挑战
背景概述
CrafText是由俄罗斯AIRI研究所、MIPT及FRC CSC RAS的研究团队于2025年提出的多模态开放世界指令跟随基准测试。该数据集针对动态复杂环境中的自然语言指令理解问题,包含3,924条涵盖定位、条件、建造和成就四大任务的指令,涉及3,423个独特词汇。其创新性在于突破了传统静态环境研究的局限,通过整合Craftax动态引擎和GPT-4生成的多样化指令,为评估智能体在语言理解与适应性决策方面的综合能力提供了标准化测试平台。该数据集显著推动了具身智能领域的发展,为研究开放环境下的多模态交互建立了新的技术基线。
当前挑战
CrafText面临的核心挑战体现在两个维度:领域问题层面,需解决动态环境中长序列动作规划(如资源采集-工具制作-目标建造的级联操作)与复杂语言指令泛化(如'在收集两个石头后制作石剑'的时序理解)的耦合难题;构建过程中,需平衡程序化生成模板的效率与GPT-4语言生成的多样性,同时确保3,924条指令对应的验证函数在JAX加速环境下保持毫秒级实时校验。特别地,测试集中新物体组合任务(如用训练未见过的石块-湖泊组合完成定位)的成功率较训练集下降达50%,暴露出现有方法在组合泛化方面的重大缺陷。
常用场景
经典使用场景
CrafText数据集作为多模态动态环境下的指令跟随基准,其经典使用场景聚焦于评估智能体在开放世界中对复杂自然语言指令的理解与执行能力。通过构建包含3924条指令、3423个独特词汇的多样化任务库(如定位、条件建造、结构化搭建及复合目标达成),该数据集为研究语言-环境交互机制提供了标准化测试平台。典型实验设置中,智能体需在程序化生成的Craftax环境中,实时解析动态变化的视觉输入与多句式指令,完成跨模态任务推理。例如在‘构建3×3石质十字架’任务中,智能体需同步处理空间规划、资源采集序列与语法变体理解等多维度挑战。
实际应用
在实际应用层面,CrafText支撑的算法已延伸至服务机器人任务规划、虚拟助手交互优化等领域。其动态环境建模能力可模拟家庭服务场景中突发干扰(如移动障碍物)下的指令执行,而丰富的语言变体库则助力对话系统理解用户指令的深层语义。例如在仓储物流场景中,经CrafText训练的模型可准确解析‘将红色箱子移至最右侧货架’的十余种口语化表达,并适应传送带速度突变等实时变化。数据集开源的JAX加速接口进一步降低了工业界部署多模态决策系统的算力门槛。
衍生相关工作
该数据集已催生多个标志性研究:PPO-T+架构首次引入GPT-4中间计划生成机制,在CrafText上实现45%的任务成功率;FiLM的跨模态特征调制方法经本基准验证后,被扩展应用于医疗手术导航系统。后续工作如Plan4MC将场景检查器函数迁移至Minecraft教育版,开发出儿童编程语言到开放环境的编译框架。值得关注的还有DynaLang的预测世界模型改进版,通过分析CrafText中的时序依赖失败案例,提出了基于语言-视觉联合注意力的记忆模块,在Messenger等基准上取得12%的性能提升。
以上内容由遇见数据集搜集并总结生成



