five

sii-research/World-Aware-Planning

收藏
Hugging Face2026-05-07 更新2025-08-09 收录
下载链接:
https://hf-mirror.com/datasets/sii-research/World-Aware-Planning
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含了用于增强大型视觉语言模型规划能力的规划叙事,这些叙事通过融入上下文世界知识,桥接了高级任务指令和细微的现实世界环境之间的差距。数据集使用了Qwen2.5-VL-72B-Instruct作为教师模型,并在两个基础模型系列上进行了评估,显著提高了规划能力、常识推理和长周期规划任务的表现。

This dataset consists of planning narratives designed to enhance the planning capabilities of large vision-language models (LVLMs) by integrating contextual world knowledge, bridging the gap between high-level task instructions and nuanced real-world environments. The dataset employs Qwen2.5-VL-72B-Instruct as the teacher model and has been evaluated on two foundation model series, significantly improving performance in planning ability, commonsense reasoning, and long-horizon planning tasks.
提供机构:
sii-research
搜集汇总
数据集介绍
main_image_url
构建方式
World-Aware-Planning数据集聚焦于增强大视觉语言模型(LVLMs)的规划能力,其构建核心在于弥合高层任务指令与复杂真实环境之间的鸿沟。该数据集利用Qwen2.5-VL-72B-Instruct作为教师模型,通过指令增强与推理生成机制,为训练数据注入语境化的世界知识。研究中选取Qwen2.5-VL和InternVL3作为基础模型系列,分别使用7B和8B参数的变体进行实验,从而在多样化的架构上验证方法的泛化性。数据集的评估依托EmbodiedBench中的EB-ALFRED基准,以任务成功率(SR)作为主要指标,系统性地量化模型在具体规划任务中的表现。
特点
该数据集的核心特点在于其显著的性能提升和广泛的任务适应性。在规划能力上,数据集通过引入世界感知规划叙述,在常识推理和长期规划任务中实现了质的飞跃。实验数据显示,基于Qwen2.5-VL的方法在平均任务成功率上提升了60.7个百分点,其中常识推理与长期规划分别提升了60.0和70.0个百分点。尤为突出的是,经过增强的开源模型在性能上大幅超越了GPT-4o和Claude-3.5-Sonnet等专有系统,展现了轻量级模型在复杂规划场景中的巨大潜力。
使用方法
使用该数据集时,研究人员需以LVLMs为基础框架,通过教师模型生成的增强指令和推理内容进行微调。具体而言,用户应准备符合EB-ALFRED基准格式的任务数据,并调用Qwen2.5-VL系列或InternVL3系列模型进行训练。在评估阶段,需遵循EmbodiedBench的标准化流程,以任务成功率为核心指标进行性能度量。数据集代码开源在GitHub仓库,用户可便捷地复现实验或扩展至其他规划场景,同时论文提供了完整的实验设置与超参数配置,便于进行对比研究。
背景与挑战
背景概述
在具身智能与大规模视觉-语言模型交叉融合的前沿领域,规划能力的泛化性与环境感知的深度耦合成为研究焦点。由复旦大学、上海创新研究院及上海人工智能实验室的Junhao Shi、Zhaoye Fei等研究人员于2025年创建的World-Aware-Planning数据集,旨在解决高端任务指令与复杂现实环境之间的语义鸿沟。该数据集通过注入上下文世界知识,构建了增强型规划叙事框架,显著提升了视觉-语言模型在常识推理与长程规划任务中的表现。研究显示,经该数据集优化的开源模型在EB-ALFRED基准测试中任务成功率提升超过60%,甚至超越GPT-4o与Claude-3.5-Sonnet等闭源系统,为具身智能体的环境自适应决策树立了新的标杆。
当前挑战
数据集的构建面临双重挑战。领域层面,传统规划系统难以融合视觉感知的瞬时性与世界知识的因果逻辑,导致长程任务中常识性错误累积;例如,模型在“整理桌面”等高阶指令下常忽略物体间物理约束(如易碎品摆放)与环境动态变化(如遮挡物体重建)。构建层面,生成高质量规划叙事需要平衡知识增强的粒度与模型泛化能力,避免过拟合于特定场景;团队需从EB-ALFRED中筛选千级交互轨迹,并为每步骤注释结构化世界知识(如空间关系、物体属性),同时设计指令增强策略以维持教师模型(Qwen2.5-VL-72B)与学生模型之间的语义一致性,这一过程对标注资源与计算效率构成了严峻考验。
常用场景
经典使用场景
在具身智能与视觉语言导航的交汇领域,该数据集被广泛应用于评估和增强大语言模型在复杂环境中的任务规划能力。其核心使用场景聚焦于通过融入世界知识叙述(world-aware planning narratives),引导视觉语言模型在诸如EB-ALFRED等具身基准测试中执行长时序、多步骤的物理操作任务。研究者借助该数据集,解析视觉输入与高层指令间的语义鸿沟,使模型能够理解物体的功能属性、空间关系及因果逻辑,从而在未见过的家居场景中自主完成目标驱动的规划行为。
实际应用
在实际应用层面,该数据集为家庭服务机器人、智能助手及自动化操作系统的开发提供了坚实的训练与评估基础。通过模拟家庭日常场景中多样化的任务需求,如整理物品、准备食物或操作家电,该数据集支持模型习得对环境变化的动态响应能力。其衍生出的规划叙事方法可被集成到智能家居中枢系统,使机器人不再依赖死板指令,而是结合当前情境与背景知识自主决策,从而提升任务完成效率与用户交互的自然流畅度。
衍生相关工作
基于该数据集的核心思想,一系列后续工作相继涌现,推动了具身规划研究的纵深发展。例如,有研究者借鉴其世界知识叙述机制,进一步构建了融合时空推理的规划框架;另有工作围绕视觉-语言对齐优化,提出了基于因果掩码的注意力增强模块。此外,该数据集所采用的EB-ALFRED评估协议与成功率的度量体系,已成为衡量具身规划能力的通用基准,催生了多模态大模型在真实环境中的鲁棒性测试规范,并启发了将计划序列反事实推理引入误差修复机制的新方向。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作