FreeAskWorld Dataset

Name: FreeAskWorld Dataset
Creator: 清华大学
Published: 2025-11-17 23:58:46
License: 暂无描述

arXiv2025-11-17 更新2025-11-19 收录

下载链接：

https://huggingface.co/datasets/Astronaut-PENG/FreeAskWorld

下载链接

链接失效反馈

官方服务：

资源简介：

FreeAskWorld是由清华大学人工智能产业研究院构建的大规模具身智能基准数据集，专为人类中心的社会导航研究设计。该数据集包含重构的城市场景、16类核心物体、63,429个标注样本帧及超过17小时的交互数据，涵盖对话历史、全景RGB图像和占据栅格图等多模态信息。数据集通过模块化生成流程创建，整合了人物模拟、场景随机化和语义指令生成技术，支持动态环境下的多轮交互。主要应用于视觉语言导航领域，旨在解决传统导航系统在动态目标适应、社会意图建模和实时人机交互方面的核心挑战。

FreeAskWorld is a large-scale embodied intelligence benchmark dataset developed by the Institute for Artificial Intelligence Industry Research of Tsinghua University, specifically designed for human-centric social navigation research. This dataset includes reconstructed urban scenes, 16 categories of core objects, 63,429 annotated sample frames and over 17 hours of interactive data, covering multimodal information such as dialogue histories, panoramic RGB images and occupancy grid maps. The dataset is constructed via a modular generation pipeline, integrating technologies including character simulation, scene randomization and semantic instruction generation, and supports multi-turn interactions in dynamic environments. It is primarily applied in the field of Vision-and-Language Navigation (VLN), aiming to address the core challenges faced by traditional navigation systems in dynamic target adaptation, social intention modeling and real-time human-computer interaction.

提供机构：

清华大学

创建时间：

2025-11-17

搜集汇总

数据集介绍

构建方式

FreeAskWorld数据集的构建依托于模块化数据生成流程，该流程首先通过Unity引擎初始化仿真环境，并随机化天气与昼夜条件以增强环境多样性。在仿真过程中，智能体主动寻找附近的人类虚拟角色发起导航问询，利用大语言模型生成符合社会认知理论的动态交互指令。随后采用基于规则的社会合规导航算法，结合静态与动态障碍物规避机制，生成包含多模态标注的轨迹数据。整个流程同步采集全景RGB图像、实例分割掩码、深度图等16类核心标注数据，最终形成覆盖室内外场景的大规模交互数据集。

特点

该数据集的核心特征体现在其对社会交互行为的深度建模能力。通过融合大语言模型与行为先验知识，数据集生成了具备高语义密度的导航对话历史，支持多轮动态指令交互。其环境构建采用真实世界场景重建技术，整合动态行人、车辆交通系统及昼夜天气变化，显著提升了仿真环境的复杂性与真实性。数据标注体系涵盖2D/3D边界框、语义分割地图、占用热力图等六类结构化标注，并包含63,429帧样本数据与超过17小时的交互记录，为具身智能研究提供了多维度的评估基础。

使用方法

该数据集支持开放与闭环双模式评估框架。在开放环模式下，研究者可通过比对预测轨迹与专家演示的L2距离指标验证模型性能；闭环评估则依托同步仿真架构，在动态环境中测试智能体的方向问询与实时适应能力。数据集提供标准化接口用于集成多模态感知模块，支持从低级运动控制到高级社会推理的全链路算法开发。具体实施时，需加载预构建的场景数字孪生与环境元数据，通过WebSocket通信协议实现智能体与仿真器的实时数据交换，最终基于导航误差、成功率等七项核心指标进行系统性验证。

背景与挑战

背景概述

随着具身智能成为人工智能研究的核心前沿，仿真平台需超越低层物理交互，以捕捉复杂的人类中心社会行为。清华大学产业研究院于2025年提出的FreeAskWorld数据集，旨在通过集成大语言模型实现高层行为规划与语义交互，扩展了传统视觉语言导航任务，引入方向询问机制以评估智能体的主动交互与实时适应能力。该数据集包含重构环境、多样化任务类型及大规模标注数据，推动了具身AI系统在语义理解与社交交互方面的进步，为相关领域提供了关键基准支持。

当前挑战

FreeAskWorld数据集致力于解决视觉语言导航领域动态目标处理与多轮交互的挑战，传统系统依赖静态指令且缺乏社会意图建模，限制了智能体在真实环境中的适应性。构建过程中，需克服高保真人类行为模拟的复杂性，包括角色生成、动画控制与外观多样性，同时确保动态场景中语义交互的连贯性，这些因素对数据生成管道的可扩展性与真实性提出了严格要求。

常用场景

经典使用场景

在具身智能研究领域，FreeAskWorld数据集最经典的应用场景是扩展传统视觉语言导航任务，特别是方向询问任务。该数据集通过整合大语言模型生成的自然语言指令和动态环境交互，为智能体提供了主动寻求导航帮助的能力。研究人员利用该数据集训练智能体在复杂城市环境中进行多轮对话交互，评估其语义理解、路径规划和社交互动能力，推动了具身智能从静态导航向动态社交导航的转变。

衍生相关工作

FreeAskWorld数据集推动了多个相关研究领域的发展，衍生出ETPNav-FT和BEVBert-FT等改进模型，这些模型在方向询问任务中展现出显著性能提升。数据集的设计理念影响了后续社交导航模拟器的开发，为Virtual Community、MetaUrban等大型仿真平台提供了技术参考。同时，该数据集建立的评估指标体系为具身智能领域的交互能力量化提供了新标准，促进了多模态记忆、自适应行为等研究方向的发展。

数据集最近研究