PersONAL
收藏arXiv2025-09-24 更新2025-11-21 收录
下载链接:
https://github.com/ZiliottoFilippoDev/PersONAL
下载链接
链接失效反馈官方服务:
资源简介:
PersONAL 数据集是一个为研究 Embodied AI 领域中的个性化导航和物体定位而设计的全面基准。该数据集包含超过 2000 个高质量的评估场景,这些场景来自 HM3D 数据集中 30 多个逼真的家庭环境。每个场景都包含一个自然语言场景描述,其中明确指出了物体和它们主人的关联,要求智能体能够理解用户特定的语义。该基准支持两种评估模式:(1) 在未知的场景中主动导航,(2) 在之前映射的场景中定位物体。通过使用最先进的基线进行实验,表明当前 Embodied AI 代理与人类性能之间存在巨大差距,突出了需要能够感知、推理和记忆个性化信息的 Embodied AI 代理,为现实世界的辅助机器人铺平了道路。
提供机构:
意大利帕多瓦大学, 基金会 Bruno Kessler (FBK), 特伦托, 意大利
创建时间:
2025-09-24
搜集汇总
数据集介绍

构建方式
在具身人工智能领域,构建能够理解个性化语义的数据集对推动智能体在真实场景中的应用至关重要。PersONAL数据集以HM3D高真实感室内环境为基础,通过两阶段流程构建:首先对GOAT-Bench原始对象描述进行人工精炼,消除约40%的非信息性标注,形成具有空间指向性的对象描述;随后建立对象-所有者二分图关系,依据易、中、难三个难度级别设置不同的所有权约束模式,最终通过大语言模型生成融合所有权语义的场景描述与查询对,并经过人工验证确保90%以上的标注准确性。
特点
该数据集的核心特征体现在多维度个性化语义建模上。其包含2020个高质量情景,覆盖30余个真实家庭环境,每个情景均配备自然语言场景描述与个性化查询,要求智能体理解如“寻找莉莉的背包”这类涉及对象归属的语义关系。通过设计三种难度分级:简单级保持对象与所有者一对一映射,中级允许单人多对象归属,困难级引入多主体共享对象机制,系统性地提升了语义推理的复杂性。数据集同时支持主动导航与对象定位双任务模式,为评估智能体的个性化信息记忆与推理能力提供了立体化测试框架。
使用方法
该数据集支持两种典型应用范式:个性化主动导航任务要求智能体在未知环境中基于场景描述自主探索并定位目标对象,遵循500步行动预算与1米成功半径的标准;个性化对象定位任务则允许智能体预先构建环境空间表征,随后在语义地图中完成目标坐标预测。研究可采用零样本导航方法结合视觉语言模型进行前沿探索,如通过开放集目标检测器解析查询对象类别,或采用区域门控机制在特征地图中实现个性化语义匹配。实验表明现有方法距人类性能仍有显著差距,为轻量化大模型集成与专用记忆机制的研究指明了方向。
背景与挑战
背景概述
随着具身人工智能技术的迅猛发展,智能体在复杂环境中的任务执行能力显著提升,然而在现实人类中心场景中的应用仍面临重大挑战。PersONAL基准数据集由帕多瓦大学和布鲁诺·凯斯勒基金会研究团队于2025年提出,聚焦于解决个性化具身智能体的核心研究问题——如何使智能体理解并响应特定用户的物体关联语义。该数据集基于HM3D真实场景构建,包含2000余个高质量任务片段,通过自然语言描述明确标注物体与所有者的关联关系,推动具身智能体向家庭助手等实际应用场景迈进。
当前挑战
在个性化物体导航领域,智能体需突破传统泛化导航的局限,实现基于用户特定语义的精准定位与推理,这要求模型具备跨模态关联理解与长期记忆能力。数据集构建过程中面临双重挑战:其一是标注质量优化,需通过人工精校消除原始描述中近半数的非信息性或错误标注;其二是所有权关系建模,需设计三层难度递增的二分图结构来模拟现实世界中从简单独占到复杂共享的物体归属关系,确保基准测试的严谨性与扩展性。
常用场景
经典使用场景
在具身智能领域,PersONAL数据集被广泛用于评估个性化导航与定位任务的性能表现。该数据集通过构建包含用户专属物品关联关系的自然语言查询场景,要求智能体在未知环境中根据文本描述识别并导航至特定用户的物品,例如“寻找莉莉的背包”。这种任务设计模拟了真实家庭环境中机器人需理解个性化语义的需求,为具身智能系统在复杂场景下的推理能力提供了标准化测试平台。
解决学术问题
PersONAL数据集主要解决了具身智能领域个性化推理能力缺失的核心问题。传统导航方法将目标物体视为通用类别,无法区分物品的归属关系,而该数据集通过引入用户-物品所有权语义关联,推动了智能体在动态环境中进行个性化感知与记忆推理的研究。其意义在于建立了首个融合用户中心化查询的评估基准,为开发能适应真实家庭场景的辅助机器人奠定了理论基础。
衍生相关工作
PersONAL数据集的发布催生了多个具身智能领域的延伸研究。基于其提出的个性化导航框架,后续工作开始探索结合长期记忆机制的智能体架构,如融合图神经网络的所有权关系建模方法。同时,该数据集启发了对开放式词汇导航系统的改进研究,促使社区开发出能处理多模态个性化查询的混合模型,进一步推动了具身智能在动态环境中的适应性研究。
以上内容由遇见数据集搜集并总结生成



