five

SariBench

收藏
arXiv2025-08-01 更新2025-08-05 收录
下载链接:
https://github.com/upeee/sari-sandbox-env
下载链接
链接失效反馈
官方服务:
资源简介:
Sari Sandbox是一个高保真、逼真的3D零售商店模拟环境,用于评估具身AI代理在购物任务中的性能。Sari Sandbox拥有超过250个交互式杂货商品,涵盖三种不同的商店配置,并通过API进行控制。它支持虚拟现实(VR)进行人类交互,以及基于视觉语言模型(VLM)的具身代理。我们还引入了SariBench,这是一个包含各种任务难度的人类演示数据集。我们的沙盒使具身代理能够导航、检查和操作零售商品,为人类性能提供基准。

Sari Sandbox is a high-fidelity, photorealistic 3D retail store simulation environment designed to evaluate the performance of embodied AI Agents in shopping tasks. Sari Sandbox features over 250 interactive grocery items, covers three distinct store layouts, and is controllable via API. It supports virtual reality (VR) for human interaction, and is compatible with vision-language model (VLM)-based embodied agents. We additionally introduce SariBench, a human demonstration dataset that encompasses varying levels of task difficulty. Our sandbox enables embodied agents to navigate, inspect, and manipulate retail items, providing a benchmark for human performance.
提供机构:
菲律宾大学电子与电气工程研究所,菲律宾大学人工智能研究生课程
创建时间:
2025-08-01
原始信息汇总

🛒 sari-sandbox-environment 数据集概述

数据集基本信息

  • 开发环境: Unity 6 (6000.0.42f1)
  • 用途: 为零售场景中的具身AI任务提供高保真合成环境

主要特性

  1. 商品数据

    • 包含250种杂货商品
    • 商品具有有效期和条形码信息
  2. 场景布局

    • 提供3种商店布局场景
    • 场景文件路径: Assets/Scenes/
  3. 交互功能

    • 可交互对象: 铰链门和滑动门
    • 自助结账柜台: 配备可工作的条形码扫描器
  4. 技术支持

    • 提供Python API用于环境交互(Scripts/ClientSide.py)
    • 支持VR设备

Python API功能

核心函数

  • TransformAgent((translateX, translateY, translateZ), (degreesX, degreesY, degreesZ)): 控制代理的位置和旋转
  • TransformHands((leftTranslateX, leftTranslateY, leftTranslateZ), (leftDegreesX, leftDegreesY, leftDegreesZ), (rightTranslateX, rightTranslateY, rightTranslateZ), (rightDegreesX, rightDegreesY, rightDegreesZ)): 控制双手的位置和旋转
  • ToggleLeftGrip(): 切换左手抓取状态
  • ToggleRightGrip(): 切换右手抓取状态
  • RequestScreenshot(): 请求截图并保存为"ClientScreenshot.png"
搜集汇总
数据集介绍
main_image_url
构建方式
SariBench数据集构建于高保真度的3D零售商店模拟环境Sari Sandbox中,通过Unity引擎的通用渲染管线实现了250种交互式杂货商品的精细化建模。研究团队采用多模态数据采集策略,在虚拟现实环境中录制了100段人类参与者完成零售任务的视频,同步捕获头部/手部运动轨迹、抓握状态等10fps的时空标注数据。数据采集过程严格遵循实验规范,包含15分钟的VR操作适应期以确保数据生态效度。
特点
该数据集的核心价值在于其首创的零售场景多模态标注体系,包含商品语义信息(类别、价格、成分等)、人类操作行为流(导航、抓取、结账等)以及伴随的语音推理记录。区别于现有家居环境数据集,SariBench特别设计了三个差异化商店布局和11类商品分区,通过动态价格标签、可扫描条形码等交互元素增强了环境复杂性。数据集任务按难度分级,从简单物品查找到营养成比较等决策任务,系统覆盖了零售场景的认知-动作谱系。
使用方法
研究者可通过Python API接入Sari Sandbox环境复现基准任务,利用提供的JSON控制协议驱动虚拟代理。数据集支持两种研究范式:一是通过人类演示视频分析购物行为模式,二是基于环境交互数据训练具身智能体。特别设计的WebSocket通信架构允许实时获取代理位姿、场景状态等信息,配套的OCR工具链支持商品标签文本分析。对于跨模态研究,可结合第一人称视角视频、语音记录与动作轨迹数据进行多维度行为建模。
背景与挑战
背景概述
SariBench是由菲律宾大学的研究团队于2025年推出的一个专注于零售场景的虚拟环境数据集,作为Sari Sandbox项目的核心组成部分。该数据集旨在填补现有仿真环境在零售特定任务中的研究空白,通过高保真的3D便利店场景和250种可交互商品,为具身智能体的训练与评估提供标准化平台。研究团队基于对现实零售环境的系统调研,设计了包含三种店铺布局的虚拟场景,并创新性地整合了VR技术采集人类行为数据作为基准。这一工作将计算机视觉、强化学习与消费行为研究相结合,为智能零售、服务机器人等领域的算法开发提供了重要的实验基础设施。
当前挑战
SariBench面临的挑战主要体现在两个维度:在领域问题层面,该数据集需要解决具身智能体在复杂零售环境中进行多模态理解(如商品识别、价格标签阅读)和序列决策(如路径规划、结账流程)的难题,这要求算法同时具备视觉感知、空间推理和任务分解能力。在构建过程中,研究团队需克服商品建模的物理真实性(如可变形包装的模拟)、动态标签系统的实时渲染(价格/保质期显示)以及VR数据采集时的人类行为标准化等工程挑战。此外,保持60FPS的实时性能与视觉保真度之间的平衡,以及设计能准确反映零售任务复杂度的分级评估体系(基础拾取→营养比较决策),都是数据集构建中的关键技术瓶颈。
常用场景
经典使用场景
SariBench数据集作为零售场景下具身智能体研究的基准测试平台,其经典使用场景聚焦于多模态交互任务的系统性评估。在虚拟便利店环境中,研究者通过该数据集模拟消费者购物行为全流程,包括商品定位、货架导航、产品比对及自助结账等核心环节。其高保真3D建模与精细化物理引擎支持对视觉-语言-动作协同机制的深入研究,尤其在跨模态推理、空间记忆构建等认知任务上展现出独特价值。
衍生相关工作
该数据集已衍生出三个方向的经典研究:基于记忆架构的持续学习代理(如扩展ReAct框架的RetailAct)、面向商品识别的多模态对比学习模型(如ShopCLIP),以及结合视觉语言模型的层次化任务分解方法(借鉴ALFRED的RetailTask)。特别值得关注的是其催生的VR行为分析框架,通过解析人类参与者的操作流图,为认知架构设计提供了可解释性范本,相关成果已被FCSC机器人挑战赛采纳为标准测试协议。
数据集最近研究
最新研究方向
SariBench数据集作为虚拟零售环境中具身智能体行为研究的基准工具,近期研究聚焦于三大方向:首先,通过高保真3D场景与多模态交互API,探索视觉-语言模型(VLM)在复杂零售任务中的空间推理与动态决策能力,弥补了传统家居场景仿真平台在商业环境中的研究空白。其次,结合人类VR行为数据与具身智能体性能的对比分析,揭示了语言模型在物理交互中的动作时序优化、记忆架构设计等关键挑战,为构建更高效的认知-行为闭环系统提供实证基础。第三,该数据集推动零售数字孪生技术发展,其动态标签系统与商品语义分组机制正被应用于智能货架管理、无人结算等实际场景,相关成果已在世界机器人峰会(WRS)未来便利店挑战赛等国际赛事中产生跨领域影响。
相关研究论文
  • 1
    Sari Sandbox: A Virtual Retail Store Environment for Embodied AI Agents菲律宾大学电子与电气工程研究所,菲律宾大学人工智能研究生课程 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作