Trinity Benchmark

github2025-05-15 更新2025-05-28 收录

下载链接：

https://github.com/Trinity-UST/Trinity

下载链接

链接失效反馈

官方服务：

资源简介：

Trinity基准测试旨在评估代理在考虑多样化和复杂的人类属性时执行长期家庭任务的能力。它包括AE（代理-环境对齐）数据集和HAE（人类-代理-环境对齐）数据集。AE数据集作为基线环境，模拟当前代理的部署上下文，而HAE数据集则要求代理在执行任务时考虑服务目标的多样化人类属性。

The Trinity benchmark is designed to evaluate agents' capability to perform long-term household tasks while considering diverse and complex human attributes. It includes two datasets: the AE (Agent-Environment Alignment) dataset and the HAE (Human-Agent-Environment Alignment) dataset. The AE dataset acts as a baseline environment, simulating the current deployment context of agents, while the HAE dataset requires agents to take into account the diverse human attributes of the service targets when executing tasks.

创建时间：

2025-05-15

原始信息汇总

Trinity数据集概述

数据集背景

论文标题：Trinity: Human–Agent–Environment Alignment for Embodied Task Planning
提交会议：NeurIPS 2025 Dataset and Benchmark Track
核心问题：解决家庭机器人在任务规划中忽视人类多样性的问题（Planning with Human Attributes, PHA）

数据集组成

AE数据集（Agent-Environment对齐）

功能：作为基线环境，模拟当前具身代理的部署场景
特点：
- 沿用ProcTHOR-10k的场景布局
- 采用相同动作接口
- 忽略人类属性的复杂性和多样性

HAE数据集（Human-Agent-Environment对齐）

功能：支持代理在家庭任务中考虑服务对象的多样化人类属性
任务类型：
- 核心任务：准备食物、准备饮料、同时准备食物和饮料
- 附加任务：准备与爱好相关的物品
验证机制：通过启发式任务求解器保证可解性

环境特性

基础架构：
- 基于PROC-THOR-10k数据集
- 使用AI2THOR-5.0.0 API
支持场景扩展：集成HOLODeck（CVPR24）实现无限场景生成
动作支持：
- 对象导航（"go to [object]"）
- 房间间导航（"go to [room]"）
- 对象操作（拾取/放置/切片/开关等）

支持代理

ACT agent (ICLR23)
ReAct agent (ICLR23)
ReAct-IM agent (ICLR23)
StateAct agent (REALM @ ACL 2025)
PreAct agent (CoLing25)

技术限制

当前不支持无头模式（需连接物理显示器运行）

搜集汇总

数据集介绍

构建方式

Trinity Benchmark数据集通过两个核心子集构建而成，其中AE数据集延续了传统具身任务规划数据集的架构，采用ProcTHOR-10k场景布局和标准化动作接口，作为评估智能体环境适应能力的基准。HAE数据集则创新性地引入包含宗教信仰、过敏原、饮食偏好等维度的用户画像，通过启发式任务求解器验证了食品饮料准备、兴趣物品准备等四大类家庭任务的逻辑可解性，实现了人类属性与物理环境的多模态对齐。

特点

该数据集最显著的特征在于其三重对齐框架，通过Holodeck生成场景扩展技术实现了无限场景泛化能力，同时支持房间级导航、物体切片等17种底层动作API。其任务设计具有鲜明的个性化导向，相同指令会因用户属性差异产生截然不同的合法解，例如为乳糖不耐受用户选择植物奶。数据集还兼容ACT、ReAct等主流智能体架构，为评估社会情境感知能力提供了标准化测试平台。

使用方法

研究者可通过配置文件中定义的场景参数加载ProcTHOR或Holodeck生成环境，调用统一的AI2THOR 5.0接口实现任务交互。典型工作流包含三个阶段：首先加载包含用户属性的JSON任务描述，然后通过高层规划器生成符合个性化约束的动作序列，最终由底层控制器执行可视化验证。数据集特别强调物理显示器的必要性，暂不支持无界面服务器模式运行。

背景与挑战

背景概述

Trinity Benchmark是由研究团队在2025年NeurIPS会议上提出的一个创新性数据集，专注于解决具身任务规划中的人-机-环境协同问题。该数据集由Agent-Environment（AE）和Human-Agent-Environment（HAE）两部分构成，依托于ProcTHOR-10k场景布局和AI2THOR-5.0.0接口构建，旨在推动家庭服务机器人从单纯执行指令升级为能理解用户个性化需求的智能伙伴。其核心研究聚焦于Planning with Human Attributes（PHA）问题，通过引入宗教禁忌、饮食偏好等多元人类属性，要求机器人在备餐、饮品制作等长周期任务中实现差异化决策，填补了现有环境中心化训练方法的理论空白。

当前挑战

该数据集面临双重技术挑战：在领域问题层面，现有基于物理环境训练的代理模型难以处理人类属性的动态耦合，如同一指令因用户过敏史可能产生对立合法的执行方案；在构建过程中，需平衡场景扩展性与任务可解性，既要通过Holodeck生成无限场景增强泛化能力，又需设计启发式求解器确保每个HAE任务具备可验证的解决方案。此外，多模态行动API的兼容性设计也考验着环境对ALFRED传统动作与新型跨房间导航的协同支持。

常用场景

经典使用场景

在智能家居机器人领域，Trinity Benchmark通过模拟多样化的家庭场景，为研究者提供了一个评估代理在复杂环境中任务规划能力的平台。该数据集特别强调代理在感知、推理和行动过程中对用户个性化属性的考量，如宗教、过敏史和饮食偏好等，从而在家庭任务规划中实现更精准的人机环境协同。

实际应用

该数据集直接服务于家庭服务机器人的开发实践，特别是在个性化服务场景中展现出重要价值。从餐饮准备到兴趣物品整理，基于Trinity训练的代理能够根据用户档案动态调整任务策略，这种能力在老年照护、特殊需求家庭等实际应用场景中具有显著的现实意义。

衍生相关工作

Trinity Benchmark已催生多个创新性研究，包括ACT、ReAct等代理架构的适应性改进。其与HOLODeck场景生成系统的深度整合，进一步拓展了高层次任务规划的研究边界，为后续工作如StateAct和PreAct代理提供了关键的评估基础，持续推动着具身智能领域的方法论革新。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集