five

∞-THOR

收藏
arXiv2025-05-23 更新2025-05-28 收录
下载链接:
https://pearls-lab.github.io/infini-thor
下载链接
链接失效反馈
官方服务:
资源简介:
∞-THOR是一个用于长时序具身任务的新框架,旨在推动具身AI的长时序理解。该框架提供了合成可扩展、可重复和无限长时序轨迹的生成框架,以及一个新的具身QA任务,需要在扩展的轨迹中测试代理的长时序推理能力。此外,∞-THOR还提供了一个长时序数据集和基准测试套件,包括跨越数百个环境步骤的复杂任务,每个任务都配对有地面真实动作序列。这些数据集和代码可以在pearls-lab.github.io/infini-thor找到。

∞-THOR is a novel framework for long-horizon embodied tasks, aimed at advancing long-horizon comprehension of embodied AI. This framework provides a generative pipeline for synthesizing scalable, reproducible, and infinitely long-horizon trajectories, alongside a new embodied QA task designed to evaluate agents' long-horizon reasoning capabilities across extended trajectories. Furthermore, ∞-THOR also releases long-horizon datasets and benchmark suites, which contain complex tasks spanning hundreds of environmental steps, with each task paired with ground-truth action sequences. These datasets and code are available at pearls-lab.github.io/infini-thor.
提供机构:
加州大学圣地亚哥分校
创建时间:
2025-05-23
搜集汇总
数据集介绍
main_image_url
构建方式
∞-THOR数据集的构建采用了先进的生成框架,通过合成可扩展、可复现且无限的长时程轨迹来支持具身AI的研究。具体而言,该数据集基于AI2-THOR模拟器,通过任务规划器生成低级别动作序列,并在交互式环境中进行模拟验证。每个轨迹由多个子任务串联而成,最终任务设计为需要整合早期和晚期出现的物体信息,以形成长时程的时空依赖关系。此外,数据集还包含静态评估任务“具身干草堆中的针”,通过规则模板生成多样化的问答对,并利用多模态大模型进行交叉验证以确保数据质量。
使用方法
∞-THOR数据集的使用方法灵活多样,适用于不同研究场景。对于离线评估,研究者可利用轨迹数据训练模仿学习模型,或通过静态问答任务(NiEH)测试模型的记忆与推理能力。在线交互评估则允许智能体在动态环境中执行策略,完成长时程任务,并通过累积奖励衡量性能。为处理超长上下文,建议结合上下文扩展技术(如YaRN缩放、LongRoPE)和上下文并行训练策略,以高效处理百万量级的输入令牌。数据集的代码库提供了轨迹生成、任务规划和环境交互的完整工具链,支持快速实验部署与结果复现。
背景与挑战
背景概述
∞-THOR是由加州大学圣地亚哥分校的Bosung Kim和Prithviraj Ammanabrolu于2025年提出的一个面向长时程具身任务的新框架,旨在推动具身人工智能在长上下文理解方面的研究。该框架通过生成可扩展、可复现且无限的长时程轨迹,构建了一个包含复杂任务的数据集和基准测试套件,每个任务都配有真实动作序列。∞-THOR的核心研究问题聚焦于如何在动态环境中实现长时程推理与规划,为具身AI系统的长期推理能力提供了重要基础。
当前挑战
∞-THOR面临的挑战主要包括两个方面:领域问题的挑战和构建过程中的挑战。在领域问题方面,长时程具身任务要求智能体在数百步的环境交互中记忆和推理分散的线索,这对现有模型的长期记忆和多模态理解能力提出了极高要求。构建过程中的挑战则包括生成长时程轨迹的复杂性,确保任务目标的多样性和可扩展性,以及如何在极长上下文条件下优化模型架构和训练策略。此外,数据集的多样性和场景布局的局限性也是需要克服的关键问题。
常用场景
经典使用场景
∞-THOR框架在具身人工智能领域中被广泛应用于长时程推理任务的研究与评估。其核心价值在于能够生成可扩展、可复现且无限长度的长时程轨迹,为研究者提供了一个标准化的测试平台。特别是在Needle(s) in the Embodied Haystack(NiEH)任务中,该数据集通过在多模态观察序列中散布关键线索,有效评估智能体在数百个环境步骤中的记忆与推理能力。这种设置模拟了真实世界中智能体需要处理远距离时间依赖性的场景,如早期观察到的物体需要在数百步后被正确调用。
解决学术问题
∞-THOR解决了具身AI领域长时程推理的两个关键学术问题:一是突破了传统基准任务(如ALFRED)在50步以内的短时程限制,首次实现了600步以上的复杂任务建模;二是通过NiEH任务设计了多线索散布的评估范式,填补了多模态长上下文推理的空白。该数据集提供的真实轨迹数据验证了训练时接触长上下文对模型性能的提升,为架构设计(如交错目标-状态-动作建模)提供了实证基础,推动了具身智能从片段式决策向持续推理的范式转变。
实际应用
在智能家居服务机器人领域,∞-THOR支持训练能够处理复杂多步骤任务的系统。例如机器人需在厨房场景中先后完成取食材、操作电器、整理物品等系列操作,期间需记忆数十分钟前观察到的物品位置。医疗辅助机器人则可通过该框架学习在长时间监护中关联分散的体征数据。其交互式评估模块更可直接应用于机器人策略的在线调优,而轨迹生成算法已被Adaptive Agent等团队用于模拟现实场景中的突发干扰应对。
数据集最近研究
最新研究方向
在具身人工智能领域,∞-THOR框架的推出标志着长时程推理研究的重要突破。该数据集通过生成可扩展的轨迹序列和引入'具身干草堆中的针'任务,为智能体在复杂环境中进行多模态长时程推理提供了标准化测试平台。当前研究热点集中在三个方面:一是探索交错式目标-状态-动作建模架构,以增强智能体对跨模态时序信息的整合能力;二是开发旋转位置编码缩放和上下文并行等长上下文扩展技术,突破传统语言模型在百万级token处理上的限制;三是研究基于规划级评估的交互式训练策略,通过动态环境交互提升智能体在数百步任务中的持续推理能力。这些研究方向正推动具身AI从短时指令跟随向开放域长时规划演进,为家庭服务机器人、虚拟助手等应用奠定理论基础。
相关研究论文
  • 1
    Beyond Needle(s) in the Embodied Haystack: Environment, Architecture, and Training Considerations for Long Context Reasoning加州大学圣地亚哥分校 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作