Ego-R1 Data

Name: Ego-R1 Data
Creator: 南洋理工大学 S-Lab, 新加坡 A*STAR, 西蒙弗雷泽大学, 上海人工智能实验室
Published: 2025-06-17 00:17:08
License: 暂无描述

arXiv2025-06-17 更新2025-06-19 收录

下载链接：

https://egolife-ai.github.io/Ego-R1/

下载链接

链接失效反馈

官方服务：

资源简介：

Ego-R1 数据集是一个用于超长第一人称视角视频推理的综合性混合源数据集，由 25K CoTT 推理轨迹和 4.4K 注释问答实例组成，分别支持预训练语言模型的监督微调和 Ego-R1 代理的强化学习训练。该数据集旨在促进对超长第一人称视角视频的理解，并支持多步推理和动态工具调用，以解决复杂的问题。

The Ego-R1 dataset is a comprehensive mixed-source dataset designed for ultra-long first-person perspective video reasoning. It comprises 25K CoTT reasoning trajectories and 4.4K annotated question-answer instances, which respectively support supervised fine-tuning of pre-trained language models and reinforcement learning training for the Ego-R1 AI Agent. This dataset aims to advance the understanding of ultra-long first-person perspective videos, and supports multi-step reasoning and dynamic tool invocation to solve complex problems.

提供机构：

南洋理工大学 S-Lab, 新加坡 A*STAR, 西蒙弗雷泽大学, 上海人工智能实验室

创建时间：

2025-06-17

原始信息汇总

Ego-R1数据集概述

数据集基本信息

名称: Ego-R1
类型: 超长第一人称视角视频推理数据集
主要用途: 训练和评估基于工具链思维(Chain-of-Tool-Thought)的视频推理模型
开发团队: 南洋理工大学、A*STAR、西蒙菲莎大学、上海AI Lab等机构联合开发

数据集组成

Ego-CoTT-25K: 用于监督微调(SFT)的25K工具链思维数据
Ego-QA-4.4K: 用于强化学习(RL)的4.4K问答对
Ego-R1 Bench: 新构建的周长度视频QA基准测试集

数据特点

数据来源: 基于6名参与者采集的原始视频和日志
问题类型: 包含AI生成和人工标注的多种选择题(MCQs)
处理方式: 通过验证和处理的MCQs作为数据基础

方法论

核心框架: Chain-of-Tool-Thought (CoTT)工具链思维
训练策略: 两阶段训练(监督微调+强化学习)
推理方式: 动态工具调用和多轮协作式问题解决

性能表现

优势: 显著扩展了视频理解的时间覆盖范围(从几小时到一周)
特点: 产生更详细、可解释的逐步推理链

相关资源

论文: arXiv:2506.13654
BibTeX引用: bibtex @misc{tian2025egor1chainoftoolthoughtultralongegocentric, title={Ego-R1: Chain-of-Tool-Thought for Ultra-Long Egocentric Video Reasoning}, author={Shulin Tian and Ruiqi Wang and Hongming Guo and Penghao Wu and Yuhao Dong and Xiuying Wang and Jingkang Yang and Hao Zhang and Hongyuan Zhu and Ziwei Liu}, year={2025}, eprint={2506.13654}, archivePrefix={arXiv}, }

搜集汇总

数据集介绍

构建方式

Ego-R1数据集通过多模态工具链构建，整合了25K条工具思维链（CoTT）数据和4.4K条标注问答对。数据生成采用分层检索增强生成（H-RAG）技术，首先将超长视频分割为30秒片段并生成多粒度摘要，再通过强化学习训练的智能体动态调用视频语言模型（Video-LLM）和视觉语言模型（VLM）进行协同推理。数据来源包含6个视角超过500小时的自我中心视频，通过人工标注与AI生成相结合的方式确保数据质量。

特点

该数据集的核心特征在于其工具增强的思维链架构，平均每个任务包含7.42次工具调用步骤，支持从分钟级到周级的时间跨度推理。数据集采用分层时序结构，包含日/小时/10分钟多粒度视频摘要，并保留原始视觉细节。特别设计的动态工具调用机制允许智能体根据上下文自主选择检索、视觉分析或终止工具，解决了传统方法在超长视频理解中的信息丢失问题。

使用方法

使用Ego-R1需遵循工具链推理范式：首先通过H-RAG进行时序检索定位关键片段，随后调用Video-LLM分析局部视频内容，必要时使用VLM提取单帧细节。数据集配套提供强化学习训练框架，支持两阶段训练策略——先用CoTT数据进行监督微调建立基础工具调用能力，再通过规则奖励机制优化多步推理。评估时需注意保持因果一致性，仅使用查询时间戳前的视频内容进行推理。

背景与挑战

背景概述

Ego-R1 Data是由南洋理工大学S-Lab团队于2025年提出的首个面向超长第一人称视频推理的专用数据集，其核心创新在于引入了工具链思维（Chain-of-Tool-Thought, CoTT）的推理框架。该数据集基于EgoLife项目采集的跨周连续第一人称视角视频，包含25K条工具调用推理轨迹和4.4K个人工标注的问答对，旨在解决传统视频理解模型在超长时序（周级别）推理中的信息碎片化问题。通过分层检索增强生成（H-RAG）、视频语言模型（Video-LLM）和视觉语言模型（VLM）的协同调用，该数据集推动了从小时级到周级的视频理解能力跃迁，为生活日志分析、长期行为预测等应用提供了基准平台。

当前挑战

该数据集面临三重核心挑战：在领域问题层面，需解决超长视频中稀疏事件的跨日关联推理（如从分散数天的购物片段中定位特定商品），传统方法因上下文窗口限制导致时序信息丢失；在构建过程中，多工具协同标注的复杂性要求精确设计分层检索粒度（30秒→10分钟→小时→天）并保持时序一致性；在评估维度上，需平衡合成数据规模与人工验证质量，其中4.4K问答对经过Fleiss' kappa一致性检验以确保推理链的可靠性。此外，动态工具调用产生的平均7.42步推理轨迹对强化学习训练带来稀疏奖励难题。

常用场景

经典使用场景

在超长第一人称视频理解领域，Ego-R1数据集通过构建层次化检索增强生成（Hierarchical RAG）框架，为研究者提供了处理跨天级时序推理任务的标准化测试平台。其典型应用场景体现在对复杂日常活动的多模态分析，例如通过工具链思维（Chain-of-Tool-Thought）逐步解析超市购物场景中的人物交互序列，系统需依次调用时间检索、局部视频分析和细粒度视觉识别模块，最终确定特定时刻电梯前站立者的身份信息。

解决学术问题

该数据集有效解决了超长视频理解中的三大核心难题：首先突破了传统模型在小时级以上视频的时序建模瓶颈，通过模块化工具调用机制将时间覆盖范围扩展至周级别；其次建立了跨模态关联推理的评估标准，要求模型同时处理视觉细节与语言上下文；最重要的是提出了动态工具调用范式，克服了固定流程推理在超长视频分析中的信息丢失问题，为构建可解释的视频推理系统提供了方法论基础。

衍生相关工作

基于Ego-R1的模块化设计理念，后续研究衍生出多个创新方向：VideoAgent通过增强语言模型与视觉工具的协同机制优化了小时级视频理解；LLaVA-OneVision借鉴其层次化检索架构改进了跨模态对齐；而T∗框架则进一步发展了基于不确定性的动态工具调用策略。这些工作共同推动了从静态视频分析向主动推理的范式转变。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集