Ego-R1 Dataset

github2025-06-17 更新2025-06-19 收录

下载链接：

https://github.com/egolife-ai/Ego-R1

下载链接

链接失效反馈

官方服务：

资源简介：

Ego-R1数据集包含25K Chain-of-Tool-Thought示例和4.4K QA对，用于支持超长自我中心视频推理的研究。

The Ego-R1 dataset contains 25K Chain-of-Tool-Thought examples and 4.4K QA pairs, which is designed to support research on ultra-long egocentric video reasoning.

创建时间：

2025-06-02

原始信息汇总

Ego-R1 数据集概述

数据集基本信息

名称: Ego-R1
类型: 多模态工具增强推理数据集
主要用途: 超长第一人称视角视频推理任务
发布年份: 2025

核心组成部分

1. Ego-CoTT-25K

数据量: 25,000个示例
大小: 415MB
格式: 包含工具调用的多轮对话
用途: 监督微调(SFT)
工具集成: RAG检索、Video-LLM、VLM

2. Ego-QA-4.4K

数据量: 4,400个问答对
来源:
- 1,500个由Gemini生成
- 2,900个手工标注
代理身份: 6种不同身份(A1-A6)
用途: 基于规则的强化学习训练或从头生成CoTT

主要特点

多模态工具增强推理: 结合RAG搜索、Video-LLM和视觉语言模型
强化学习框架: 采用GRPO训练方法
链式工具思维(CoTT): 提供工具调用序列的生成方法

数据获取方式

bash huggingface-cli download Ego-R1/Ego-R1-Data --local-dir data --repo-type dataset

引用格式

bibtex @misc{tian2025egor1chainoftoolthoughtultralongegocentric, title={Ego-R1: Chain-of-Tool-Thought for Ultra-Long Egocentric Video Reasoning}, author={Shulin Tian and Ruiqi Wang and Hongming Guo and Penghao Wu and Yuhao Dong and Xiuying Wang and Jingkang Yang and Hao Zhang and Hongyuan Zhu and Ziwei Liu}, year={2025}, eprint={2506.13654}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2506.13654}, }

搜集汇总

数据集介绍

构建方式

Ego-R1数据集的构建采用了多模态工具增强推理的方法，结合了检索增强生成（RAG）、视频语言模型（Video-LLM）和视觉语言模型（VLM）技术。通过强化学习框架GRPO训练，生成了25,000条链式工具思维（Chain-of-Tool-Thought）示例和4,400个问答对。数据来源包括Gemini生成和人工标注，确保了数据的多样性和准确性。

特点

Ego-R1数据集以其多模态工具增强推理能力著称，能够处理超长第一人称视角视频的理解任务。数据集包含25K条链式工具思维示例和4.4K问答对，支持监督微调和强化学习训练。其独特之处在于整合了多种工具调用能力，包括RAG搜索、视频分析和图像理解，为复杂视频推理任务提供了全面的解决方案。

使用方法

使用Ego-R1数据集时，首先需通过Hugging Face下载数据并配置相应环境。数据集支持监督微调和强化学习两种训练方式。对于监督微调，可利用LLaMA-Factory框架进行模型训练；对于强化学习，则通过Ego-R1-Agent框架进行GRPO训练。推理阶段可通过多模态工具链实现视频内容的理解和分析，具体包括RAG搜索、视频语言模型调用和视觉语言模型应用等多个步骤。

背景与挑战

背景概述

Ego-R1数据集由新加坡南洋理工大学S-Lab团队联合A*STAR、西蒙弗雷泽大学及上海人工智能实验室于2025年发布，旨在推动超长第一人称视频推理领域的研究。该数据集包含25,000条工具思维链样本和4,400组问答对，创新性地融合强化学习与多模态工具调用机制，为理解复杂的生活日志视频提供了结构化分析框架。其核心研究问题聚焦于如何通过链式工具思维（Chain-of-Tool-Thought）实现视频时序关系的语义解构，在行为识别、场景理解等计算机视觉任务中展现出范式创新的潜力。

当前挑战

在解决超长第一人称视频语义解析这一领域难题时，Ego-R1需应对时序信息碎片化、多模态特征融合偏差等核心挑战。数据集构建过程中，研究团队需克服工具调用轨迹标注的语义一致性难题，包括RAG检索结果与视频LLM分析的时序对齐问题，以及跨工具推理链的逻辑连贯性验证。此外，4.4K人工标注问答对的细粒度质量管控，与Gemini生成数据的可信度平衡，亦构成数据生产的显著技术壁垒。

常用场景

经典使用场景

在计算机视觉与人工智能领域，Ego-R1数据集为超长第一人称视频的复杂推理任务提供了重要支持。该数据集通过25K条工具思维链示例和4.4K问答对，为研究者构建多模态智能体系统奠定了数据基础。其典型应用场景包括智能家居行为分析、日常活动识别以及长期行为模式挖掘，这些场景需要处理长达数小时甚至数天的连续视频数据。

实际应用

在实际应用层面，该数据集支撑的智能体系统可广泛应用于老年护理监测、智能安防分析以及人机交互系统优化。通过整合RAG检索、视频大语言模型和视觉语言模型，系统能够自动解析用户日常活动中的复杂行为序列，为智慧城市建设和数字健康管理提供可靠的技术方案。

衍生相关工作

基于Ego-R1数据集衍生的研究工作主要集中在三个方向：多智能体协同推理框架的优化、长视频时序建模算法的改进以及工具调用策略的自动化学习。其中最具代表性的是将GRPO强化学习算法应用于视频问答任务，以及开发面向超长视频的分层次检索机制。这些工作显著提升了第一人称视角视频的语义理解深度和推理准确性。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集