five

EgoRe-5M

收藏
arXiv2025-10-28 更新2025-11-04 收录
下载链接:
https://github.com/InternRobotics/EgoThinker
下载链接
链接失效反馈
官方服务:
资源简介:
EgoRe-5M是一个大规模的以人为中心的问答数据集,由13M个多样化的以人为中心的视频剪辑构建而成。该数据集的特色是多分钟的视频片段,带有详细的CoT推理和密集的手-对象定位。数据集包含四类互补的任务维度:短期感知、长期因果推理、推理链和细粒度定位。数据集的构建旨在克服现有数据集的局限性,为以人为中心的推理提供更丰富的数据基础。

EgoRe-5M is a large-scale human-centric question answering dataset constructed from 13 million diverse human-centric video clips. It features multi-minute video segments with detailed Chain-of-Thought (CoT) reasoning and dense hand-object localization annotations. The dataset encompasses four complementary task dimensions: short-term perception, long-term causal reasoning, reasoning chains, and fine-grained localization. This dataset is developed to overcome the limitations of existing datasets and provide a richer data foundation for human-centric reasoning.
提供机构:
上海人工智能实验室
创建时间:
2025-10-28
搜集汇总
数据集介绍
main_image_url
构建方式
在构建EgoRe-5M数据集时,研究团队采用多阶段筛选流程从大规模网络视频中挖掘高质量的第一人称视角数据。首先基于HowTo100M教学视频数据集筛选出3000万初始视频片段,通过训练的自监督分类模型区分自我中心与外部视角内容,将数据池缩减至1200万个明确展现第一人称相机运动的片段。随后运用预训练的手-物体检测器识别包含动态交互的帧序列,最终获得870万个富含手-物体交互的高质量自我中心视频片段,并与现有Ego4D、EPIC-Kitchens等数据集整合形成1300万片段的基础资源库。
使用方法
该数据集通过两阶段训练范式赋能多模态大语言模型。首先采用监督微调策略,在平衡混合的通用视觉、自我中心及问答数据集上进行训练,包括EgoRe-5M的短期、长期和思维链分割,以建立物体感知、因果推理和多步规划的核心能力。随后通过基于GRPO的强化微调范式,利用EgoRe-5M的细粒度定位数据优化时空定位能力。这种训练方法使模型不仅能生成结构化推理轨迹,还能输出准确的空间边界框和时间区间,最终形成具备自我中心推理、长时程上下文整合和精确定位能力的完整系统。
背景与挑战
背景概述
EgoRe-5M数据集于2025年由上海人工智能实验室联合浙江大学、东京大学等机构的研究团队共同创建,旨在解决第一人称视频理解中的核心推理挑战。该数据集聚焦于从动态的自我中心视角推断隐藏的意图与细粒度交互,突破了传统多模态大语言模型在具身认知理解上的局限。通过整合来自网络的大规模自我中心视频片段,EgoRe-5M为可穿戴助手与具身智能系统的发展奠定了数据基础,显著推动了自我中心推理领域的研究进程。
当前挑战
EgoRe-5M面临的挑战主要体现在领域问题与构建过程两方面。在领域层面,该数据集需应对复杂任务中的因果链推理、动态手-物交互的精确定位以及跨分钟级时序的上下文整合问题。构建过程中,研究团队需克服从海量网络数据中筛选真实自我中心视频的困难,设计多阶段过滤流程以区分自我与第三人称视角,并确保手-物交互的动态性与标注质量,同时生成涵盖短时感知、长时推理与思维链的多样化问答对。
常用场景
经典使用场景
在自我中心视觉推理研究领域,EgoRe-5M数据集为多模态大语言模型提供了系统化的训练基础。该数据集通过整合1300万个自我中心视频片段,构建了包含500万个问答对的丰富语料库,特别注重从秒级到分钟级的多时间尺度覆盖。其经典应用体现在为模型提供密集的时空推理监督,通过链式思维标注引导模型模拟人类认知过程,在理解第一人称视角下的复杂活动序列时展现出独特价值。
解决学术问题
该数据集有效解决了自我中心视频理解中的核心学术难题。传统方法在推断摄像机佩戴者隐藏意图和识别细粒度交互方面存在局限,EgoRe-5M通过引入时空链式思维监督机制,显著提升了模型对长时序因果关系的建模能力。其精心设计的四大任务维度——短期感知、长期推理、思维链解析和细粒度定位,共同构建了完整的自我中心推理框架,为探索具身智能的认知机制提供了重要实验平台。
实际应用
在现实应用层面,EgoRe-5M支撑的EgoThinker框架展现出广泛的应用前景。智能可穿戴设备可借助该技术实现精准的手物交互识别,为工业质检和技能培训提供实时指导。家庭服务机器人能够通过第一人称视角理解人类日常行为意图,实现更自然的人机协作。在医疗康复领域,该系统可辅助监测患者动作完成度,为远程康复治疗提供量化评估依据。这些应用彰显了自我中心推理技术在提升人机交互智能水平方面的实际价值。
数据集最近研究
最新研究方向
在自我中心视觉理解领域,EgoRe-5M数据集正推动多模态大语言模型向具身推理方向演进。该数据集通过整合时空思维链标注与细粒度手物交互定位数据,突破了传统第三人称视角的视觉推理局限,使模型能够模拟人类在动态环境中的意图推断与行为预测。前沿研究聚焦于长时序因果推理与精准时空定位的协同优化,结合监督微调与强化学习的双阶段训练范式,显著提升了可穿戴助手与具身智能系统的情境感知能力,为第一人称视角下的复杂任务规划与交互理解奠定了新的技术基石。
相关研究论文
  • 1
    通过上海人工智能实验室 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作