five

BrandyHam/MM-Lifelong-Video

收藏
Hugging Face2026-04-25 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/BrandyHam/MM-Lifelong-Video
下载链接
链接失效反馈
官方服务:
资源简介:
我们介绍了MM-Lifelong数据集,这是一个专为多模态终身理解而设计的数据集。MM-Lifelong包含三个领域的181.1小时视频素材,共有1289个问题和1810个不同的线索间隔。关键的是,时间证书的分布证实了该基准的“终身”性质:267个问题需要在1-10小时的时间跨度内进行推理,127个问题涉及超过10小时的超长依赖关系。该数据集与现有基准相比,展示了极长的时间尺度(100+小时)和手动、基于线索的注释,确保了更高的推理复杂性和数据质量。

We introduce MM-Lifelong, a dataset designed for Multimodal Lifelong Understanding. MM-Lifelong comprises 181.1 hours of footage across three domains, with 1289 questions and 1810 distinct clue intervals. Crucially, the distribution of temporal certificates confirms the Lifelong nature of the benchmark: 267 questions require reasoning over a span of 1-10 hours, and 127 questions involve ultra-long dependencies exceeding 10 hours. The dataset is compared against existing benchmarks, highlighting its unique challenges such as extremely long temporal scale (100+ hours) and manual, clue-grounded annotations, thereby ensuring higher reasoning complexity and data quality.
提供机构:
BrandyHam
搜集汇总
数据集介绍
main_image_url
构建方式
MM-Lifelong-Video数据集专为多模态终身理解而构建,涵盖了来自游戏主播、第一人称生活记录及直播平台三个领域的共计181.1小时视频素材。该数据集包含1289个精心设计的问题,关联了1810个不同的线索区间。其构建过程强调手工标注与线索驱动的精确性,每个问题均附有明确的时间证据分布,以确保推理任务的复杂性与真实性。数据被划分为训练集(266个问题)、验证集(623个问题)及针对不同视频域的测试集(日域、周域各200个问题),从而支持对模型长期依赖推理能力的全面评估。
特点
该数据集最显著的特点在于其极长的时序跨度(最长超100小时)与真正的“终身”属性。其中,267个问题要求模型推理1至10小时内的依赖关系,而127个问题涉及超过10小时的超长间隔依赖,这远超过现有长视频理解基准的规模。此外,MM-Lifelong-Video提供了手工标注的线索区间(Clue Intervals),涵盖短、中、长三种时间长度,并明确标出了问题解答所需的时间证据跨度(Temporal Certificate),以此精准衡量模型的记忆与跨片段推理能力。数据集涵盖游戏、日常生活与直播多种场景,展现了多模态终身理解的多样性与挑战性。
使用方法
研究者可通过Hugging Face平台获取该数据集,其配置包含训练、验证及日/周测试四个分割文件,数据以JSON格式存储,便于加载与解析。使用时应遵守MIT许可证及附加协议,仅限学术研究用途。实验评估时,可参考论文中提供的基线方法(如GPT-5、Qwen3-VL等)及其在不同帧数采样下的准确率与参考指标。建议利用提供的线索区间与时间证书信息设计评估流程,以充分检验模型在短、中、长期依赖上的表现,特别关注超长跨度(>10小时)问题的推理能力。
背景与挑战
背景概述
MM-Lifelong-Video数据集由南京大学、英伟达等机构的研究人员于2026年创建,旨在应对多模态终身理解这一前沿挑战。该数据集聚焦于跨数小时乃至数天的超长时序视频理解,包含共计181.1小时的三类领域视频素材(日常游戏记录、第一人称生活直播与个人生活片段),并提供了1289道人工标注的问答对及1810个线索区间。与现有基准如EgoSchema或Video-MME仅覆盖数十分钟的短时上下文不同,MM-Lifelong-Video中超过9%的问题需要借助跨越10小时以上的极端长程依赖方可作答。其发布填补了多模态领域在超长时序推理评估上的空白,为衡量模型在连续视觉-语言信息流中的记忆与推理能力奠定了关键评估基础。
当前挑战
该数据集所解决的领域核心挑战在于多模态模型中长期上下文理解与记忆机制的薄弱。现有模型在面对跨越数小时的视频内容时,往往会因信息衰减或注意力分散而丧失对早期线索的追溯能力,这直接限制了其在真实场景(如生活记录分析、数字档案检索)中的适用性。在构建过程中,研究团队面临三大瓶颈:一是需要从持续数周的视频流中手工定位具有因果关联的问题线索,标注难度远高于短时片段;二是必须控制不同时间跨度(分钟、小时、天)问答对的分布均衡,以确保评测的全面性;三是需维持跨域(数字屏幕流、第一视角、固定机位)语义的一致性,以避免引入领域偏见。
常用场景
经典使用场景
MM-Lifelong-Video数据集专为多模态终身理解研究而设计,其经典使用场景集中于评估和提升模型在极长时序视频中的跨时段推理能力。该数据集包含181.1小时的音视频素材,覆盖游戏历程、自我中心生活与直播流三大领域,其问题设计跨越从分钟级到超过10小时的超长依赖关系。研究者可利用其中1289个手工标注的问题及1810个线索区间,考察模型能否在长达数天乃至数十天的视频中精准定位并整合分散的线索以回答问题,从而推动长时序多模态理解技术的发展。
解决学术问题
该数据集直指当前多模态模型在超长期视频理解中的核心困境——即模型无法有效处理跨越数小时乃至数天的时序依赖关系。现有基准如Video-MME或EgoSchema多局限于分钟级上下文,而MM-Lifelong-Video则填补了在100小时以上、跨域场景下进行终身理解的评估空白。通过引入人工标注的线索定位,它揭示了即使是顶尖模型(如GPT-5)在此任务上的显著不足,为学界提供了衡量记忆与推理能力的严苛标尺,对推动长期视觉记忆建模与持续学习研究具有里程碑意义。
衍生相关工作
围绕MM-Lifelong-Video数据集,衍生出了一系列推动长期视频理解的前沿工作。该数据集对应的基线方法ReMA(Retrieval-enhanced Modular Agent)首次将检索增强与模块化代理机制结合,在无需全量视频处理的前提下实现了显著的性能提升。此外,诸如VideoMind和LongVT等代理方法也被应用于此基准,探索基于工具调用与时序定位的混合推理范式。这些工作共同催生了长期视频问答与连续事件推理等研究方向,为构建真正的终身智能体系统奠定了技术基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作