five

MomentSeeker|视频时刻检索数据集|基准测试数据集

收藏
github2025-03-25 更新2025-04-10 收录
视频时刻检索
基准测试
下载链接:
https://github.com/yhy-2000/MomentSeeker
下载链接
链接失效反馈
资源简介:
我们提出了MomentSeeker,一个全面的基准测试,用于评估检索模型在处理一般长视频时刻检索(LVMR)任务中的性能。MomentSeeker具有三个关键优势。首先,它包含了平均超过500秒的长视频,使其成为首个专门用于长视频时刻检索的基准测试。其次,它涵盖了广泛的任务类别(包括时刻搜索、字幕对齐、图像条件时刻搜索和视频条件时刻搜索)和多样化的应用场景(如体育、电影、卡通和自我),使其成为评估检索模型一般LVMR性能的全面工具。此外,评估任务经过人工精心策划,确保评估的可靠性。我们进一步在合成数据上微调了一个基于MLLM的LVMR检索器,该检索器在我们的基准测试中表现出强大的性能。检查点将很快发布。

We propose MomentSeeker, a comprehensive benchmark for evaluating the performance of retrieval models in handling the Long Video Moment Retrieval (LVMR) task. MomentSeeker boasts three key advantages. Firstly, it includes long videos averaging over 500 seconds, making it the first benchmark specifically designed for long video moment retrieval. Secondly, it covers a wide range of task categories (including moment search, subtitle alignment, image-based moment search, and video-based moment search) and diverse application scenarios (such as sports, movies, cartoons, and self), positioning it as a comprehensive tool for assessing the general LVMR performance of retrieval models. Furthermore, the evaluation tasks have been meticulously planned by humans to ensure the reliability of the assessment. We have also fine-tuned a MLMM-based LVMR retriever on synthetic data, which demonstrated strong performance in our benchmark. Checkpoints will be released soon.
创建时间:
2025-03-10
原始信息汇总

MomentSeeker数据集概述

基本信息

  • 数据集名称: MomentSeeker
  • 论文标题: MomentSeeker: A Comprehensive Benchmark and A Strong Baseline For Moment Retrieval Within Long Videos
  • 论文链接: https://arxiv.org/abs/2502.12558
  • 数据集链接: https://huggingface.co/datasets/avery00/MomentSeeker
  • 许可证: CC-BY-NC-SA-4.0

数据集特点

  • 视频长度: 平均超过500秒的长视频
  • 任务类别:
    • Moment Search
    • Caption Alignment
    • Image-conditioned Moment Search
    • Video-conditioned Moment Search
  • 应用场景: 体育、电影、卡通、ego等多样化场景
  • 标注方式: 人工标注确保评估可靠性

评估与基准

  • 评估指标: Recall@1, MAP@5
  • 评估方法: 提供JSON文件包含每个问题的候选视频,可进行排序和指标计算
  • 基准模型: V-Embedder (InternVideo2-Chat, 8B参数) 表现最佳

使用限制

  • 用途限制: 仅限研究使用,禁止商业用途
  • 版权声明: 不拥有原始视频文件的版权,已对视频进行降分辨率、剪辑等处理
  • 移除请求: 如原视频作者要求移除,将替换为稀疏采样的视频帧或元信息

维护计划

  • 长期保留: 标注文件将永久保留
  • 视频替代方案: 如视频被移除,将替换为稀疏采样的视频帧或元信息

引用信息

bibtex @misc{yuan2025momentseekercomprehensivebenchmarkstrong, title={MomentSeeker: A Comprehensive Benchmark and A Strong Baseline For Moment Retrieval Within Long Videos}, author={Huaying Yuan and Jian Ni and Yueze Wang and Junjie Zhou and Zhengyang Liang and Zheng Liu and Zhao Cao and Zhicheng Dou and Ji-Rong Wen}, year={2025}, eprint={2502.12558}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2502.12558}, }

AI搜集汇总
数据集介绍
main_image_url
构建方式
在视频内容理解领域,MomentSeeker数据集的构建采用了严谨的多阶段流程。研究团队通过人工标注方式对长视频素材进行精细化处理,平均视频时长超过500秒,确保数据具有典型的长视频特性。为保护原始视频版权,团队对影视剧、纪录片等素材进行了降分辨率、片段截取等合规化处理。数据集涵盖运动赛事、电影、动画等多种应用场景,并构建了包括时刻搜索、字幕对齐等四大任务类型,通过多维度标注体系保证了评估的全面性。
特点
该数据集在长视频时刻检索领域展现出显著优势。其核心特征体现在覆盖范围的广泛性,不仅包含多样化的视频类型,还设计了多模态检索任务,能够全面评估模型性能。技术层面采用统一评估框架,支持Recall@1和MAP@5等标准指标计算。特别值得注意的是,数据集所有问题均基于视觉内容设计,与音频信息无关,这使得采用帧提取方式的模型也能获得准确评估。数据集的标注体系经过严格质量控制,确保了评估结果的可靠性。
使用方法
研究人员可通过Hugging Face平台获取数据集资源,使用前需严格遵守CC-BY-NC-SA-4.0许可协议。评估流程建议采用均匀采样8帧的输入策略,对于特定模型可参照原始论文设置调整参数。数据集提供标准化的JSON格式标注文件,包含每个问题的候选视频信息。为保障研究可复现性,建议按照官方提供的评估代码建立conda环境,并下载指定模型权重。对于版权敏感场景,数据集维护方提供了替代性的视频帧集合方案,确保研究连续性不受影响。
背景与挑战
背景概述
MomentSeeker数据集由中国人民大学的研究团队于2025年推出,旨在为长视频时刻检索(Long-Video Moment Retrieval, LVMR)任务提供全面的评估基准。该数据集聚焦于解决长视频中特定时刻的精准定位问题,平均视频时长超过500秒,覆盖体育、电影、动画等多种应用场景。通过引入包括时刻搜索、字幕对齐、图像条件搜索和视频条件搜索在内的多样化任务类别,MomentSeeker为评估模型在复杂长视频环境下的综合性能提供了可靠工具。其标注数据经过人工精心筛选,确保了评估结果的可信度,对推动视频理解与检索领域的发展具有重要意义。
当前挑战
MomentSeeker数据集面临的挑战主要体现在两个方面:领域问题方面,长视频时刻检索需克服视频时长带来的时序复杂性,以及多模态信息(如视觉、文本)的高效对齐问题;数据构建方面,研究团队需在尊重原始视频版权的前提下,通过降低分辨率、裁剪时长等方式处理原始素材,同时确保处理后数据仍能有效支撑模型评估。此外,数据集的非商业用途限制也可能影响其在更广泛场景中的应用。
常用场景
经典使用场景
在视频内容分析领域,MomentSeeker数据集为长视频时刻检索任务提供了标准化的评估基准。该数据集通过涵盖多种任务类别和应用场景,如体育赛事关键片段定位、电影情节片段匹配等,成为研究者验证模型在复杂长视频环境中检索性能的首选工具。其超过500秒的平均视频长度特性,尤其适合检验模型对长时序信息的理解能力。
实际应用
在智能视频编辑、教育资源检索等实际场景中,MomentSeeker展现重要价值。视频平台可利用其训练的模型快速定位用户查询的精彩片段,教育机构则能精准匹配教学视频中的知识节点。数据集涵盖的多样化场景使其在安防监控分析、体育赛事复盘等领域也具有广阔应用前景,显著提升了长视频内容的利用效率。
衍生相关工作
基于MomentSeeker的评估框架,研究者已衍生出V-Embedder等创新性工作。这些研究通过结合多模态大语言模型,在跨模态对齐任务中取得突破性进展。数据集发布的基准测试结果持续推动着CoVR、InternVideo2等模型的优化迭代,形成了以长视频理解为核心的技术演进路线,为后续的MLLM2VEC等跨模态检索研究提供了重要参照。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国劳动力动态调查

“中国劳动力动态调查” (China Labor-force Dynamics Survey,简称 CLDS)是“985”三期“中山大学社会科学特色数据库建设”专项内容,CLDS的目的是通过对中国城乡以村/居为追踪范围的家庭、劳动力个体开展每两年一次的动态追踪调查,系统地监测村/居社区的社会结构和家庭、劳动力个体的变化与相互影响,建立劳动力、家庭和社区三个层次上的追踪数据库,从而为进行实证导向的高质量的理论研究和政策研究提供基础数据。

中国学术调查数据资料库 收录

China Health and Nutrition Survey (CHNS)

China Health and Nutrition Survey(CHNS)是一项由美国北卡罗来纳大学人口中心与中国疾病预防控制中心营养与健康所合作开展的长期开放性队列研究项目,旨在评估国家和地方政府的健康、营养与家庭计划政策对人群健康和营养状况的影响,以及社会经济转型对居民健康行为和健康结果的作用。该调查覆盖中国15个省份和直辖市的约7200户家庭、超过30000名个体,采用多阶段随机抽样方法,收集了家庭、个体以及社区层面的详细数据,包括饮食、健康、经济和社会因素等信息。自2011年起,CHNS不断扩展,新增多个城市和省份,并持续完善纵向数据链接,为研究中国社会经济变化与健康营养的动态关系提供了重要的数据支持。

www.cpc.unc.edu 收录

MeSH

MeSH(医学主题词表)是一个用于索引和检索生物医学文献的标准化词汇表。它包含了大量的医学术语和概念,用于描述医学文献中的主题和内容。MeSH数据集包括主题词、副主题词、树状结构、历史记录等信息,广泛应用于医学文献的分类和检索。

www.nlm.nih.gov 收录

NASA Battery Dataset

用于预测电池健康状态的数据集,由NASA提供。

github 收录

flames-and-smoke-datasets

该仓库总结了多个公开的火焰和烟雾数据集,包括DFS、D-Fire dataset、FASDD、FLAME、BoWFire、VisiFire、fire-smoke-detect-yolov4、Forest Fire等数据集。每个数据集都有详细的描述,包括数据来源、图像数量、标注信息等。

github 收录