VideoMind
收藏arXiv2025-07-25 更新2025-07-26 收录
下载链接:
https://github.com/cdx-cindy/VideoMind
下载链接
链接失效反馈官方服务:
资源简介:
VideoMind是一个包含103K视频样本的多模态视频数据集,每个样本都伴有音频和详尽的文本描述。数据集的内容包括图像、视频、音频和文本,以及自动语音识别(ASR)、光学字符识别(OCR)和各种语义标签。VideoMind旨在通过提供全面且深入的视频内容文本解释,促进视频理解和增强多模态表示。数据集的创建过程包括从社交媒体平台选择视频,并利用mLLM生成从事实到意图的多层次文本描述。VideoMind适用于需要深入理解视频内容的领域,如情绪和意图识别,并通过混合认知检索实验评估模型的视频理解能力。
VideoMind is a multimodal video dataset containing 103K video samples, each paired with corresponding audio and exhaustive textual descriptions. The dataset encompasses images, videos, audios, texts, as well as automatic speech recognition (ASR), optical character recognition (OCR) and various semantic labels. VideoMind seeks to advance video understanding and boost multimodal representation learning by providing comprehensive and in-depth textual explanations of video content. The dataset is developed by selecting source videos from social media platforms, and generating multi-level textual descriptions ranging from factual content to intentions via mLLMs. VideoMind is applicable to domains requiring in-depth comprehension of video content, such as emotion and intention recognition, and can be utilized to evaluate models' video understanding capabilities through mixed cognitive retrieval experiments.
提供机构:
广东工业大学
创建时间:
2025-07-25
原始信息汇总
VideoMind数据集概述
数据集简介
- 名称:VideoMind: An Omni-Modal Video Dataset with Intent Grounding for Deep-Cognitive Video Understanding
- 论文地址:https://arxiv.org/abs/2507.18552
- 版本:V1版本(包含视频注释和黄金标准基准)
数据集内容
- 样本数量:103K视频样本(其中3K仅用于测试)
- 数据类型:
- 每个视频样本包含音频数据
- 系统且详细的文本描述(三个层次:事实层、抽象层和意图层)
- 文本总量:超过2200万词,平均每个样本约225词
数据特点
- 独特特征:提供意图表达,需通过整合整个视频的上下文进行推测
- 标注内容:包括主题、地点、时间、事件、动作和意图等
- 黄金标准基准:包含3000个经过人工验证的样本
数据统计
- 视频统计:包含在数据集中(具体统计信息见原始图片)
- 上传者意图词云:展示上传者意图的词汇分布
- 角色意图词云:展示角色意图的词汇分布
下载信息
- 视频注释下载:
- OpenDataLab:https://opendatalab.com/Dixin/VideoMind
- HuggingFace:https://huggingface.co/datasets/DixinChen/VideoMind
- 基准视频下载:https://drive.google.com/file/d/1RbEjY1_glJ8yEwn1f5SXGs5kCn6uAqvY/view?usp=drive_link
引用信息
bibtex @misc{yang2025videomindomnimodalvideodataset, title={VideoMind: An Omni-Modal Video Dataset with Intent Grounding for Deep-Cognitive Video Understanding}, author={Baoyao Yang and Wanyun Li and Dixin Chen and Junxiang Chen and Wenbin Yao and Haifeng Lin}, year={2025}, eprint={2507.18552}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2507.18552}, }
搜集汇总
数据集介绍

构建方式
VideoMind数据集的构建过程体现了多模态数据整合与深度语义标注的前沿理念。研究团队从公开的YouTube视频中筛选了涵盖游戏、新闻、娱乐等24个类别的素材,通过严格的五秒时长阈值和敏感内容过滤机制确保数据质量。每个样本包含12帧关键图像、原始音频及四重模态表达,采用基于Qwen2.5-Omni大语言模型的思维链(COT)生成技术,分三层次(事实层、抽象层、意图层)渐进式生成平均225词的文本描述,并通过双验证机制保证标注准确性。
特点
作为首个支持深度认知的全模态视频数据集,VideoMind的显著特征体现在其层次化语义架构与细粒度标注体系。数据集包含10.3万样本,覆盖45个国家地区的多语言内容,其中意图层通过[主体]旨在[意图]通过[行动]的规范化表达,揭示了传统数据集难以捕捉的深层动机信息。每个样本配备6W要素标签(人物、地点、时间等)及音频风格分类,支持从跨模态检索到情感识别等多元下游任务。特别构建的3000样本黄金标准测试集,为深度视频理解提供了首个标准化评估基准。
使用方法
该数据集适用于训练和评估多模态大模型的深度认知能力,尤其擅长提升意图理解与细粒度跨模态对齐任务。研究者可通过GitHub等平台获取三重模态原始数据及层次化文本标注,利用事实层描述进行传统内容检索,抽象层摘要实现语义浓缩,意图层表达开展动机分析。评估阶段建议采用混合认知检索框架,分别测试模型对表层特征与深层意图的捕捉能力。为避免数据污染,3000个验证样本应严格限定于测试用途,其标注结果可作为意图识别任务的权威参考答案。
背景与挑战
背景概述
VideoMind是由广东工业大学与腾讯微信团队合作开发的一款全模态视频数据集,旨在推动视频内容的深度认知理解。该数据集于2025年发布,包含10.3万个视频样本,每个样本均配备音频及分层文本描述(事实层、抽象层和意图层),总文本量超过2200万词。其核心创新在于通过思维链(COT)生成技术,首次实现了对视频创作者意图的显式标注,突破了传统数据集仅描述表层视觉内容的局限。作为首个支持意图推理的基准数据集,VideoMind为跨模态对齐、情感分析等需要深度语义理解的任务提供了重要基础设施。
当前挑战
VideoMind致力于解决视频深度认知中的两大挑战:其一,传统视频数据集文本描述过于简略(平均约20词),导致跨模态信息不对齐,而VideoMind通过分层描述(平均225词/样本)实现了细粒度内容覆盖;其二,现有数据缺乏对隐含意图的标注,而构建过程中需克服意图推理的主观性——团队设计双重验证机制(预验证采用嵌入相似度比对,后验证通过文本生成视频反推合理性)确保标注质量。此外,数据多样性保障亦面临挑战,需平衡34%无OCR/41%无ASR的样本与多语言(覆盖45国)、多场景(24类主题)的覆盖需求。
常用场景
经典使用场景
VideoMind数据集在深度认知视频理解领域具有广泛的应用场景,特别是在多模态视频内容分析和意图推理方面。其经典使用场景包括视频内容的多层次描述生成,从事实层到抽象层再到意图层,逐步深入解析视频内容。这一过程不仅涵盖了视觉和听觉信息的详细描述,还通过Chain-of-Thought (COT)生成方式,实现了对视频创作者和主角意图的精准推测。
解决学术问题
VideoMind解决了现有视频数据集在文本表达简洁性和深度认知方面的不足。传统数据集通常仅提供单一简短的描述,无法涵盖视频的深层意图和情感信息。VideoMind通过多层次文本描述和意图标注,填补了这一空白,为深度认知视频理解提供了丰富的数据支持。其意义在于推动了多模态大语言模型(mLLM)在视频内容深层理解方面的发展,为情感识别、意图推理等任务奠定了基础。
衍生相关工作
VideoMind的推出衍生了一系列相关研究工作,特别是在多模态视频理解和意图推理领域。例如,基于VideoMind的深度认知检索实验为多模态模型的性能评估提供了新的基准。此外,该数据集还促进了如InternVideo、VAST和UMT-L等标准基础模型在视频深层理解任务中的优化与改进。
以上内容由遇见数据集搜集并总结生成



