MMDuetIT

Hugging Face2024-11-27 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/wangyueqian/MMDuetIT

下载链接

链接失效反馈

官方服务：

资源简介：

MMDuetIT数据集用于训练MMDuet模型，并包含用于评估MMDuet的基准。数据集包括密集字幕、时间视频定位和多答案视频问答三个部分。密集字幕部分包含来自Shot2Story和COIN的示例，时间视频定位部分包含来自HiREST、DiDeMo和QueryD的示例，多答案视频问答部分包含自建的Shot2Story-MAGQA-39k数据集。

创建时间：

2024-11-20

原始信息汇总

MMDuetIT

数据集描述

MMDuetIT 数据集用于训练 MMDuet 模型，并包含用于评估 MMDuet 的基准数据。数据集的分布如下：

Dense Captioning
- Shot2Story: 36949 个样本来自 human_anno 子集
- COIN: 4574 个样本来自训练集，视频时长为 2-4 分钟
Temporal Video Grounding
- HiREST: 459 个样本
- DiDeMo: 24381 个样本
- QueryD: 5392 个样本
Multi-Answer Grounded Video Question Answering (MAGQA)
- Shot2Story-MAGQA-39k: 包含在数据集中，训练集为 shot2story/annotations/magqa_train-0.25_0.5-earlier.json，测试集为 shot2story/annotations/magqa_test.json。问题和答案由 Shot2Story 的人工标注字幕通过 GPT-4o 转换而来。

引用

如果此工作对你的研究有帮助，请考虑引用：

bibtex @misc{wang2024mmduet, title={VideoLLM Knows When to Speak: Enhancing Time-Sensitive Video Comprehension with Video-Text Duet Interaction Format}, author={Yueqian Wang and Xiaojun Meng and Yuxuan Wang and Jianxin Liang and Jiansheng Wei and Huishuai Zhang and Dongyan Zhao}, year={2024}, eprint={2411.17991}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2411.17991}, }

搜集汇总

数据集介绍

构建方式

MMDuetIT数据集的构建过程整合了多个公开数据集，涵盖了密集描述、时序视频定位以及多答案视频问答等多个任务。具体而言，密集描述部分采用了Shot2Story和COIN数据集，分别包含36949个和4574个样本；时序视频定位部分则整合了HiREST、DiDeMo和QueryD数据集，样本数量分别为459、24381和5392个。此外，针对多答案视频问答任务，该数据集引入了Shot2Story-MAGQA-39k，其训练集和测试集分别基于Shot2Story的标注数据，并通过GPT-4o生成问题和答案。

特点

MMDuetIT数据集的特点在于其多任务性和高质量标注。它不仅涵盖了视频理解领域的多个核心任务，还通过整合多个公开数据集确保了数据的多样性和广泛性。特别是Shot2Story-MAGQA-39k子集，通过GPT-4o生成的问答对，为多答案视频问答任务提供了高质量的标注数据。此外，数据集的分布清晰，涵盖了不同时长和类型的视频，为模型训练和评估提供了丰富的场景支持。

使用方法

MMDuetIT数据集的使用方法主要围绕其多任务特性展开。用户可以根据具体任务选择相应的子集进行训练和评估。例如，密集描述任务可使用Shot2Story和COIN子集，时序视频定位任务则可使用HiREST、DiDeMo和QueryD子集。对于多答案视频问答任务，Shot2Story-MAGQA-39k子集提供了专门的训练和测试数据。用户可通过访问GitHub仓库获取详细的使用指南和代码示例，并结合相关论文和模型进行深入研究。

背景与挑战

背景概述

MMDuetIT数据集于2024年由Yueqian Wang等研究人员发布，旨在支持多模态视频理解任务，特别是时间敏感的视频理解。该数据集整合了多个子数据集，包括Shot2Story、COIN、HiREST、DiDeMo和QueryD，涵盖了密集描述、时间视频定位以及多答案视频问答等任务。MMDuetIT的核心研究问题在于如何通过视频与文本的交互格式，提升模型对视频内容的时间敏感性理解。该数据集的发布为视频理解领域提供了新的基准，推动了多模态模型在复杂视频任务中的应用。

当前挑战

MMDuetIT数据集在解决视频理解任务时面临多重挑战。首先，视频数据的多样性和复杂性使得模型难以准确捕捉时间敏感信息，尤其是在多答案视频问答任务中，模型需要同时处理多个可能的正确答案。其次，数据集的构建过程中，研究人员需要整合来自不同来源的子数据集，确保数据的一致性和标注质量，这对数据清洗和标注标准化提出了较高要求。此外，如何利用GPT-4等先进技术生成高质量的问答对，同时保持数据的真实性和多样性，也是构建过程中的一大挑战。

常用场景

经典使用场景

MMDuetIT数据集在视频理解领域具有广泛的应用，特别是在密集字幕生成、时间视频定位和多答案视频问答等任务中。通过整合多个子数据集，如Shot2Story、COIN、HiREST、DiDeMo和QueryD，该数据集为研究者提供了一个全面的基准，用于评估和训练视频理解模型。其经典使用场景包括视频内容的多模态理解和时间敏感信息的提取，这些任务在视频分析和自动化字幕生成中尤为重要。

实际应用

在实际应用中，MMDuetIT数据集被广泛用于视频内容分析和自动化字幕生成。例如，在视频编辑和制作中，该数据集可以帮助自动生成视频的字幕，提高工作效率。在教育和培训领域，该数据集可以用于开发智能视频教学系统，自动提取视频中的关键信息并生成相应的教学内容。此外，该数据集还在视频监控和安防领域具有潜在应用，能够自动识别视频中的关键事件并生成相应的报告。

衍生相关工作

MMDuetIT数据集衍生了一系列相关研究工作，特别是在视频理解和多模态学习领域。基于该数据集，研究者开发了多种先进的视频理解模型，如MMDuet，这些模型在密集字幕生成、时间视频定位和多答案视频问答等任务中表现出色。此外，该数据集还推动了多模态数据融合和时间敏感信息处理的研究，为视频理解领域的发展提供了新的思路和方法。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集

MMDuetIT

MMDuetIT

数据集描述

相关资源

引用