LongCaption-10K

Name: LongCaption-10K
Creator: 武汉大学, 香港理工大学
Published: 2025-02-21 19:40:23
License: 暂无描述

arXiv2025-02-21 更新2025-02-25 收录

下载链接：

http://arxiv.org/abs/2502.15393v1

下载链接

链接失效反馈

官方服务：

资源简介：

LongCaption-10K是一个包含10000个长字幕样本的数据集，由武汉大学和香港理工大学的研究人员创建。该数据集通过LongCaption-Agent框架合成，该框架利用现成的多模态模型和语言模型，将长字幕生成过程分为帧级、剪辑级和视频级三个阶段，以产生全面的长字幕。数据集旨在提高大型多模态模型的长字幕生成能力。

LongCaption-10K is a dataset containing 10,000 long caption samples, created by researchers from Wuhan University and The Hong Kong Polytechnic University. This dataset is synthesized via the LongCaption-Agent framework, which leverages off-the-shelf multimodal models and language models, and divides the long caption generation process into three stages: frame-level, clip-level and video-level, to produce comprehensive long captions. The dataset aims to enhance the long caption generation capabilities of large multimodal models.

提供机构：

武汉大学, 香港理工大学

创建时间：

2025-02-21

搜集汇总

数据集介绍

构建方式

LongCaption-10K数据集的构建采用了LongCaption-Agent框架，该框架利用现成的LMM（如MiniCPMV2.6 8B）和LLM（如GLM4-Long）来合成长字幕数据。具体来说，框架将长字幕合成过程分为三个阶段：帧级字幕、片段级字幕和视频级字幕。首先，LMM用于从每个采样的帧中提取静态细粒度信息。然后，视频被分割成多个片段，LMM用于从每个短片段中提取时间细粒度信息。最后，LLM利用其强大的语言理解能力，将帧级和片段级字幕整合成一个完整的视频级长字幕。

特点

LongCaption-10K数据集的特点是包含10,000个长字幕示例，平均文本长度为1,198字，平均视频时长为92.8秒。与现有的视频-文本数据集相比，LongCaption-10K提供了更长的字幕注释，并且视频数据覆盖了不同的时长范围，相对均匀地分布在三个区间：[0, 60), [60, 120), 和 [120, 180)。此外，该数据集在不同的时长范围内始终保持了相对较长的字幕长度。

使用方法

LongCaption-10K数据集的使用方法包括将其集成到训练过程中，以增强LMM的长字幕生成能力。通过使用LongCaption-10K数据集进行训练，LMM的输出长度可以扩展到超过1,000字，同时保持高质量的输出。此外，为了进一步使模型能够在推理过程中处理更长的采样帧输入，我们在训练阶段引入了视觉上下文窗口扩展技术，有效地增加了推理过程中的有效上下文长度。

背景与挑战

背景概述

随着多媒体模型（LMMs）在视频理解任务中展现出卓越的性能，处理超过一小时的视频输入成为可能。然而，尽管LMMs能够处理长输入，但生成相应丰富程度的输出仍然是一项挑战。本文探讨了LMMs中长输出的问题，以视频字幕作为代理任务，并发现开源LMMs难以持续生成超过约300个单词的输出。通过控制实验，我们发现训练过程中配对的长字幕示例稀缺是限制模型输出长度的关键因素。然而，手动标注长字幕示例既耗时又昂贵。为了解决这个问题，我们提出了LongCaption-Agent，一个通过聚合多级描述合成长字幕数据的框架。使用LongCaption-Agent，我们构建了一个新的长字幕数据集LongCaption-10K。我们还开发了LongCaption-Bench，一个旨在全面评估LMMs生成长字幕质量的基准。通过将LongCaption-10K纳入训练，我们使LMMs能够生成超过1000个单词的字幕，同时保持高质量的输出。在LongCaption-Bench中，我们的8B参数模型实现了最先进的性能，甚至超过了更大的专有模型。我们将发布数据集和代码。

当前挑战

尽管LMMs能够处理长输入，但生成相应丰富程度的输出仍然是一项挑战。开源LMMs难以持续生成超过约300个单词的输出。训练过程中配对的长字幕示例稀缺是限制模型输出长度的关键因素。手动标注长字幕示例既耗时又昂贵。为了解决这个问题，我们提出了LongCaption-Agent，一个通过聚合多级描述合成长字幕数据的框架。使用LongCaption-Agent，我们构建了一个新的长字幕数据集LongCaption-10K。我们还开发了LongCaption-Bench，一个旨在全面评估LMMs生成长字幕质量的基准。通过将LongCaption-10K纳入训练，我们使LMMs能够生成超过1000个单词的字幕，同时保持高质量的输出。在LongCaption-Bench中，我们的8B参数模型实现了最先进的性能，甚至超过了更大的专有模型。我们将发布数据集和代码。

常用场景

经典使用场景

在大型多模态模型（LMMs）中，LongCaption-10K数据集被广泛应用于视频字幕生成任务，尤其是那些需要超过300个单词长度的字幕生成。它为研究者提供了大量的长字幕样本，有助于训练模型生成更丰富、更详细的内容描述，从而提高视频内容的理解深度和广度。此外，LongCaption-10K还被用于构建和评估长字幕生成模型的性能，为视频理解和生成领域的研究提供了宝贵的资源和工具。

实际应用

LongCaption-10K数据集在实际应用中具有广泛的前景。它可以用于视频内容分析、视频摘要生成、视频内容检索等任务。通过生成详细、丰富的视频描述，LongCaption-10K可以帮助用户更好地理解视频内容，提高视频内容的可访问性和利用率。此外，LongCaption-10K还可以用于视频内容创作，为视频创作者提供灵感和素材。

衍生相关工作

LongCaption-10K数据集的提出，促进了长字幕生成领域的研究进展。基于LongCaption-10K数据集，研究者可以探索和开发新的长字幕生成模型，提高模型的生成质量和效率。此外，LongCaption-10K还为视频理解和生成领域的研究提供了新的思路和方法，推动了该领域的技术创新和发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集