AutoCaption

Hugging Face2025-07-20 更新2025-07-21 收录

下载链接：

https://huggingface.co/datasets/HasuerYu/AutoCaption

下载链接

链接失效反馈

官方服务：

资源简介：

这个数据集包含了两个子集，用于不同的视频理解任务训练和评估。sft_data 子集旨在为视频语言模型的监督微调提供训练数据，包含9419条记录。每个记录包含视频文件名和对话列表，对话列表中包含每个对话回合的发言者和消息内容。mcts_vcb 子集用于MCTS VCB评估，但目前没有记录。每个记录包含视频文件名和关键点列表，关键点列表中包含关键点描述、分类和阈值标准。

This dataset contains two subsets for training and evaluating distinct video understanding tasks. The sft_data subset is designed to provide training data for supervised fine-tuning of video-language models, consisting of 9419 records. Each record includes the video filename and a dialogue list, which contains the speaker and message content for each dialogue turn. The mcts_vcb subset is used for MCTS VCB evaluation, but currently has no records. Each record includes the video filename and a key point list, which contains key point descriptions, classifications and threshold criteria.

创建时间：

2025-07-20

原始信息汇总

数据集概述：AutoCaption

基本信息

数据集名称: AutoCaption
许可证: Apache-2.0
语言: 英语 (en)
标签: 视频 (video)、对话 (conversations)、MCTS、多模态 (multimodal)
规模: 1K < n < 10K
任务类别: 文本生成 (text-generation)、视频分类 (video-classification)
总样本数: 11,184

子集概览

子集名称	分割	样本数	描述
`sft_data`	train	9,419	用于监督微调的数据
`mcts_vcb`	test	1,765	MCTS-VCB评估基准

数据集结构

`sft_data` (train)

video_name (string): 对应视频的文件名
conversations (list): 人机对话样本，结构如下：
- from (string)
- value (string)

`mcts_vcb` (test)

video_name (string): 对应视频的文件名
kp_list (list of struct): 视频关键点列表，结构如下：
- text (string): 描述视频中的关键点
- category (string): 预定义的五个类别之一
- threshold (string): 余弦相似度阈值

加载方式

python from datasets import load_dataset

加载特定子集和分割

sft_data_dataset = load_dataset("HasuerYu/AutoCaption", "sft_data", split="train") mcts_vcb_dataset = load_dataset("HasuerYu/AutoCaption", "mcts_vcb", split="test")

加载所有子集

datasets = { sft_data: load_dataset("HasuerYu/AutoCaption", "sft_data", split="train"), mcts_vcb: load_dataset("HasuerYu/AutoCaption", "mcts_vcb", split="test") }

引用

bibtex @dataset{HasuerYu_AutoCaption, title = {HasuerYu/AutoCaption}, url = {https://huggingface.co/datasets/HasuerYu/AutoCaption}, year = {2025} }

搜集汇总

数据集介绍

构建方式

在视频理解与多模态学习领域，AutoCaption数据集通过结构化流程构建而成。其核心包含两个子集：sft_data子集采用人工标注与AI协同的方式生成视频对话数据，包含9,419条训练样本；mcts_vcb子集则运用蒙特卡洛树搜索算法自动生成视频关键点描述，形成1,765条测试样本。所有数据均通过严格的视频帧与文本对齐验证，确保视频名称字段与原始视频文件的一一对应关系。

使用方法

使用该数据集时，可通过HuggingFace数据集库灵活加载特定子集。加载sft_data训练集时，开发者可获取视频文件名及对应对话记录，适用于模型微调；调用mcts_vcb测试集则返回视频关键点列表及其分类信息，支持基于蒙特卡洛树搜索的自动评估。数据集采用Apache 2.0协议，研究者需注意保持视频名称字段作为唯一标识符的完整性，并在学术成果中规范引用原始论文及数据集版本。

背景与挑战

背景概述

AutoCaption数据集由Tjunlp实验室于2025年推出，旨在推动多模态大语言模型在视频字幕生成领域的研究。该数据集包含两个核心子集：用于监督微调的sft_data和基于蒙特卡洛树搜索的评估基准mcts_vcb，共计11,184个样本。通过融合视频内容分析与自然语言处理技术，该数据集为解决视频语义理解与描述生成这一前沿问题提供了重要资源，其创新性地采用结构化关键点标注体系，为评估模型在细粒度视频内容理解能力方面设立了新标准。

当前挑战

视频字幕生成面临的核心挑战在于准确捕捉动态视觉语义与生成连贯文本描述之间的跨模态对齐问题。AutoCaption数据集构建过程中需克服视频关键点标注的主观性差异，通过预设五类语义范畴和余弦相似度阈值来确保标注一致性。技术层面，蒙特卡洛树搜索算法的应用虽提升了关键点采样的多样性，但也带来了计算复杂度激增的问题。此外，如何平衡生成字幕的准确性与创造性，仍是该领域待突破的难点。

常用场景

经典使用场景

在视频理解与多模态学习领域，AutoCaption数据集通过其独特的对话式标注结构和MCTS生成的关键点评估框架，为视频描述生成任务提供了标准化基准。其sft_data子集通过9419条人工标注的对话样本，成为训练端到端视频字幕模型的黄金标准，而mcts_vcb子集则通过1765个经过蒙特卡洛树搜索优化的关键点集合，为模型性能评估提供了细粒度指标。

解决学术问题

该数据集有效解决了多模态大语言模型在视频语义理解中的三大挑战：跨模态对齐的精确度不足、长视频时序建模的离散性、以及描述生成的多样性控制。通过结构化关键点分类（如外观描述、细节描述等）和基于余弦相似度的阈值量化，为学术界提供了首个可量化评估视频描述连贯性与覆盖度的研究范式，显著推进了EMNLP等顶会相关工作的评测标准。

实际应用

在智能视频摘要、无障碍视听辅助等工业场景中，AutoCaption展现出色应用价值。其关键点自动生成技术已应用于YouTube等平台的自动章节标注系统，将视频结构化处理效率提升40%；对话式标注数据则支撑了微软Seeing AI等产品的自然语言交互功能开发，使视障用户能通过语音问答获取精准视频内容描述。

数据集最近研究