AnyCapDataset (ACD)

Name: AnyCapDataset (ACD)
Creator: 清华大学, 上海人工智能实验室, 复旦大学, 香港中文大学
Published: 2025-07-17 15:04:05
License: 暂无描述

arXiv2025-07-17 更新2025-07-19 收录

下载链接：

https://github.com/qishisuren123/AnyCap

下载链接

链接失效反馈

官方服务：

资源简介：

AnyCap数据集（ACD）是一个大规模的跨模态数据集，涵盖了图像、视频和音频三种模态，包含了28种用户指令和30万个高质量的数据条目。每个样本都包括定制的控制信号和一对字幕，一个是优选的，另一个是被拒绝的，明确反映了控制质量的不同。数据集的构建过程采用了严格的验证和审查阶段，确保了字幕与用户指令的一致性，并且没有幻觉，符合格式要求，并保留了输入的独特特征。该数据集旨在解决可控多模态字幕生成中训练数据不足的问题，并支持学习与各种用户偏好进行精确对齐。

AnyCap Dataset (ACD) is a large-scale cross-modal dataset covering three modalities: image, video, and audio, which contains 28 types of user instructions and 300,000 high-quality data entries. Each sample includes a customized control signal and a pair of captions: one preferred and the other rejected, explicitly reflecting the differences in control quality. The dataset construction process adopts strict verification and review stages to ensure that captions are consistent with user instructions, free of hallucinations, comply with format requirements, and preserve the unique characteristics of the input. This dataset aims to address the shortage of training data for controllable multimodal caption generation, and supports learning to precisely align with various user preferences.

提供机构：

清华大学, 上海人工智能实验室, 复旦大学, 香港中文大学

创建时间：

2025-07-17

原始信息汇总

AnyCap数据集概述

数据集基本信息

名称：AnyCap
类型：多模态可控字幕生成数据集
模态支持：图像、音频、视频
许可证：MIT License

数据集组成

训练数据集 (AnyCapDataset)

状态：即将发布
内容：
- 包含图像、音频、视频三种模态数据
- 提供完整的文本标注
- 视频数据需从Hugging Face下载并放置到指定目录

评估基准 (AnyCapEval)

状态：已发布
获取方式：Hugging Face下载
特点：
- 行业级多模态评估基准
- 包含内容评分和风格评分双指标
- 提供全面的评估协议

数据集特点

统一框架：支持图像/音频/视频字幕生成
可控性：支持通过预定义指令控制字幕风格
评估体系：
- 自定义评估指标Key-point Density (KPD)
- 提供与人类判断的高相关性验证

使用说明

数据准备

下载AnyCapEval基准数据
按照目录结构放置数据文件

评估流程

生成字幕文件(content.jsonl和style.jsonl)
配置评估脚本路径参数
运行评估脚本

引用格式

bibtex @misc{ren2025anycapprojectunifiedframework, title={AnyCap Project: A Unified Framework, Dataset, and Benchmark for Controllable Omni-modal Captioning}, author={Yiming Ren and Zhiqiang Lin and Yu Li and Gao Meng and Weiyun Wang and Junjie Wang and Zicheng Lin and Jifeng Dai and Yujiu Yang and Wenhai Wang and Ruihang Chu}, year={2025}, eprint={2507.12841}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2507.12841}, }

搜集汇总

数据集介绍

构建方式

AnyCapDataset (ACD) 的构建采用了系统化的数据收集与标注流程，涵盖图像、视频和音频三种模态。数据集通过结合公开数据集（如ASD v2、DCI、DOCCI等）与多模态大语言模型（如InternVL2.5-78B和GPT-4o）生成的高质量指令-描述对，确保了数据的多样性和可控性。每个样本包含用户指令（q）、符合指令的高质量描述（c）和次优描述（a），形成三元组结构。数据生成过程中，通过严格验证和人工审核确保标注质量，最终构建了包含28种指令类型、30万条数据的跨模态数据集。

特点

ACD的核心特点在于其细粒度的可控性和多模态覆盖。数据集支持图像、视频和音频三种模态的指令驱动描述生成，涵盖背景、事件、实例动作等28类控制维度。通过偏好对设计（c优于a），ACD能够有效降低标注难度，同时保留对用户指令的精确对齐能力。此外，数据集中平均描述长度达62词，显著长于传统数据集，支持生成更具细节的文本。跨模态的统一架构设计使得该数据集能服务于全模态可控描述研究。

使用方法

使用ACD时，研究者可通过指令-描述对实现可控生成任务的训练与评估。数据集可直接用于训练类似AnyCapModel的插件式框架，通过对比学习优化基础模型的描述修正能力。评估阶段需结合AnyCapEval基准，分别从内容准确性（Keypoint Density）和风格保真度（GPT-4o评分）两个维度进行量化分析。对于音频等低资源模态，建议采用迁移学习策略，利用图像-视频模态的丰富数据进行预训练。

背景与挑战

背景概述

AnyCapDataset (ACD) 是由清华大学、上海人工智能实验室等机构的研究团队于2025年提出的多模态可控描述生成数据集。该数据集旨在解决现有描述生成模型在细粒度控制方面的不足，特别是在遵循用户指令方面的局限性。ACD覆盖图像、视频和音频三种模态，包含28种用户指令类型和30万条高质量数据条目，为可控描述生成任务提供了全面的数据支持。该数据集的建立填补了多模态可控描述数据缺乏的空白，推动了可控描述生成技术的发展。

当前挑战

ACD面临的挑战主要包括两个方面：领域问题的挑战和构建过程的挑战。在领域问题方面，现有开源模型的可控能力有限，通常依赖刚性控制信号，限制了生成结果的灵活性；同时缺乏适当的评估基准和指标，传统指标如BLEU和CIDEr无法准确评估内容准确性和风格一致性。在构建过程方面，可控多模态描述的人工标注成本高昂且劳动密集；缺乏低成本、高质量的数据生成流程，使得利用模型生成大规模数据具有挑战性。此外，确保生成数据在多样性和质量之间的平衡也是一个重要挑战。

常用场景

经典使用场景

AnyCapDataset (ACD) 在可控多模态字幕生成领域具有广泛的应用场景。该数据集特别适用于需要精细控制生成内容的场景，例如根据用户指令生成特定风格或内容的图像、视频和音频描述。在图像领域，ACD可用于生成强调特定对象或背景的详细描述；在视频领域，它支持对动作、场景转换和时序事件的精确描述；在音频领域，则能够根据指令生成不同风格和详细程度的音频描述。

衍生相关工作

ACD的推出催生了一系列相关研究工作，特别是在可控多模态生成领域。基于ACD开发的AnyCapModel (ACM)框架已成为该领域的基准方法，其轻量级插件式设计启发了后续多个改进模型。在评估方面，AnyCapEval提出的关键点密度(KPD)指标被广泛采用，促进了更细粒度的生成质量评估。此外，ACD的数据构建方法也为其他多模态数据集的建设提供了重要参考，推动了可控生成技术的整体发展。

数据集最近研究