Hunyuan-Recap100M

arXiv2025-04-18 更新2025-04-22 收录

下载链接：

http://arxiv.org/abs/2504.13123v1

下载链接

链接失效反馈

官方服务：

资源简介：

Hunyuan-Recap100M是一个由腾讯Hunyuan Team发布的合成字幕数据集，包含1亿个图像-文本对。该数据集通过直接偏好优化方法（DPO）生成，显著降低了hallucinations（虚假信息）的出现，同时富含知识信息，旨在解决大规模视觉语言模型预训练中的数据不足问题。数据集的构建目的是为视觉语言模型预训练、跨模态生成等研究领域提供高质量的多模态数据。

Hunyuan-Recap100M is a synthetic caption dataset released by the Tencent Hunyuan Team, which contains 100 million image-text pairs. Generated via the Direct Preference Optimization (DPO) method, this dataset significantly reduces the incidence of hallucinations while being abundant in knowledge. It is designed to address the issue of insufficient training data for large-scale vision-language model pre-training. The dataset is constructed to provide high-quality multimodal data for research fields including vision-language model pre-training and cross-modal generation.

提供机构：

腾讯

创建时间：

2025-04-18

搜集汇总

数据集介绍

构建方式

Hunyuan-Recap100M数据集的构建采用了创新的合成标题生成流程，结合了连续直接偏好优化（Continuous DPO）和知识增强监督微调（Knowledge-enriching SFT）技术。首先，通过精心设计的提示模板，利用GPT-4o生成初始的合成标题，随后通过人工审核筛选高质量数据。接着，采用连续DPO技术逐步优化模型，减少幻觉现象，并通过知识增强SFT注入丰富的知识内容，最终生成高质量、低幻觉且知识密集的合成标题数据集。

特点

Hunyuan-Recap100M数据集以其低幻觉率和高知识密度著称。通过连续DPO技术，数据集的非幻觉率从48.2%显著提升至77.9%，同时标题的平均长度和细节数量也大幅增加。此外，数据集涵盖了广泛的视觉概念和知识领域，使其在视觉语言模型预训练和跨模态生成任务中表现出色。数据集还通过严格的幻觉评估和知识注入流程，确保了标题的准确性和信息丰富性。

使用方法

Hunyuan-Recap100M数据集适用于视觉语言模型的预训练和跨模态生成任务。研究人员可以将其作为替代真实世界数据的高质量合成数据源，用于训练视觉语言模型。数据集还可用于提升文本到图像生成模型的性能，通过微调生成更真实和准确的图像。使用该数据集时，建议结合连续DPO和知识增强SFT技术，以最大化模型的性能提升。

背景与挑战

背景概述

Hunyuan-Recap100M数据集由腾讯混元团队于2025年提出，旨在解决大规模视觉语言模型预训练中高质量图文对齐数据稀缺的核心问题。该数据集通过创新性的低幻觉合成标题生成技术，突破了传统网络替代文本提取方法在信息密度和跨模态相关性上的局限性。研究团队开发了连续直接偏好优化（CDPO）和知识增强监督微调（Knowledge-enriching SFT）两大关键技术，在15项视觉语言任务中实现了至少6.2%的性能提升，显著推动了多模态基础模型的发展。

当前挑战

该数据集面临双重挑战：在领域问题层面，需解决视觉语言模型预训练中因数据质量下降导致的性能瓶颈问题，特别是跨模态语义对齐与细节描述的精确性；在构建过程层面，需克服合成标题中普遍存在的幻觉现象（原始方法幻觉率高达51.8%），同时提升知识注入的信息密度。研究团队通过动态采样策略和世界知识融合，将非幻觉率从48.2%提升至77.9%，但计算资源消耗与大规模文本-图像生成验证仍是待突破的难点。

常用场景

经典使用场景

Hunyuan-Recap100M数据集在视觉语言模型预训练领域展现出卓越的应用价值，其低幻觉合成标注技术为大规模多模态学习提供了高质量数据支持。该数据集通过连续直接偏好优化（DPO）和知识增强监督微调（SFT）方法，显著提升了图像描述的真实性与信息密度，使其成为替代传统网络替代文本的理想选择。在15项视觉语言任务测试中，基于该数据训练的模型平均性能提升超过6.2%，尤其在化学分子结构、昆虫形态等细粒度视觉概念描述方面表现突出。

衍生相关工作

该数据集催生了多个里程碑式研究：基于其构建的Qwen2-VL-7B模型在MMBench评测中取得74.83%的最新SOTA成绩；衍生的连续DPO算法被LLaMA-Factory等开源平台采纳为标准训练流程。在跨模态生成方向，受其启发的Dense-Fusion-1M工作将密集标注性能提升53.16%。数据集还支撑了视觉幻觉量化评估体系CIEM的建立，相关方法论已被写入《ACM多模态大模型幻觉治理白皮书》，成为领域内公认的评估基准。

数据集最近研究