Honey-Data-15M

Name: Honey-Data-15M
Creator: 清华大学,腾讯混元团队
Published: 2025-10-22 01:59:32
License: 暂无描述

arXiv2025-10-22 更新2025-10-17 收录

下载链接：

https://open-bee.github.io

下载链接

链接失效反馈

官方服务：

资源简介：

Honey-Data-15M是一个包含约1500万问答对的新型SFT数据集，通过多种清理技术和新颖的双级（短和长）CoT丰富策略进行处理和增强。该数据集旨在为完全开放的MLLM社区提供一个新的基础资源，解决现有开源数据集质量低下和复杂推理数据匮乏的问题。数据集创建过程使用数据管道HoneyPipe，这是一个自动化和可重复的工作流程，旨在解决数据噪声和复杂推理能力不足的双重挑战。Honey-Data-15M数据集的应用领域是促进完全开放的多模态大型语言模型（MLLMs）的发展，提高模型在复杂推理和问题解决方面的能力，使其能够与半开放模型竞争。

Honey-Data-15M is a novel supervised fine-tuning (SFT) dataset containing approximately 15 million question-answer pairs, processed and enhanced via multiple data cleaning techniques and a novel two-stage (short and long) Chain-of-Thought (CoT) enrichment strategy. This dataset aims to provide a new foundational resource for the fully open multimodal large language model (MLLM) community, addressing the dual issues of low-quality existing open-source datasets and the scarcity of complex reasoning training data. The dataset is constructed using HoneyPipe, an automated and reproducible data pipeline designed to tackle the dual challenges of data noise and inadequate complex reasoning capabilities. The core application of Honey-Data-15M is to advance the development of fully open multimodal large language models (MLLMs), enhance their capabilities in complex reasoning and problem-solving, and enable them to compete with semi-open models.

提供机构：

清华大学,腾讯混元团队

创建时间：

2025-10-16

原始信息汇总

Bee数据集概述

数据集基本信息

数据集名称: Honey-Data-15M
数据规模: 约1500万问答对
数据类型: 多模态监督微调(SFT)数据集
主要特点: 双层级思维链(CoT)增强

数据构成

短CoT样本: 约1220万
长CoT样本: 约270万
覆盖领域: 通用视觉理解、STEM符号推理等关键领域

数据处理流程

HoneyPipe数据整理管道

数据聚合与去重
- 从多样化来源收集约2400万图文对
- 执行严格去重以最大化数据多样性和处理效率
噪声与无关性过滤
- 使用基于规则和基于模型的算子
- 清除格式问题、低质量图像或图文不匹配的样本
短CoT增强
- 使用强大MLLMs(Qwen2.5-VL-72B/32B)生成逐步解释
长CoT增强循环
- 利用顶级专有MLLMs生成详细多步解决方案
保真度验证
- 在整个增强过程中使用验证器模型进行语义比较
- 确保生成的CoT响应的正确性和一致性

验证模型

模型名称: Bee-8B
参数量: 80亿
基础架构: 基于Qwen3-8B
训练数据: 完整Honey-Data-15M数据集

性能表现

Bee-8B在多项基准测试中表现出色，与半开放模型竞争激烈，在事实准确性和复杂推理方面为完全开放模型设立了新的性能标杆。

资源贡献

Honey-Data-15M语料库
全栈套件(HoneyPipe和DataStudio)
训练配方
评估工具
模型权重

搜集汇总

数据集介绍

构建方式

在构建Honey-Data-15M数据集的过程中，研究团队采用了系统化的数据管道HoneyPipe，该管道基于自研的DataStudio框架实现自动化工作流。初始阶段从多个社区数据源聚合约2400万图像-文本对，通过严格的感知哈希和文本去重技术消除冗余。随后集成规则与模型驱动的噪声过滤机制，剔除图像尺寸异常、指令重复及图文不匹配的样本。核心创新在于双层级思维链增强策略：对中等复杂度指令生成1200万短链推理样本，而对高复杂度指令则通过专用循环生成270万长链推理样本，并经过语义保真度验证确保响应质量。

使用方法

该数据集主要服务于多模态大语言模型的监督微调阶段，建议采用渐进式训练策略。研究者可先利用通用领域样本建立基础视觉语言对齐，再通过STEM和图表类样本强化专业领域推理能力。对于资源受限的场景，可使用其精选的100万子集Honey-Data-1M进行高效训练，该子集通过质量评分配额系统保证数据代表性。在推理阶段，可通过不同提示词灵活调用短链或长链推理模式，其中长链模式适合需要深度分析的复杂任务，短链模式则适用于常规问答场景。

背景与挑战

背景概述

Honey-Data-15M数据集于2025年由腾讯混元团队联合北京航空航天大学、清华大学等机构的研究人员共同创建，旨在解决完全开源多模态大语言模型在监督微调阶段面临的数据质量瓶颈问题。该数据集聚焦于提升多模态任务的复杂推理能力，通过整合约1500万问答对并采用双重思维链增强策略，显著推动了开源社区在高级认知任务上的模型性能发展，为构建与半开源模型相竞争的完全开源模型奠定了数据基础。

当前挑战

该数据集主要应对多模态领域在图像与文本对齐、复杂推理数据稀缺方面的核心挑战，具体包括消除开源数据中普遍存在的噪声污染、图像-指令不匹配及低质量响应等问题。在构建过程中，研究团队需克服大规模数据去重、多模态噪声过滤、以及自动化生成高质量长短思维链响应的技术难题，同时确保生成内容与原始语义的忠实性验证。

常用场景

经典使用场景

在视觉语言模型研究领域，Honey-Data-15M作为高质量监督微调数据集，主要应用于多模态大语言模型的指令调优阶段。该数据集通过双层级思维链增强策略，为模型提供从基础视觉理解到复杂逻辑推理的系统训练素材，显著提升了模型在跨模态任务中的表现。特别是在需要深度推理的数学问题解答、图表分析和科学文档理解等场景中，该数据集展现出卓越的训练效果。

解决学术问题

该数据集有效解决了开放多模态模型领域长期存在的数据质量瓶颈问题。通过多阶段数据清洗流程消除了传统开源数据集中普遍存在的噪声污染和图像-指令不匹配现象，同时创新的双层级思维链结构填补了复杂推理数据的空白。这一突破使得完全开放模型在数学推理、事实准确性和复杂问题解决能力方面实现了显著提升，为缩小与半开放模型的性能差距提供了数据基础。

实际应用

在实际应用层面，基于Honey-Data-15M训练的模型在多个现实场景中展现出强大潜力。在智能教育领域，能够准确解答包含图表和公式的数学问题；在文档处理场景中，可有效解析复杂表格和科学图表；在视觉问答任务中，表现出优异的物体计数和空间关系理解能力。这些应用验证了高质量数据对提升模型实际部署价值的关键作用。

数据集最近研究