Hermes-OmniForge-Qwen36-27B-full-v0.3.0-unsloth

Hugging Face2026-04-24 更新2026-04-25 收录

下载链接：

https://huggingface.co/datasets/ning423/Hermes-OmniForge-Qwen36-27B-full-v0.3.0-unsloth

下载链接

链接失效反馈

官方服务：

资源简介：

Hermes OmniForge Qwen3.6-27B数据集v0.3.0是一个合成的监督微调（SFT）数据集，专为Qwen3.6-27B模型设计，支持文本生成、视觉问答和图像文本到文本转换等多模态任务。数据集包含160,000条样本，分为训练集（150,000条）、验证集（5,000条）和测试集（5,000条）。数据来源于多个合成组件，包括代理推理追踪、多模态指令、数学推理、文档图表识别等。数据集提供了两种格式：标准格式和Unsloth优化格式，后者支持文本和视觉模型的微调。数据集中的工具调用和响应被转换为Hermes兼容的标签，便于在标准聊天模板中使用。视觉数据使用PNG占位符，确保多模态训练的结构完整性。数据集经过严格验证，确保数据质量和分布符合预期。所有数据均为合成生成，包含完整的来源元数据，适合用于模型微调和多模态学习任务。

创建时间：

2026-04-24

原始信息汇总

Hermes-OmniForge-Qwen36-27B-full-v0.3.0-unsloth 数据集概述

基本信息

数据集名称：Hermes OmniForge Qwen3.6-27B Dataset v0.3.0
许可证：other
语言：英语 (en)
任务类别：文本生成、视觉问答、图像文本到文本
标签：无监督学习 (unsloth)、TRL、SFT、Qwen、Hermes、工具使用、合成数据、多模态
数据规模：100K < n < 1M

数据构成

总行数：
- 训练集：150,000 条
- 验证集：5,000 条
- 测试集：5,000 条
训练集组件分布：
- lambda_hermes_agent_reasoning_traces：18%
- gpt55_hermes_synthetic：14%
- repo_coding_terminal：13%
- glm_reasoning_stabilizer：10%
- general_multimodal_instruction：14%
- multimodal_reasoning_stem_math：9%
- ocr_document_chart_table：9%
- video_understanding：5%
- gui_visual_agent：6%
- behavior_safety_stabilizers：2%

数据格式与配置

数据集提供三种配置，每种配置均包含训练集、验证集和测试集：

canonical：标准格式数据
- 数据文件：data/final/train.jsonl、data/final/validation.jsonl、data/final/test.jsonl
unsloth_text：Unsloth 文本训练格式
- 数据文件：data/final/train_unsloth_text.jsonl、data/final/validation_unsloth_text.jsonl、data/final/test_unsloth_text.jsonl
unsloth_vision：Unsloth 视觉训练格式
- 数据文件：data/final/train_unsloth_vision.jsonl、data/final/validation_unsloth_vision.jsonl、data/final/test_unsloth_vision.jsonl

数据结构

Canonical 行模式：每条数据包含以下字段：
- id：唯一标识符
- component：组件名称
- source_dataset：源数据集
- source_license：源许可证
- source_url：源 URL
- task_family：任务族
- benchmark_targets：基准测试目标
- tools：工具
- messages：消息列表
- media：媒体文件
- loss_mask：损失掩码
- quality：质量信息（包括是否移除思维链、是否检查基准泄露、去重哈希、是否合成生成、是否包含私有隐藏思维链、是否为媒体占位符）
gpt55_hermes_synthetic 组件：包含 21,000 条训练行，仅包含可见的 Hermes 风格轨迹，包括工具调用、工具响应、基于事实的最终答案、错误恢复、直接无工具回答、澄清、拒绝或权限边界案例、终端/编码示例、GUI 示例和多模态占位符示例，不包含私有隐藏思维链。

工具序列化

Canonical 工具行可能包含 role: "tool" 消息和结构化 tool_calls。
Unsloth 文本导出将其转换为可见的 Hermes 兼容标签：
- <tool_call>：工具调用
- <tool_response>：工具响应

视觉媒体

多模态行使用占位符 PNG 文件（位于 data/media/placeholders/）。
每条 Canonical 视觉行包含：
- media[].path：媒体路径
- media[].type：媒体类型
- media[].sha256：媒体哈希
- quality.media_placeholder = true：标记为占位符

使用方式

Hugging Face Datasets：
- 可通过 load_dataset 加载 JSON 格式数据文件（train.jsonl、validation.jsonl、test.jsonl）
Unsloth 文本训练：
- 使用 data/final/*_unsloth_text.jsonl 进行纯文本 Qwen SFT 或 Hermes/工具使用 SFT
Unsloth 视觉训练：
- 使用 data/final/*_unsloth_vision.jsonl 配合 UnslothVisionDataCollator 进行 Qwen-VL / 多模态 SFT
混合训练：可分别加载文本和视觉导出，按对应训练阶段使用相应的整理器和模型路径。

验证

提供验证脚本 scripts/validate_dataset.py，检查 JSONL 解析、Canonical 字段、Unsloth 消息字段、视觉内容列表形状、助手输出、<think> 块缺失、工具调用 JSON、源元数据、拆分计数及训练组件分布（允许 +/-0.5% 误差）。
验证报告输出至 reports/dataset_report.json。

许可与归属说明

所有数据行为合成生成，包含源元数据用于归属和审计。
基准泄露已标记为已检查，基准测试行未包含在此版本中。
对于 badlogicgames/pi-mono，建议将其视为 MIT 许可证，尽管 Hugging Face 元数据显示为 license:other。

搜集汇总

数据集介绍

构建方式

Hermes-OmniForge-Qwen36-27B-full-v0.3.0-unsloth数据集是一个精心构建的大规模合成监督微调数据集，专为训练Qwen3.6-27B多模态语言模型而设计。其构建过程融合了多达十个异质组件的合成数据，包括Hermes智能体推理轨迹、通用多模态指令、文档图表OCR、视频理解、图形界面视觉智能体以及行为安全稳定器等，总训练样本数达15万条，验证与测试集各5000条。数据集以规范化的JSONL格式存储，每条记录包含唯一标识符、组件来源、任务族、工具调用、消息序列及媒体信息等字段，并经由严格的质量控制流程——包括思维链移除、基准泄漏检查、去重与合成生成标记——确保数据纯净度与可用性。此外，为适配Unsloth框架的微调需求，数据集额外提供了文本版与视觉版两种导出格式，分别将工具调用序列转换为Hermes兼容标签，以及将多模态内容转换为标准的文本-图像交替消息结构，极大降低了模型训练的前处理复杂度。

使用方法

该数据集提供了多路径、多模式的使用方法，能够灵活适配不同层次与目标的微调任务。对于标准SFT流程，用户可直接通过Hugging Face Datasets库加载规范的JSONL文件，以三组数据划分（训练/验证/测试）快速构建基础训练管道。针对Unsloth框架的深度优化，数据集提供了专门的文本导出与视觉导出变体：文本版将工具调用序列转换为Hermes标签，适配标准的chat-template与TRL SFTTrainer；视觉版则保持合理的消息列表结构，配合UnslothVisionDataCollator即可高效完成多模态模型的微调。对于混合模态训练策略，推荐先执行纯文本阶段SFT，再加载视觉样本进行多模态对齐，或仅在确认使用的训练器与数据收集器支持统一格式后，方可将二者连接。用户还可通过运行提供的验证脚本对数据集完整性、字段合规性及组件分布进行自动化校验，确保训练数据的质量与一致性，进而支撑可靠、可复现的模型训练实验。

背景与挑战

背景概述

Hermes-OmniForge-Qwen36-27B-full-v0.3.0-unsloth数据集诞生于多模态大语言模型与工具调用能力深度融合的浪潮之中，由致力于提升模型合成指令微调效率的研究团队构建。该数据集以Qwen3.6-27B为基座，通过精细化的组件化设计，将智能体推理轨迹、编程终端交互、多模态指令理解等十余种关键训练素材有机融合，旨在解决当前模型在工具使用、多模态视觉问答及数学推理等复杂场景下的能力短板。其规模虽非庞大，却以150,000条训练样本的精心配比，在合成数据质量与多样性之间取得了优雅平衡，为后续模型的高效微调与泛化性能提升奠定了坚实基础，对推动开放域智能体系统的实用化进程产生了深远影响。

当前挑战

该数据集面临的挑战兼具技术深度与工程复杂性。在领域问题层面，如何使模型在单一框架内同时精通结构化工具调用、自由文本生成与多模态视觉推理，并避免不同任务间的语义干扰，是核心难题。此外，合成数据中模拟的智能体行为与实际用户需求之间的鸿沟，也考验着模型的真实场景适应能力。在构建过程中，团队需解决多源数据组件（如推理轨迹、代码示例、GUI交互）的格式统一与损失掩码设计，确保不同模式数据在联合训练中保持优化方向的一致性。更棘手的是，由于真实图像不可用于工作空间，研究者不得不采用占位符媒体模拟视觉输入，这给多模态序列的有效性与模型对现实视觉信号的泛化带来了额外约束。

常用场景

经典使用场景

Hermes-OmniForge-Qwen36-27B-full-v0.3.0-unsloth数据集专为多模态大语言模型的监督微调而设计，其经典使用场景涵盖文本生成、视觉问答以及图文互生任务。该数据集匠心整合了150,000条训练样本、5,000条验证样本与5,000条测试样本，囊括了工具调用推理轨迹、通用多模态指令、光学字符识别与文档图表理解、视频语义解析及图形用户界面智能体交互等多元组件。研究者可借助该数据集在文本与视觉模态间开展联合训练，或通过其提供的Unsloth文本与视觉专用导出格式，分别开展纯文本与视觉语言模型的精细化调优，从而充分释放模型在多模态场景下的通用理解与生成能力。

解决学术问题

该数据集直面多模态大语言模型在训练中面临的数据异构性与模态割裂痛点，系统性地解决了若干核心学术难题。其一，通过引入涵盖了工具调用、错误恢复、边界拒绝等场景的合成Hermes风格轨迹，有效缓解了模型在工具使用任务中的推理稳定性与鲁棒性不足问题。其二，设计包含基准测试泄漏校验、去重哈希与思维链掩码等质量管理机制，保障了训练数据的纯净性与可审计性，回应了学界对合成数据污染与测评公平性的持续关切。其三，通过提供统一的规范化行格式与完整的多模态媒体占位符方案，为跨模态对齐学习奠定了基础，推动了多模态大模型在复杂语义场景下的泛化研究。

实际应用

在实际应用层面，该数据集为多模态智能体的构建与部署提供了坚实的数据基石。基于其训练得到的模型可在图形用户界面自动化中精准解析界面元素并执行操作指令，在智能文档处理中高效完成表格提取与图表解读，在视频理解任务中准确捕捉时序语义并生成结构化摘要。此外，数据集所涵盖的工具调用与终端编码样本，赋能了智能编程助手、自动化运维系统与交互式知识检索等产品场景，使之能模仿人类专家在复杂环境中灵活调用工具并修复错误。同时，其内置的行为安全稳定器组件，有助于在金融客服、医疗咨询等高风险领域维持模型输出的合规性与伦理边界。

数据集最近研究