H-D-T/unstacked

Name: H-D-T/unstacked
Creator: H-D-T
Published: 2024-09-02 13:34:33
License: 暂无描述

Hugging Face2024-09-02 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/H-D-T/unstacked

下载链接

链接失效反馈

官方服务：

资源简介：

Buzz是一个高质量的预训练规模助手数据集，结合了强化学习（RL）和监督微调（SFT），旨在通过迭代微调方法优化现有预训练语言模型的性能。数据集包含435个高质量的指令跟随和对话数据集，去重后包含超过8500万轮对话，涵盖了多种类型的数据，如指令跟随、对话、故事讲述和编码等。数据集的结构设计为与Axolotl和FastChat等训练框架兼容，并包含详细的对话结构。

提供机构：

H-D-T

原始信息汇总

数据集概述

基本信息

许可证: CC-BY-4.0
语言: 英语
标签: 合成, 代码, orca, Alignment-Lab-AI, dpo, 强化学习, RLHF, sharegpt, chatml, 文本生成, 指令
大小: 1M<n<10M

数据集内容

名称: Buzz
描述: Buzz是一个精心策划的预训练规模助手数据集，结合了强化学习(RL)和监督微调(SFT)，由Alignment Lab AI与Hive Digital Technologies合作开发。
组成: 包含超过500个数据集，去重处理，格式设计以保持和扩展不同训练类型之间的兼容性。数据集内含多种高质量的指令遵循、对话、故事讲述和编码数据集，以及超过500万条新数据和数百万条重新增强的数据。

数据结构

数据格式: JSON
结构: json { "source": "数据集来源", "stack": "RL技术选择/拒绝", "question_index": "可选，仅在DPO特定数据集中存在，用于匹配dpo对 - int64", "conversations": [ { "from": "系统", "value": "初始系统提示或用户查询" }, { "from": "人类或系统", "value": "初始人类查询" }, { "from": "gpt", "value": "对前一轮的响应" } ] }

研究方法

迭代微调方法: 结合高质量数据和从先前周期中精心选择的“基础”分布进行迭代微调，开发了一种成本效益高的方法，推动模型重用和优化的边界。

贡献与合作

合作方: Hive Digital Technologies
研究基础: 基于多篇关键论文的研究成果，包括但不限于《Simple and Scalable Strategies to Continually Pre-train Large Language Models》等。

社区贡献

目标: 作为概念验证和工具包，展示并促进社区在追求高效和有效的本地运行、个人拥有的语言模型方面的努力。

未来方向

计划: 专注于更新和改进数据集、构建工具以及相关的开源基础设施。

引用文献

详细引用了多篇与数据集开发和优化相关的研究论文。

搜集汇总

数据集介绍

构建方式

在大型语言模型持续预训练与微调的研究背景下，Buzz数据集通过整合与重构435个高质量指令遵循、对话、故事叙述及代码数据集构建而成。其构建过程融合了去重处理与格式统一，确保了与当前训练生态系统的兼容性。数据集不仅包含了超过500万条新增数据行，还对先前Open-Orca发布以来的数百万条数据进行了再增强，最终形成了约8500万轮对话的庞大规模，涵盖了单轮与多轮交互形式。

使用方法

该数据集设计为开箱即用，可直接与Axolotl及FastChat等主流训练框架中的ShareGPT格式兼容。研究人员可通过加载标准化的JSON结构，利用其‘conversations’字段中的多轮对话数据进行指令微调。对于强化学习场景，数据集中提供的‘stack’字段（如chosen/rejected）可用于直接偏好优化训练。数据集支持从通用对话到专业代码生成的广泛任务，为构建高效、可本地运行的语言模型提供了丰富且结构化的训练资源。

背景与挑战

背景概述

在大型语言模型（LLM）迭代优化与高效微调的研究浪潮中，Buzz数据集应运而生。该数据集由Alignment Lab AI与Hive Digital Technologies于近期合作构建，其核心研究问题聚焦于探索如何通过高质量、多源异构的指令数据，对现有预训练模型进行持续且成本可控的精炼，以最大化计算资源（FlOps）的利用效率，从而提升模型在多样化任务上的性能边界。此项工作延续并扩展了Open-Orca等项目的研究脉络，旨在为社区提供一个可复现、可优化的工具集，推动本地化、个人化语言模型的高效发展。

当前挑战

Buzz数据集致力于应对指令微调与模型对齐领域的关键挑战：如何系统性地整合海量、异构的优质数据（涵盖对话、代码、数学推理、医疗问答等数十个领域），并构建统一的数据格式以兼容不同的训练范式（如SFT、DPO）。在构建过程中，研究团队面临多重技术难题，包括对超过85亿轮对话数据进行高效去重与清洗、确保多轮对话结构的完整性、以及从超过435个数据源中筛选并融合高质量样本，同时维持数据分布平衡以避免模型在特定领域过拟合。这些挑战对数据工程的规模化和精细化提出了极高要求。

常用场景

经典使用场景

在大型语言模型微调领域，Buzz数据集凭借其精心整合的指令遵循、对话、代码及数学推理等多模态数据，成为迭代式微调研究的典范。该数据集通过统一监督微调与强化学习框架，为研究者提供了探索模型性能持续优化的实验平台，尤其在探索高质量单轮训练对损失收敛的影响方面展现出独特价值。其结构化设计兼容主流训练工具如Axolotl，使得模型能够在多样化任务中实现知识迁移与泛化能力提升。

解决学术问题

Buzz数据集有效应对了预训练模型复用效率低、微调过程易过拟合等核心学术挑战。通过融合Orca风格的数据增强技术与多源高质量数据，该数据集为研究迭代式预训练、噪声嵌入优化等前沿课题提供了实证基础。其构建方法验证了在有限计算资源下，通过数据质量优化而非单纯规模扩张，能够显著提升模型在复杂推理、代码生成等任务上的表现，推动了高效微调方法论的发展。

实际应用

在实际部署层面，Buzz数据集支撑了面向本地化部署的轻量级语言模型开发，其涵盖的医疗对话、技术问答、数学解题等垂直领域数据，为构建专业领域助手提供了数据基石。基于该数据集训练的模型系列已应用于代码自动补全、教育辅助工具及医疗信息查询等场景，体现了将学术研究成果转化为可落地解决方案的潜力，特别是在资源受限环境下实现高性能模型服务方面具有示范意义。

数据集最近研究