H-D-T/unstacked
收藏Hugging Face2024-09-02 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/H-D-T/unstacked
下载链接
链接失效反馈官方服务:
资源简介:
Buzz是一个高质量的预训练规模助手数据集,结合了强化学习(RL)和监督微调(SFT),旨在通过迭代微调方法优化现有预训练语言模型的性能。数据集包含435个高质量的指令跟随和对话数据集,去重后包含超过8500万轮对话,涵盖了多种类型的数据,如指令跟随、对话、故事讲述和编码等。数据集的结构设计为与Axolotl和FastChat等训练框架兼容,并包含详细的对话结构。
Buzz是一个高质量的预训练规模助手数据集,结合了强化学习(RL)和监督微调(SFT),旨在通过迭代微调方法优化现有预训练语言模型的性能。数据集包含435个高质量的指令跟随和对话数据集,去重后包含超过8500万轮对话,涵盖了多种类型的数据,如指令跟随、对话、故事讲述和编码等。数据集的结构设计为与Axolotl和FastChat等训练框架兼容,并包含详细的对话结构。
提供机构:
H-D-T
原始信息汇总
数据集概述
基本信息
- 许可证: CC-BY-4.0
- 语言: 英语
- 标签: 合成, 代码, orca, Alignment-Lab-AI, dpo, 强化学习, RLHF, sharegpt, chatml, 文本生成, 指令
- 大小: 1M<n<10M
数据集内容
- 名称: Buzz
- 描述: Buzz是一个精心策划的预训练规模助手数据集,结合了强化学习(RL)和监督微调(SFT),由Alignment Lab AI与Hive Digital Technologies合作开发。
- 组成: 包含超过500个数据集,去重处理,格式设计以保持和扩展不同训练类型之间的兼容性。数据集内含多种高质量的指令遵循、对话、故事讲述和编码数据集,以及超过500万条新数据和数百万条重新增强的数据。
数据结构
- 数据格式: JSON
- 结构: json { "source": "数据集来源", "stack": "RL技术选择/拒绝", "question_index": "可选,仅在DPO特定数据集中存在,用于匹配dpo对 - int64", "conversations": [ { "from": "系统", "value": "初始系统提示或用户查询" }, { "from": "人类或系统", "value": "初始人类查询" }, { "from": "gpt", "value": "对前一轮的响应" } ] }
研究方法
- 迭代微调方法: 结合高质量数据和从先前周期中精心选择的“基础”分布进行迭代微调,开发了一种成本效益高的方法,推动模型重用和优化的边界。
贡献与合作
- 合作方: Hive Digital Technologies
- 研究基础: 基于多篇关键论文的研究成果,包括但不限于《Simple and Scalable Strategies to Continually Pre-train Large Language Models》等。
社区贡献
- 目标: 作为概念验证和工具包,展示并促进社区在追求高效和有效的本地运行、个人拥有的语言模型方面的努力。
未来方向
- 计划: 专注于更新和改进数据集、构建工具以及相关的开源基础设施。
引用文献
- 详细引用了多篇与数据集开发和优化相关的研究论文。
搜集汇总
数据集介绍

构建方式
在大型语言模型持续预训练与微调的研究背景下,Buzz数据集通过整合与重构435个高质量指令遵循、对话、故事叙述及代码数据集构建而成。其构建过程融合了去重处理与格式统一,确保了与当前训练生态系统的兼容性。数据集不仅包含了超过500万条新增数据行,还对先前Open-Orca发布以来的数百万条数据进行了再增强,最终形成了约8500万轮对话的庞大规模,涵盖了单轮与多轮交互形式。
使用方法
该数据集设计为开箱即用,可直接与Axolotl及FastChat等主流训练框架中的ShareGPT格式兼容。研究人员可通过加载标准化的JSON结构,利用其‘conversations’字段中的多轮对话数据进行指令微调。对于强化学习场景,数据集中提供的‘stack’字段(如chosen/rejected)可用于直接偏好优化训练。数据集支持从通用对话到专业代码生成的广泛任务,为构建高效、可本地运行的语言模型提供了丰富且结构化的训练资源。
背景与挑战
背景概述
在大型语言模型(LLM)迭代优化与高效微调的研究浪潮中,Buzz数据集应运而生。该数据集由Alignment Lab AI与Hive Digital Technologies于近期合作构建,其核心研究问题聚焦于探索如何通过高质量、多源异构的指令数据,对现有预训练模型进行持续且成本可控的精炼,以最大化计算资源(FlOps)的利用效率,从而提升模型在多样化任务上的性能边界。此项工作延续并扩展了Open-Orca等项目的研究脉络,旨在为社区提供一个可复现、可优化的工具集,推动本地化、个人化语言模型的高效发展。
当前挑战
Buzz数据集致力于应对指令微调与模型对齐领域的关键挑战:如何系统性地整合海量、异构的优质数据(涵盖对话、代码、数学推理、医疗问答等数十个领域),并构建统一的数据格式以兼容不同的训练范式(如SFT、DPO)。在构建过程中,研究团队面临多重技术难题,包括对超过85亿轮对话数据进行高效去重与清洗、确保多轮对话结构的完整性、以及从超过435个数据源中筛选并融合高质量样本,同时维持数据分布平衡以避免模型在特定领域过拟合。这些挑战对数据工程的规模化和精细化提出了极高要求。
常用场景
经典使用场景
在大型语言模型微调领域,Buzz数据集凭借其精心整合的指令遵循、对话、代码及数学推理等多模态数据,成为迭代式微调研究的典范。该数据集通过统一监督微调与强化学习框架,为研究者提供了探索模型性能持续优化的实验平台,尤其在探索高质量单轮训练对损失收敛的影响方面展现出独特价值。其结构化设计兼容主流训练工具如Axolotl,使得模型能够在多样化任务中实现知识迁移与泛化能力提升。
解决学术问题
Buzz数据集有效应对了预训练模型复用效率低、微调过程易过拟合等核心学术挑战。通过融合Orca风格的数据增强技术与多源高质量数据,该数据集为研究迭代式预训练、噪声嵌入优化等前沿课题提供了实证基础。其构建方法验证了在有限计算资源下,通过数据质量优化而非单纯规模扩张,能够显著提升模型在复杂推理、代码生成等任务上的表现,推动了高效微调方法论的发展。
实际应用
在实际部署层面,Buzz数据集支撑了面向本地化部署的轻量级语言模型开发,其涵盖的医疗对话、技术问答、数学解题等垂直领域数据,为构建专业领域助手提供了数据基石。基于该数据集训练的模型系列已应用于代码自动补全、教育辅助工具及医疗信息查询等场景,体现了将学术研究成果转化为可落地解决方案的潜力,特别是在资源受限环境下实现高性能模型服务方面具有示范意义。
数据集最近研究
最新研究方向
在大型语言模型高效微调领域,Buzz数据集作为一项集成性资源,正推动着迭代式微调方法的前沿探索。该数据集融合了强化学习与监督微调,通过精心整合超过85亿轮对话的高质量指令遵循与多轮交互数据,为模型性能的持续优化提供了丰富素材。其研究焦点在于探索如何在有限计算资源下,通过单轮高质量领域数据训练实现低损失值,从而避免过拟合并提升模型泛化能力。这一方向与当前开源社区对本地化、个性化语言模型的迫切需求相呼应,特别是在模型重用与参数高效微调技术日益受到重视的背景下,Buzz数据集为研究如何平衡训练效率与性能上限提供了关键实验平台。
以上内容由遇见数据集搜集并总结生成



