H-D-T/Buzz
收藏Hugging Face2024-05-09 更新2024-05-18 收录
下载链接:
https://hf-mirror.com/datasets/H-D-T/Buzz
下载链接
链接失效反馈官方服务:
资源简介:
Buzz数据集是一个高度精选的预训练规模助手数据集,结合了强化学习(RL)和监督微调(SFT)技术。数据集包含了435个高质量的指令跟随和对话数据集,去重后格式化为保持和扩展训练类型与当前本地生态系统之间的兼容性。数据集还包括了超过500万行新数据和数百万行重新增强的数据,总计约8500万轮对话。数据集的迭代微调方法结合了高质量数据和从前几个时期精心选择的“基础”分布,开发了一种成本效益高的方法,推动了模型重用和优化的边界。
Buzz数据集是一个高度精选的预训练规模助手数据集,结合了强化学习(RL)和监督微调(SFT)技术。数据集包含了435个高质量的指令跟随和对话数据集,去重后格式化为保持和扩展训练类型与当前本地生态系统之间的兼容性。数据集还包括了超过500万行新数据和数百万行重新增强的数据,总计约8500万轮对话。数据集的迭代微调方法结合了高质量数据和从前几个时期精心选择的“基础”分布,开发了一种成本效益高的方法,推动了模型重用和优化的边界。
提供机构:
H-D-T
原始信息汇总
数据集概述
基本信息
- 许可证: CC-BY-4.0
- 语言: 英语
- 标签: 合成, 代码, orca, Alignment-Lab-AI, dpo, 强化学习, RLHF, sharegpt, chatml, 文本生成, 指令
- 数据集名称: Buzz
- 大小: 1B<n<10B
数据集内容
- 包含数据: 435个高质量指令跟随和对话数据集,去重处理,格式化以维护和扩展训练类型与当前本地生态系统的兼容性。
- 数据来源: 包括多种高质量指令跟随、对话、故事讲述和编码数据集,以及超过500万条新数据行和数百万条重新增强的数据行。
- 数据量: 约8500万次对话,包括单轮和多轮对话。
数据结构
json { "source": "数据集来源", "stack": "选择的/拒绝的RL技术", "question_index": "可选行,仅在DPO特定数据集中匹配dpo对 - int64", "conversations": [ { "from": "系统", "value": "初始系统提示或用户查询" }, { "from": "人类或系统", "value": "初始人类查询" }, { "from": "gpt", "value": "对前一轮的响应" } ] }
数据集用途
- 目标: 展示重用和优化现有预训练语言模型的潜力,以持续提高性能。
- 模型发布: 包括Buzz-8b-Large, Buzz-2.5b-Small, Buzz-5b-Medium等。
研究方法
- 迭代微调方法: 结合高质量数据和从前一时期精心选择的“基础”分布进行迭代微调,开发了一种成本效益高的方法,推动模型重用和优化的边界。
数据集来源
- 总对话轮次: 81,167,793
- 总行数: 31,249,070
- 详细来源分布: 包括Flan: English, Flan: Non English, sodey等多个来源,每个来源的对话轮次和行数详细列出。



