H-D-T/Buzz-V1.2
收藏Hugging Face2024-10-30 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/H-D-T/Buzz-V1.2
下载链接
链接失效反馈官方服务:
资源简介:
Buzz数据集是一个高度精选的预训练规模助手数据集,结合了强化学习(RL)和监督微调(SFT)技术。该数据集包含了435个高质量的指令跟随和对话数据集,去重后格式化为保持和扩展训练类型与当前本地生态系统之间的兼容性。数据集由各种高质量的指令跟随、对话、故事讲述和编码数据集组成,还包括超过500万行新数据和数百万行重新增强的数据,总计约8500万轮对话。数据集的迭代微调方法结合了高质量数据和从先前时期精心选择的“基础”分布,开发了一种成本效益高的方法,推动了模型重用和优化的边界。
Buzz数据集是一个高度精选的预训练规模助手数据集,结合了强化学习(RL)和监督微调(SFT)技术。该数据集包含了435个高质量的指令跟随和对话数据集,去重后格式化为保持和扩展训练类型与当前本地生态系统之间的兼容性。数据集由各种高质量的指令跟随、对话、故事讲述和编码数据集组成,还包括超过500万行新数据和数百万行重新增强的数据,总计约8500万轮对话。数据集的迭代微调方法结合了高质量数据和从先前时期精心选择的“基础”分布,开发了一种成本效益高的方法,推动了模型重用和优化的边界。
提供机构:
H-D-T
原始信息汇总
数据集概述
基本信息
- 许可证: CC BY 4.0
- 语言: 英语
- 标签: 合成, 代码, Orca, Alignment-Lab-AI, DPO, 强化学习, RLHF, ShareGPT, ChatML, 文本生成, 指令
- 名称: Select Stack
- 大小: 1B < n < 10B
数据集特征
- 包含数据集数量: 435个高质量的指令跟随和对话数据集
- 数据类型: 指令跟随、对话、故事讲述、编码等
- 新增数据: 超过500万行新数据
- 重新增强数据: 数百万行重新增强的数据
- 总对话轮数: 约8500万轮
- 数据结构: 包含源数据集、堆栈选择、问题索引(可选)、对话轮次等字段
数据结构示例
json { "source": "string containing the source dataset", "stack": "chosen/rejected for RL techniques", "question_index": optional row, only contained in DPO specific dataset to match dpo pairs - int64 "conversations": [ { "from": "system", "value": "an initial system prompt or user query, may or may not be present depending on the row" }, { "from": "human or system", "value": "an initial human query" }, { "from": "gpt", "value": "a response to the previous turn, may be followed by additional human/gpt alternations" } ] }
数据来源
- 总轮次: 81,167,793
- 总行数: 31,249,070
| 序号 | 来源 | 百分比 | 轮次 | 行数 |
|---|---|---|---|---|
| 1 | Flan: English | 20.33% | 16,500,966 | 8,250,483 |
| 2 | Flan: Non English | 18.47% | 14,995,714 | 7,497,857 |
| 3 | sodey | 9.71% | 7,883,090 | 917,016 |
| 4 | OIG soda_dialog | 7.93% | 6,436,873 | 1,191,582 |
| 5 | various orca style reaugmentations | 3.62% | 2,934,794 | 878,547 |
| 6 | Select Stack | 3.59% | 2,911,650 | 1,455,825 |
| 7 | sft-distil | 3.59% | 2,911,634 | 1,455,817 |
| 8 | OIG abstract_infill | 3.52% | 2,858,795 | 232,188 |
| 9 | medical_meadow_cord19 | 2.79% | 2,265,654 | 755,218 |
| 10 | EverythingIsAllYouNeed0.25 | 2.39% | 1,941,198 | 970,599 |
| ... | ... | ... | ... | ... |
| 306 | mistral-7b-instruct-v0.2 | 0.00% | 54 | 27 |
搜集汇总
数据集介绍

背景与挑战
背景概述
Buzz-V1.2是一个大规模、高质量的多领域对话数据集,包含超过310万行数据和8100万对话轮次,涵盖编程、医疗、数学等435个来源。该数据集采用迭代微调方法设计,支持强化学习和监督微调,旨在优化语言模型的性能和效率,适用于训练先进的对话生成模型。
以上内容由遇见数据集搜集并总结生成



