H-D-T/Select-Stack
收藏Hugging Face2024-09-02 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/H-D-T/Select-Stack
下载链接
链接失效反馈官方服务:
资源简介:
Buzz数据集是一个高度精选的预训练规模助手数据集,结合了强化学习(RL)和监督微调(SFT)。它包含了超过500个数据集,涵盖了高质量指令跟随、对话、故事讲述和编码数据集。此外,数据集还包含了500多万条新数据和数百万条重新增强的数据。数据集的结构和格式设计为与Axolotl和lmsys FastChat等训练框架兼容,包含源数据集、RL技术中的选择/拒绝、问题索引(仅DPO特定数据集)和对话内容。Buzz数据集旨在展示现有预训练语言模型的再利用和优化潜力,并通过迭代微调方法推动模型性能的边界。
提供机构:
H-D-T
原始信息汇总
Buzz 数据集概述
基本信息
- 许可证: MIT
- 语言: 英语
- 标签: 合成, 代码, Orca, Alignment-Lab-AI, DPO, 强化学习, RLHF, ShareGPT, ChatML, 文本生成, 指令
- 大小类别: 1M<n<10M
- 别名: Select Stack
简介
- 数据集: Buzz 是一个高度精选的预训练规模助手数据集,结合了强化学习和监督式微调(SFT),由 Alignment Lab AI 与 Hive Digital Technologies 合作开发。
- 相关模型:
特征
- 数据量: 包含超过 500 个数据集,去重处理,格式化以保持和扩展训练类型与当前本地生态系统的兼容性。
- 数据类型: 包括高质量的指令遵循、对话、讲故事和编码数据集,以及超过 500 万条新数据和数百万条重新增强的数据。
迭代微调方法论
- 研究基础: 基于多篇关键论文的研究成果,包括:
- Simple and Scalable Strategies to Continually Pre-train Large Language Models
- NEFTune: Noisy Embeddings Improve Instruction Finetuning
- An Optimistic Acceleration of AMSGrad for Nonconvex Optimization
- Improving Generalization Performance by Switching from Adam to SGD
- Orca: Progressive Learning from Complex Explanation Traces of GPT-4
数据结构和格式
- 结构: 数据集结构与 ShareGPT 类型兼容,适用于 Axolotl 和 FastChat 的训练。
- 示例: json { "source": "string containing the source dataset", "stack": "chosen/rejected for RL techniques", "question_index": "optional row, only contained in DPO specific dataset to match dpo pairs - int64", "conversations": [ { "from": "system", "value": "an initial system prompt or user query, may or may not be present depending on the row" }, { "from": "human or system", "value": "an initial human query" }, { "from": "gpt", "value": "a response to the previous turn, may be followed by additional human/gpt alternations" } ] }
结论
- 目标: 专注于更新和改进数据集、构建工具以及其他开源基础设施。
- 未来方向: 将重点放在上下文实现和当前正在进行的研究上,鼓励社区探索相关工作。
致谢
- 贡献者: 感谢众多研究人员、Hive Digital Technologies、Meta 以及其他许多人的贡献和支持。



