five

H-D-T/Select-Stack

收藏
Hugging Face2024-09-02 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/H-D-T/Select-Stack
下载链接
链接失效反馈
官方服务:
资源简介:
Buzz数据集是一个高度精选的预训练规模助手数据集,结合了强化学习(RL)和监督微调(SFT)。它包含了超过500个数据集,涵盖了高质量指令跟随、对话、故事讲述和编码数据集。此外,数据集还包含了500多万条新数据和数百万条重新增强的数据。数据集的结构和格式设计为与Axolotl和lmsys FastChat等训练框架兼容,包含源数据集、RL技术中的选择/拒绝、问题索引(仅DPO特定数据集)和对话内容。Buzz数据集旨在展示现有预训练语言模型的再利用和优化潜力,并通过迭代微调方法推动模型性能的边界。
提供机构:
H-D-T
原始信息汇总

Buzz 数据集概述

基本信息

  • 许可证: MIT
  • 语言: 英语
  • 标签: 合成, 代码, Orca, Alignment-Lab-AI, DPO, 强化学习, RLHF, ShareGPT, ChatML, 文本生成, 指令
  • 大小类别: 1M<n<10M
  • 别名: Select Stack

简介

  • 数据集: Buzz 是一个高度精选的预训练规模助手数据集,结合了强化学习和监督式微调(SFT),由 Alignment Lab AI 与 Hive Digital Technologies 合作开发。
  • 相关模型:

特征

  • 数据量: 包含超过 500 个数据集,去重处理,格式化以保持和扩展训练类型与当前本地生态系统的兼容性。
  • 数据类型: 包括高质量的指令遵循、对话、讲故事和编码数据集,以及超过 500 万条新数据和数百万条重新增强的数据。

迭代微调方法论

数据结构和格式

  • 结构: 数据集结构与 ShareGPT 类型兼容,适用于 Axolotl 和 FastChat 的训练。
  • 示例: json { "source": "string containing the source dataset", "stack": "chosen/rejected for RL techniques", "question_index": "optional row, only contained in DPO specific dataset to match dpo pairs - int64", "conversations": [ { "from": "system", "value": "an initial system prompt or user query, may or may not be present depending on the row" }, { "from": "human or system", "value": "an initial human query" }, { "from": "gpt", "value": "a response to the previous turn, may be followed by additional human/gpt alternations" } ] }

结论

  • 目标: 专注于更新和改进数据集、构建工具以及其他开源基础设施。
  • 未来方向: 将重点放在上下文实现和当前正在进行的研究上,鼓励社区探索相关工作。

致谢

  • 贡献者: 感谢众多研究人员、Hive Digital Technologies、Meta 以及其他许多人的贡献和支持。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作