five

H-D-T/RLSTACK

收藏
Hugging Face2024-09-02 更新2024-05-18 收录
下载链接:
https://hf-mirror.com/datasets/H-D-T/RLSTACK
下载链接
链接失效反馈
官方服务:
资源简介:
Buzz是一个高度精选的预训练规模助手数据集,结合了强化学习(RL)和监督微调(SFT),旨在展示现有预训练语言模型的再利用和优化潜力。数据集包含500多个去重的高质量指令跟随、对话、故事讲述和编码数据集,以及超过500万行新数据和数百万行重新增强的数据。数据集的结构与ShareGPT类型兼容,包含对话格式的数据。

Buzz is a highly curated pre-training-scale assistant dataset that integrates Reinforcement Learning (RL) and Supervised Fine-Tuning (SFT), aiming to demonstrate the reuse and optimization potential of existing pre-trained language models. This dataset contains over 500 deduplicated high-quality instruction-following, conversational, storytelling, and coding datasets, along with more than 5 million rows of new data and millions of rows of re-augmented data. The structure of the dataset is compatible with ShareGPT-style formats, and it includes conversational formatted data.
提供机构:
H-D-T
原始信息汇总

数据集概述

数据集名称

  • Buzz

数据集描述

  • Buzz 是一个高度精选的预训练规模助手数据集,结合了强化学习(RL)和监督式微调(SFT),由 Alignment Lab AIHive Digital Technologies 合作开发。

数据集内容

  • 包含超过500个数据集,去重处理,格式设计以保持和扩展不同训练类型与当前本地生态系统的兼容性。
  • 数据集内包括多种高质量的指令遵循、对话、故事讲述和编码数据集,以及超过500万条新数据和数百万条重新增强的数据。

数据集结构

  • 数据集结构遵循以下格式: json { "source": "源数据集", "stack": "选择/拒绝的RL技术", "question_index": "可选行,仅在DPO特定数据集中匹配dpo对 - int64", "conversations": [ { "from": "系统", "value": "初始系统提示或用户查询" }, { "from": "人类或系统", "value": "初始人类查询" }, { "from": "gpt", "value": "对前一转的响应" } ] }

数据集用途

  • 用于构建工具包,展示重用和优化现有预训练语言模型的潜力,以持续提高性能。

相关模型和数据集

  • Buzz-2.5b-Small
  • Buzz-8B-Large
  • The Buzz Dataset

许可证

  • CC-BY-4.0

语言

  • 英语

标签

  • 合成
  • 代码
  • orca
  • Alignment-Lab-AI
  • dpo
  • 强化学习
  • RLHF
  • sharegpt
  • chatml
  • 文本生成
  • 指令

大小分类

  • 1M<n<10M
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作