H-D-T/RLSTACK
收藏Hugging Face2024-09-02 更新2024-05-18 收录
下载链接:
https://hf-mirror.com/datasets/H-D-T/RLSTACK
下载链接
链接失效反馈官方服务:
资源简介:
Buzz是一个高度精选的预训练规模助手数据集,结合了强化学习(RL)和监督微调(SFT),旨在展示现有预训练语言模型的再利用和优化潜力。数据集包含500多个去重的高质量指令跟随、对话、故事讲述和编码数据集,以及超过500万行新数据和数百万行重新增强的数据。数据集的结构与ShareGPT类型兼容,包含对话格式的数据。
Buzz is a highly curated pre-training-scale assistant dataset that integrates Reinforcement Learning (RL) and Supervised Fine-Tuning (SFT), aiming to demonstrate the reuse and optimization potential of existing pre-trained language models. This dataset contains over 500 deduplicated high-quality instruction-following, conversational, storytelling, and coding datasets, along with more than 5 million rows of new data and millions of rows of re-augmented data. The structure of the dataset is compatible with ShareGPT-style formats, and it includes conversational formatted data.
提供机构:
H-D-T
原始信息汇总
数据集概述
数据集名称
- Buzz
数据集描述
- Buzz 是一个高度精选的预训练规模助手数据集,结合了强化学习(RL)和监督式微调(SFT),由 Alignment Lab AI 与 Hive Digital Technologies 合作开发。
数据集内容
- 包含超过500个数据集,去重处理,格式设计以保持和扩展不同训练类型与当前本地生态系统的兼容性。
- 数据集内包括多种高质量的指令遵循、对话、故事讲述和编码数据集,以及超过500万条新数据和数百万条重新增强的数据。
数据集结构
- 数据集结构遵循以下格式: json { "source": "源数据集", "stack": "选择/拒绝的RL技术", "question_index": "可选行,仅在DPO特定数据集中匹配dpo对 - int64", "conversations": [ { "from": "系统", "value": "初始系统提示或用户查询" }, { "from": "人类或系统", "value": "初始人类查询" }, { "from": "gpt", "value": "对前一转的响应" } ] }
数据集用途
- 用于构建工具包,展示重用和优化现有预训练语言模型的潜力,以持续提高性能。
相关模型和数据集
- Buzz-2.5b-Small
- Buzz-8B-Large
- The Buzz Dataset
许可证
- CC-BY-4.0
语言
- 英语
标签
- 合成
- 代码
- orca
- Alignment-Lab-AI
- dpo
- 强化学习
- RLHF
- sharegpt
- chatml
- 文本生成
- 指令
大小分类
- 1M<n<10M



