five

H-D-T/Buzz-slice-2-10-V1.2

收藏
Hugging Face2024-09-02 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/H-D-T/Buzz-slice-2-10-V1.2
下载链接
链接失效反馈
官方服务:
资源简介:
Buzz数据集是一个高质量的预训练规模助手数据集,结合了强化学习(RL)和监督微调(SFT)。该数据集包含了435个高质量的指令跟随和对话数据集,去重后格式化以保持和扩展训练类型与当前本地生态系统的兼容性。数据集由多种高质量的指令跟随、对话、故事讲述和编码数据集组成,并包含超过500万条新数据和数百万条重新增强的数据。数据集的总对话轮次约为8500万次,包含单轮和多轮对话。数据集的格式与Axolotl和lmsys的FastChat兼容,结构包括源数据集、RL技术的选择/拒绝、对话轮次等信息。

The Buzz dataset is a highly curated pretraining scale assistant dataset that unifies reinforcement learning (RL) and supervised fine-tuning (SFT). It contains 435 high-quality instruction-following and conversational datasets, deduplicated and formatted to maintain and extend compatibility between training types and the current local ecosystem. The dataset comprises various high-quality instruction-following, conversational, storytelling, and coding datasets, along with over 5 million new rows of data and several million reaugmented rows of data. The dataset totals approximately 85 million turns of conversations, including both single and multi-turn rows. The datasets format is compatible with Axolotl and lmsys FastChat, and its structure includes the source dataset, chosen/rejected for RL techniques, and conversation turns.
提供机构:
H-D-T
原始信息汇总

数据集概述

基本信息

  • 许可证: CC BY 4.0
  • 语言: 英语
  • 标签: 合成, 代码, Orca, Alignment-Lab-AI, DPO, 强化学习, RLHF, ShareGPT, ChatML, 文本生成, 指令
  • 名称: Select Stack
  • 规模: 1B < n < 10B

数据集介绍

  • 名称: Buzz
  • 类型: 预训练规模助手数据集
  • 特点: 包含435个高质量的指令跟随和对话数据集,去重处理,格式化以保持和扩展训练类型与当前本地生态系统的兼容性。
  • 数据量:
    • 总对话轮次: 81,167,793
    • 总行数: 31,249,070

数据结构

json { "source": "string containing the source dataset", "stack": "chosen/rejected for RL techniques", "question_index": "optional row, only contained in DPO specific dataset to match dpo pairs - int64", "conversations": [ { "from": "system", "value": "an initial system prompt or user query, may or may not be present depending on the row" }, { "from": "human or system", "value": "an initial human query" }, { "from": "gpt", "value": "a response to the previous turn, may be followed by additional human/gpt alternations" } ] }

数据来源

# 来源 百分比 对话轮次 行数
1 Flan: English 20.33% 16,500,966 8,250,483
2 Flan: Non English 18.47% 14,995,714 7,497,857
3 sodey 9.71% 7,883,090 917,016
4 OIG soda_dialog 7.93% 6,436,873 1,191,582
5 various orca style reaugmentations 3.62% 2,934,794 878,547
6 Select Stack 3.59% 2,911,650 1,455,825
7 sft-distil 3.59% 2,911,634 1,455,817
8 OIG abstract_infill 3.52% 2,858,795 232,188
9 medical_meadow_cord19 2.79% 2,265,654 755,218
10 EverythingIsAllYouNeed0.25 2.39% 1,941,198 970,599
11 MATH-plus 2.04% 1,658,976 829,488
12 OIG unifiedskg_instructions 1.14% 927,267 214,793
13 OIG nq 1.03% 836,194 307,373
14 MetaMath_DPO_FewShot 0.97% 787,998 393,999
15 MetaMathQA 0.95% 770,166 385,083
16 OpenHermes-2.5 0.95% 769,503 367,336
17 wildchat-sharegpt 0.94% 764,896 123,596
18 hotdog-gpt 0.73% 591,467 190,543
19 Tess-Coder-v1.0 0.72% 585,038 117,008
20 OIG canadian_parliament 0.72% 581,708 290,854
21 openhermes 0.66% 536,782 240,894
22 Text-to-sql-v1 0.65% 524,412 262,206
23 MathInstruct 0.61% 491,666 245,833
24 OIG unnatural_instructions 0.59% 476,087 238,035
25 OIG openai_summarize_tldr 0.58% 466,796 233,398
26 OIG chip2 0.52% 420,564 210,282
27 orcamath-sharegpt 0.49% 399,414 199,707
28 OIG xp3_sample 0.46% 376,276 188,138
29 anthropic-hh-nectar 0.43% 346,892 73,687
30 reasoningData_200k 0.41% 334,004 167,002
31 OpenCodeInterpreterData 0.41% 331,715 36,836
32 Synthia-v1.3 0.41% 329,115 118,841
33 yaml 0.40% 321,755 110,572
34 GPTscience_maths_csml 0.37% 297,310 148,655
35 OIG squad_v2 0.32% 260,638 19,585
36 OIG squad_v2_more_neg 0.32% 259,902 13,946
37 OIG rallio_safety_and_prosocial 0.31% 250,534 125,235
38 MIMIC-medical-report 0.31% 250,362 83,454
39 OIG mathqa_flanv2_kojma_cot 0.30% 243,420 107,564
40 openai_summarize_tldr 0.29% 233,336 116,668
41 OIG sqlv2 0.28% 224,270 24,546
42 ruby 0.24% 197,135 68,086
43 RPGuild-sharegpt-filtered 0.24% 196,309 27,053
44 OIG multi_news 0.22% 179,888 89,944
45 markdown 0.22% 174,608 61,260
46 javascript 0.19% 156,109 52,289
47 python 0.19% 151,866 55,045
48 know_sql 0.18% 148,368 49,456
49 text 0.16% 133,033 44,926
50 saraswati_stem_formatted 0.15% 119,750 59,875
51 know_saraswati_cot_formatted 0.14% 116,408 58,204
52 json 0.14% 115,682 39,124
53 OIG hc3_human 0.14% 112,112 56,056
54 medical_meadow_medical_flashcards 0.12% 100,575 33,527
55 lmsys-chat-1m-nectar 0.11% 86,770 43,385
56 shell 0.11% 85,901 30,327
57 cogstack-opengpt-sharegpt 0.10% 81,667 31,532
58 Quanta 0.10% 78,096 26,032
59 php 0.08% 68,256 24,302
60 know_logic 0.08% 68,208 34,104
61 html 0.07% 57,384 19,750
62 OIG plot_screenplay_books_dialog 0.07% 54,981 7,924
63 java 0.07% 53,574 20,150
64 Open-Platypus 0.07% 53,373 24,109
65 RFT-GSM-28K 0.06% 51,092 25,546
66 OIG conv_finqa 0.06% 50,472 9,102
67 sharegpt-nectar 0.06% 49,896 24,948
68 OIG cuad 0.05% 41,390 510
69 OpenCerebrum-dpo 0.05% 40,534 17,013
70 Tested-22k-Python-Alpaca 0.04% 36,224 18,112
71 OIG sqlv1 0.04% 34,174 17,087
72 MedQuad-MedicalQnADataset 0.04% 32,718 16,359
73 piqa 0.04% 32,212 16,106
74 html+erb 0.04% 31,679 10,708
75 OIG image_prompts_instructions 0.04% 30,932 15,466
76 medical_meadow_medqa 0.04% 30,534 10,178
77 ini 0.04% 30,461 10,396
78 medical_meadow_wikidoc 0.04% 29,998 10,000
79 c# 0.03% 26,796 9,220
80 xml 0.03% 26,054 9,085
81 medical_meadow_health_advice 0.03% 25,995 8,665
82 OIG poetry_2_song 0.03% 25,462 12,731
83 flan_v2_niv2-nectar 0.03% 24,036 12,018
84 c 0.03% 23,203 8,250
85 scss 0.02% 20,156 6,730
86 evol_instruct-nectar 0.02% 19,930 9,965
87 ultrachat-nectar 0.02% 19,822 9,911
88 restructuredtext 0.02% 18,901 6,481
89 OpenCerebrum-2.0-SFT 0.02% 18,793 4,382
90 gpteacher-role-play-chatml 0.02% 18,222 9,111
91 OIG grade_school_math_instructions 0.02% 17,584 8,792
92 OIG essays 0.02% 17,581 2,064
93 medical_meadow_wikidoc_patient_information 0.02% 17,550 5,850
94 typescript 0.02% 16,912 5,816
95 coffeescript 0.02% 15,836 5,403
96 go 0.02% 14,814 4,939
97 css 0.02% 14,654 4,979
98 scala 0.02% 14,184 4,988
99 c++ 0.02% 13,391 4,838
100 swift 0.02% 13,361 4,724
101 haml 0.02% 12,78
搜集汇总
数据集介绍
main_image_url
构建方式
在大型语言模型持续优化的浪潮中,Buzz数据集应运而生,它是由Alignment Lab AI与Hive Digital Technologies联合打造的高质量预训练规模辅助数据集。该数据集巧妙融合了强化学习与监督式微调,通过从Open-Orca等先前工作中继承的迭代微调方法论,精心整合了435个指令遵循与对话数据集。其构建过程包括对超过500万行全新数据的注入,以及对数百万行现有数据的再增强处理,最终汇聚成约8500万轮对话的庞大语料库,覆盖单轮与多轮交互形式,并经过严格去重与偏差过滤。
使用方法
使用Buzz数据集进行模型训练时,研究者可借助其与ShareGPT格式的无缝对接,直接应用于Axolotl或LMSYS的FastChat框架。数据集以JSON结构组织,包含源数据标识、用于RL技术的‘选择/拒绝’堆栈、可选的DPO配对索引,以及标准的多轮对话字段。用户可依据任务需求,灵活抽取单轮或多轮样本,并利用其内置的DPO配对数据实施偏好优化。推荐采用迭代微调策略,结合先前轮次的‘基础’分布,以在控制计算成本的同时,最大化模型性能的边界。
背景与挑战
背景概述
Buzz数据集由Alignment Lab AI与Hive Digital Technologies于2024年联合推出,旨在通过迭代微调策略探索大语言模型的高效复用与性能优化。该数据集汇聚了超过435个高质量指令遵循与对话数据集,涵盖代码、故事叙述及多领域知识,总对话轮次逾8100万,单轮与多轮数据混合编排,显著扩展了此前Open-Orca数据集的技术边界。核心研究问题聚焦于如何以较低的计算成本(FlOps)实现模型能力的持续提升,通过引入来自先前训练轮次的‘锚定’分布,迭代微调方法在避免过拟合的同时维持低损失值。其发布不仅为社区提供了兼容Axolotl与FastChat的开源工具链,更推动了本地化、个人化语言模型的高效研发,对强化学习与监督微调的统一范式产生了深远影响。
当前挑战
当前Buzz数据集面临多重挑战。在领域问题层面,尽管其整合了海量多源数据,但不同来源的质量参差不齐,部分数据可能包含噪声或偏见,需通过过滤与去重确保指令遵循与对话生成的一致性与安全性。构建过程中,数据集的规模(约85M轮次)带来了存储与处理效率的瓶颈,如何平衡数据多样性(如医疗、编程、数学等垂直领域)与训练稳定性成为关键。此外,迭代微调方法依赖对‘锚定’分布的精准选择,若分布偏差过大,可能导致模型遗忘先前能力或产生灾难性遗忘。同时,DPO偏好数据的配对匹配与RLHF流程中的奖励模型校准仍需进一步优化,以提升对齐质量并减少有害输出。
常用场景
经典使用场景
Buzz-slice-2-10-V1.2数据集的核心经典使用场景在于为大规模语言模型提供高质量的指令微调与偏好对齐训练数据。该数据集汇聚了超过八千万轮次的多轮对话,涵盖指令遵循、代码生成、故事创作及逻辑推理等多元领域,尤其适用于基于ShareGPT与ChatML格式的监督微调(SFT)与直接偏好优化(DPO)训练流程。研究者可借助其精心去重与格式统一的数据结构,在Axolotl或FastChat等框架中无缝加载,从而高效地提升模型在复杂指令理解与生成任务上的泛化能力。
解决学术问题
在学术研究层面,Buzz-slice-2-10-V1.2有效解决了预训练语言模型在持续微调过程中面临的数据稀缺与过拟合困境。通过整合来自Open-Orca、FLAN、MetaMath等数十个高质量子集的合成与增强数据,该数据集为探索迭代微调策略提供了坚实的实验基础。其设计理念强调在单一epoch内使用高领域相关性数据即可实现低损失值,从而挑战了传统多轮次训练的必要性,为模型复用与计算效率优化开辟了新路径,并推动了RLHF与DPO等对齐方法的实证研究。
实际应用
实际应用中,Buzz-slice-2-10-V1.2数据集被广泛用于构建高性能的本地化语言模型助手,特别在代码辅助、医疗咨询及数学推理等垂直领域展现出卓越潜力。开发者可依据其结构化偏好标签(chosen/rejected)直接训练具备安全性与可控性的对话系统,或基于其多源编程语言数据(如Python、SQL、Shell)微调专用代码生成引擎。此外,该数据集在降低推理成本与提升响应质量方面表现突出,成为企业级部署轻量级语言模型的重要数据基石。
数据集最近研究
最新研究方向
在当前大语言模型(LLM)领域,模型复用与计算效率优化已成为前沿热点。Buzz数据集由Alignment Lab AI与Hive Digital Technologies联合推出,凝聚了自Open-Orca发布以来在指令微调和强化学习方面的技术积累,通过迭代微调方法,结合高质量的多源数据(涵盖指令遵循、对话、代码、数学推理及医学等专业领域)和精心设计的“接地”分布策略,在单轮高质量领域数据训练中即能实现极低损失,有效缓解过拟合。该数据集整合了超过8100万轮对话,并支持DPO、RLHF等先进对齐技术,为构建经济高效、可本地部署的个人化语言模型提供了坚实工具集,推动了模型复用与性能边界的拓展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作