five

H-D-T/Buzz-slice-8-10-V1.2

收藏
Hugging Face2024-09-02 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/H-D-T/Buzz-slice-8-10-V1.2
下载链接
链接失效反馈
官方服务:
资源简介:
Buzz数据集是一个高质量的预训练规模助手数据集,结合了强化学习(RL)和监督微调(SFT)。该数据集包含435个高质量的指令跟随和对话数据集,去重后格式兼容多种训练类型。数据集还包含了超过500万行新数据和数百万行重新增强的数据,总计约8500万轮对话。数据集的结构包括来源、堆栈、问题索引和对话内容。数据集的目标是通过高质量的迭代微调,推动模型重用和优化的边界。

Buzz数据集是一个高质量的预训练规模助手数据集,结合了强化学习(RL)和监督微调(SFT)。该数据集包含435个高质量的指令跟随和对话数据集,去重后格式兼容多种训练类型。数据集还包含了超过500万行新数据和数百万行重新增强的数据,总计约8500万轮对话。数据集的结构包括来源、堆栈、问题索引和对话内容。数据集的目标是通过高质量的迭代微调,推动模型重用和优化的边界。
提供机构:
H-D-T
原始信息汇总

Buzz 数据集概述

基本信息

  • 许可证: CC BY 4.0
  • 语言: 英语
  • 标签: 合成, 代码, Orca, Alignment-Lab-AI, DPO, 强化学习, RLHF, ShareGPT, ChatML, 文本生成, 指令
  • 名称: Select Stack
  • 大小: 1B < n < 10B

数据集特点

  • 包含435个高质量的指令跟随和对话数据集。
  • 数据集经过去重处理,格式设计用于维持和扩展训练类型与当前本地生态系统的兼容性。
  • 包含超过500万条新数据和数百万条重新增强的数据,总计约8500万次对话。

数据结构

数据集的结构如下: json { "source": "string containing the source dataset", "stack": "chosen/rejected for RL techniques", "question_index": "optional row, only contained in DPO specific dataset to match dpo pairs - int64", "conversations": [ { "from": "system", "value": "an initial system prompt or user query, may or may not be present depending on the row" }, { "from": "human or system", "value": "an initial human query" }, { "from": "gpt", "value": "a response to the previous turn, may be followed by additional human/gpt alternations" } ] }

数据来源

  • 总对话次数: 81,167,793
  • 总行数: 31,249,070
# 来源 百分比 对话次数 行数
1 Flan: English 20.33% 16,500,966 8,250,483
2 Flan: Non English 18.47% 14,995,714 7,497,857
3 sodey 9.71% 7,883,090 917,016
4 OIG soda_dialog 7.93% 6,436,873 1,191,582
5 various orca style reaugmentations 3.62% 2,934,794 878,547
6 Select Stack 3.59% 2,911,650 1,455,825
7 sft-distil 3.59% 2,911,634 1,455,817
8 OIG abstract_infill 3.52% 2,858,795 232,188
9 medical_meadow_cord19 2.79% 2,265,654 755,218
10 EverythingIsAllYouNeed0.25 2.39% 1,941,198 970,599
11 MATH-plus 2.04% 1,658,976 829,488
12 OIG unifiedskg_instructions 1.14% 927,267 214,793
13 OIG nq 1.03% 836,194 307,373
14 MetaMath_DPO_FewShot 0.97% 787,998 393,999
15 MetaMathQA 0.95% 770,166 385,083
16 OpenHermes-2.5 0.95% 769,503 367,336
17 wildchat-sharegpt 0.94% 764,896 123,596
18 hotdog-gpt 0.73% 591,467 190,543
19 Tess-Coder-v1.0 0.72% 585,038 117,008
20 OIG canadian_parliament 0.72% 581,708 290,854
21 openhermes 0.66% 536,782 240,894
22 Text-to-sql-v1 0.65% 524,412 262,206
23 MathInstruct 0.61% 491,666 245,833
24 OIG unnatural_instructions 0.59% 476,087 238,035
25 OIG openai_summarize_tldr 0.58% 466,796 233,398
26 OIG chip2 0.52% 420,564 210,282
27 orcamath-sharegpt 0.49% 399,414 199,707
28 OIG xp3_sample 0.46% 376,276 188,138
29 anthropic-hh-nectar 0.43% 346,892 73,687
30 reasoningData_200k 0.41% 334,004 167,002
31 OpenCodeInterpreterData 0.41% 331,715 36,836
32 Synthia-v1.3 0.41% 329,115 118,841
33 yaml 0.40% 321,755 110,572
34 GPTscience_maths_csml 0.37% 297,310 148,655
35 OIG squad_v2 0.32% 260,638 19,585
36 OIG squad_v2_more_neg 0.32% 259,902 13,946
37 OIG rallio_safety_and_prosocial 0.31% 250,534 125,235
38 MIMIC-medical-report 0.31% 250,362 83,454
39 OIG mathqa_flanv2_kojma_cot 0.30% 243,420 107,564
40 openai_summarize_tldr 0.29% 233,336 116,668
41 OIG sqlv2 0.28% 224,270 24,546
42 ruby 0.24% 197,135 68,086
43 RPGuild-sharegpt-filtered 0.24% 196,309 27,053
44 OIG multi_news 0.22% 179,888 89,944
45 markdown 0.22% 174,608 61,260
46 javascript 0.19% 156,109 52,289
47 python 0.19% 151,866 55,045
48 know_sql 0.18% 148,368 49,456
49 text 0.16% 133,033 44,926
50 saraswati_stem_formatted 0.15% 119,750 59,875
51 know_saraswati_cot_formatted 0.14% 116,408 58,204
52 json 0.14% 115,682 39,124
53 OIG hc3_human 0.14% 112,112 56,056
54 medical_meadow_medical_flashcards 0.12% 100,575 33,527
55 lmsys-chat-1m-nectar 0.11% 86,770 43,385
56 shell 0.11% 85,901 30,327
57 cogstack-opengpt-sharegpt 0.10% 81,667 31,532
58 Quanta 0.10% 78,096 26,032
59 php 0.08% 68,256 24,302
60 know_logic 0.08% 68,208 34,104
61 html 0.07% 57,384 19,750
62 OIG plot_screenplay_books_dialog 0.07% 54,981 7,924
63 java 0.07% 53,574 20,150
64 Open-Platypus 0.07% 53,373 24,109
65 RFT-GSM-28K 0.06% 51,092 25,546
66 OIG conv_finqa 0.06% 50,472 9,102
67 sharegpt-nectar 0.06% 49,896 24,948
68 OIG cuad 0.05% 41,390 510
69 OpenCerebrum-dpo 0.05% 40,534 17,013
70 Tested-22k-Python-Alpaca 0.04% 36,224 18,112
71 OIG sqlv1 0.04% 34,174 17,087
72 MedQuad-MedicalQnADataset 0.04% 32,718 16,359
73 piqa 0.04% 32,212 16,106
74 html+erb 0.04% 31,679 10,708
75 OIG image_prompts_instructions 0.04% 30,932 15,466
76 medical_meadow_medqa 0.04% 30,534 10,178
77 ini 0.04% 30,461 10,396
78 medical_meadow_wikidoc 0.04% 29,998 10,000
79 c# 0.03% 26,796 9,220
80 xml 0.03% 26,054 9,085
81 medical_meadow_health_advice 0.03% 25,995 8,665
82 OIG poetry_2_song 0.03% 25,462 12,731
83 flan_v2_niv2-nectar 0.03% 24,036 12,018
84 c 0.03% 23,203 8,250
85 scss 0.02% 20,156 6,730
86 evol_instruct-nectar 0.02% 19,930 9,965
87 ultrachat-nectar 0.02% 19,822 9,911
88 restructuredtext 0.02% 18,901 6,481
89 OpenCerebrum-2.0-SFT 0.02% 18,793 4,382
90 gpteacher-role-play-chatml 0.02% 18,222 9,111
91 OIG grade_school_math_instructions 0.02% 17,584 8,792
92 OIG essays 0.02% 17,581 2,064
93 medical_meadow_wikidoc_patient_information 0.02% 17,550 5,850
94 typescript 0.02% 16,912 5,816
95 coffeescript 0.02% 15,836 5,403
96 go 0.02% 14,814 4,939
97 css 0.02% 14,654 4,979
98 scala 0.02% 14,184 4,988
99 c++ 0.02% 13,391 4,838
100 swift 0.02% 13,361 4,724
101 haml
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
Buzz是一个大规模、高质量的预训练助手数据集,由Hive Digital Technologies和Alignment Lab AI合作开发,包含超过3100万行数据,统一了强化学习和监督微调。该数据集整合了435个精选的指令遵循、对话、故事讲述和编程数据集,旨在优化现有预训练语言模型,提升性能。数据集采用JSON格式,主要用于语言模型的迭代微调和研究,支持高效模型重用和优化。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作