Flywheel-v2

github2024-08-28 更新2024-08-29 收录

下载链接：

https://github.com/shizhediao/Post-Training-Data-Flywheel

下载链接

链接失效反馈

官方服务：

资源简介：

一个大型且多样化的数据集，推荐使用。

A large-scale and diverse dataset, highly recommended.

创建时间：

2024-08-20

原始信息汇总

Post-Training-Data-Flywheel 数据集概述

目标

旨在为大型语言模型（LLMs）的后训练提供高质量和大数量的数据参考，以便进行搜索、选择和合成。

贡献

数据生成：提供两个重要领域的数据生成过程：指令遵循和函数调用。
数据集编译：收集和编译了一系列高质量的数据集，用于后训练LLMs，涵盖指令遵循、编程和数学领域，并进行质量检查。
数据集精选：根据质量检查，精心筛选出一个新的数据集，确保高质量和相关性。

下载

数据集可直接从Hugging Face Hub下载，有两个版本：

Flywheel-v1：小型且高度精选的数据集。
Flywheel-v2：大型且多样化的数据集（推荐）。

数据生成

提供两个重要领域的数据生成过程：指令遵循和函数调用。

质量检查

领域：仅关注指令遵循、编程和数学任务，仅考虑英语数据集。
数据源：仅保留GPT-4生成的数据，排除低质量数据源（如gpt-3.5-turbo）。
流行度：下载量超过1K的数据集。
准确性：随机抽样20个指令调优数据集和10个其他领域数据集，手动检查质量并提供质量信号。
相关性评分（1-5）：
- 5：直接对应于特定评估标准（如IFEval*、MTBench、AGIEval*、AlpacaEval等）。
- 4：通常具有指令遵循格式和GPT-4/人类级别的响应。
- 3：大多数具有指令遵循格式和正确响应。
- 2：存在主要缺陷（如不相关）但可能有用。
- 1：低质量或潜在有害影响。

数据集

函数调用、编程、数学

名称	描述	领域	数量	准确性	相关性	质量备注	许可证
glaiveai/glaive-function-calling-v2	前10项无重复，任务种类广泛。	函数调用	113K	4.5	4.5		apache-2.0
Salesforce/xlam-function-calling-60k	答案为函数名称和参数列表，包含参数类型模糊和简单函数。	函数调用	60K	5	4.5		cc-by-4.0
Gorilla OpenFunctions-v2	GitHub JSON格式数据，使用AST判断API调用是否正确。	函数调用	17K	5	5		Apache-2.0
ise-uiuc/Magicoder-OSS-Instruct-75K	问题1提供任务、输入、约束、示例（Leetcode风格），问题2提供方法签名，问题3仅提供问题描述。	编程	75.2K	4.5	3.5		mit
RLHFlow/CodeUltraFeedback-standard	RLHF格式，包括选中和拒绝，总选中和拒绝对为50156，唯一选中答案约38.4K。	编程	38.4k/50.2k	4	4	大小分别为唯一选中答案和总选中和拒绝对	mit
codeparrot/apps	竞争编程（Codeforces）风格提示，包含输入、约束、示例、描述，有时提供方法签名，相对复杂。	编程	10K	N/A	N/A		mit
iamtarun/python_code_instructions_18k_alpaca	提示有时提供示例，即使有示例，模型有时也不给出相应输出。	编程	18.6K	5	4		N/A
meta-math/MetaMathQA	问题4未提供公共机器表达式，原始问题有时被重写为参数化。	数学	395k	4.75	4.5		mit
MathInstruct	包含13个数据集，如camel math等，检查了前10个问题，大多数未提供具体答案。	数学	262K	4.5	3		mit
camel-ai/math	数据集由50K问题-解决方案对组成，使用GPT-4生成。	数学	50k	5	4.5		cc-by-nc-4.0
xinlai/Math-Step-DPO-10K	RLHF格式，包括选中和拒绝，使用逐步提示，`initial_reason_steps`包括初步计算和提示。	数学	10.8k	4.5	3.5		cc-by-nc-4.0
openai/gsm8k	常用于多个基准测试，包括LLM Leaderboard，`Answer`包含`<>`格式计算。	数学	train 7.47k test 1.32K	5	4.5		mit
bigcode/self-oss-instruct-sc2-exec-filter-50k	StarCoder2-Instruct的最终自对齐训练数据集。	编程	50.7k				odc-by
theblackcat102/evol-codealpaca-v1	类似于ise-uiuc/Magicoder-Evol-Instruct-110K。	编程	111k				apache-2.0

指令遵循

名称	描述	领域	样本数量	准确性	相关性	质量备注
Open-Orca/1million-gpt-4	FLAN集合，通过提交问题到GPT-4增强，许多问题提供上下文段落。	指令	1M	5	4
SlimOrca	此版本提供了一种高效的方式，使用更大的数据切片，仅包含约500k GPT-4完成，许多问题提供上下文段落。	指令（单轮聊天）	518k	5	4
GPT4-LLM	使用Alpaca提示生成的GPT-4指令遵循数据，分为主要指令和可选伴随参数。	指令	54.6k	5	4
databricks-dolly-15k	Dolly2.0（对，英语，15K+条目）— 人类编写的问题和响应数据集，包含问答和总结等任务，有时提供可选“上下文”参数。	指令	15k	5	4
allenai/WildChat (GPT4-EN)	100万次人类用户和ChatGPT之间的对话，25.53%来自GPT-4聊天机器人，其余来自GPT-3.5聊天机器人，包含有害性分类。	聊天，指令	168k	4	5	仅GPT-4条目
sablo/oasst2_curated	从OpenAssistant/oasst2对话中筛选和精选的高质量数据集，用于SFT。	聊天	train 4.69k, test 24	5	4	开放式对话，人类标注
CollectiveCognition/chats-data-2023-09-22	用户在“Collective Cognition”网站上共享的ChatGPT模型之间的对话集合，包含ChatGPT生成的对话标题。	聊天，指令	156	4.75	4	过滤后的人类数据
lmsys/lmsys-chat-1m	100万次真实对话，包含模型标签、语言、有害性评级和PII修订，许多非英语提示。	聊天，指令	1M	4.5	4	过滤后的人类数据
GPTeacher	GPT-4生成的自我指令数据集，混合了开放/封闭问答、重写、基于提供段落回答问题。	指令	89.3k	4.5	4	GPT-4生成
UltraChat	774K数据中的一些非常长，基本超过10000长度，问题和响应合并为一个字段。	聊天	774k	4.5	4	人类生成的对话，经过人类改进
jondurbin/airoboros-3.2	修改的自我指令GPT-4，包含一些有害/有毒内容。	指令	58,709	4.5	4	数学计算错误，主要由GPT-4生成
UltraInteract	专为复杂推理任务设计的大规模高质量对齐数据集。	指令，包含编程、数学等子任务	289K	4	5	专为推理设计
AutoIF	与IFEval匹配的合成数据集，无开源下载。输出格式和长度有限制。	指令	N/A	N/A	N/A	通过IFEval生成数据
WizardLM_evol_instruct_V2_196k	原始wizard lm数据	指令	143k（仅从Alpaca和ShareGPT演化的数据混合）	4.5	3	人类：一些错误；gpt-3.5-turbo生成
TIGER-Lab/WebInstructSub	大量高质量指令数据存在于网络语料库中，涵盖数学和科学等领域，具体包含mathstackexchange、stackexchange和socratic的数据。	指令（数学、科学问答）	2.34M	5	3	人类：不相关
soda	涵盖广泛社交互动的对话数据集。	聊天	train 1.19M validation 146k test 149k	5	3	准确性：对话和对话数据量不一致。对话包含proper_name信息。人类：非GPT-4水平
Daring-Anteater	包含100k对话，平均每条2.88模型轮次，使用NVIDIA专有模型和Mistral-8x7B-Instruct-v0.1生成，其余样本来自FinQA、wikitablequestions和商业友好的Open-Platypus子集。	聊天	99.5k	5	3	人类：来自NVIDIA专有模型和Mistral-8x7B-Instruct-v0.1，非GPT-4
AlpacaDataCleaned	一些Alpaca/ LLaMA-like模型（对，英语）— Alpaca、GPT_LLM和GPTeacher的清洁版本。清洁以纠正：幻觉、合并指令、空输出、空代码示例、生成图像的指令、N/A输出、错误答案(?)、非理性/不清楚的指令、额外转义和控制字符	指令	52k	5	3	应审查一些数据清洁选择
Alpaca data	ChatGLM-fine-tune-LoRA；Koala（对话，对，英语，52K条目，21.4MB）— 由text-davinci-003生成，以增强语言模型遵循人类指令的能力。包含指令字段（所有唯一），可选输入约40%的数据，模型输出，最后是遵循提示模板的格式化组合。	指令	52k	4.5	3
ChatAlpaca	使用ChatGPT（GPT-3.5-turbo）生成后续话语并继续与ChatGPT对话	聊天，指令	20k	4	3
ShareGPT	一些代码内容，主要是普通对话。主要是非英语	聊天	9.03k行	3	3	准确性：许多外语。人类：过滤后，高质量GPT4日常问答数据集，大小6K，主要是知识问答、编程问题、推理计算，包括简体中文、繁体中文、英语、日语、韩语和各种语言
GPT-4all	来自stackoverflow的问题。包含HTML标签。	单轮聊天，用户-助手交互	438k	3	2	人类：提示是html编码和数学，与指令遵循不相关
OpenAssistant/oasst1	此版本的数据集包含截至2023年4月12日在open-assistant.io网站上收集的数据。人类生成，人类标注的助手风格对话语料库，包含161,443条消息，35种不同语言，标注了461,

搜集汇总

数据集介绍

构建方式

Flywheel-v2数据集的构建过程涉及三个主要贡献：数据生成、数据集编译和数据集精选。首先，数据生成阶段专注于两个重要领域：指令跟随和函数调用。其次，数据集编译阶段收集并编译了高质量的数据集，涵盖指令跟随、编码和数学领域，并进行了质量检查。最后，数据集精选阶段根据质量检查结果，精心筛选出适合后训练的大型语言模型（LLMs）的高质量数据集。这些数据集经过严格收集和评估，确保其高质量和相关性。

特点

Flywheel-v2数据集的主要特点在于其高质量和多样性。该数据集不仅涵盖了指令跟随、编码和数学等多个领域，还特别强调了数据的质量控制。通过仅保留GPT-4生成的数据，并剔除低质量的数据源，确保了数据集的高准确性和相关性。此外，数据集的多样性体现在其广泛的应用场景和任务类型，能够有效支持LLMs的后训练需求。

使用方法

Flywheel-v2数据集可通过Hugging Face Hub直接下载，推荐使用其大型和多样化的版本。使用该数据集时，建议用户仔细检查数据集的许可证信息，特别是对于商业用途的数据集。数据集的使用方法包括但不限于：用于LLMs的后训练、指令跟随模型的训练、函数调用模型的训练等。用户可根据具体需求选择合适的数据集进行训练和验证。

背景与挑战

背景概述

Flywheel-v2数据集是由一支专注于大型语言模型（LLMs）后训练数据的高质量与大规模数据合成的研究团队创建的。该数据集的核心研究问题是如何为LLMs提供高质量、大规模的数据以进行后训练，特别是在指令跟随、函数调用、编码和数学等领域。Flywheel-v2的创建旨在解决LLMs在实际应用中对高质量数据的需求，通过提供经过严格质量检查的数据集，以确保数据的相关性和准确性。该数据集的发布对LLMs的研究和应用具有重要影响，尤其是在提升模型性能和泛化能力方面。

当前挑战

Flywheel-v2数据集在构建过程中面临多个挑战。首先，数据生成过程中需要确保数据的多样性和高质量，特别是在指令跟随和函数调用领域。其次，数据集的编译和质量检查过程复杂，需要对大量数据进行筛选和评估，以确保数据的相关性和准确性。此外，数据集的版权和使用许可问题也是一个重要挑战，特别是某些数据集虽然声称是开放的，但实际上使用了商业模型，这可能导致在使用过程中出现法律风险。最后，数据集的规模和多样性要求高效的存储和处理技术，以支持大规模数据的下载和使用。

常用场景

经典使用场景

Flywheel-v2数据集在大型语言模型（LLMs）的后训练阶段中扮演着至关重要的角色。其经典使用场景主要集中在指令跟随（Instruction Following）和函数调用（Function Calling）两个重要领域。通过提供高质量、多样化的数据，Flywheel-v2帮助模型在处理复杂任务时更加精准和高效。例如，在指令跟随任务中，数据集能够帮助模型更好地理解和执行用户指令，而在函数调用任务中，数据集则支持模型正确调用和执行特定功能，从而提升整体性能。

解决学术问题

Flywheel-v2数据集解决了大型语言模型在指令跟随和函数调用任务中的常见学术研究问题。通过提供经过严格质量检查的数据，该数据集确保了模型在处理复杂任务时的准确性和相关性。这不仅提升了模型的性能，还为相关领域的研究提供了可靠的数据支持。此外，Flywheel-v2的多样性和高质量数据为研究者提供了丰富的资源，有助于推动语言模型在实际应用中的进一步发展。

衍生相关工作

Flywheel-v2数据集的发布催生了一系列相关经典工作。例如，研究者利用该数据集进行模型微调，提升了模型在指令跟随和函数调用任务中的表现。此外，基于Flywheel-v2的高质量数据，一些新的评估方法和基准测试也被提出，进一步推动了语言模型性能的评估和优化。这些衍生工作不仅丰富了语言模型的研究内容，也为实际应用提供了更多可能性。

以上内容由遇见数据集搜集并总结生成