llm-datasets

github2025-12-29 更新2026-01-13 收录

下载链接：

https://github.com/godfreyjason/llm-datasets

下载链接

链接失效反馈

官方服务：

资源简介：

精选的后训练数据集和工具列表，包括通用目的的混合数据集，如Nemotron-Post-Training-Dataset-v2、smoltalk2和open-perfectblend等，这些数据集覆盖了多种语言和领域，如数学、代码、通用推理和指令跟随。

A curated list of post-training datasets and tools, including general-purpose mixed datasets such as Nemotron-Post-Training-Dataset-v2, smoltalk2, open-perfectblend and others. These datasets cover multiple languages and domains, including mathematics, code, general reasoning and instruction following.

创建时间：

2025-12-29

原始信息汇总

LLM 数据集与工具精选列表概述

数据集简介

此资源库是一个为大型语言模型（LLM）后训练阶段精选的数据集和工具列表。其核心目标是汇集高质量的数据集，以支持模型的监督微调（SFT）和偏好对齐。

高质量数据集的特征

构建高质量数据集应瞄准以下三个关键特征：

准确性：样本应事实正确且与对应指令相关。
多样性：应覆盖尽可能多的用例，以确保模型不偏离分布，从而实现更好的泛化。
复杂性：样本应具备多轮对话、多语言、书写良好，并在相关时包含逐步推理。

指令数据集

此类数据集用于模型的监督微调（SFT），使其能够回答问题并遵循指令。除非特别说明，所列数据集均采用宽松许可（如 Apache 2.0、MIT、CC-BY-4.0 等）。

通用混合数据集

提供聊天、代码、数学等不同类型数据的平衡混合，用于创建能处理各类查询的通用模型。

数据集名称	样本量	作者/机构	发布日期	关键描述
Nemotron-Post-Training-Dataset-v2	6.34M	Nvidia	2025年8月	大规模数据集，包含针对数学、代码、通用推理和指令遵循的五种目标语言（西班牙语、法语、德语、意大利语、日语）。用于训练 Nemotron-Nano-9B-v2。
smoltalk2	3.38M	Hugging Face	2025年7月	用于训练带或不带推理轨迹的 SmolLM3 模型的数据集。包含 OpenThoughts3、Tulu 3 和多语言数据。
open-perfectblend	1.42M	Xu et al., Labonne	2024年10月	相关论文中描述的数据集的公开复现。这是一个坚实的通用指令数据集，包含聊天、数学、代码和指令遵循数据。
orca-agentinstruct-1M-v1	1.05M	Microsoft	2024年11月	AgentInstruct 数据集的子集，专为 Orca-3-Mistral 设计，使用网络上公开可用的原始文本作为种子数据。
tulu3-sft-mixture	939k	AllenAI	2024年11月	(CC-BY-NC-4.0) 用于训练 Tulu 3 模型的 SFT 混合数据集。使用公共数据集和新的合成版本，包括基于角色的答案以增加多样性。
FuseChat-Mixture	95k	Wan et al.	2024年2月	涵盖不同风格和能力的综合训练数据集，包含人工编写和模型生成的样本。

数学数据集

专注于数学推理和形式逻辑，通常包含系统性思维和逐步推理。

数据集名称	样本量	作者/机构	发布日期	关键描述
OpenMathInstruct-2	14M	Nvidia	2024年9月	使用 Llama-3.1-405B-Instruct 对 GSM8K 和 MATH（训练集）的样本进行增强。
MegaScience	1.25M	GAIR-NLP	2025年7月	(CC-BY-NC-SA-4.0) 高质量科学数据集，涵盖多个领域并包含消融研究。
NuminaMath-CoT	859k	Jia Li et al.	2024年7月	用于赢得 AI 数学奥林匹克首届进步奖的数据。提供工具集成推理版本。
Orca-Math	200k	Mitra et al.	2024年2月	使用 GPT4-Turbo 生成的小学数学应用题。

代码数据集

包含多样化的编程语言示例，用于微调 LLM 以增强其理解、生成和分析代码的能力。

数据集名称	样本量	作者/机构	发布日期	关键描述
Ling-Coder-SFT	4.48M	InclusionAI	2025年3月	包含 20 种编程语言和各种主题的大规模中英文编码数据集。
opc-sft-stage2	436k	Huang et al.	2024年11月	OpenCoder 第二阶段中使用的数据集，基于四个种子数据集。
CodeFeedback-Filtered-Instruction	157k	Zheng et al.	2024年2月	Magicoder-OSS-Instruct、ShareGPT (Python)、Magicoder-Evol-Instruct 和 Evol-Instruct-Code 的过滤版本。
synthetic_tex_to_sql	100k	Gretel.ai	2024年4月	涵盖不同领域的合成文本到 SQL 样本。

指令遵循数据集

专注于提升模型遵循用户提示中约束条件的能力。

数据集名称	样本量	作者/机构	发布日期	关键描述
AutoIF-instruct-61k-with-funcs	61.5k	Diao et al.	2024年10月	使用指定代码和 gpt-4o-mini 生成的样本，基于 Qwen 的 AutoIF 库。
ifeval-like-data	56.3k	Argilla	2024年10月	仅使用“filtered”子集。由 Qwen2.5-72B 生成并经 lm-evaluation-harness 验证的样本。
tulu-3-sft-personas-instruction-following	30k	AllenAI	2024年11月	使用角色方法创建的合成样本。

多语言数据集

提供多语言指令样本，以提升模型在目标语言上的性能。

数据集名称	样本量	作者/机构	发布日期	关键描述
luth-sft	570K	kurakurai	2025年8月	包含原始数据且经过良好筛选的法语/英语数据集。
aya dataset	204k	Singh et al.	2024年2月	通过 Aya 注释平台由开放科学社区策划的多语言指令微调数据集。
M2Lingual	175K	ServiceNow AI	2024年6月	涵盖 70 多种语言和 20 项 NLP 任务的数据集，使用基于任务分类指导的演化方法由 GPT-4 生成。

智能体与函数调用数据集

使 LLM 能够执行预定义函数，并与外部系统集成以执行复杂操作。

数据集名称	样本量	作者/机构	发布日期	关键描述
xlam-function-calling-60k	60k	Salesforce	2024年6月	使用旨在为函数调用应用生成可验证数据的数据生成管道创建的样本。
FunReason-MT	17k	Hao et al.	2025年10月	需要环境-API 图交互和思维链推理的复杂轨迹的多轮函数调用数据集。
hermes-function-calling-v1	11.6k	Nous	2024年8月	用于 Hermes 2 Pro 系列模型的结构化输出和函数调用数据汇编。
ToolACE	11.3k	Liu et al.	2024年8月	通过智能体管道自进化合成过程来策划全面的 API 池。
APIGen-MT-5k	5k	Salesforce	2025年4月	(CC-BY-NC-4.0) 通过模拟智能体-人类互动生成的多轮智能体轨迹，并带有已验证的任务蓝图。

真实对话数据集

提供人类与 LLM 自然交互的见解，帮助识别重要用例和理解典型使用模式。

数据集名称	样本量	作者/机构	发布日期	关键描述
WildChat-4.8M	3.2M	Allen AI	2025年8月	人类用户与 ChatGPT 之间的非毒性对话，使用 OpenAI Moderation API 进行过滤。
lmsys-chat-1m	1M	LMSYS	2023年9月	与 25 个 LLM 的真实世界对话，收集自 Vicuna 演示和 Chatbot Arena 网站。
arena-human-preference-100k	110k	LMSYS	2025年2月	从 Chatbot Arena 收集的人类偏好评估，用于对话分析和分类，包含预计算嵌入。

偏好数据集

由被选中的答案和被拒绝的答案组成，用于通过偏好对齐使 LLM 的答案符合人类偏好。

数据集名称	样本量	作者/机构	发布日期	关键描述
Skywork-Reward-Preference-80K-v0.2	77k	Skywork	2024年	从 HelpSteer2、OffsetBias、WildGuard 和 Magpie 等公共来源编译的偏好对。
ultrafeedback-binarized-preferences-cleaned	61.1k	Argilla	2023年	UltraChat 数据集的去污染版本，由 GPT-4 评分。

搜集汇总

数据集介绍

构建方式

在大型语言模型的后训练阶段，数据集的构建遵循严谨的质量标准，以确保样本的准确性、多样性和复杂性。llm-datasets通过整合多种技术手段来实现这一目标，包括人工审核、基于规则的启发式过滤以及利用评判性大型语言模型或奖励模型进行评分。该资源库汇集了来自不同研究机构与社区的公开数据集，涵盖通用混合、数学、代码、指令遵循、多语言、代理与函数调用以及真实对话等多个领域。每个数据集均经过精心筛选，确保其符合宽松许可协议，并附有详细的元数据说明，如样本数量、作者、发布日期及技术报告链接，从而为研究者提供了透明且可追溯的数据来源。

特点

llm-datasets的核心特征在于其高度的专业性与系统性组织。该资源库不仅覆盖了大型语言模型后训练所需的多样化任务类型，还特别强调了数据质量的三重维度：准确性要求样本事实正确且与指令相关；多样性旨在广泛覆盖用例以避免分布外问题；复杂性则体现为多轮对话、多语言支持、优质文本撰写及逐步推理的纳入。此外，数据集均标注了明确的许可信息，大多采用Apache 2.0、MIT或CC-BY-4.0等宽松协议，保障了学术与商业使用的便利性。通过按领域分类的清晰表格，研究者能够快速定位适合特定训练目标的数据资源，如数学推理、代码生成或多语言指令遵循等。

使用方法

使用llm-datasets时，研究者可根据具体训练阶段与目标灵活选取合适的数据集。对于监督微调，可从通用混合数据集中获取平衡的聊天、代码与数学样本，以构建通用型助手模型；若需增强特定能力，则可转向数学、代码或指令遵循等专项数据集。多语言数据集能有效提升模型在目标语言上的表现，而代理与函数调用数据集则支持工具使用与外部系统集成能力的培养。偏好数据集适用于偏好对齐训练，通过正负样本对引导模型输出符合人类价值观。实际应用中，建议结合数据集的元数据与相关技术报告，理解其生成方法与适用场景，并利用提供的Hugging Face链接直接加载数据进行预处理与模型训练。

背景与挑战

背景概述

在大型语言模型（LLM）技术迅猛发展的背景下，高质量数据集成为模型性能提升的关键。llm-datasets项目由Maxime Labonne等人于2024年发起，旨在系统性地整理和评估用于模型后训练（post-training）的多样化数据集。该项目聚焦于监督微调（SFT）和偏好对齐等核心环节，涵盖了通用对话、数学推理、代码生成、多语言理解及智能体交互等多个领域。通过集成来自NVIDIA、微软、艾伦人工智能研究所等顶尖机构发布的开放数据集，该项目为研究社区提供了宝贵的资源索引，显著促进了LLM在指令遵循、复杂问题解决和跨语言泛化能力方面的进步。

当前挑战

llm-datasets所应对的核心挑战在于如何构建与筛选满足准确性、多样性和复杂性三重标准的高质量数据。在领域层面，数据需精准支撑数学逻辑推演、代码语义理解、多轮指令遵循等复杂任务，这对数据的真实性与逻辑一致性提出了极高要求。在构建过程中，挑战主要体现为多源数据的异构整合、合成数据的真实性验证，以及通过人工审核、启发式规则与奖励模型评分相结合的质量控制机制设计。此外，多语言数据的文化适配性、实时对话数据的去噪与隐私处理，以及偏好数据中人类价值观的客观对齐，均是数据集构建中亟待解决的技术难题。

常用场景

经典使用场景

在大型语言模型的后训练阶段，llm-datasets作为精选的数据集集合，为模型的监督微调提供了核心资源。其经典使用场景聚焦于通过高质量指令数据对预训练模型进行专业化调整，使其能够遵循复杂指令、处理多轮对话并生成符合人类偏好的响应。例如，在构建通用助手模型时，研究者常混合使用其中的通用目的数据集，如open-perfectblend，以覆盖聊天、代码和数学推理等多种任务，从而提升模型在开放域问答中的综合表现。

实际应用

在实际应用层面，llm-datasets支撑了各类行业专用模型的快速开发。企业可利用其代码数据集训练智能编程助手，提升软件开发效率；教育机构可借助数学数据集构建自适应辅导系统。此外，其实时对话数据集如WildChat，为聊天机器人的自然交互优化提供了真实用户行为洞察，使产品能更精准地满足实际对话需求与安全规范。

衍生相关工作

围绕该数据集衍生的经典工作丰富多样，例如基于Nemotron-Post-Training-Dataset-v2训练的Nemotron-Nano-9B-v2模型，展现了多语言任务上的卓越性能。同时，Tulu 3系列模型利用tulu3-sft-mixture及其人物指令数据集，验证了合成数据在增强指令跟随多样性方面的有效性。这些工作共同推动了后训练数据标准化与模型能力边界拓展的研究浪潮。

以上内容由遇见数据集搜集并总结生成