llm-datasets

github2025-12-29 更新2026-01-13 收录

下载链接：

https://github.com/khoroumenate/llm-datasets

下载链接

链接失效反馈

官方服务：

资源简介：

精选的后训练数据集和工具列表，旨在提供高质量的数据集，具备准确性、多样性和复杂性。

A curated list of post-training datasets and tools, aimed at providing high-quality datasets with accuracy, diversity and complexity.

创建时间：

2025-12-29

原始信息汇总

数据集概述

数据集简介

这是一个用于大语言模型（LLM）后训练的数据集和工具精选列表。该列表专注于为监督微调（SFT）和偏好对齐提供高质量的数据集资源。

高质量数据集的特征

准确性：样本应事实正确且与对应指令相关，可能涉及使用数学求解器和代码单元测试。
多样性：需要覆盖尽可能多的用例，以确保模型不会超出分布范围，这对实现更好的泛化至关重要。
复杂性：样本应具有多轮对话、多语言、书写良好，并在相关时包含逐步推理。

指令数据集

用于将经过预训练的模型通过监督微调（SFT）转变为能够回答问题并遵循指令的助手。除非特别说明，所列数据集均采用宽松许可证（Apache 2.0, MIT, CC-BY-4.0等）。

通用混合数据集

提供聊天、代码和数学等不同类型数据的平衡混合，用于创建能处理各种查询的通用模型。

数据集名称	样本数量	作者/机构	日期	关键描述
Nemotron-Post-Training-Dataset-v2	6.34M	Nvidia	2025年8月	大规模数据集，包含西班牙语、法语、德语、意大利语、日语五种目标语言，涵盖数学、代码、通用推理和指令遵循。用于训练Nemotron-Nano-9B-v2。
smoltalk2	3.38M	Hugging Face	2025年7月	用于训练带或不带推理轨迹的SmolLM3模型的数据集。包含OpenThoughts3、Tulu 3和多语言数据。
open-perfectblend	1.42M	Xu et al., Labonne	2024年10月	相关论文中描述的数据集的公开复现。这是一个坚实的通用指令数据集，包含聊天、数学、代码和指令遵循数据。
orca-agentinstruct-1M-v1	1.05M	Microsoft	2024年11月	AgentInstruct数据集的子集（约25个样本），专为Orca-3-Mistral设计，使用网络上公开可用的原始文本作为种子数据。
tulu3-sft-mixture	939k	AllenAI	2024年11月	(CC-BY-NC-4.0) 用于训练Tulu 3的SFT混合数据集。使用公共数据集和新的合成版本，包括基于角色的答案以增加多样性。
FuseChat-Mixture	95k	Wan et al.	2024年2月	涵盖不同风格和能力的综合训练数据集，包含人工编写和模型生成的样本。

数学数据集

专注于数学推理和形式逻辑，通常包含系统性思维和逐步推理。

数据集名称	样本数量	作者/机构	日期	关键描述
OpenMathInstruct-2	14M	Nvidia	2024年9月	使用Llama-3.1-405B-Instruct对GSM8K和MATH（训练集）的样本进行增强。
MegaScience	1.25M	GAIR-NLP	2025年7月	(CC-BY-NC-SA-4.0) 高质量科学数据集，包含多样化的领域和消融研究。
NuminaMath-CoT	859k	Jia Li et al.	2024年7月	用于赢得AI数学奥林匹克首届进步奖的数据。
Orca-Math	200k	Mitra et al.	2024年2月	使用GPT4-Turbo生成的小学数学文字问题。

代码数据集

包含多种编程语言示例，用于微调LLM以增强其理解、生成和分析代码的能力。

数据集名称	样本数量	作者/机构	日期	关键描述
Ling-Coder-SFT	4.48M	InclusionAI	2025年3月	大规模英中双语编码数据集，涵盖20种编程语言和多种主题。
opc-sft-stage2	436k	Huang et al.	2024年11月	OpenCoder第二阶段中使用的数据集，基于四个种子数据集。
CodeFeedback-Filtered-Instruction	157k	Zheng et al.	2024年2月	Magicoder-OSS-Instruct、ShareGPT (Python)、Magicoder-Evol-Instruct和Evol-Instruct-Code的过滤版本。
synthetic_tex_to_sql	100k	Gretel.ai	2024年4月	合成文本到SQL样本（约2300万词元），涵盖不同领域。

指令遵循数据集

专注于提升模型遵循用户提示中约束的能力。

数据集名称	样本数量	作者/机构	日期	关键描述
AutoIF-instruct-61k-with-funcs	61.5k	Diao et al.	2024年10月	使用指定代码和gpt-4o-mini生成的样本，基于Qwen的AutoIF库。
ifeval-like-data	56.3k	Argilla	2024年10月	仅使用“filtered”子集。由Qwen2.5-72B生成并经lm-evaluation-harness验证的样本。
tulu-3-sft-personas-instruction-following	30k	AllenAI	2024年11月	使用角色创建的合成样本，遵循Ge等人（2024）引入的方法论。

多语言数据集

提供多语言指令样本，以提升目标语言的性能。

数据集名称	样本数量	作者/机构	日期	关键描述
luth-sft	570K	kurakurai	2025年8月	法语/英语数据集，包含原始数据和良好的整理。
aya dataset	204k	Singh et al.	2024年2月	通过Aya注释平台由开放科学社区整理的多语言指令微调数据集。
M2Lingual	175K	ServiceNow AI	2024年6月	涵盖70多种语言和20多项NLP任务的数据集，使用基于任务分类法引导的演化从GPT-4生成。

智能体与函数调用数据集

使LLM能够执行预定义函数，并与外部系统集成。

数据集名称	样本数量	作者/机构	日期	关键描述
xlam-function-calling-60k	60k	Salesforce	2024年6月	使用旨在为函数调用应用生成可验证数据的数据生成管道创建的样本。
FunReason-MT	17k	Hao et al.	2025年10月	多轮函数调用数据集，包含需要环境-API图交互和思维链推理的复杂轨迹。
hermes-function-calling-v1	11.6k	Nous	2024年8月	用于Hermes 2 Pro系列模型的结构化输出和函数调用数据汇编。
ToolACE	11.3k	Liu et al.	2024年8月	通过智能体管道自我进化合成过程来整理全面的API池。
APIGen-MT-5k	5k	Salesforce	2025年4月	(CC-BY-NC-4.0) 通过模拟智能体-人类交互与已验证任务蓝图生成的多轮智能体轨迹。

真实对话数据集

提供人类与LLM自然交互的见解，帮助识别重要用例和理解典型使用模式。

数据集名称	样本数量	作者/机构	日期	关键描述
WildChat-4.8M	3.2M	Allen AI	2025年8月	人类用户与ChatGPT之间的非毒性对话，使用OpenAI Moderation API过滤。
lmsys-chat-1m	1M	LMSYS	2023年9月	与25个LLM的真实世界对话，收集自2023年4月至8月Vicuna演示和Chatbot Arena网站上的21万个独立IP地址。
arena-human-preference-100k	110k	LMSYS	2025年2月	2024年6月至8月期间从Chatbot Arena收集的人类偏好评估。用于Arena Explorer中的对话分析和分类。包含预计算的嵌入。

偏好数据集

由被选中的和被拒绝的答案组成，用于通过偏好对齐使LLM的答案与人类偏好和期望的风格、价值观保持一致。

数据集名称	样本数量	作者/机构	日期	关键描述
Skywork-Reward-Preference-80K-v0.2	77k	Skywork	2024年	从HelpSteer2、OffsetBias、WildGuard和Magpie等公共来源编译的偏好对。
ultrafeedback-binarized-preferences-cleaned	61.1k	Argilla	2023年	UltraChat数据集的去污染版本，由GPT-4评分。

搜集汇总

数据集介绍

构建方式

在大型语言模型的后训练阶段，构建高质量数据集是提升模型性能的关键。llm-datasets作为一个精选的数据集集合，其构建过程严格遵循准确性、多样性和复杂性的核心原则。数据来源广泛，涵盖了开源社区贡献、学术机构发布以及企业研究团队公开的成果。每个数据集都经过多阶段的质量控制，包括人工审核、基于规则的启发式过滤以及利用评判型大语言模型或奖励模型进行评分，确保样本在事实正确性、语言表达和逻辑推理上的可靠性。数据集按照通用混合、数学、代码、指令遵循、多语言、智能体与函数调用以及真实对话等类别进行系统化组织，为不同后训练需求提供了结构化的资源支持。

特点

该数据集集合的显著特点在于其高度的专业性和覆盖面。它不仅汇集了如Nemotron-Post-Training-Dataset-v2、smoltalk2等大规模通用混合数据集，还深度聚焦于数学推理、代码生成、多语言理解及智能体函数调用等垂直领域。数据集普遍采用宽松的开源许可协议，如Apache 2.0、MIT等，保障了研究的可及性与合规性。此外，许多数据集附带了详细的技术报告或学术论文，阐明了其生成方法论与评估结果，为研究者提供了透明的背景信息和可复现的基础。这种兼顾广度与深度、并强调可解释性的设计，使其成为推动大语言模型专业化微调的重要基础设施。

使用方法

研究者与实践者可通过Hugging Face平台直接访问该集合中列出的各个数据集。典型的使用流程始于根据目标任务——例如提升模型的数学解题能力或代码生成质量——选择相应的专项数据集，如OpenMathInstruct-2或Ling-Coder-SFT。随后，可将选定的数据集加载至训练框架中，用于监督微调或偏好对齐等后训练任务。对于需要构建通用能力模型的情况，则可考虑采用open-perfectblend等混合数据集。使用过程中，建议仔细查阅各数据集的元数据说明，关注其规模、构建日期、许可协议及可能存在的使用限制，以确保研究的严谨性与合规性。

背景与挑战

背景概述

随着大型语言模型（LLM）技术的迅猛发展，监督微调与偏好对齐成为提升模型性能的关键环节。llm-datasets项目由Maxime Labonne等研究人员于2024年发起，旨在系统性地整理和提供高质量的后训练数据集资源，涵盖通用对话、数学推理、代码生成、多语言理解及智能体交互等多个核心领域。该项目不仅汇集了如NVIDIA、微软、AllenAI等顶尖机构发布的数据集，还通过严格的准确性、多样性和复杂性标准，为LLM的指令遵循能力与人类偏好对齐提供了坚实的数据基础，显著推动了开放科学社区在模型优化与评估方面的协作进程。

当前挑战

在构建与利用llm-datasets过程中，面临多重挑战。领域层面，数据集需解决LLM在数学逻辑、代码合成及跨语言指令遵循等复杂任务中的泛化能力不足问题，这要求数据具备高精度与多步推理特性。构建过程中，确保样本的准确性与多样性尤为困难，涉及大规模数据清洗、多语言对齐及合成数据的真实性验证；同时，平衡数据规模与质量、处理许可协议兼容性以及维护数据集的时效性，亦是持续存在的技术障碍。

常用场景

经典使用场景

在大语言模型的后训练阶段，llm-datasets作为精选的数据集集合，其经典应用场景在于为监督微调提供高质量、多样化的指令数据。这些数据集覆盖了通用对话、数学推理、代码生成、指令遵循及多语言交互等多个领域，研究人员通过混合不同数据集来构建平衡的训练集，从而训练出能够处理复杂查询的通用型助手模型。例如，结合Nemotron-Post-Training-Dataset-v2与open-perfectblend等数据集，可以有效地提升模型在数学、代码及多语言任务上的综合性能。

实际应用

在实际应用层面，llm-datasets支持了多种产业级模型的开发与部署。例如，基于其中的真实对话数据集WildChat-4.8M，企业可以分析用户与模型的自然交互模式，优化客服机器人的响应策略；而函数调用数据集如xlam-function-calling-60k，则使模型能够集成外部API，实现自动化任务处理，广泛应用于智能助手、代码生成工具和多语言翻译系统。这些数据集为模型在实际场景中的可靠性、安全性和适应性提供了关键数据支撑。

衍生相关工作

围绕llm-datasets衍生出了一系列经典研究工作，例如Nvidia利用Nemotron-Post-Training-Dataset-v2训练了Nemotron-Nano-9B-v2模型，验证了多语言后训练的有效性；AllenAI基于tulu3-sft-mixture开发了Tulu 3模型系列，展示了合成数据在提升对话多样性方面的潜力。此外，如FunReason-MT和APIGen-MT-5k等数据集，进一步推动了智能体与函数调用技术的研究，为复杂任务的多步推理和环境交互提供了新的数据范式。

以上内容由遇见数据集搜集并总结生成