five

txchmechanicus/GLM-5.1-Reasoning-1M-Cleaned

收藏
Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/txchmechanicus/GLM-5.1-Reasoning-1M-Cleaned
下载链接
链接失效反馈
官方服务:
资源简介:
GLM-5.1-Reasoning-1M-Cleaned 是一个经过清理和重新格式化的数据集,源自 GLM-5.1-1000000x。它保留了原始数据集的四个子集(main、PHD-Science、Multilingual-STEM、Math),并将每个示例转换为统一的 SFT-ready 模式,包含明确的 `conversations`、`input`、`output`、`domain` 和 `meta` 字段。该数据集主要用于文本生成和问答任务,特别关注推理、思维链、指令调优和蒸馏等技术。清理过程移除了不完整、重复或无法解析的记录,并提供了详细的统计信息。

GLM-5.1-Reasoning-1M-Cleaned is a cleaned and reformatted derivative of the GLM-5.1-1000000x dataset. It preserves the original four-subset layout (main, PHD-Science, Multilingual-STEM, Math) while converting every example into a unified SFT-ready schema with explicit `conversations`, `input`, `output`, `domain`, and `meta` fields. The dataset is designed for text-generation and question-answering tasks, with a focus on reasoning, chain-of-thought, instruction-tuning, and distillation. The cleaning process removed incomplete, duplicated, or unparseable records, and detailed statistics are provided for each subset.
提供机构:
txchmechanicus
搜集汇总
数据集介绍
main_image_url
构建方式
在大型语言模型推理能力日益受到关注的背景下,GLM-5.1-Reasoning-1M-Cleaned数据集应运而生。该数据集源自Kassadin88发布的GLM-5.1-1000000x原始数据,通过对教师模型GLM-5.1生成的约76.6万条推理轨迹进行系统性清洗与格式化重构而成。清洗流程精确去除了不完整回答、重复段落、拒绝式回复以及不可解析的推理边界等异常样本,最终保留约74.6万条高质量记录。数据保留了完整的四子集结构,包括通用推理、博士级科学、多语言STEM和数学推理,并统一转换为包含conversations、input、output、domain和meta字段的SFT标准schema。
特点
该数据集最显著的特点在于其多维度的高质量标准与结构一致性。所有样本都采用<think>推理过程</think>后接最终答案的统一输出格式,确保了推理链的明确可解析性。数据涵盖了从通用指令跟随到博士级科学推理的四个专业子集,其中数学子集的中位输出令牌数高达24498,体现了深度推理的复杂程度。每个样本配备轻量元数据,包含输入输出令牌数及教师模型信息,为训练路线的超参数调优提供了便利。经过严格清洗,有效消除了原始数据中两种混杂的回答格式,使数据集在监督微调场景中更具实用性。
使用方法
使用者可通过HuggingFace Datasets库便捷加载该数据集的任一子集,例如执行load_dataset('Jackrong/GLM5.1-Reasoning-1M-Cleaned', 'Math')即可获取数学推理样本。每个样本被组织为单轮推理蒸馏用例,支持两种训练范式:可直接使用conversations字段进行对话式微调,也可利用input和output扁平字段构建标准提示-补全训练管线。meta字段中的令牌统计信息可辅助设计动态批次策略或长度截断方案。该数据集特别适用于训练具有链式思考能力的中英文大语言模型,建议在引用时同时标注原始数据集及本清洗版本的出处。
背景与挑战
背景概述
GLM-5.1-Reasoning-1M-Cleaned数据集由研究者Jackrong于2026年创建,源自Kassadin88发布的GLM-5.1-1000000x原始数据集。该数据集聚焦于大规模推理轨迹的知识蒸馏与指令微调,核心研究问题在于如何从GLM-5.1教师模型中提取高质量、结构化的多领域推理数据,以增强小模型的链式思维能力。数据集保留main、PHD-Science、Multilingual-STEM、Math四个子集,涵盖通用推理、研究生级科学推理、多语言STEM及数学证明等多种场景。通过对原始数据的高效清洗与格式化,该数据集为推理增强型模型的训练提供了统一、可靠的语料基础,在对话式AI与科学推理领域具有重要的开源影响力。
当前挑战
该数据集所解决的领域挑战在于:大规模语言模型在复杂推理任务中常因训练数据噪声与格式不一致导致思维链质量下降,亟需高质量、格式统一的蒸馏数据以提升模型的可解释性与泛化能力。构建过程中面临多重挑战:原始数据存在两种不同的推理标签格式,需归一化为标准<think>标签结构;大量记录存在不完整输出、重复段落、拒绝式回答或推理边界不可解析等问题;跨子集数据规模差异悬殊,如Math子集输出Token中位数高达24498,远超其他子集,需精细处理长序列的完整性;此外,还需去除完全重复的记录,确保数据唯一性。最终从766,535条记录中保留746,321条,移除20,214条,达到了高质量的数据筛选目标。
常用场景
经典使用场景
在大规模语言模型的研究浪潮中,思维链推理能力的强化训练已成为提升模型复杂问题求解水平的核心路径。GLM-5.1-Reasoning-1M-Cleaned数据集专为监督微调与知识蒸馏场景而生,通过提供超过74万条经过统一清洗和格式化的推理对话样本,支持研究者对基座模型进行指令跟随与推理能力的定向增强。该数据集以GLM-5.1为教师模型,产出了包含标准<think>推理标签的高质量输出,适用于构建从用户提示到模型深思熟虑后回答的端到端训练流程。
解决学术问题
该数据集精准回应了当前大语言模型研究中两个关键学术难题:一是如何获取大规模、高保真的思维链推理数据以突破模型推理瓶颈,二是如何消除原始数据中的噪声与不一致性以提升训练稳定性。通过细致的清洗流程,研究者去除了不完整输出、重复段落、拒绝回答及解析异常等近两万条低质样本,确保了每个子集内数据质量的一致性和可靠性。这一工作为后续研究者提供了可复用的推理数据净化范式,有效支撑了从通用推理到博士级科学问题的进阶式推理能力探索。
衍生相关工作
该数据集的诞生源于对Kassadin88/GLM-5.1-1000000x的深度清洗与重构,其衍生工作已覆盖多个前沿研究方向。基于统一SFT格式的设计思路,研究者可以将其与其它推理类数据集融合,开展跨模型蒸馏对比实验。此外,数据集中呈现的<think>标签格式与输出长度分布统计,为思维链压缩、推理路径剪枝等效率优化工作提供了基准数据。部分学术团队已基于该数据集的子集分布特征,探索分层微调策略,旨在针对不同难度推理任务实现模型能力的精细化调控。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作