dolphin-r1-deepseek-enPurified-openai-messages
收藏Hugging Face2026-01-18 更新2026-01-19 收录
下载链接:
https://huggingface.co/datasets/enPurified/dolphin-r1-deepseek-enPurified-openai-messages
下载链接
链接失效反馈官方服务:
资源简介:
enPurified数据集是一个经过严格筛选的高质量英语散文和推理文本集合,旨在为需要强大英语语言基础的模型提供高保真的训练源,去除了代码片段、数学LaTeX块和低质量的网络文本。数据集通过多阶段的启发式管道处理,确保只保留最连贯和词汇丰富的例子。数据集的结构遵循OpenAI Messages API格式,并且是一个衍生作品,用户应参考原始数据集的许可证。
The enPurified dataset is a rigorously curated collection of high-quality English prose and reasoning texts, designed to serve as a high-fidelity training source for models requiring strong English language proficiency. Code snippets, mathematical LaTeX blocks, and low-quality web texts have been excluded from the dataset. It is processed via a multi-stage heuristic pipeline to ensure only the most coherent and lexically rich examples are retained. The dataset follows the OpenAI Messages API format in its structure, and it is a derivative work; users should refer to the license of the original dataset.
创建时间:
2026-01-11
原始信息汇总
enPurified Dolphin R1 Deepseek 数据集概述
数据集基本信息
- 数据集名称:enPurified Dolphin R1 Deepseek
- 语言:英语 (en)
- 许可证:其他 (other)
- 任务类别:文本生成、文本分类
- 标签:高质量、散文、过滤、英语、推理、纯化
- 规模类别:10K < n < 100K
- 数据集状态:原始数据集的修剪版本
数据集来源
- 本数据集是 https://huggingface.co/datasets/mlabonne/dolphin-r1-deepseek 的一个修剪版本。
- 更新于1月18日,以尽可能去除数学和代码内容。
数据集目标与特点
- 核心目标:提炼开源数据集,专注于提供纯粹的英语散文和推理内容,服务于需要扎实英语语言基础能力的模型训练。
- 主要特点:
- 专注于高质量的英语句法推理和叙事流畅性。
- 旨在作为高保真度的训练数据源,避免代码片段、数学LaTeX块或低质量网络文本的干扰。
- 所有数据已标准化为OpenAI Messages格式,便于集成到现代训练流程中。
数据集统计信息
- 原始数据行数:300,018
- 最终数据行数:38,099
- 数据削减率:约87.3%被移除
- 内容类型:高质量的英语推理和散文。
数据修剪流程
数据通过一个严格的十阶段“筛选流程”进行过滤,具体启发式方法如下:
- 预标准化:去除解决方案块(
<|begin_of_solution|>),标准化“Thought”标签为<think>/</think>。 - 语法与禁止词过滤:过滤特定编码构件、HTML文档类型、Asymptote矢量图形以及包含非散文内容指示性子字符串的文档。
- 数学内容过滤:积极检测并移除大量LaTeX格式,过滤块方程和密集的行内数学公式。
- 符号密度检查:计算代码类符号相对于文本长度的比率,拒绝符号密度超过4%的文档。
- 测验与多选题过滤:识别并移除多选题结构。
- 结构完整性检查:
- 短行密度:拒绝超过80%的行少于20个字符的文本。
- 重复性:通过不同的行检查确保文本不是重复循环或错误日志。
- 质量启发式检查:
- 平均词长:验证平均词长在3.5到11个字符之间。
- 长度检查:确保文档包含足够的上下文(至少20个词)。
- 毒性安全过滤:轻量级过滤器,检查高密度亵渎或NSFW术语(阈值设为总标记的0.5%)。
- 英语散文识别:
- 停用词密度:要求常见英语停用词的最小密度(20%)。
- ASCII检查:强制要求高百分比的ASCII字符以过滤非英语语言。
- 词汇多样性检查:计算文本词汇多样性度量,仅保留MTLD分数≥70.0的文档。
数据结构
数据集遵循标准的OpenAI Messages API格式: json { "messages": [ { "role": "user", "content": "..." }, { "role": "assistant", "content": "..." } ] }
许可信息
- 本数据集是一个衍生作品。
- 用户应参考其来源原始数据集的许可证:https://huggingface.co/datasets/mlabonne/dolphin-r1-deepseek
搜集汇总
数据集介绍

构建方式
在自然语言处理领域,构建高质量语料库是提升模型语言理解能力的关键。enPurified数据集通过一个精心设计的十阶段“炼狱”筛选流程,从原始数据集中提炼出纯粹的英语散文与推理内容。该流程首先进行文本规范化处理,移除解决方案块等噪声标记,随后依次应用语法禁令门、数学门、符号密度检查、测验过滤、结构完整性验证、质量启发式规则、毒性安全过滤、英语散文识别以及词汇多样性评估等多重启发式规则。每一阶段均设定严格阈值,例如符号密度不得超过4%,平均词长需介于3.5至11字符之间,且文本词汇多样性指标MTLD需达到70以上,确保最终保留的38,099条数据均具备高度的语法规范性与叙事连贯性。
特点
作为专注于英语语言基础训练的高质量语料库,enPurified数据集展现出鲜明的特征。其核心在于纯粹性,通过系统性过滤彻底消除了代码片段、数学公式、低质量网络文本及多语言混杂内容,仅保留语法结构严谨、词汇丰富的英语叙事与推理材料。数据集采用OpenAI消息格式进行标准化组织,每条记录均包含用户与助手角色的对话结构,便于直接集成至现代训练流程。此外,数据经过LangChain脚本处理,将长篇叙事切分为语境连贯的段落,进一步增强了其在上下文学习中的实用性。这些特性共同构成了一个专注于英语句法推理与叙事流畅性的高保真训练资源。
使用方法
该数据集主要服务于需要强化英语语言基础模型的训练与微调任务。研究人员可直接将其加载至支持HuggingFace数据集的训练框架中,利用其标准化的OpenAI消息格式进行模型输入输出对齐。在具体应用中,数据集适用于文本生成、文本分类及推理任务,尤其能为语言模型提供高质量的英语散文风格与链式推理示例。使用者应注意遵循原始数据集的许可协议,并在预处理阶段依据自身需求调整数据划分策略。通过集成此类纯净语料,模型能够在减少代码与数学干扰的环境中,更有效地学习英语的深层句法结构与叙事逻辑。
背景与挑战
背景概述
在自然语言处理领域,高质量语料库的构建对于提升模型的语言理解与生成能力至关重要。2024年发布的'enPurified Dolphin R1 Deepseek'数据集,由研究团队基于开源数据集'dolphin-r1-deepseek'精心提炼而成,旨在解决当前开源语料中普遍存在的代码、数学公式及低质量文本混杂问题。该数据集专注于纯英文散文与推理内容的收集,通过多阶段启发式管道过滤非散文元素,为需要强化英语语言基础模型的训练提供了高保真数据源,推动了语言模型在叙事流畅性与句法推理方面的专项发展。
当前挑战
该数据集致力于解决高质量英文散文与推理语料稀缺的核心挑战,即在多模态开源数据中精准分离并保留纯语言叙事内容。构建过程中的主要挑战体现在多阶段过滤管道的设计:需有效识别并移除代码片段、LaTeX数学公式、多项选择题结构等非散文元素,同时通过词汇多样性指标与符号密度检查确保文本的连贯性与丰富性,避免过滤过度导致语义完整性受损。此外,数据标准化为OpenAI消息格式以实现与现代化训练流程的无缝集成,亦对数据结构的统一性与兼容性提出了技术要求。
常用场景
经典使用场景
在自然语言处理领域,高质量英语语料的稀缺性促使研究者寻求纯净的文本资源以优化模型性能。enPurified数据集通过多阶段启发式管道严格过滤非散文内容,专注于英语句法推理和叙事连贯性,成为训练语言模型英语基础能力的经典资源。该数据集常用于微调大型语言模型,特别是在需要强化英语语言理解和生成任务中,如文本摘要、问答系统以及连贯性评估,为模型提供无代码和数学噪声的高保真训练样本。
解决学术问题
该数据集解决了学术研究中英语语料混杂代码、数学公式及低质量网络文本的常见问题,通过净化处理提升了语料的纯净度与一致性。其意义在于为语言模型训练提供了专注于英语推理和散文的高质量基准,促进了模型在语法结构、词汇多样性和叙事流畅性方面的性能评估。这一工作推动了自然语言处理领域对语料质量控制的重视,为后续研究设立了数据净化的新标准,影响了语料库构建与模型优化方向。
衍生相关工作
该数据集衍生了多项经典研究工作,特别是在语料净化与质量评估领域。基于其启发式管道,研究者开发了更精细的文本过滤算法,扩展应用于多语言或特定领域的数据集构建。此外,它启发了对词汇多样性指标(如MTLD)的深入应用,促进了文本质量量化方法的发展。相关成果还包括利用净化后语料训练的语言模型,这些模型在英语推理任务中展现出优越性能,为后续高质量数据集的设计提供了实践基础。
以上内容由遇见数据集搜集并总结生成



