five

smollm-corpus-cosmopedia-v2-enPurified-openai-messages

收藏
Hugging Face2026-01-12 更新2026-01-13 收录
下载链接:
https://huggingface.co/datasets/enPurified/smollm-corpus-cosmopedia-v2-enPurified-openai-messages
下载链接
链接失效反馈
官方服务:
资源简介:
Cosmopedia-v2-enPurified是一个高质量英语散文数据集,源自HuggingFaceTB/smollm-corpus的cosmopedia-v2子集。该数据集通过严格的筛选过程,从3910万行数据中精选出7,732,241行最高质量的英语散文,剔除了技术噪音、外语和低质量文本。数据集采用OpenAI Messages格式,便于现代微调框架使用。筛选标准包括语言和逻辑深度、句法复杂性以及安全性和清理等多个方面,确保文本具有丰富的词汇、复杂的句子结构和高质量的逻辑链接。此外,数据集特别排除了数学和代码内容,专注于纯英语散文。
创建时间:
2026-01-12
原始信息汇总

Cosmopedia-v2-enPurified-openai-messages 数据集概述

数据集基本信息

  • 名称: Cosmopedia-v2-enPurified-openai-messages
  • 语言: 英语 (en)
  • 许可证: Open Data Commons Attribution License (odc-by)
  • 标签: nlp, conversational, prose, filtered, cosmopedia-v2, quality-filtered, synthetic, enPurified
  • 任务类别: 文本生成 (text-generation)
  • 源数据集: HuggingFaceTB/smollm-corpus
  • 数据规模: 1M<n<10M (百万到千万级别)
  • 更新日期: 2025年1月12日

数据集描述

Cosmopedia-v2-enPurified 是 HuggingFaceTB/smollm-corpus (cosmopedia-v2) 子集的一个高密度、精炼版本。该数据集基于 高价值英语专业化 理念构建,旨在通过移除技术噪音、外语和低价值文本,隔离出最高质量的英语散文,以优化模型在语言细微差别和对话流畅性方面的训练。

数据处理与规模

  • 原始数据量: 39.1 million rows
  • 处理后数据量: 7,732,241 rows
  • 处理策略: 通过启发式剪枝流程,实现了约40-45%的排除率,仅保留符合严格学术和语言标准的“黄金”样本。

数据格式

数据集已标准化为 OpenAI Messages 格式,即一个包含“role”和“content”键的字典列表。具体结构如下: json { "messages": [ {"role": "system", "content": "Variations of a generic message:"}, {"role": "user", "content": "..."}, {"role": "assistant", "content": "..."} ] }

核心处理启发式规则(v5.2 “黄金版”)

1. 语言与逻辑深度

  • 实质内容检查: 样本需大于600字符,以确保提供深入解释而非简要总结。
  • 词汇多样性: 样本中唯一词比例需大于33%,以过滤重复的合成循环和过于简单的语言。
  • 逻辑流: 样本需包含至少一个分析性标记词(如 consequently, furthermore, notably),以确保高质量的逻辑连接。

2. 句法复杂性

  • 填充词密度: 样本中最大填充词比例需小于38%,以确保文本信息密集。
  • 句子结构: 样本平均每句单词数需大于15个,以优先考虑复杂的句子结构。

3. 安全与清理

  • AI身份修剪: 积极移除“As an AI language model,”、“Knowledge cutoff,”等“冗余”短语。
  • 标签规范化: 将思考/推理标签标准化为统一的 <think></think> 格式。
  • 去重: 使用 xxhash/MD5 指纹技术确保零重复内容。

enPurified 集合策略

  • 标准数据集: 高价值源数据通过上述启发式测试,仅保留优质散文。
  • 长格式内容: 对于如 LongPageStandardEbooks 等源数据,使用高质量的 LangChain 分块脚本 将内容分解为逻辑段落,并以OpenAI消息格式添加相关指令。
  • 无数学/无代码: 有意排除数学和代码领域,因为这些需求已有更专业的数据库(如GSM8K, StarCoder)来满足。

价值主张

  1. 动态上下文: 系统消息根据源元数据(受众和格式)生成,确保模型学习特定角色的表达方式。
  2. 通用兼容性: 可即插即用地用于现代微调框架,如 Axolotl, Unsloth 和 LLaMA-Factory。
  3. 信号纯净性: 通过剥离数学和代码,模型在训练期间避免“语法污染”,完全专注于高质量英语。

来源与许可

  • 源材料: 本数据集是 HuggingFaceTB 的 Cosmopedia-v2 的衍生作品。
  • 原始创建者: Hugging Face (SmolLM Team)
  • 原始许可证: Open Data Commons License Attribution family
  • 精炼方: enPurified 启发式处理流程
  • 许可说明: 请参考 HuggingFaceTB 的 Cosmopedia-v2 数据集。
搜集汇总
数据集介绍
main_image_url
构建方式
在自然语言处理领域,构建高质量数据集是提升模型语言生成能力的关键。Cosmopedia-v2-enPurified-openai-messages数据集通过精密的启发式筛选流程,从原始Cosmopedia-v2数据集中提炼出优质英文散文内容。该流程以高价值英语专业化为核心理念,移除了技术噪声、外语及低信息密度文本,将原始3910万行数据缩减至约773万行,专注于保留语言细腻度和对话流畅性最高的样本。这一过程融合了语言逻辑深度、句法复杂度及安全性检查,例如通过词汇多样性、逻辑标记分析和填充词密度等指标,确保数据在学术与语言标准上的严格性。
特点
该数据集的核心特征体现在其高度纯净的英文散文内容与标准化的OpenAI消息格式。数据集经过精心设计,专注于提升语言模型的语感与对话连贯性,通过动态生成的系统消息,使模型能够学习特定人物角色的表达方式。其格式兼容现代微调框架,实现了即插即用的便捷性。同时,数据集排除了数学与代码内容,避免了训练过程中的语法污染,从而强化了模型在高质量英语文本生成上的专注度。这些特性共同构成了一个优化语言细微差别与流畅交流的专用资源。
使用方法
在模型训练与应用中,该数据集的使用方法强调其标准化格式的通用性与针对性。数据集采用OpenAI消息格式,包含系统、用户和助手角色的对话结构,可直接集成到如Axolotl、Unsloth和LLaMA-Factory等主流微调框架中,无需额外转换。用户可通过加载这些结构化对话样本,专注于训练模型在英语散文生成和对话流管理方面的能力。建议结合特定任务需求,利用数据集的高质量散文内容,优化模型在语言细腻度和逻辑连贯性上的表现,同时注意其不包含数学或代码领域内容,适用于纯语言生成场景。
背景与挑战
背景概述
Cosmopedia-v2-enPurified-openai-messages数据集于2025年1月12日更新,由HuggingFace的SmolLM团队主导构建,作为Cosmopedia-v2语料库的精细化衍生版本。该数据集的核心研究问题聚焦于提升大型语言模型在英语散文生成与对话流畅性方面的表现,通过剔除数学、代码及低质量文本,专门优化模型对语言细微差别和逻辑连贯性的捕捉能力。其设计理念体现了当前自然语言处理领域对高质量、专业化训练数据的迫切需求,旨在推动对话系统与文本生成模型向更自然、更具深度的方向发展,对相关学术研究与工业应用产生了显著影响。
当前挑战
该数据集致力于解决高质量英语散文生成领域的挑战,包括如何从海量合成数据中精准识别并保留具有丰富词汇、复杂句法和严密逻辑的文本,同时避免模型训练过程中的语法污染。在构建过程中,团队面临多重挑战:首先,需设计高效启发式过滤管道,实现从3910万行原始数据中筛选出约773万行高质量内容,并平衡排除率与数据完整性;其次,需标准化OpenAI消息格式以确保动态上下文与通用兼容性,同时进行严格的去重、安全清洗及标签规范化处理,以维护数据集的纯净性与一致性。
常用场景
经典使用场景
在自然语言处理领域,高质量文本数据是训练语言模型的基础。Cosmopedia-v2-enPurified-openai-messages数据集专注于提供经过严格筛选的英语散文文本,其经典使用场景在于微调大型语言模型以提升其语言生成质量。该数据集通过剔除数学、代码等非散文内容,并采用OpenAI消息格式进行标准化,使得模型能够专注于学习复杂的句法结构、丰富的词汇表达以及流畅的对话逻辑,从而在文本生成任务中产出更具文学性和连贯性的内容。
解决学术问题
该数据集旨在解决当前语言模型训练中普遍存在的文本质量参差不齐、语言风格混杂的问题。通过应用一系列启发式过滤规则,如词汇多样性检测、逻辑流分析和句法复杂性评估,它有效隔离了低信息密度和重复性内容,为学术研究提供了纯净的高质量英语语料。这有助于探索模型在语言理解深度、风格一致性和逻辑连贯性方面的性能极限,推动了生成模型在语言学层面的精细化研究。
衍生相关工作
围绕该数据集衍生的经典工作主要集中在高质量文本生成模型的优化与评估上。研究者利用其纯净的语料库训练了多种专注于散文风格和对话流畅度的语言模型,这些模型在文本美学评估、风格迁移以及长文本连贯性生成等任务中表现出色。此外,该数据集的启发式过滤方法也被借鉴到其他语料清洗流程中,促进了数据质量评估标准的发展,并为合成数据在特定语言领域的应用提供了可复现的范例。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作