dclm-crossover-source

Hugging Face2026-04-13 更新2026-04-14 收录

下载链接：

https://huggingface.co/datasets/essobi/dclm-crossover-source

下载链接

链接失效反馈

官方服务：

资源简介：

DCLM Cross-Over Source 是一个用于合成增强和格式感知提示路由的数据集，选自 DCLM-Baseline 的子集。数据集的选择标准包括：每三个分片选取一个，文档字数限制在50-8000之间，每个站点最多10,000个文档，并跳过重复原生文档格式的提示。数据集包含255,841个扫描的源文档，其中251,661个被选中，总词数为196,694,035，平均每文档781词。数据集适用于多种提示类型，包括FAQ、数学、表格和教程。数据集的字段包括：id（稳定哈希）、text（文档文本）、url（源URL）、quality_score（DCLM fastText评分）、word_count（词数）、apply_prompts（要运行的提示）、skip_prompts（要跳过的提示）和num_applicable_prompts（适用的提示数量）。数据集适用于文本生成任务，特别适合预训练和格式感知的应用场景。

创建时间：

2026-04-13

原始信息汇总

DCLM Cross-Over Source 数据集概述

基本信息

数据集名称: DCLM Cross-Over Source
托管地址: https://huggingface.co/datasets/essobi/dclm-crossover-source
许可证: CC-BY-4.0
任务类别: 文本生成
语言: 英语
标签: dclm, synthetic-data, pretraining, format-aware
数据源: 为进行格式感知提示路由的合成增强，从 DCLM-Baseline 数据集中选取的子集。

数据选取标准

分片选取: 每3个分片中选取1个（从总计27938个分片中选取）。
词数过滤: 文档词数范围限定在50至8000词。
站点上限: 每个来源站点最多选取10,000个文档。
格式检测: 跳过提示词与原生文档格式重复的文档。

数据集统计

指标	数值
扫描的源文档数	255,841
最终选取的文档数	251,661
总词数	196,694,035
平均每文档词数	781
因长度被过滤的文档数	4,180
因站点上限被过滤的文档数	0
所有格式均为原生的文档数	0
输出分片数	3

提示词适用性统计

提示词类型	适用文档数	应跳过文档数
FAQ	250,245	1,416
Math	250,428	1,233
Table	251,632	29
Tutorial	239,300	12,361

数据模式

字段	类型	描述
`id`	str	稳定哈希标识符
`text`	str	文档文本内容
`url`	str	源文档URL
`quality_score`	float	DCLM fastText质量评分
`word_count`	int	文档词数
`apply_prompts`	str (JSON列表)	应运行的提示词列表
`skip_prompts`	str (JSON列表)	应跳过的提示词列表
`num_applicable_prompts`	int	适用的提示词数量

使用示例

数据集可通过 datasets 库加载。示例代码展示了如何筛选仅适用于FAQ提示词的文档，以及如何筛选适用于全部4种提示词（作为最佳“超级文档”候选）的文档。

搜集汇总

数据集介绍

构建方式

在文本生成与合成数据预训练领域，DCLM Cross-Over Source数据集作为DCLM-Baseline的一个精选子集，其构建过程体现了严谨的数据筛选策略。该数据集从27,938个原始分片中系统性地选取了每第三个分片，确保了数据分布的广泛性与代表性。通过应用50至8000词的长度过滤机制，剔除了过短或冗长的文档，同时为每个来源站点设置了10,000篇文档的上限，有效避免了数据源的过度倾斜。此外，数据集还集成了格式感知检测，自动跳过了与原生文档格式重复的提示，从而提升了后续合成增强的针对性与效率。

使用方法

该数据集的使用方法灵活且便于集成，用户可通过Hugging Face的datasets库直接加载。利用Python代码，可以轻松过滤出适用于特定提示的文档子集，例如仅提取适用于FAQ提示的文档，或筛选出同时适用于全部四类提示的文档作为高质量候选。数据集的JSON格式字段支持直接解析与条件查询，使得研究人员能够快速构建定制化的训练或评估数据流。这种设计不仅简化了实验流程，还为探索格式感知合成数据在文本生成模型中的影响提供了坚实基础。

背景与挑战

背景概述

在大型语言模型（LLM）的预训练与合成数据生成领域，数据质量与多样性是决定模型性能的关键因素。DCLM Cross-Over Source数据集作为DCLM-Baseline的一个精选子集，由研究机构或团队于近期构建，旨在支持格式感知的提示路由与合成数据增强。该数据集的核心研究问题聚焦于如何从海量网络文档中筛选出适合多种结构化提示（如FAQ、数学、表格、教程）的高质量文本，以促进模型在特定格式任务上的泛化能力。通过严格的长度过滤、站点上限及格式检测机制，该数据集为合成数据生成提供了标准化的输入源，对推动可控文本生成与数据增强方法的发展具有重要影响力。

当前挑战

DCLM Cross-Over Source数据集旨在解决文本生成领域中合成数据构建的挑战，特别是如何从异构网络文档中自动识别并适配多种结构化提示格式，以生成多样化且高质量的增强数据。其核心挑战包括：在领域问题层面，需克服原始文本与目标格式（如FAQ、表格）之间的语义对齐难题，确保合成内容的逻辑一致性与格式规范性；在构建过程中，面临数据筛选的复杂性，例如平衡文档长度分布、避免格式重复，以及处理大规模扫描文档（如超过25万条）时的计算效率问题。这些挑战共同指向了数据质量控制与可扩展性之间的张力。

常用场景

经典使用场景

在自然语言处理领域，格式感知的合成数据生成已成为提升模型泛化能力的关键途径。DCLM Cross-Over Source数据集作为DCLM-Baseline的子集，专门设计用于支持格式感知的提示路由合成增强。其经典使用场景聚焦于大规模语言模型的预训练阶段，通过筛选出适用于FAQ、数学、表格和教程等多种提示类型的文档，为生成多样化、结构化的合成数据提供高质量源材料。该数据集通过严格的长度过滤和站点上限控制，确保了数据的一致性与适用性，使得研究人员能够高效构建用于指令微调或上下文学习的增强语料库。

解决学术问题

该数据集主要解决了合成数据生成中源数据质量参差不齐与格式适配性不足的学术挑战。通过引入格式检测机制，自动跳过与原生文档格式重复的提示，有效避免了数据冗余和模式坍塌问题。同时，基于词数范围和站点上限的筛选策略，缓解了长尾分布带来的训练偏差，为研究格式感知的提示工程、数据增强的鲁棒性以及合成数据在预训练中的影响提供了标准化实验基准。其意义在于推动了合成数据生成从粗放式向精细化、可解释方向的演进，为探索数据质量与模型性能的关联奠定了实证基础。

实际应用

在实际应用中，DCLM Cross-Over Source数据集为开发需要处理多格式文本的AI系统提供了重要支持。例如，在智能客服系统中，利用其FAQ适用文档可生成高质量的问答对，增强模型的对话理解能力；在教育技术领域，基于数学和教程提示的文档能合成结构化的教学材料，辅助自适应学习平台的构建。此外，该数据集在表格数据提取与转换任务中，可作为训练数据源，提升模型对非结构化文本中表格信息的识别与重构精度，从而广泛应用于文档自动化、知识库构建等工业场景。

数据集最近研究