tlm-dolma-3-ablation

Hugging Face2025-11-30 更新2025-12-01 收录

下载链接：

https://huggingface.co/datasets/Shekswess/tlm-dolma-3-ablation

下载链接

链接失效反馈

官方服务：

资源简介：

Dolma 3子集，从allenai/dolma3_dolmino_pool构建（仅英语），包含305393行数据，总token数（限制为2048）为103252868。数据集包含多个来源，如reddit_to_flashcards、wiki_to_rcqa等，每个来源有不同的比例和token数量。

创建时间：

2025-11-30

原始信息汇总

数据集概述

基本信息

数据集名称: Dolma 3 subset built from allenai/dolma3_dolmino_pool (English only)
数据总量: 305,393行
总token数: 103,252,868（上限2048）
下载大小: 178,440,681字节
数据集大小: 381,455,023字节

数据结构

特征字段

text: 字符串类型
source: 字符串类型
language: 字符串类型
num_tokens: 整型（int64）

数据划分

训练集: 305,393个样本，381,455,023字节

数据来源分布

样本数量分布

reddit_to_flashcards: 45.27% (138,240)
wiki_to_rcqa-part1: 8.21% (25,088)
wiki_to_rcqa-part2: 8.21% (25,088)
wiki_to_rcqa-part3: 7.29% (22,257)
dolmino_1-flan: 5.70% (17,408)
tinymath-mind: 4.19% (12,800)
cranecode: 3.19% (9,728)
nemotron-synth-qa: 2.68% (8,192)
tinymath-pot: 2.01% (6,144)
tulu-3-sft: 2.01% (6,144)
verifiable-o4mini: 2.01% (6,144)
math-meta-reasoning: 1.84% (5,632)
cranemath: 1.68% (5,120)
general_reasoning_mix: 1.68% (5,120)
code-meta-reasoning: 1.51% (4,608)
verifiable-gpt41: 1.01% (3,072)
omr-rewrite-fullthoughts: 0.50% (1,536)
gemini-reasoning-traces: 0.34% (1,024)
qwq-reasoning-traces: 0.34% (1,024)
r1-reasoning-traces: 0.34% (1,024)

Token数量分布

cranecode: 10,853,234
math-meta-reasoning: 9,222,685
reddit_to_flashcards: 9,399,861
tinymath-mind: 8,200,058
code-meta-reasoning: 7,999,101
dolmino_1-flan: 7,729,704
general_reasoning_mix: 7,062,750
wiki_to_rcqa-part2: 5,088,744
wiki_to_rcqa-part1: 5,003,124
wiki_to_rcqa-part3: 4,328,528
verifiable-gpt41: 4,320,938
nemotron-synth-qa: 4,154,417
cranemath: 4,035,405
omr-rewrite-fullthoughts: 2,772,539
verifiable-o4mini: 2,617,249
tinymath-pot: 2,447,717
tulu-3-sft: 2,393,382
qwq-reasoning-traces: 2,097,152
gemini-reasoning-traces: 2,007,467
r1-reasoning-traces: 1,518,813

特殊处理

消融模式: 每个来源的数据量限制为目标行数的10%

搜集汇总

数据集介绍

构建方式

在自然语言处理领域构建高质量数据集时，tlm-dolma-3-ablation采用了精密的采样策略。该数据集源自allenai/dolma3_dolmino_pool的英文子集，通过消融模式对每个数据源进行目标行数10%的上限截取，最终形成包含305,393条样本的语料库。构建过程中严格遵循数据多样性原则，整合了来自Reddit知识卡片、维基百科问答、数学推理和代码生成等20个异构数据源，每个源头的文本经过标准化处理并标注了语言类型和词元数量，确保了数据结构的统一性与可追溯性。

特点

该数据集展现出显著的多源异构特性，其词元总量达到1.03亿且单文本长度限制在2048词元以内。数据分布呈现均衡的领域覆盖，其中reddit_to_flashcards占比45.27%构成主体，同时融合了数学推理（如math-meta-reasoning）、代码生成（如cranecode）和逻辑推理（如gemini-reasoning-traces）等专业领域内容。各数据源在词元分布上呈现差异化特征，例如cranecode源虽仅占3.19%的样本量却贡献超过千万词元，这种结构为研究不同领域文本复杂度提供了丰富维度。

使用方法

研究人员可通过HuggingFace平台直接加载该数据集进行自然语言处理任务的实验探索。数据集采用标准的文本、来源、语言和词元数四维特征结构，支持直接应用于语言模型预训练、多领域文本分析等场景。在使用过程中建议结合各数据源的分布特性，例如利用reddit_to_flashcards进行常识推理研究，借助code-meta-reasoning开展程序代码理解实验，同时应注意消融模式造成的样本量约束，适当采用交叉验证等方法确保实验结果的稳健性。

背景与挑战

背景概述

在自然语言处理领域，大规模预训练语料库的构建对模型性能具有决定性影响。tlm-dolma-3-ablation数据集作为AllenAI机构Dolma项目的重要组成部分，聚焦于多源文本数据的系统性消融研究。该数据集通过整合来自维基百科问答、数学推理、代码生成等二十个异构数据源，构建了包含30万条样本的英语语料库，旨在探索不同数据源对语言模型泛化能力的贡献度。其创新性地采用目标行数10%截断策略，为研究数据分布与模型性能的关联机制提供了标准化实验基准。

当前挑战

该数据集致力于解决多模态知识融合的语义理解难题，其核心挑战在于平衡不同领域数据的表征偏差。构建过程中面临源数据异构性带来的标注标准统一困境，如数学推理文本的符号系统与代码语料的语法结构存在本质差异。同时，数据规模控制要求精确计算各源数据的贡献权重，需在保持数据多样性与避免过拟合之间建立动态平衡机制。此外，长文本序列的语义连贯性维护与知识噪声过滤也是数据清洗阶段的关键技术瓶颈。

常用场景

经典使用场景

在语言模型预训练领域，tlm-dolma-3-ablation数据集作为消融研究的关键工具，其精心设计的子集分布为模型能力归因分析提供了理想实验平台。该数据集通过覆盖阅读理解、数学推理、代码生成等多样化任务，使研究者能够系统评估不同训练数据对模型性能的贡献度。特别是在多模态推理任务的训练过程中，该数据集能够清晰展现各类数据源对最终模型能力的塑造作用。

衍生相关工作

基于该数据集的消融实验设计催生了多项重要研究成果，特别是在数据高效利用和模型能力溯源方面。相关研究深入探讨了不同数据源对模型数学推理能力的贡献度，并建立了数据质量评估的新范式。在代码生成领域，衍生工作系统分析了编程语言数据与自然语言理解能力的协同进化机制，为构建更均衡发展的通用人工智能奠定了基础。

数据集最近研究