sutra-10B

Hugging Face2026-03-08 更新2026-03-09 收录

下载链接：

https://huggingface.co/datasets/codelion/sutra-10B

下载链接

链接失效反馈

官方服务：

资源简介：

Sutra 10B 预训练数据集是一个高质量的教育性数据集，专为语言模型预训练设计，包含 10,193,029 个教育条目，总计超过 100 亿个令牌。这是 Sutra 系列中最大的数据集，旨在证明经过精心策划的密集数据集可以为小型语言模型提供一流的预训练性能。数据集通过 Sutra 框架生成，每个条目具有清晰的教学结构、跨领域连接、多样化的复杂性级别和质量控制的生成。数据集包含 13 个结构化字段，如概念名称、领域、内容类型、文本、质量评分等。数据经过去重、质量过滤、长度过滤和垃圾检测等严格清洗。适用于 LLM 预训练、领域特定微调、教育 AI 研究和课程学习等场景。

创建时间：

2026-02-25

原始信息汇总

Sutra 10B 预训练数据集概述

基本信息

数据集名称: Sutra 10B Pretraining Dataset
创建者/发布者: codelion
语言: 英语 (en)
许可证: Apache 2.0
数据规模: 10M < n < 100M (条目数)
任务类别: 文本生成
标签: 预训练、教育、教学、合成、sutra、多领域、10B
核心用途: 专为语言模型预训练设计的高质量教学数据集。

数据集描述

Sutra 10B 是一个高质量的教学数据集，包含 10,193,029 个教育条目，总计超过 100 亿个标记。它是 Sutra 系列中最大的数据集，旨在证明经过精心策划的密集数据集可以为小型语言模型提供一流的预训练性能。

该数据集使用 Sutra 框架生成，该框架创建了针对语言模型预训练优化的结构化教育内容。每个条目都通过以下方式最大化学习效率：

清晰的教学结构
跨领域联系
多样的复杂度级别（从基础级别1到高级别10）
质量控制生成
多样化的内容类型（33种不同教学格式）
丰富的元数据（每个条目都标注了13个结构化字段）

数据集统计

指标	数值
总条目数	10,193,029
总标记数	10,218,677,925
平均标记数/条目	1002
平均质量分数	0.701
分词器	SmolLM2 (HuggingFaceTB/SmolLM2-135M)

领域分布

领域	条目数	标记数	百分比
跨学科	3,561,052	3570.0M	34.9%
技术	2,154,481	2159.9M	21.1%
科学	1,456,708	1460.3M	14.3%
社会研究	862,288	864.4M	8.5%
数学	830,414	832.5M	8.1%
生活技能	559,667	561.1M	5.5%
艺术与创意	455,738	456.9M	4.5%
语言艺术	235,957	236.5M	2.3%
哲学与伦理	76,724	76.9M	0.8%

内容类型分布（前15种）

内容类型	数量	百分比
历史背景	3,082,957	30.2%
概念介绍	928,244	9.1%
数据分析	776,495	7.6%
工作示例	697,861	6.8%
问题集	676,977	6.6%
教程	620,163	6.1%
技术文档	520,246	5.1%
研究总结	494,023	4.8%
代码实现	473,056	4.6%
实际应用	438,157	4.3%
创意写作	337,065	3.3%
推理演示	227,343	2.2%
问答对	200,076	2.0%
伦理分析	157,882	1.5%
实验设计	141,859	1.4%

数据来源

Sutra-10B 是通过将用于 Sutra-1B 的相同配方从 10 亿标记扩展到 100 亿标记而创建的。核心教学内容使用 Sutra 框架生成，然后与几个高质量的开源数据集混合以增加多样性：

来源	描述	近似标记数
Sutra (核心)	使用 Sutra 框架生成的教学内容，从 1B 配方扩展而来	~7.8B
Nemotron-CC-Math v1	高质量数学内容 (NVIDIA)	~0.5B
OpenWebMath	数学网络内容	~0.5B
Wikipedia (English)	百科全书知识	~0.5B
Cosmopedia	合成教育内容（多个子集）	~0.5B
FineWeb-Edu	高质量教育网络内容	~0.5B

数据字段

每个条目包含 13 个结构化字段：

字段	类型	描述
`id`	字符串	唯一标识符 (UUID)
`concept_name`	字符串	正在教授的概念（2-5个单词）
`domain`	字符串	主要知识领域（9个领域）
`content_type`	字符串	教学内容类型（33种类型）
`text`	字符串	主要教育内容
`quality_score`	浮点数	质量评估分数 (0.0-1.0)
`information_density`	字符串	每标记信息量度量（低/中/高）
`complexity_level`	整数	难度级别 (1-10)
`token_count`	整数	标记数量（SmolLM2 分词器）
`prerequisites`	列表[字符串]	所需的先验知识概念
`builds_to`	列表[字符串]	此内容支持的高级概念
`cross_domain_connections`	列表[字符串]	相关知识领域
`quality_assessment`	对象	多维质量分数

质量评估子字段

子字段	类型	描述
`clarity`	浮点数	清晰度和可读性 (0.0-1.0)
`accuracy`	浮点数	事实正确性 (0.0-1.0)
`pedagogy`	浮点数	教育结构质量 (0.0-1.0)
`engagement`	浮点数	内容的吸引力 (0.0-1.0)
`depth`	浮点数	覆盖深度 (0.0-1.0)
`creativity`	浮点数	创意呈现 (0.0-1.0)

有效领域（9个）

mathematics, science, technology, language_arts, social_studies, arts_and_creativity, life_skills, philosophy_and_ethics, interdisciplinary

有效内容类型（33种）

concept_introduction, reasoning_demonstration, code_implementation, technical_documentation, tutorial, cross_domain_bridge, worked_examples, qa_pairs, common_misconceptions, meta_learning, synthesis, prerequisite_scaffolding, code_explanation, diagnostic_assessment, code_debugging, historical_context, research_summary, problem_set, case_study, analogy, experiment_design, proof, algorithm_analysis, data_analysis, ethical_analysis, comparative_analysis, creative_writing, debate_argument, practical_application, thought_experiment, visualization, system_design, review_summary

数据清洗

数据集经过了全面的清洗：

去重：基于 SHA-256 哈希在所有来源中移除完全重复项
质量过滤：移除质量分数低于 0.3 的条目
长度过滤：移除短于 50 个标记或长于 65,536 个标记的条目
垃圾检测：过滤重复内容、控制字符、非英语内容
字段验证：验证并规范化所有 13 个字段

元数据生成

元数据使用启发式关键词分类生成：

通过模式匹配和文本分析进行领域和内容类型分类
根据文本统计（词汇多样性、结构、长度）计算质量分数
使用 SmolLM2 分词器计算标记数以确保准确性

使用方式

python from datasets import load_dataset

加载完整数据集

ds = load_dataset("codelion/sutra-10B", split="train")

流式加载用于大规模训练

ds = load_dataset("codelion/sutra-10B", split="train", streaming=True)

按领域过滤

math_ds = ds.filter(lambda x: x["domain"] == "mathematics")

按质量过滤

high_quality = ds.filter(lambda x: x["quality_score"] > 0.7)

按复杂度过滤

beginner = ds.filter(lambda x: x["complexity_level"] <= 3)

扩展轨迹

Sutra-10B 是 Sutra 系列中最大的数据集，将原始的 1B 配方扩展了 10 倍。在 SmolLM2-70M（6900 万参数）上进行评估时，基准性能在不同规模下保持一致，这表明模型已达到其容量上限。预计更大的模型将从额外的数据和多样性中受益更多。

预期用途

该数据集设计用于：

LLM 预训练：用于基础模型训练的高质量教育内容
领域特定微调：按领域子集进行专门训练
教育 AI 研究：研究教学内容生成
课程学习：用于分阶段训练的渐进复杂度
小模型优化：证明对于小型语言模型，数据质量大于数量

引用

bibtex @article{sharma2026sutra, title={Scaling Pedagogical Pretraining: From Optimal Mixing to 10 Billion Tokens}, author={Sharma, Asankhaya}, year={2026}, url={https://huggingface.co/blog/codelion/scaling-pedagogical-pretraining-10-billion-tokens} }

搜集汇总

数据集介绍

构建方式

在语言模型预训练领域，高质量数据集的构建是提升模型性能的基石。Sutra-10B数据集采用了Sutra框架进行系统化生成，该框架专门设计用于创建结构化的教育内容。其核心构建方法是将框架生成的教学内容与多个高质量开源数据集进行混合，包括Nemotron-CC-Math、OpenWebMath、Wikipedia及Cosmopedia等，以丰富内容的多样性。整个数据集经历了严格的清洗流程，涵盖去重、质量过滤、长度筛选及垃圾内容检测，确保最终超过100亿标记的千万余条目均符合预设的质量阈值与结构规范。

使用方法

该数据集主要面向语言模型的预训练与教育人工智能研究。用户可通过Hugging Face的`datasets`库直接加载完整数据集或采用流式读取以应对大规模训练。得益于丰富的结构化字段，研究者能够便捷地根据知识领域、内容类型、质量分数或复杂度等级进行数据筛选与子集构建，例如提取数学领域的高质量内容或针对初学者级别的材料。这种灵活性使其不仅适用于通用模型的基础训练，也能支持领域特定的微调与渐进式课程学习等高级研究场景。

背景与挑战

背景概述

Sutra-10B数据集是Sutra系列中规模最大的预训练数据集，由Asankhaya Sharma等人于2026年构建，旨在为语言模型提供高质量的教学内容。该数据集的核心研究问题在于探索密集且经过精心策划的教育数据能否为小型语言模型带来卓越的预训练性能，从而挑战传统大规模数据集的必要性。其设计融合了跨学科知识，涵盖数学、科学、技术等九个领域，通过33种教学格式和13个结构化字段，系统化地呈现了从基础到高级的复杂概念，对教育人工智能和高效模型训练领域产生了显著影响。

当前挑战

该数据集旨在解决语言模型预训练中数据质量与效率的挑战，特别是如何通过精心设计的教学内容提升小型模型的性能，而非依赖海量无结构数据。在构建过程中，挑战包括生成具有清晰教学结构、跨领域连接和多样化复杂度的合成内容，并确保其教育有效性；同时，整合来自Nemotron-CC-Math、OpenWebMath等多源数据时，需进行严格的去重、质量过滤和垃圾检测，以维持整体数据的一致性与纯净度，避免低质量或重复条目影响模型学习效果。

常用场景

经典使用场景

在自然语言处理领域，高质量预训练数据是模型性能的基石。Sutra-10B数据集以其精心设计的教学结构和跨学科内容，成为语言模型预训练的经典资源。该数据集通过33种教学格式和9个知识领域，为模型提供了从基础到高级的渐进式学习材料，特别适用于训练小型语言模型，以验证密集、精选数据在有限参数下实现卓越性能的假设。

解决学术问题

该数据集主要解决了预训练数据质量与模型规模之间的平衡问题。传统大规模语料库往往包含噪声，而Sutra-10B通过结构化生成和严格质量控制，提供了高信息密度的教学文本。这有助于探索数据质量对模型能力上限的影响，特别是在资源受限环境下，为“数据效率”和“课程学习”等研究方向提供了实证基础，推动了教育内容生成与模型预训练交叉领域的发展。

实际应用

在实际应用中，Sutra-10B支持构建专业的教育辅助系统和知识问答工具。其丰富的领域分布和内容类型，使得基于该数据集训练的模型能够胜任技术文档生成、跨学科概念解释、编程示例提供等任务。例如，在在线教育平台中，此类模型可自动生成个性化学习材料或解答复杂学科问题，提升数字化教学的效果与覆盖范围。

数据集最近研究