sutra-10B
收藏Sutra 10B 预训练数据集概述
基本信息
- 数据集名称: Sutra 10B Pretraining Dataset
- 创建者/发布者: codelion
- 语言: 英语 (en)
- 许可证: Apache 2.0
- 数据规模: 10M < n < 100M (条目数)
- 任务类别: 文本生成
- 标签: 预训练、教育、教学、合成、sutra、多领域、10B
- 核心用途: 专为语言模型预训练设计的高质量教学数据集。
数据集描述
Sutra 10B 是一个高质量的教学数据集,包含 10,193,029 个教育条目,总计超过 100 亿个标记。它是 Sutra 系列中最大的数据集,旨在证明经过精心策划的密集数据集可以为小型语言模型提供一流的预训练性能。
该数据集使用 Sutra 框架生成,该框架创建了针对语言模型预训练优化的结构化教育内容。每个条目都通过以下方式最大化学习效率:
- 清晰的教学结构
- 跨领域联系
- 多样的复杂度级别(从基础级别1到高级别10)
- 质量控制生成
- 多样化的内容类型(33种不同教学格式)
- 丰富的元数据(每个条目都标注了13个结构化字段)
数据集统计
| 指标 | 数值 |
|---|---|
| 总条目数 | 10,193,029 |
| 总标记数 | 10,218,677,925 |
| 平均标记数/条目 | 1002 |
| 平均质量分数 | 0.701 |
| 分词器 | SmolLM2 (HuggingFaceTB/SmolLM2-135M) |
领域分布
| 领域 | 条目数 | 标记数 | 百分比 |
|---|---|---|---|
| 跨学科 | 3,561,052 | 3570.0M | 34.9% |
| 技术 | 2,154,481 | 2159.9M | 21.1% |
| 科学 | 1,456,708 | 1460.3M | 14.3% |
| 社会研究 | 862,288 | 864.4M | 8.5% |
| 数学 | 830,414 | 832.5M | 8.1% |
| 生活技能 | 559,667 | 561.1M | 5.5% |
| 艺术与创意 | 455,738 | 456.9M | 4.5% |
| 语言艺术 | 235,957 | 236.5M | 2.3% |
| 哲学与伦理 | 76,724 | 76.9M | 0.8% |
内容类型分布(前15种)
| 内容类型 | 数量 | 百分比 |
|---|---|---|
| 历史背景 | 3,082,957 | 30.2% |
| 概念介绍 | 928,244 | 9.1% |
| 数据分析 | 776,495 | 7.6% |
| 工作示例 | 697,861 | 6.8% |
| 问题集 | 676,977 | 6.6% |
| 教程 | 620,163 | 6.1% |
| 技术文档 | 520,246 | 5.1% |
| 研究总结 | 494,023 | 4.8% |
| 代码实现 | 473,056 | 4.6% |
| 实际应用 | 438,157 | 4.3% |
| 创意写作 | 337,065 | 3.3% |
| 推理演示 | 227,343 | 2.2% |
| 问答对 | 200,076 | 2.0% |
| 伦理分析 | 157,882 | 1.5% |
| 实验设计 | 141,859 | 1.4% |
数据来源
Sutra-10B 是通过将用于 Sutra-1B 的相同配方从 10 亿标记扩展到 100 亿标记而创建的。核心教学内容使用 Sutra 框架生成,然后与几个高质量的开源数据集混合以增加多样性:
| 来源 | 描述 | 近似标记数 |
|---|---|---|
| Sutra (核心) | 使用 Sutra 框架生成的教学内容,从 1B 配方扩展而来 | ~7.8B |
| Nemotron-CC-Math v1 | 高质量数学内容 (NVIDIA) | ~0.5B |
| OpenWebMath | 数学网络内容 | ~0.5B |
| Wikipedia (English) | 百科全书知识 | ~0.5B |
| Cosmopedia | 合成教育内容(多个子集) | ~0.5B |
| FineWeb-Edu | 高质量教育网络内容 | ~0.5B |
数据字段
每个条目包含 13 个结构化字段:
| 字段 | 类型 | 描述 |
|---|---|---|
id |
字符串 | 唯一标识符 (UUID) |
concept_name |
字符串 | 正在教授的概念(2-5个单词) |
domain |
字符串 | 主要知识领域(9个领域) |
content_type |
字符串 | 教学内容类型(33种类型) |
text |
字符串 | 主要教育内容 |
quality_score |
浮点数 | 质量评估分数 (0.0-1.0) |
information_density |
字符串 | 每标记信息量度量(低/中/高) |
complexity_level |
整数 | 难度级别 (1-10) |
token_count |
整数 | 标记数量(SmolLM2 分词器) |
prerequisites |
列表[字符串] | 所需的先验知识概念 |
builds_to |
列表[字符串] | 此内容支持的高级概念 |
cross_domain_connections |
列表[字符串] | 相关知识领域 |
quality_assessment |
对象 | 多维质量分数 |
质量评估子字段
| 子字段 | 类型 | 描述 |
|---|---|---|
clarity |
浮点数 | 清晰度和可读性 (0.0-1.0) |
accuracy |
浮点数 | 事实正确性 (0.0-1.0) |
pedagogy |
浮点数 | 教育结构质量 (0.0-1.0) |
engagement |
浮点数 | 内容的吸引力 (0.0-1.0) |
depth |
浮点数 | 覆盖深度 (0.0-1.0) |
creativity |
浮点数 | 创意呈现 (0.0-1.0) |
有效领域(9个)
mathematics, science, technology, language_arts, social_studies, arts_and_creativity, life_skills, philosophy_and_ethics, interdisciplinary
有效内容类型(33种)
concept_introduction, reasoning_demonstration, code_implementation, technical_documentation, tutorial, cross_domain_bridge, worked_examples, qa_pairs, common_misconceptions, meta_learning, synthesis, prerequisite_scaffolding, code_explanation, diagnostic_assessment, code_debugging, historical_context, research_summary, problem_set, case_study, analogy, experiment_design, proof, algorithm_analysis, data_analysis, ethical_analysis, comparative_analysis, creative_writing, debate_argument, practical_application, thought_experiment, visualization, system_design, review_summary
数据清洗
数据集经过了全面的清洗:
- 去重:基于 SHA-256 哈希在所有来源中移除完全重复项
- 质量过滤:移除质量分数低于 0.3 的条目
- 长度过滤:移除短于 50 个标记或长于 65,536 个标记的条目
- 垃圾检测:过滤重复内容、控制字符、非英语内容
- 字段验证:验证并规范化所有 13 个字段
元数据生成
元数据使用启发式关键词分类生成:
- 通过模式匹配和文本分析进行领域和内容类型分类
- 根据文本统计(词汇多样性、结构、长度)计算质量分数
- 使用 SmolLM2 分词器计算标记数以确保准确性
使用方式
python from datasets import load_dataset
加载完整数据集
ds = load_dataset("codelion/sutra-10B", split="train")
流式加载用于大规模训练
ds = load_dataset("codelion/sutra-10B", split="train", streaming=True)
按领域过滤
math_ds = ds.filter(lambda x: x["domain"] == "mathematics")
按质量过滤
high_quality = ds.filter(lambda x: x["quality_score"] > 0.7)
按复杂度过滤
beginner = ds.filter(lambda x: x["complexity_level"] <= 3)
扩展轨迹
Sutra-10B 是 Sutra 系列中最大的数据集,将原始的 1B 配方扩展了 10 倍。在 SmolLM2-70M(6900 万参数)上进行评估时,基准性能在不同规模下保持一致,这表明模型已达到其容量上限。预计更大的模型将从额外的数据和多样性中受益更多。
预期用途
该数据集设计用于:
- LLM 预训练:用于基础模型训练的高质量教育内容
- 领域特定微调:按领域子集进行专门训练
- 教育 AI 研究:研究教学内容生成
- 课程学习:用于分阶段训练的渐进复杂度
- 小模型优化:证明对于小型语言模型,数据质量大于数量
相关数据集
- sutra-1B: 10 亿标记预训练数据集
- sutra-100M: 1 亿标记子集
- sutra-30k-seeds: 用于后训练的指令提示
- sutra-magpie-sft: SFT 数据集
引用
bibtex @article{sharma2026sutra, title={Scaling Pedagogical Pretraining: From Optimal Mixing to 10 Billion Tokens}, author={Sharma, Asankhaya}, year={2026}, url={https://huggingface.co/blog/codelion/scaling-pedagogical-pretraining-10-billion-tokens} }




