AutoMathText-V2
收藏AutoMathText-V2 数据集概述
数据集基本信息
- 名称:AutoMathText-V2
- 总规模:2.46万亿token
- 许可证:Apache 2.0 License
- 主要特点:高质量、去重、多领域预训练数据集
核心特征
- 三重去重:精确去重(SHA256)→模糊去重(MinHash+LSH)→语义去重(GTE嵌入)
- AI质量评估:基于Qwen2的分类器,多源分数融合
- 污染预防:自动测试集泄露检测和移除
- 双语优化:专门针对中英文内容优化
领域组成与分布
主要领域分布
| 领域 | Token数量 | 占比 | 描述 |
|---|---|---|---|
| Nemotron CC High | 1,468.3B | 59.7% | 高质量CommonCrawl数据 |
| DCLM | 314.2B | 12.8% | DCLM基线网络内容 |
| RefineCode | 279.4B | 11.4% | GitHub仓库(仅学术使用) |
| Nemotron CC Medium-High | 254.5B | 10.3% | 中高质量CommonCrawl数据 |
| FineWeb Edu | 117.4B | 4.8% | 教育网络内容 |
| Chinese | 112.18B | 4.6% | 中文通用内容 |
| Reasoning QA | 86.2B | 3.5% | 指令遵循和复杂推理任务 |
| Math Web | 68.3B | 2.8% | 数学和科学内容 |
| MegaMath | 28.5B | 1.2% | 专业数学集合 |
| Translation | 1.61B | 0.1% | 英中翻译对 |
数据源构成
总计52个优质数据源,涵盖以下领域:
- DCLM领域:DCLM-Baseline
- FineWeb Edu领域:FineWeb-Edu
- FineWeb Edu中文领域:FineWeb-Edu-Chinese
- Math Web领域:AutoMathText、FineMath、Open-Web-Math-Pro、InfiMM-WebMath-40B
- Nemotron CC High领域:Nemotron-CC (High)
- Nemotron CC Medium-High领域:Nemotron-CC (Medium-High)
- RefineCode领域:RefineCode
- Reasoning QA领域:35个推理相关数据集
- Translation领域:UN-PC、UN-PC-Reverse
- MegaMath领域:MegaMath-QA、MegaMath-Translated-Code、MegaMath-Text-Code-Block
处理流程
数据处理阶段
- 数据提取与标准化:统一格式,包含元数据、文本、token计数和质量分数
- 三重去重:精确去重(移除约30%)、模糊去重(移除约20%)、语义去重(移除约10%)
- AI质量评估:基于Qwen2的分类器架构
- 高级文本清理:Ultimate Data Cleaner v6.23.2,支持编码修复、LaTeX保护、代码保护等功能
- 污染检测:测试集保护,自动过滤
数据集结构
目录组织
按领域和质量百分位数组织:
AutoMathText-V2/ ├── dclm/ # DCLM基线网络内容 ├── fineweb_edu/ # FineWeb教育内容 ├── fineweb_edu_chinese/ # 中文教育内容 ├── math_web/ # 数学和科学内容 ├── megamath/ # 专业数学集合 ├── nemotron_cc_high/ # 高质量Nemotron CommonCrawl ├── nemotron_cc_medium_high/ # 中高质量Nemotron CommonCrawl ├── reasoning_qa/ # 指令和推理数据 ├── refinecode/ # GitHub代码仓库 └── translation/ # 英中翻译对
质量分布
- 每个领域分为10个质量百分位(0-10, 10-20, ..., 90-100)
- 基于token计数和质量分数
- 更高百分位包含更高质量内容
使用方式
加载数据集
python from datasets import load_dataset
加载完整数据集
dataset = load_dataset("OpenSQZ/AutoMathText-V2", streaming=True)
加载特定领域
math_data = load_dataset("OpenSQZ/AutoMathText-V2", name="math_web", streaming=True)
RefineCode内容下载
- RefineCode域仅包含元数据
- 需要使用
blob_id从AWS S3下载实际代码内容 - 需要AWS凭证和
smart_open[s3]、boto3库
语言分布
- 英语:约70-80%内容
- 中文:约15-20%内容
引用信息
bibtex @misc{automathtext_v2_2025, title = {{AutoMathText-V2: A Multi-Domain High-Quality Pretraining Dataset}}, author = {Chao Li and Yifan Zhang}, year = {2025}, publisher = {Hugging Face}, url = {https://huggingface.co/datasets/OpenSQZ/AutoMathText-V2} }
@article{zhang2025autonomous, title={Autonomous Data Selection with Zero-shot Generative Classifiers for Mathematical Texts}, author={Zhang, Yifan and Luo, Yifan and Yuan, Yang and Yao, Andrew C}, journal={The 63rd Annual Meeting of the Association for Computational Linguistics (ACL 2025 Findings)}, year={2025} }




