AutoMathText-V2

github2025-09-06 更新2025-09-07 收录

下载链接：

https://github.com/yifanzhang-pro/AutoMathText-V2

下载链接

链接失效反馈

官方服务：

资源简介：

AutoMathText-V2是一个包含2.46万亿token的高质量、去重文本数据集，涵盖网页内容、数学、代码、推理和双语数据。该数据集通过三层去重管道和AI驱动的质量评估精心策划，为大型语言模型提供优质的训练数据。

AutoMathText-V2 is a high-quality, deduplicated text dataset containing 2.46 trillion tokens, covering web content, mathematics, code, reasoning, and bilingual data. It is meticulously curated through a three-tier deduplication pipeline and AI-driven quality assessment, providing high-quality training data for large language models.

创建时间：

2025-09-06

原始信息汇总

AutoMathText-V2 数据集概述

数据集基本信息

名称：AutoMathText-V2
总规模：2.46万亿token
许可证：Apache 2.0 License
主要特点：高质量、去重、多领域预训练数据集

核心特征

三重去重：精确去重（SHA256）→模糊去重（MinHash+LSH）→语义去重（GTE嵌入）
AI质量评估：基于Qwen2的分类器，多源分数融合
污染预防：自动测试集泄露检测和移除
双语优化：专门针对中英文内容优化

领域组成与分布

主要领域分布

领域	Token数量	占比	描述
Nemotron CC High	1,468.3B	59.7%	高质量CommonCrawl数据
DCLM	314.2B	12.8%	DCLM基线网络内容
RefineCode	279.4B	11.4%	GitHub仓库（仅学术使用）
Nemotron CC Medium-High	254.5B	10.3%	中高质量CommonCrawl数据
FineWeb Edu	117.4B	4.8%	教育网络内容
Chinese	112.18B	4.6%	中文通用内容
Reasoning QA	86.2B	3.5%	指令遵循和复杂推理任务
Math Web	68.3B	2.8%	数学和科学内容
MegaMath	28.5B	1.2%	专业数学集合
Translation	1.61B	0.1%	英中翻译对

数据源构成

总计52个优质数据源，涵盖以下领域：

DCLM领域：DCLM-Baseline
FineWeb Edu领域：FineWeb-Edu
FineWeb Edu中文领域：FineWeb-Edu-Chinese
Math Web领域：AutoMathText、FineMath、Open-Web-Math-Pro、InfiMM-WebMath-40B
Nemotron CC High领域：Nemotron-CC (High)
Nemotron CC Medium-High领域：Nemotron-CC (Medium-High)
RefineCode领域：RefineCode
Reasoning QA领域：35个推理相关数据集
Translation领域：UN-PC、UN-PC-Reverse
MegaMath领域：MegaMath-QA、MegaMath-Translated-Code、MegaMath-Text-Code-Block

处理流程

数据处理阶段

数据提取与标准化：统一格式，包含元数据、文本、token计数和质量分数
三重去重：精确去重（移除约30%）、模糊去重（移除约20%）、语义去重（移除约10%）
AI质量评估：基于Qwen2的分类器架构
高级文本清理：Ultimate Data Cleaner v6.23.2，支持编码修复、LaTeX保护、代码保护等功能
污染检测：测试集保护，自动过滤

数据集结构

目录组织

按领域和质量百分位数组织：

AutoMathText-V2/ ├── dclm/ # DCLM基线网络内容 ├── fineweb_edu/ # FineWeb教育内容 ├── fineweb_edu_chinese/ # 中文教育内容 ├── math_web/ # 数学和科学内容 ├── megamath/ # 专业数学集合 ├── nemotron_cc_high/ # 高质量Nemotron CommonCrawl ├── nemotron_cc_medium_high/ # 中高质量Nemotron CommonCrawl ├── reasoning_qa/ # 指令和推理数据 ├── refinecode/ # GitHub代码仓库 └── translation/ # 英中翻译对

质量分布

每个领域分为10个质量百分位（0-10, 10-20, ..., 90-100）
基于token计数和质量分数
更高百分位包含更高质量内容

使用方式

加载数据集

python from datasets import load_dataset

加载完整数据集

dataset = load_dataset("OpenSQZ/AutoMathText-V2", streaming=True)

加载特定领域

math_data = load_dataset("OpenSQZ/AutoMathText-V2", name="math_web", streaming=True)

RefineCode内容下载

RefineCode域仅包含元数据
需要使用blob_id从AWS S3下载实际代码内容
需要AWS凭证和smart_open[s3]、boto3库

语言分布

英语：约70-80%内容
中文：约15-20%内容

引用信息

bibtex @misc{automathtext_v2_2025, title = {{AutoMathText-V2: A Multi-Domain High-Quality Pretraining Dataset}}, author = {Chao Li and Yifan Zhang}, year = {2025}, publisher = {Hugging Face}, url = {https://huggingface.co/datasets/OpenSQZ/AutoMathText-V2} }

@article{zhang2025autonomous, title={Autonomous Data Selection with Zero-shot Generative Classifiers for Mathematical Texts}, author={Zhang, Yifan and Luo, Yifan and Yuan, Yang and Yao, Andrew C}, journal={The 63rd Annual Meeting of the Association for Computational Linguistics (ACL 2025 Findings)}, year={2025} }

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，高质量预训练数据的构建至关重要。AutoMathText-V2通过整合50余个优质数据源，采用三层去重流程进行构建：首先基于SHA256哈希进行精确去重，随后运用MinHash与局部敏感哈希技术实现模糊去重，最后借助GTE多语言嵌入模型完成语义层面的去重。整个过程结合AI驱动的质量评估体系，利用基于Qwen2的分类器进行多源分数融合，确保数据纯净度与多样性。

使用方法

用户可通过Hugging Face的datasets库直接加载数据集，支持流式读取与按域配置加载。对于RefineCode域，需通过元数据中的blob_id从AWS S3下载实际代码内容，其他域则直接包含完整文本。数据集按质量百分位分层存储，允许用户根据需求选择特定质量区间的数据，例如加载数学域前10%的高质量内容，或混合多个域进行平衡采样。

背景与挑战

背景概述

AutoMathText-V2数据集由Chao Li和Yifan Zhang等研究人员于2025年构建，旨在为大语言模型提供高质量的多领域预训练数据。该数据集整合了52个优质数据源，涵盖网页内容、数学、代码、推理及中英双语文本，总规模达2.46万亿token。其核心研究问题聚焦于通过三重去重管道和AI驱动的质量评估，解决传统预训练数据中存在的冗余、低质及领域不平衡问题，显著提升了模型在数学推理、代码生成及跨语言理解等任务上的性能。

当前挑战

该数据集致力于解决数学文本理解、代码语义解析及跨语言推理等复杂自然语言处理任务的训练数据稀缺性与质量不均问题。构建过程中面临多重挑战：需从异构数据源中实现精确、模糊及语义三级去重，消除30%的重复内容；依赖Qwen2分类器进行质量评分融合，确保文本清洁与逻辑连贯性；同时需规避测试集污染，通过字符串匹配移除潜在泄露样本，并针对RefineCode域设计外部存储访问机制以平衡存储效率与数据完整性。

常用场景

经典使用场景

在自然语言处理与数学智能交叉领域，AutoMathText-V2数据集凭借其2.46万亿高质量多语言标记，成为大规模语言模型预训练的核心资源。该数据集通过三重去重管道与AI驱动的质量评估体系，特别优化了数学推理、代码生成与双语理解任务的训练效果，广泛应用于GPT系列、LLaMA等先进模型的预训练与微调阶段，显著提升模型在复杂逻辑推理与跨语言泛化能力方面的表现。

解决学术问题

该数据集有效解决了当前语言模型预训练中数据质量参差不齐、重复内容泛滥以及领域覆盖不均的学术难题。通过融合52个优质数据源与语义级去重技术，它不仅消除了传统数据集中约60%的冗余内容，更通过数学专项数据与链式推理语料的整合，为模型数学逻辑能力与推理能力的系统性提升提供了数据基础，推动了认知计算与符号推理相结合的研究范式发展。

实际应用

在实际应用层面，AutoMathText-V2支撑了智能教育系统、代码辅助工具与多语言搜索引擎的开发。其高质量数学语料被应用于自动化解题系统的训练，代码数据域（RefineCode）为程序合成与代码补全模型提供资源，而中英双语优化部分则显著提升了跨语言机器翻译与国际化服务的准确性，尤其在技术文档翻译与学术文献处理场景中展现出色性能。

数据集最近研究