five

AutoMathText-V2

收藏
github2025-09-07 更新2025-09-08 收录
下载链接:
https://github.com/iiis-ai/AutoMathText-V2
下载链接
链接失效反馈
官方服务:
资源简介:
AutoMathText-V2是一个包含2.46万亿token的高质量、去重文本数据集,涵盖网络内容、数学、代码、推理和双语数据。该数据集通过三层去重管道和AI驱动的质量评估精心策划,为大型语言模型提供优质训练数据。它结合了50多个优质数据源和先进处理技术,包括语义去重、污染检测和智能文本清理,以在不同领域提供卓越的模型性能。

AutoMathText-V2 is a high-quality, deduplicated text dataset containing 2.46 trillion tokens, covering web content, mathematics, code, reasoning, and bilingual data. This dataset is meticulously curated via a three-tier deduplication pipeline and AI-driven quality assessment to provide high-quality training data for large language models. It integrates over 50 high-quality data sources and advanced processing techniques, including semantic deduplication, contamination detection, and intelligent text cleaning, to deliver exceptional model performance across diverse domains.
创建时间:
2025-09-06
原始信息汇总

AutoMathText-V2 数据集概述

基本信息

  • 数据集名称:AutoMathText-V2
  • 总规模:2.46万亿token
  • 主要特点:高质量、去重文本,涵盖网页内容、数学、代码、推理和双语数据
  • 许可证:AutoMathText Data Agreement for Model Training

数据集组成

领域分布

领域 Token数量 占比 描述
Nemotron CC High 1,468.3B 59.7% 高质量CommonCrawl数据
DCLM 314.2B 12.8% DCLM基线网页内容
RefineCode 279.4B 11.4% GitHub仓库(仅学术使用)
Nemotron CC Medium-High 254.5B 10.3% 中高质量CommonCrawl数据
FineWeb Edu 117.4B 4.8% 教育网页内容
Chinese 112.18B 4.6% 中文通用内容
Reasoning QA 86.2B 3.5% 指令遵循和复杂推理任务
Math Web 68.3B 2.8% 数学和科学内容
MegaMath 28.5B 1.2% 专业数学集合
Translation 1.61B 0.1% 英中翻译对

数据来源

  • 总来源数:52个优质数据集
  • 主要来源领域
    • DCLM域:DCLM-Baseline
    • FineWeb Edu域:FineWeb-Edu
    • 中文教育域:FineWeb-Edu-Chinese
    • 数学网页域:AutoMathText、FineMath、Open-Web-Math-Pro、InfiMM-WebMath-40B
    • 推理QA域:包含35个推理相关数据集
    • 翻译域:UN-PC、UN-PC-Reverse
    • MegaMath域:MegaMath-QA、MegaMath-Translated-Code、MegaMath-Text-Code-Block

处理流程

三重去重

  1. 精确去重:SHA256内容哈希,移除约30%精确重复
  2. 模糊去重:MinHash LSH,Jaccard相似度阈值0.9,移除约20%近似重复
  3. 语义去重:GTE多语言基础嵌入,余弦相似度阈值0.007,移除约10%语义重复

AI质量评估

  • 架构:基于Qwen2的分类器
  • 方法:微调回归头进行质量评分,多源分数归一化和融合

高级文本清理

  • 工具:Ultimate Data Cleaner v7.5.0.5
  • 特性:高级LaTeX和代码保护,质量启发式清理

污染检测

  • 方法:测试集保护,精确字符串匹配与预处理
  • 范围:数学数据集测试问题,GSM8K评估问题

使用方式

加载数据集

python from datasets import load_dataset dataset = load_dataset("OpenSQZ/AutoMathText-V2", streaming=True)

RefineCode内容下载

  • 要求:AWS凭证,smart_open[s3]和boto3库
  • 方法:使用blob_id字段从AWS S3下载完整代码内容

数据集结构

目录结构

  • 组织方式:按领域和质量分位数组织
  • 质量分位数:每个领域分为10个质量百分位(0-10, 10-20, ..., 90-100)
  • 可用配置:领域特定配置、质量过滤配置、Nemotron变体、组合配置、自定义采样

语言分布

  • 英语:约95%
  • 中文:约5%

技术文档

  • 详细文档:https://iiis-ai.github.io/AutoMathText-V2
  • GitHub仓库:https://github.com/iiis-ai/AutoMathText-V2

引用

bibtex @misc{automathtext_v2_2025, title={AutoMathText-V2: A 2.46 Trillion Token AI-Curated STEM Pretraining Dataset}, author={Li, Chao and Zhang, Yifan and Yuan, Yang and Yao, Andrew C}, year={2025}, publisher={Hugging Face}, url={https://huggingface.co/datasets/OpenSQZ/AutoMathText-V2}, note={A 2.46T token multi-domain dataset with fine-grained deduplication and AI-powered quality assessment.} }

搜集汇总
数据集介绍
main_image_url
构建方式
在科学、技术、工程和数学(STEM)领域数据日益重要的背景下,AutoMathText-V2通过整合50多个高质量数据源,采用三重去重流程构建而成。该流程包括基于SHA256哈希的精确去重、使用MinHash和局部敏感哈希的模糊去重,以及基于GTE多语言嵌入模型的语义去重,有效移除了约60%的冗余内容。数据进一步经过Qwen2驱动的质量分类器进行评分与融合,并结合Ultimate Data Cleaner工具进行高级文本清洗,确保数据纯净度与结构一致性。
特点
AutoMathText-V2以其2.46万亿令牌的规模,专注于STEM内容,尤其在数学领域具有显著浓度。数据集涵盖网页文本、代码、数学推理及中英双语材料,并通过多源质量评分实现细粒度质量分层。其独特之处在于融合了52个精选数据源,包括Nemotron CommonCrawl、FineWeb教育内容及专业数学数据集,同时采用污染检测机制自动移除测试集泄露内容,保障数据的独立性与可靠性。
使用方法
用户可通过Hugging Face的datasets库直接加载数据集,支持流式读取和按域配置选择。例如,调用load_dataset函数并指定域名(如math_web)即可访问特定领域数据。对于RefineCode域,需通过AWS S3接口使用元数据中的blob_id下载实际代码内容,其他域则直接包含完整文本。数据集按质量百分位分层存储,允许用户根据训练需求选择不同质量等级的数据段,以实现高效且定制化的模型预训练。
背景与挑战
背景概述
AutoMathText-V2数据集由清华大学交叉信息研究院于2025年推出,是面向STEM领域的大规模预训练语料库。该数据集整合了52个高质量数据源,涵盖数学、代码、推理及双语文本等多个维度,总规模达2.46万亿token。研究团队通过三级去重管道和AI驱动的质量评估体系,致力于解决STEM领域预训练数据稀缺与质量不均的核心问题,为大型语言模型在数学推理、科学计算等专业领域的性能提升提供关键数据支撑。
当前挑战
该数据集旨在攻克STEM领域文本中数学符号与自然语言混合表达的复杂性,以及代码与公式的结构化表征难题。构建过程中面临多源数据标准化整合、语义级去重算法的精度优化、LaTeX与代码结构的无损清洗,以及测试集污染检测等关键技术挑战,需通过嵌入聚类与质量评分融合等创新方法保障数据纯净度与有效性。
常用场景
经典使用场景
在STEM领域的大规模语言模型预训练中,AutoMathText-V2数据集展现出卓越的应用价值。该数据集通过精心整合数学、代码、推理及双语数据,为模型提供了丰富的知识表示空间。其三重去重机制与AI驱动的质量评估体系,显著提升了模型在复杂数学推理和科学计算任务中的表现,成为训练前沿STEM专用模型的核心资源。
实际应用
在实际应用层面,该数据集支撑了教育科技领域的智能辅导系统开发,能够生成高精度的数学问题解答和代码示例。工业界的知识检索系统借助其丰富的STEM语料库,实现了对学术文献和工程文档的高效语义检索。同时,其双语翻译语料为跨语言科学交流提供了重要的数据基础,促进了全球科研协作的数字化转型。
衍生相关工作
基于该数据集衍生的经典工作包括Nemotron系列语言模型的持续优化,特别是在数学定理证明和代码生成任务上的突破性进展。OpenCoder项目利用其代码语料库训练出了具备复杂算法实现能力的代码生成模型。此外,多个研究团队借助其高质量推理数据,开发出了在GSM8K和MATH数据集上达到人类专家水平的数学推理系统,推动了认知计算领域的前沿探索。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作