five

AutoMathText-V2

收藏
Hugging Face2025-09-02 更新2025-09-03 收录
下载链接:
https://huggingface.co/datasets/OpenSQZ/AutoMathText-V2
下载链接
链接失效反馈
官方服务:
资源简介:
AutoMathText-V2 是一个包含 2.46 万亿个高质量、去重的文本数据集,涵盖网络内容、数学、代码、推理和双语数据。该数据集经过三层去重流程和 AI 助力的质量评估,为大型语言模型提供了卓越的训练数据。

AutoMathText-V2 is a high-quality, deduplicated text dataset comprising 2.46 trillion text samples, covering web content, mathematics, code, reasoning, and bilingual data. It has undergone a three-tier deduplication process and AI-assisted quality evaluation, providing exceptional training data for large language models (LLMs).
创建时间:
2025-08-20
原始信息汇总

AutoMathText-V2 数据集概述

数据集基本信息

  • 名称:AutoMathText-V2
  • 总规模:2.46万亿个token
  • 核心特征:高质量、去重文本数据,涵盖网页内容、数学、代码、推理和双语数据
  • 处理技术:三重去重流水线、AI驱动的质量评估

数据集组成

领域分布

领域 Token数量 占比 描述
Nemotron CC High 1,468.3B 59.7% 高质量CommonCrawl数据
DCLM 314.2B 12.8% DCLM基线网页内容
RefineCode 279.4B 11.4% GitHub仓库(仅学术使用)
Nemotron CC Medium-High 254.5B 10.3% 中高质量CommonCrawl数据
FineWeb Edu 117.4B 4.8% 教育网页内容
Chinese 112.18B 4.6% 中文通用内容
Reasoning QA 86.2B 3.5% 指令遵循和复杂推理任务
Math Web 68.3B 2.8% 数学和科学内容
MegaMath 28.5B 1.2% 专业数学集合
Translation 1.61B 0.1% 英中翻译对

数据来源

共包含52个优质数据源,按领域分类:

DCLM领域

  • DCLM-Baseline:高质量网页内容

FineWeb Edu领域

  • FineWeb-Edu:教育网页内容(0-5质量评分)

FineWeb Edu中文领域

  • FineWeb-Edu-Chinese:中文教育内容(3.4-5.0评分)

Math Web领域

  • AutoMathText:数学/代码/ArXiv内容
  • FineMath:高质量数学内容
  • Open-Web-Math-Pro:数学网页
  • InfiMM-WebMath-40B:多模态数学内容

Nemotron CC High领域

  • Nemotron-CC (High):高质量CommonCrawl子集

Nemotron CC Medium-High领域

  • Nemotron-CC (Medium-High):中高质量CommonCrawl子集

RefineCode领域

  • RefineCode:GitHub仓库(仅学术使用)

Reasoning QA领域

  • 包含35个推理相关数据集,涵盖代码训练、指令遵循、思维链推理、数学问题求解等

Translation领域

  • UN-PC:英中翻译对
  • UN-PC-Reverse:中英翻译对

MegaMath领域

  • MegaMath-QA:大规模数学QA
  • MegaMath-Translated-Code:数学代码翻译
  • MegaMath-Text-Code-Block:混合数学文本和代码块

处理流程

数据提取与标准化

采用标准化JSON格式,包含域前缀、ID、元数据、文本、token计数、URL和质量评分

三重去重

  1. 精确去重:SHA256内容哈希,移除约30%精确重复
  2. 模糊去重:MinHash LSH,Jaccard相似度阈值0.9,移除约20%近似重复
  3. 语义去重:GTE多语言嵌入,余弦相似度阈值0.007,移除约10%语义重复

AI质量评估

基于Qwen2的分类器架构,微调回归头进行质量评分,多源分数归一化和融合

高级文本清理

  • 编码修复和损坏过滤
  • LaTeX和代码保护
  • 智能社交媒体过滤
  • URL规范化
  • 文档伪影移除
  • 双语支持

污染检测

自动测试集泄露检测和移除,保护数学数据集测试问题和GSM8K评估问题

使用方式

加载数据集

python from datasets import load_dataset

加载完整数据集

dataset = load_dataset("OpenSQZ/AutoMathText-V2", streaming=True)

加载特定领域

math_data = load_dataset("OpenSQZ/AutoMathText-V2", name="math_web", streaming=True)

RefineCode内容下载

RefineCode域仅包含元数据,需使用blob_id从AWS S3下载实际代码内容

数据集结构

目录结构

按领域和质量百分位组织:

  • 10个质量百分位(0-10, 10-20, ..., 90-100)
  • 每个百分位包含等量token
  • 基于AI分类器质量评分进行百分位排名

可用配置

  • 领域特定配置
  • 质量过滤配置
  • Nemotron变体
  • 组合配置
  • 自定义采样

语言分布

  • 英语:约70-80%
  • 中文:约15-20%

使用注意事项

社会影响

旨在为ML社区提供高质量训练数据的民主化访问,通过透明处理方法和全面文档,使研究人员能够构建更好的语言模型

已知限制

  • 代码内容可能少于专业代码数据集
  • RefineCode仅限于学术研究使用
  • 部分内容格式可能不如精选源优化
  • 网页来源内容可能包含在线文本中的偏见
  • 某些专业领域覆盖有限

偏见考虑

  • 过滤方法避免过度依赖与"黄金"源的相似性
  • URL级过滤减少NSFW内容但不完全消除
  • 地理和语言偏见可能反映网页内容分布
  • 质量分类器在多样化代表性样本上训练

许可与引用

许可证

基于Apache 2.0许可证发布,最大限度实现可访问性和研究使用

重要说明:RefineCode组件(GitHub仓库)仅限于学术研究使用,禁止商业使用

引用

bibtex @dataset{automath_text_v2_2025, title = {AutoMathText-V2: Multi-Domain High-Quality Pretraining Dataset}, author = {Chao Li, Yifan Zhang}, year = {2025}, url = {OpenSQZ/AutoMathText-V2}, publisher = {Hugging Face}, note = {A comprehensive pretraining dataset with advanced deduplication and quality assessment} }

搜集汇总
数据集介绍
main_image_url
构建方式
AutoMathText-V2数据集通过整合50余个高质量数据源,采用三层去重流程构建而成。首先进行精确去重,利用SHA256哈希算法移除完全重复内容;随后实施模糊去重,基于MinHash和局部敏感哈希技术过滤近似重复文本;最后执行语义去重,通过GTE多语言嵌入向量和K-means聚类消除语义层面的冗余。整个过程结合AI驱动的质量评估体系,采用基于Qwen2的分类器对文本进行多源分数融合与标准化处理,确保数据纯净度与多样性。
特点
该数据集涵盖2.46万亿高质量标记,跨足网页内容、数学、代码、推理及中英双语五大领域,具有显著的多模态与多语言特性。其核心优势体现在三重去重技术保障的数据纯净度,以及基于质量百分位的分层存储结构,支持按需加载不同质量等级的语料。数据集特别强化了数学与代码内容的覆盖,包含专业数学问题求解、形式化证明及代码指令数据,同时通过智能文本清洗技术保留了LaTeX公式与代码预处理指令等关键语义元素。
使用方法
用户可通过HuggingFace Datasets库以流式或分域加载方式使用该数据集,支持按质量百分位灵活选择数据子集。对于代码域(RefineCode),需通过元数据中的blob_id字段从AWS S3下载实际内容,其他域则直接提供完整文本。数据集提供10个质量分层配置,用户可结合领域需求(如数学推理、代码生成)混合加载不同质量等级的语料,或通过自定义采样实现跨域平衡训练。使用前需注意RefineCode组件仅限学术研究用途,且需配置AWS凭证访问相关存储资源。
背景与挑战
背景概述
AutoMathText-V2数据集由Chao Li和Yifan Zhang团队于2025年构建,旨在为大规模语言模型提供高质量、多领域的预训练语料。该数据集整合了来自网络内容、数学、代码、推理及双语数据的52个优质数据源,通过三重去重管道和人工智能驱动的质量评估,确保了语料的纯净度与多样性。其核心研究问题聚焦于如何通过先进的数据处理技术提升语言模型在复杂任务上的性能,特别是在数学推理与代码生成领域的表现,对推动自然语言处理与人工智能交叉领域的研究具有显著影响力。
当前挑战
AutoMathText-V2致力于解决多领域语言模型预训练中的数据质量与多样性挑战,包括语义去重、质量评分融合以及跨语言内容优化。在构建过程中,团队面临三重去重管道的计算复杂度、语义相似性阈值的选择,以及高质量双语语料稀缺等难题。此外,数据污染检测与代码内容的合规性管理亦增加了构建的复杂性,需平衡数据规模与质量控制之间的张力。
常用场景
经典使用场景
在自然语言处理领域,AutoMathText-V2数据集作为大规模预训练语料库,主要应用于多语言大语言模型的预训练与微调过程。该数据集通过三重去重机制和AI驱动的质量评估,确保了训练数据的纯净度与多样性,特别适用于需要高质量数学推理、代码生成及中英双语处理能力的模型开发。研究人员可依据不同质量百分位和领域配置,灵活选择数据子集进行针对性训练,显著提升模型在复杂任务上的表现。
实际应用
在实际应用中,AutoMathText-V2被广泛用于教育科技、智能编程助手和多语言信息服务系统的开发。其高质量的数学与代码数据支持自动化解题系统和代码生成工具的训练,而中英双语优化内容则为跨语言搜索、机器翻译和国际化内容生成提供了丰富的语料支持。企业与研究机构可利用其分领域、分质量的数据结构,构建更精准、高效的行业专用语言模型。
衍生相关工作
基于AutoMathText-V2数据集,已衍生出多项重要研究工作,包括面向数学推理的链式思维模型、代码与自然语言混合的指令微调框架,以及中英双语对比学习算法。这些工作充分利用了数据集在数学、代码和双语领域的深度标注与高质量筛选特性,推动了诸如MetaMathQA、Lean-STaR等专项数据集的构建与相关模型的性能提升,形成了以高质量数据驱动模型创新的研究范式。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作