five

OpenSQZ/AutoMathText-V2

收藏
Hugging Face2026-04-02 更新2025-10-25 收录
下载链接:
https://hf-mirror.com/datasets/OpenSQZ/AutoMathText-V2
下载链接
链接失效反馈
官方服务:
资源简介:
AutoMathText-V2 是一个由人工智能精心策划的STEM预训练数据集,包含2.46万亿个token。它特别侧重于STEM内容,尤其是数学,并包括来自网络内容、数学、代码、推理和双语数据。数据集通过三层去重流程和人工智能驱动的质量评估进行加工。它结合了50多个优质数据源,并使用高级处理技术以实现卓越的模型性能。

AutoMathText-V2 is a large AI-curated STEM pretraining dataset with 2.46 trillion tokens. It emphasizes on STEM content, especially Math, and includes data from web content, mathematics, code, reasoning, and bilingual data. The dataset is processed through a three-tier deduplication pipeline and AI-powered quality assessment. It combines 50+ premium data sources and uses advanced processing techniques for exceptional model performance.
提供机构:
OpenSQZ
搜集汇总
数据集介绍
main_image_url
构建方式
在人工智能领域,高质量的数据集是推动模型性能突破的关键基石。AutoMathText-V2的构建采用了严谨的多阶段处理流程,首先从超过50个优质数据源中提取原始文本,涵盖网络内容、数学、代码、推理及双语数据。随后实施三重去重策略,包括基于SHA256哈希的精确去重、采用MinHash与局部敏感哈希的模糊去重,以及利用GTE多语言嵌入模型的语义去重,有效剔除了大量冗余信息。所有文本均经过Ultimate Data Cleaner v7.5进行高级清洗,并运用基于Qwen2的AI分类器进行质量评估与分数融合,最终形成按质量百分位数分层的结构化语料库。
特点
该数据集的核心特征在于其规模宏大且质量精良,总计包含2.46万亿个经过严格去重和清洗的标记。其显著特点是对STEM内容,尤其是数学领域进行了专项优化,确保了领域知识的深度与广度。数据集结构设计巧妙,提供了多种配置,如ultra、high、medium-high等,允许用户根据需求选择不同质量阈度的子集。此外,数据集具备双语支持,融合了中英文教育内容,并集成了丰富的推理与代码指令数据,为模型在复杂任务上的训练提供了多元化的素材。
使用方法
为便于研究人员高效利用,数据集可通过Hugging Face的datasets库直接加载。用户可根据具体任务需求,选择不同的配置名称来加载相应质量等级或特定领域的子集,例如加载‘ultra’配置以获得最高质量的数据,或加载‘math_web’配置以专注于数学内容。对于RefineCode领域,数据集仅包含元数据,实际代码内容需用户依据提供的blob_id字段,通过AWS S3凭证和配套脚本从指定存储桶中下载。这种设计在保证数据可访问性的同时,也优化了存储效率。
背景与挑战
背景概述
AutoMathText-V2数据集由清华大学交叉信息研究院的研究团队于2024年发布,旨在应对大型语言模型在科学、技术、工程和数学领域训练数据质量不足的核心问题。该数据集整合了超过五十个高质量数据源,涵盖网络文本、数学内容、代码、推理任务及双语材料,总规模达到2.46万亿词元。其设计聚焦于通过先进的三层去重流程与人工智能驱动的质量评估,为模型的预训练、中期训练及微调提供高纯度、高相关性的语料,显著提升了模型在复杂逻辑推理与专业学科任务上的表现力。
当前挑战
该数据集致力于解决STEM领域语言模型训练中数据稀缺与质量不均的挑战,其核心在于如何从海量异构数据中精准筛选并融合高价值的数学与科学内容。构建过程中的主要挑战包括:实施精确、模糊与语义三层去重以消除冗余信息,同时保持数据的多样性与完整性;开发基于Qwen2的智能分类器进行多源质量评分融合,确保文本的学术严谨性;以及设计有效的污染检测机制,防止评估数据泄露,保障模型训练的纯净度与泛化能力。
常用场景
经典使用场景
在大型语言模型(LLM)的预训练与微调领域,AutoMathText-V2数据集以其对STEM(科学、技术、工程和数学)内容的深度优化而著称。该数据集最经典的使用场景是作为大规模语言模型,特别是专注于数学推理与科学文本生成模型的训练语料库。研究人员利用其高达2.46万亿令牌的庞大规模和经过三重去重、AI质量评估的高质量文本,对模型进行从零开始的预训练或进行领域适应性的中段训练,以显著提升模型在复杂数学问题求解、科学文献理解和代码生成方面的能力。
解决学术问题
该数据集有效解决了自然语言处理领域内,模型在STEM相关任务上表现不佳的普遍问题。传统通用语料库往往缺乏高质量、结构化的数学与科学内容,导致模型在逻辑推理、符号运算和专业知识理解上存在瓶颈。AutoMathText-V2通过整合超过52个优质数据源,并运用语义去重与污染检测等先进技术,为学术界提供了纯净、高覆盖度的训练数据。其意义在于为构建具备深度推理能力的专家级语言模型奠定了数据基础,推动了AI在科学发现与教育辅助等前沿方向的发展。
衍生相关工作
围绕AutoMathText-V2数据集,已衍生出一系列探索模型能力边界与训练范式的经典研究工作。这些工作主要集中在如何高效利用其大规模、多领域的特性,例如研究混合领域预训练策略、探索数学推理能力的涌现机制,以及开发针对代码与数学结合的指令微调技术。该数据集也常被用作基准,用于评估和比较不同模型架构在STEM任务上的性能,推动了如链式思维推理、程序合成与形式化证明等子领域的算法创新与模型迭代。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作