Alignment-Lab-AI/Open-Web-Math
收藏Hugging Face2024-04-30 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/Alignment-Lab-AI/Open-Web-Math
下载链接
链接失效反馈官方服务:
资源简介:
OpenWebMath是一个包含互联网上大部分高质量数学文本的数据集。该数据集从Common Crawl的超过200B个HTML文件中过滤和提取,最终包含630万份文档,总计147亿个标记。数据集适用于大型语言模型的预训练和微调。数据集的结构包括文本、URL、日期和元数据等字段。处理流程包括HTML文档的预过滤、文本提取、内容分类与过滤、去重和人工检查等步骤。
OpenWebMath是一个包含互联网上大部分高质量数学文本的数据集。该数据集从Common Crawl的超过200B个HTML文件中过滤和提取,最终包含630万份文档,总计147亿个标记。数据集适用于大型语言模型的预训练和微调。数据集的结构包括文本、URL、日期和元数据等字段。处理流程包括HTML文档的预过滤、文本提取、内容分类与过滤、去重和人工检查等步骤。
提供机构:
Alignment-Lab-AI
原始信息汇总
数据集概述
基本信息
- 名称: OpenWebMath
- 语言: 英语 (en)
- 任务类别: 文本生成 (text-generation)
- 大小类别: 10B<n<100B
- 许可证: ODC-By
数据结构
- 特征:
url: 字符串类型text: 字符串类型date: 字符串类型metadata: 字符串类型
数据集划分
- 训练集:
- 大小: 56651995057 字节
- 示例数量: 6315233
下载信息
- 下载大小: 16370689925 字节
- 数据集总大小: 56651995057 字节
数据内容
- 文档数量: 6.3 million
- 总令牌数: 14.7B tokens
- 来源: 超过130k不同域名,包括论坛、教育页面和博客
- 学科覆盖: 数学、物理、统计学、计算机科学等
数据处理流程
- 预过滤HTML文档
- 文本提取
- 内容分类与过滤
- 去重
- 人工检查
引用信息
@misc{paster2023openwebmath, title={OpenWebMath: An Open Dataset of High-Quality Mathematical Web Text}, author={Keiran Paster and Marco Dos Santos and Zhangir Azerbayev and Jimmy Ba}, year={2023}, eprint={2310.06786}, archivePrefix={arXiv}, primaryClass={cs.AI} }
搜集汇总
数据集介绍

构建方式
在数学文本挖掘领域,高质量数据集的构建是推动语言模型数学推理能力发展的关键。OpenWebMath数据集通过系统化流程从Common Crawl的海量网页中提炼而成,其构建始于对超过2000亿份HTML文档的初步筛选,仅保留包含数学内容的英文页面。随后采用先进的文本提取技术,在去除网页模板噪声的同时完整保留LaTeX格式的数学表达式。通过FastText语言识别模型确保语言纯度,并运用KenLM模型与专有的MathScore模型进行内容质量过滤,有效剔除非数学文本与低质量文档。最后经过SimHash去重处理与人工审查,最终形成包含630万份文档的高纯度数学语料库。
特点
作为当前规模最大的开放网络数学文本集合,OpenWebMath展现出鲜明的领域特征。数据集涵盖数学、物理、统计及计算机科学等多学科内容,文档来源遍布13万余个独立域名,其中StackExchange、Nature等学术平台贡献了显著比例的优质内容。其核心优势在于147亿令牌的庞大容量与精细的质量控制,特别注重数学公式的结构化保留,相较于通用网页数据集具有更高的专业密度。数据集的多样性不仅体现在学科覆盖层面,更反映在论坛讨论、教育资料、学术博客等多元文本形态的包容性上,为模型训练提供了丰富的语言表达范式。
使用方法
在大型语言模型的训练实践中,OpenWebMath为预训练与微调阶段提供了专业化的数据支持。研究者可通过Hugging Face平台便捷加载数据集,其标准化的数据结构包含文本内容、来源URL、采集日期及元信息四个字段,便于进行针对性处理。使用时可依据具体需求对数学文本进行分层采样,或结合领域标签实现跨学科训练。该数据集特别适合用于增强模型的符号推理与公式理解能力,在数据处理过程中建议注意遵循ODC-By许可协议,并保留原始网页的版权信息。对于特定研究方向,用户还可通过元数据字段追溯文档来源,实现训练过程的透明化与可复现性。
背景与挑战
背景概述
在人工智能与自然语言处理领域,数学文本数据的稀缺性一直是制约大语言模型数学推理能力发展的关键瓶颈。为应对这一挑战,2023年,由Keiran Paster、Marco Dos Santos、Zhangir Azerbayev和Jimmy Ba等研究人员共同构建了OpenWebMath数据集。该数据集从Common Crawl超过2000亿份HTML文档中,通过精细的过滤与提取流程,汇集了630万份高质量数学文档,涵盖数学、物理、统计学及计算机科学等多个学科,总计包含约147亿个标记。OpenWebMath的诞生旨在为大语言模型的预训练与微调提供丰富、可靠的数学语料,显著提升了模型处理复杂数学问题的能力,对推动AI在科学计算与逻辑推理方面的应用具有深远影响。
当前挑战
OpenWebMath致力于解决大语言模型在数学领域文本生成与理解中的核心难题,即如何从海量网络数据中识别并整合高质量、结构化的数学内容。构建过程中面临多重挑战:其一,从Common Crawl的原始HTML文件中精准提取数学文本,特别是保留LaTeX格式的复杂数学表达式,同时有效去除网页模板与无关噪声;其二,设计高效的内容过滤机制,需结合语言识别、文本困惑度评估及数学内容专项分类,以确保数据的语言一致性与学科相关性;其三,实施大规模去重处理,避免数据冗余对模型训练造成偏差;其四,通过人工审查保障最终数据集的整体质量与可靠性,这一过程需平衡自动化流程与人工校验的资源投入。
常用场景
经典使用场景
在数学与计算科学交叉领域,高质量文本数据的稀缺性长期制约着语言模型的深度推理能力发展。OpenWebMath数据集通过整合互联网上超过630万份涵盖数学、物理及统计学的高质量文档,为大型语言模型的预训练与微调提供了核心语料库。其经典应用场景在于,研究人员利用该数据集富含的LaTeX格式数学表达式与自然语言混合文本,系统性地提升模型在符号运算、定理证明及复杂问题求解方面的逻辑严谨性与泛化性能,从而推动模型从表层语言模式学习转向深层数学思维建模。
实际应用
在工程实践层面,OpenWebMath已成为构建专业级数学辅助系统的基石。教育科技公司借助该数据集训练出的模型,能够为学生提供动态解题指导与个性化学习路径规划;科研机构则利用其开发自动化文献分析工具,加速数学公式检索与理论关联发现。此外,在工业仿真与金融量化领域,基于该数据集微调的模型可协助工程师进行符号微分计算与风险模型验证,将形式化数学语言转化为可执行代码,切实提升复杂系统设计与决策优化的效率与可靠性。
衍生相关工作
自OpenWebMath发布以来,其严谨的数据构建方法论启发了多个衍生研究方向的诞生。例如,团队基于MathScore分类器开发的数学内容评估框架,已被扩展应用于科学文献质量分级体系;数据集内嵌的LaTeX提取技术则促进了跨模态数学表示学习的新范式发展。在模型训练层面,该数据集直接支撑了多项专注于数学推理的指令微调项目,如Proof-Pile-2的构建,并催生了针对数学问题求解的专项基准测试,推动形成了从数据清洗、模型训练到能力评估的完整研究生态链。
以上内容由遇见数据集搜集并总结生成



