five

UltraData-Math

收藏
Opencsg2026-02-10 更新2026-04-11 收录
下载链接:
https://www.opencsg.com/datasets/OpenBMB/UltraData-Math
下载链接
链接失效反馈
官方服务:
资源简介:
UltraData-Math是一个大规模、高质量的数学预训练数据集,旨在系统性提升大型语言模型的数学推理能力。该数据集包含超过2900亿个词元,分为L1、L2和L3三个渐进层级,数据内容涵盖网络数学语料、经过质量筛选的网络数据以及多格式精炼数据,如问答对、多轮对话、多风格重写和知识点教材。其数据规模庞大,L1层包含1705亿词元,L2层包含337亿词元,L3层包含880亿词元。数据集通过专门的数学解析器对原始网络数据进行标准化处理,将不同数学表达式统一为LaTeX格式;通过启发式规则进行清洗、格式修复和文档级去重;并利用基于大模型标注的质量模型进行高效筛选,以识别高价值数学内容。L3层数据则通过高性能模型进行重写、合成生成和精炼,形成具有清晰推理步骤和明确教学意图的结构化内容。UltraData-Math主要适用于大型语言模型的数学预训练和文本生成任务,并采用Apache 2.0授权许可。
创建时间:
2026-02-10
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作