MathPile-Commercial 数学推理预训练语料库 (可商用版)
收藏超神经2025-01-22 更新2024-05-15 收录
下载链接:
https://hyper.ai/cn/datasets/29545
下载链接
链接失效反馈官方服务:
资源简介:
MathPile-Commercial 是 MathPile 的商业用途版本,是通过剔除 MathPile 中禁止商业用途的文档而获得的(最新版本,即 v0.2)。具体来说,研究团队对源数据进行了非商业用途检测,利用 arXiv 源的元数据中的许可信息,并对其他源采用关键字匹配。
MathPile-Commercial is the commercial-use variant of MathPile, developed by excluding documents prohibited for commercial use from its latest version v0.2. Specifically, the research team conducted non-commercial use screening on the source dataset, leveraging license information from the metadata of arXiv sources and applying keyword matching to other data sources.
创建时间:
2024-02-22
搜集汇总
数据集介绍

背景与挑战
背景概述
MathPile-Commercial是MathPile的可商用版本,通过移除非商业许可内容构建而成。这个数学推理预训练语料库以数学为中心,包含约95亿个token,来源多样且质量高,涵盖教科书、arXiv和维基百科等。
以上内容由遇见数据集搜集并总结生成



