mathpile
收藏魔搭社区2025-12-29 更新2024-06-01 收录
下载链接:
https://modelscope.cn/datasets/Shanghai_AI_Laboratory/mathpile
下载链接
链接失效反馈官方服务:
资源简介:
#### 简介
在构建强大的基础模型中,高质量、大规模的语料库是其核心的组成部分。在本研究中,我们推出了“MathPile”,这是一个多样化且高质量的数学主题语料库,包含约95亿个tokens。 其数据包括教科书(含讲义)、arXiv、维基百科、ProofWiki、StackExchange 和网页。它包含适合 K-12、大学、研究生水平和数学竞赛的数学内容。
#### 引文
@article{wang2023mathpile,
title={Generative AI for Math: Part I -- MathPile: A Billion-Token-Scale Pretraining Corpus for Math},
author={Wang, Zengzhi and Xia, Rui and Liu Pengfei},
journal={arXiv preprint arXiv:2312.17120},
year={2023}
}
#### 下载方法
:modelscope-code[]{type="sdk"}
:modelscope-code[]{type="git"}
#### 简介
在构建高性能基础模型的过程中,高质量、大规模的语料库是其核心构成要素。本研究中,我们推出了MathPile,这是一个多样化且高质量的数学主题语料库,共包含约95亿个Token(Token)。该语料库的数据来源涵盖教科书(含讲义)、arXiv、维基百科、ProofWiki、StackExchange 以及各类网页,其内容覆盖K-12、大学、研究生阶段的数学知识,以及各类数学竞赛相关材料。
#### 引文
@article{wang2023mathpile,
title={生成式AI(Generative AI)用于数学:第一部分——MathPile:面向数学的十亿Token规模预训练语料库},
author={Wang, Zengzhi and Xia, Rui and Liu Pengfei},
journal={arXiv预印本 arXiv:2312.17120},
year={2023}
}
#### 下载方法
:modelscope-code[]{type="sdk"}
:modelscope-code[]{type="git"}
提供机构:
maas
创建时间:
2024-05-28



