five

mathpile

收藏
魔搭社区2025-12-29 更新2024-06-01 收录
下载链接:
https://modelscope.cn/datasets/Shanghai_AI_Laboratory/mathpile
下载链接
链接失效反馈
官方服务:
资源简介:
#### 简介 在构建强大的基础模型中,高质量、大规模的语料库是其核心的组成部分。在本研究中,我们推出了“MathPile”,这是一个多样化且高质量的数学主题语料库,包含约95亿个tokens。 其数据包括教科书(含讲义)、arXiv、维基百科、ProofWiki、StackExchange 和网页。它包含适合 K-12、大学、研究生水平和数学竞赛的数学内容。 #### 引文 @article{wang2023mathpile, title={Generative AI for Math: Part I -- MathPile: A Billion-Token-Scale Pretraining Corpus for Math}, author={Wang, Zengzhi and Xia, Rui and Liu Pengfei}, journal={arXiv preprint arXiv:2312.17120}, year={2023} } #### 下载方法 :modelscope-code[]{type="sdk"} :modelscope-code[]{type="git"}

#### 简介 在构建高性能基础模型的过程中,高质量、大规模的语料库是其核心构成要素。本研究中,我们推出了MathPile,这是一个多样化且高质量的数学主题语料库,共包含约95亿个Token(Token)。该语料库的数据来源涵盖教科书(含讲义)、arXiv、维基百科、ProofWiki、StackExchange 以及各类网页,其内容覆盖K-12、大学、研究生阶段的数学知识,以及各类数学竞赛相关材料。 #### 引文 @article{wang2023mathpile, title={生成式AI(Generative AI)用于数学:第一部分——MathPile:面向数学的十亿Token规模预训练语料库}, author={Wang, Zengzhi and Xia, Rui and Liu Pengfei}, journal={arXiv预印本 arXiv:2312.17120}, year={2023} } #### 下载方法 :modelscope-code[]{type="sdk"} :modelscope-code[]{type="git"}
提供机构:
maas
创建时间:
2024-05-28
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作