five

aluncstokes/mathpile_arxiv_subset

收藏
Hugging Face2024-02-18 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/aluncstokes/mathpile_arxiv_subset
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含343,830个TeX文件,这些文件是从arXiv获取的数学论文。数据集已经分为训练集和测试集。数据格式为JSONL文件,每个文件包含一个JSON字典,字典中只有一个键text。数据来源于MathPile的arXiv子集的训练和验证部分。使用该数据集时,用户应遵守arXiv的使用条款。

该数据集包含343,830个TeX文件,这些文件是从arXiv获取的数学论文。数据集已经分为训练集和测试集。数据格式为JSONL文件,每个文件包含一个JSON字典,字典中只有一个键text。数据来源于MathPile的arXiv子集的训练和验证部分。使用该数据集时,用户应遵守arXiv的使用条款。
提供机构:
aluncstokes
原始信息汇总

MathPile ArXiv (subset)

描述

该数据集包含从arXiv获取的343,830个TeX文件,内容为数学论文。训练集和测试集已预先分割。

来源

数据来源于MathPile的arXiv子集的训练和验证部分。

格式

  • 以JSONL文件形式提供,每个文件包含一个键为"text"的JSON字典。

许可

原始数据的许可条款遵循arXiv的规定。用户应参考arXiv的使用条款以了解允许的使用方式。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作