aluncstokes/mathpile_arxiv_subset
收藏Hugging Face2024-02-18 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/aluncstokes/mathpile_arxiv_subset
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含343,830个TeX文件,这些文件是从arXiv获取的数学论文。数据集已经分为训练集和测试集。数据格式为JSONL文件,每个文件包含一个JSON字典,字典中只有一个键text。数据来源于MathPile的arXiv子集的训练和验证部分。使用该数据集时,用户应遵守arXiv的使用条款。
该数据集包含343,830个TeX文件,这些文件是从arXiv获取的数学论文。数据集已经分为训练集和测试集。数据格式为JSONL文件,每个文件包含一个JSON字典,字典中只有一个键text。数据来源于MathPile的arXiv子集的训练和验证部分。使用该数据集时,用户应遵守arXiv的使用条款。
提供机构:
aluncstokes
原始信息汇总
MathPile ArXiv (subset)
描述
该数据集包含从arXiv获取的343,830个TeX文件,内容为数学论文。训练集和测试集已预先分割。
来源
数据来源于MathPile的arXiv子集的训练和验证部分。
格式
- 以JSONL文件形式提供,每个文件包含一个键为"text"的JSON字典。
许可
原始数据的许可条款遵循arXiv的规定。用户应参考arXiv的使用条款以了解允许的使用方式。



