LLM4SCIENCE/uparxive
收藏Hugging Face2024-05-08 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/LLM4SCIENCE/uparxive
下载链接
链接失效反馈官方服务:
资源简介:
Uparxive数据集旨在为整个arXiv的.tex源文件提供一个LLM友好的数据集,与unarxive数据集类似,但使用了不同的工具链。数据集以.json格式存储,可以无缝转换为Markdown .md格式。文件详细说明了如何处理表格、图表、引用和数学符号等元素。数据集的来源包括arXiv的批量数据访问和API,并提醒用户注意数据使用的许可合规性。统计部分提到数据集需要156G磁盘空间,涵盖了1,700,000篇论文,缺失部分主要是由于缺少.tex源文件或转换过程失败。
Uparxive数据集旨在为整个arXiv的.tex源文件提供一个LLM友好的数据集,与unarxive数据集类似,但使用了不同的工具链。数据集以.json格式存储,可以无缝转换为Markdown .md格式。文件详细说明了如何处理表格、图表、引用和数学符号等元素。数据集的来源包括arXiv的批量数据访问和API,并提醒用户注意数据使用的许可合规性。统计部分提到数据集需要156G磁盘空间,涵盖了1,700,000篇论文,缺失部分主要是由于缺少.tex源文件或转换过程失败。
提供机构:
LLM4SCIENCE
原始信息汇总
数据集概述
名称: Uparxive 数据集
目的: 提供一个适用于大型语言模型(llm)的数据集,包含arXiv的完整.tex源文件。
格式: 数据集以.json格式存储,可无缝转换为Markdown .md格式。
数据规模: 数据集大小介于1M至10M之间。
语言: 英语(en)
任务类别:
- 问答
- 文本到文本生成
- 文本生成
配置:
- config_name: example_data
- data_files: example.json
数据集规则
- 表格和图形: 使用
egin{table} end{table}和egin{figure} end{figure}标签包围的元素将被提取并附加到文档末尾,以增强清晰度和组织性。 - 引用和参考: 引用(
cite{})和参考(ef{})转换为更明确的格式,以提高可读性。 - 数学符号:
- 内联数学: 使用单个美元符号
$表示内联数学表达式。 - 块数学: 使用双美元符号
$$表示块数学表达式。
- 内联数学: 使用单个美元符号
数据集来源
- arXiv Bulk Data Access: 通过AWS S3的
request-payer数据集直接从arXiv访问和下载大量数据。 - arXiv API: 用于更具体的数据需求或元数据,使用arXiv API。
统计信息
- 存储需求: 156G磁盘空间,用于存储1.7M篇论文。
- 覆盖范围: 截至2024年4月,arXiv源中有约2,450,893篇论文,Uparxive数据集覆盖了1,700,000篇。
注意事项
- 确保使用数据集时遵守论文的许可条款。
- 未包含CC BY-NC-ND许可的论文。



