LLM4SCIENCE/uparxive

Name: LLM4SCIENCE/uparxive
Creator: LLM4SCIENCE
Published: 2024-05-08 16:07:19
License: 暂无描述

Hugging Face2024-05-08 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/LLM4SCIENCE/uparxive

下载链接

链接失效反馈

官方服务：

资源简介：

Uparxive数据集旨在为整个arXiv的.tex源文件提供一个LLM友好的数据集，与unarxive数据集类似，但使用了不同的工具链。数据集以.json格式存储，可以无缝转换为Markdown .md格式。文件详细说明了如何处理表格、图表、引用和数学符号等元素。数据集的来源包括arXiv的批量数据访问和API，并提醒用户注意数据使用的许可合规性。统计部分提到数据集需要156G磁盘空间，涵盖了1,700,000篇论文，缺失部分主要是由于缺少.tex源文件或转换过程失败。

提供机构：

LLM4SCIENCE

原始信息汇总

数据集概述

名称: Uparxive 数据集

目的: 提供一个适用于大型语言模型（llm）的数据集，包含arXiv的完整.tex源文件。

格式: 数据集以.json格式存储，可无缝转换为Markdown .md格式。

数据规模: 数据集大小介于1M至10M之间。

语言: 英语（en）

任务类别:

问答
文本到文本生成
文本生成

配置:

config_name: example_data
data_files: example.json

数据集规则

表格和图形: 使用egin{table} end{table}和egin{figure} end{figure}标签包围的元素将被提取并附加到文档末尾，以增强清晰度和组织性。
引用和参考: 引用（cite{}）和参考（ ef{}）转换为更明确的格式，以提高可读性。
数学符号:
- 内联数学: 使用单个美元符号$表示内联数学表达式。
- 块数学: 使用双美元符号$$表示块数学表达式。

数据集来源

arXiv Bulk Data Access: 通过AWS S3的request-payer数据集直接从arXiv访问和下载大量数据。
arXiv API: 用于更具体的数据需求或元数据，使用arXiv API。

统计信息

存储需求: 156G磁盘空间，用于存储1.7M篇论文。
覆盖范围: 截至2024年4月，arXiv源中有约2,450,893篇论文，Uparxive数据集覆盖了1,700,000篇。

注意事项

确保使用数据集时遵守论文的许可条款。
未包含CC BY-NC-ND许可的论文。

5,000+

优质数据集

54 个

任务类型

进入经典数据集