five

LLM4SCIENCE/uparxive

收藏
Hugging Face2024-05-08 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/LLM4SCIENCE/uparxive
下载链接
链接失效反馈
官方服务:
资源简介:
Uparxive数据集旨在为整个arXiv的.tex源文件提供一个LLM友好的数据集,与unarxive数据集类似,但使用了不同的工具链。数据集以.json格式存储,可以无缝转换为Markdown .md格式。文件详细说明了如何处理表格、图表、引用和数学符号等元素。数据集的来源包括arXiv的批量数据访问和API,并提醒用户注意数据使用的许可合规性。统计部分提到数据集需要156G磁盘空间,涵盖了1,700,000篇论文,缺失部分主要是由于缺少.tex源文件或转换过程失败。

Uparxive数据集旨在为整个arXiv的.tex源文件提供一个LLM友好的数据集,与unarxive数据集类似,但使用了不同的工具链。数据集以.json格式存储,可以无缝转换为Markdown .md格式。文件详细说明了如何处理表格、图表、引用和数学符号等元素。数据集的来源包括arXiv的批量数据访问和API,并提醒用户注意数据使用的许可合规性。统计部分提到数据集需要156G磁盘空间,涵盖了1,700,000篇论文,缺失部分主要是由于缺少.tex源文件或转换过程失败。
提供机构:
LLM4SCIENCE
原始信息汇总

数据集概述

名称: Uparxive 数据集

目的: 提供一个适用于大型语言模型(llm)的数据集,包含arXiv的完整.tex源文件。

格式: 数据集以.json格式存储,可无缝转换为Markdown .md格式。

数据规模: 数据集大小介于1M至10M之间。

语言: 英语(en)

任务类别:

  • 问答
  • 文本到文本生成
  • 文本生成

配置:

  • config_name: example_data
  • data_files: example.json

数据集规则

  • 表格和图形: 使用egin{table} end{table}egin{figure} end{figure}标签包围的元素将被提取并附加到文档末尾,以增强清晰度和组织性。
  • 引用和参考: 引用(cite{})和参考( ef{})转换为更明确的格式,以提高可读性。
  • 数学符号:
    • 内联数学: 使用单个美元符号$表示内联数学表达式。
    • 块数学: 使用双美元符号$$表示块数学表达式。

数据集来源

  • arXiv Bulk Data Access: 通过AWS S3的request-payer数据集直接从arXiv访问和下载大量数据。
  • arXiv API: 用于更具体的数据需求或元数据,使用arXiv API。

统计信息

  • 存储需求: 156G磁盘空间,用于存储1.7M篇论文。
  • 覆盖范围: 截至2024年4月,arXiv源中有约2,450,893篇论文,Uparxive数据集覆盖了1,700,000篇。

注意事项

  • 确保使用数据集时遵守论文的许可条款。
  • 未包含CC BY-NC-ND许可的论文。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作