arxiv-markdown

Hugging Face2025-04-24 更新2025-04-25 收录

下载链接：

https://huggingface.co/datasets/marcodsn/arxiv-markdown

下载链接

链接失效反馈

官方服务：

资源简介：

arxiv-markdown数据集包含从arXiv获取的开源论文，这些论文被转换为markdown格式。数据集旨在作为academic-chains数据集的扩展，但可供社区以任何方式进行使用。数据集目前包含2024年8月提取的最初条目，并且会随着处理的新条目的上传而不断更新。

创建时间：

2025-04-24

原始信息汇总

arxiv-markdown数据集概述

数据集基本信息

许可证: CC-BY-4.0
数据集地址: https://huggingface.co/datasets/marcodsn/arxiv-- GitHub代码地址: https://github.com/marcodsn/academic-chains
数据来源: arXiv开放获取论文

数据集内容

特征字段:
- arxiv_id: 字符串类型，论文的唯一标识符
- markdown: 字符串类型，论文转换后的Markdown格式内容
- paper_doi: 字符串类型，论文的DOI
- paper_authors: 字符串序列，论文作者列表
- paper_published_date: 字符串类型，论文发布日期
- paper_updated_date: 字符串类型，论文更新日期
- categories: 字符串序列，论文所属分类
- title: 字符串类型，论文标题
- summary: 字符串类型，论文摘要
数据规模:
- 训练集: 509个样本，38,856,237字节
- 下载大小: 17,576,883字节
- 数据集总大小: 38,856,237字节

数据处理与生成

转换工具: 使用docling将PDF转换为Markdown格式
处理选项:
- 图像缩放比例: 2.0
- 生成页面图像
- 生成图片图像（嵌入图像以支持未来多模态数据集）
- 代码和公式增强（公式转换为LaTeX）
当前范围: 包含2024年8月的最初一批论文
更新计划: 持续使用RTX 3090进行数据处理并上传新条目

数据集用途

作为academic-chains数据集的扩展基础
欢迎社区其他用途

已知限制与偏差

提取保真度: docling工具在表格提取等方面可能存在瑕疵
数据生成速度: 由于进行公式、代码增强和图片提取，处理速度较慢

许可与引用

许可证: CC-BY-4.0 License
引用信息: bibtex @misc{marcodsn_2025_arxivmarkdown, title = {arxiv-arkdown}, author = {Marco De Santis}, month = {April}, year = {2025}, url = {https://huggingface.co/datasets/marcodsn/arxiv-markdown} }

致谢

感谢arXiv和所有开放获取论文的作者
感谢支持原始academic-chains数据集的人员

搜集汇总

数据集介绍

构建方式

arxiv-markdown数据集通过精心设计的文档转换流程构建而成，其核心在于利用docling工具将arXiv开放获取的学术论文转换为结构化Markdown格式。技术团队采用定制化的PdfPipelineOptions配置，设置2.0倍图像分辨率缩放，同时保留公式的LaTeX编码和代码块的语义增强。为确保数据质量，处理过程中同步生成页面图像和插图，为构建多模态数据集奠定基础。当前数据集版本基于2024年8月的arXiv条目，使用RTX 3090显卡进行持续处理和数据更新。

特点

该数据集最显著的特征在于其学术文本的深度结构化处理，每篇论文不仅包含标准元数据（如arXiv标识符、DOI、作者列表和发布日期），还完整保留了原始文档的数学公式、代码片段等专业内容。通过将PDF文档转换为语义丰富的Markdown格式，既维持了学术文献的严谨性，又提升了机器可读性。特别值得注意的是，数据集采用云存储方案管理图像资源，通过URL引用方式实现轻量级存储，这种设计在保证数据完整性的同时显著提高了存取效率。

使用方法

研究者可通过HuggingFace平台直接加载该数据集，其标准化的字段结构支持多种学术文本处理场景。对于自然语言处理任务，markdown字段提供干净的文本内容；而公式和代码的语义标注则为特定领域研究提供便利。建议使用者结合paper_authors和categories字段进行领域筛选，同时利用paper_published_date实现时序分析。数据集采用CC-BY-4.0许可，允许用户在注明出处的前提下自由用于学术研究和商业应用。

背景与挑战

背景概述

arxiv-markdown数据集由Marco De Santis于2025年创建，旨在将arXiv开放获取的学术论文转换为结构化Markdown格式，为学术界提供更便捷的文本处理基础。该数据集采用docling工具链实现PDF到Markdown的转换，保留公式LaTeX编码、代码块及图像数据，支持未来多模态研究。作为academic-chains项目的扩展，其核心价值在于促进学术文本的机器可读性，对文献挖掘、知识图谱构建等领域具有显著意义。

当前挑战

该数据集面临双重挑战：领域层面需解决学术论文复杂排版（如数学公式、表格）的精准转换问题，现有技术对嵌套结构的解析仍存在误差；构建层面受限于计算资源，即便使用RTX 3090显卡，公式增强与图像提取导致处理速度缓慢，且大规模数据存储压力迫使团队将图像转为外部引用。此外，跨学科论文的类别标注一致性维护也是潜在难点。

常用场景

经典使用场景

arxiv-markdown数据集作为学术文献的标准化结构化表示，其最经典的使用场景在于为自然语言处理领域的研究者提供高质量的文本语料。通过将arXiv论文转换为标准化的Markdown格式，该数据集极大地方便了文本挖掘、信息抽取和知识图谱构建等任务。在机器学习和深度学习模型的训练过程中，这种结构化的文本数据能够显著提升模型对学术文献的理解能力。

解决学术问题

该数据集有效解决了学术文献处理中的格式异构性问题。传统PDF格式的论文存在布局复杂、公式难以解析等挑战，而arxiv-markdown通过统一的Markdown表示，为研究者提供了可直接用于分析的标准化文本。这不仅降低了文献处理的复杂度，还为跨学科知识发现、自动摘要生成和学术搜索引擎优化等研究提供了可靠的数据基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集