arxiver

Hugging Face2024-10-24 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/neuralwork/arxiver

下载链接

链接失效反馈

官方服务：

资源简介：

Arxiver数据集包含63,357篇从arXiv转换为多标记格式（.mmd）的论文。数据集包括原始的arXiv文章ID、标题、摘要、作者、出版日期、URL以及相应的markdown文件，这些文件是在2023年1月至2023年10月期间发布的。数据集的创建使用了神经OCR技术Nougat，并经过自定义的文本处理步骤进行数据精炼，包括提取作者信息、移除参考部分以及进行额外的清理和格式化。该数据集适用于语义搜索、特定领域语言建模、问答和摘要等多种应用。

The Arxiver dataset contains 63,357 papers converted from arXiv into multi-label format (.mmd). The dataset includes the original arXiv article IDs, titles, abstracts, authors, publication dates, URLs, and corresponding markdown files, which were published between January 2023 and October 2023. The dataset was created using the neural OCR technology Nougat, and refined through custom text processing steps including extracting author information, removing reference sections, and performing additional cleaning and formatting. This dataset is applicable to a wide range of scenarios such as semantic search, domain-specific language modeling, question answering and text summarization.

创建时间：

2024-10-14

原始信息汇总

Arxiver 数据集

概述

Arxiver 数据集包含 138,830 篇从 arXiv 获取的论文，这些论文被转换为多重 Markdown (.mmd) 格式。数据集包括原始 arXiv 文章 ID、标题、摘要、作者、发布日期、URL 以及相应的 Markdown 文件，这些文件发布于 2023 年 1 月至 2023 年 10 月之间。

数据集结构

特征

id: 字符串类型，文章的唯一标识符。
title: 字符串类型，文章的标题。
abstract: 字符串类型，文章的摘要。
authors: 字符串类型，文章的作者列表。
published_date: 字符串类型，文章的发布日期。
link: 字符串类型，文章的 URL 链接。
markdown: 字符串类型，文章的 Markdown 格式内容。

分割

train: 包含 138,380 个样本，总大小为 6.95 GB。

大小

下载大小: 3.23 GB
数据集大小: 6.95 GB

使用方法

可以通过 Hugging Face 的 datasets 库下载和使用 Arxiver 数据集。

完整下载

python from datasets import load_dataset

dataset = load_dataset("neuralwork/arxiver") print(dataset)

流式下载

python from datasets import load_dataset

dataset = load_dataset("neuralwork/arxiver", streaming=True) print(dataset) print(next(iter(dataset[train])))

许可证

数据集以 Creative Commons Attribution-Noncommercial-ShareAlike (CC BY-NC-SA 4.0) 许可证发布。

引用

如果使用此数据集，请引用如下：

@misc{acar_arxiver2024, author = {Alican Acar, Alara Dirik, Muhammet Hatipoglu}, title = {ArXiver}, year = {2024}, publisher = {Hugging Face}, howpublished = {url{https://huggingface.co/datasets/neuralwork/arxiver}} }

搜集汇总

数据集介绍

构建方式

Arxiver数据集的构建过程采用了先进的神经OCR技术——Nougat，对arXiv平台上的论文进行多标记格式转换。在OCR处理之后，数据集经过了一系列自定义的文本处理步骤，包括作者信息提取、参考文献部分移除以及进一步的清理和格式化。这一过程确保了数据的准确性和一致性，为后续的研究和应用提供了坚实的基础。

使用方法

用户可以通过Hugging Face的datasets库轻松下载和使用Arxiver数据集。数据集支持完整下载和流式下载两种方式，用户可以根据需求选择合适的方式以节省磁盘空间或部分下载数据。具体操作包括使用load_dataset函数加载数据集，并通过简单的代码示例查看数据集内容。

背景与挑战

背景概述

Arxiver数据集由63,357篇arXiv论文转换而成，涵盖了2023年1月至2023年10月期间发表的学术文章。该数据集由Alican Acar、Alara Dirik和Muhammet Hatipoglu等研究人员创建，旨在为语义搜索、领域特定语言建模、问答系统以及文本摘要等应用提供支持。通过使用神经OCR工具Nougat进行数据处理，并结合自定义的文本处理步骤，Arxiver数据集在提取作者信息、去除参考文献部分以及进行额外清理和格式化方面表现出色。该数据集的发布为自然语言处理领域的研究者提供了丰富的资源，推动了学术文本的自动化处理与分析。

当前挑战

Arxiver数据集在构建过程中面临多重挑战。首先，学术文本的多样性和复杂性使得OCR处理过程中容易出现错误，尤其是在数学公式、表格和特殊符号的识别上。其次，尽管使用了自定义的文本处理步骤，但如何确保数据的准确性和一致性仍然是一个难题，特别是在提取作者信息和去除参考文献部分时。此外，数据集的规模较大，处理与存储需求较高，如何在保证数据质量的同时优化存储和传输效率也是亟待解决的问题。这些挑战不仅影响了数据集的构建过程，也对后续的应用研究提出了更高的要求。

常用场景

经典使用场景

Arxiver数据集在学术研究领域中被广泛应用于语义搜索、领域特定语言建模、问答系统和文本摘要等任务。其多标记格式（.mmd）的arXiv论文数据为研究人员提供了丰富的文本资源，便于进行深入的文本分析和模型训练。通过该数据集，研究者能够高效地处理和分析大量学术文献，从而提升相关任务的性能。

解决学术问题

Arxiver数据集解决了学术研究中常见的文本数据处理难题，尤其是在大规模学术文献的自动化处理和分析方面。通过神经OCR技术（如Nougat）和自定义文本处理步骤，该数据集提供了高质量的文本数据，支持语义理解、信息提取和知识发现等研究。其丰富的元数据（如作者、出版日期等）也为学术文献的关联分析和趋势预测提供了重要支持。

实际应用

在实际应用中，Arxiver数据集被广泛用于构建智能学术搜索引擎、自动化文献分类系统以及学术问答平台。其多标记格式的数据结构使得开发者能够轻松集成到现有的自然语言处理管道中，提升系统的效率和准确性。此外，该数据集还为学术出版机构和研究团队提供了数据支持，帮助他们更好地管理和利用学术资源。

数据集最近研究