five

arxiv-community/arxiv_dataset

收藏
Hugging Face2024-01-18 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/arxiv-community/arxiv_dataset
下载链接
链接失效反馈
官方服务:
资源简介:
arXiv数据集包含170万篇arXiv文章的元数据,适用于趋势分析、论文推荐引擎、类别预测、共引网络、知识图谱构建和语义搜索接口等应用。数据集为英文单语,包含文章的ID、提交者、作者、标题、评论、期刊引用、DOI、报告号、类别、许可证、摘要和更新日期等信息。数据集未进行分割,且不包含注释。数据集的创建目的是为了帮助研究人员更高效地从arXiv的大量信息中提取洞察,支持多种机器学习应用。

arXiv数据集包含170万篇arXiv文章的元数据,适用于趋势分析、论文推荐引擎、类别预测、共引网络、知识图谱构建和语义搜索接口等应用。数据集为英文单语,包含文章的ID、提交者、作者、标题、评论、期刊引用、DOI、报告号、类别、许可证、摘要和更新日期等信息。数据集未进行分割,且不包含注释。数据集的创建目的是为了帮助研究人员更高效地从arXiv的大量信息中提取洞察,支持多种机器学习应用。
提供机构:
arxiv-community
原始信息汇总

arXiv 数据集概述

数据集描述

数据集摘要

arXiv 数据集包含 170 万篇论文,适用于趋势分析、论文推荐引擎、类别预测、共引用网络、知识图谱构建和语义搜索接口等应用。

支持的任务和排行榜

  • 翻译
  • 摘要
  • 文本检索
  • 文档检索
  • 实体链接检索
  • 解释生成
  • 事实检查检索
  • 文本简化

语言

支持的语言是英语。

数据集结构

数据实例

数据集是原始 arXiv 数据的镜像,提供了一个 JSON 格式的元数据文件。示例如下:

json { "id": "0704.0002", "submitter": "Louis Theran", "authors": "Ileana Streinu and Louis Theran", "title": "Sparsity-certifying Graph Decompositions", "comments": "To appear in Graphs and Combinatorics", "journal-ref": null, "doi": null, "report-no": null, "categories": "math.CO cs.CG", "license": "http://arxiv.org/licenses/nonexclusive-distrib/1.0/", "abstract": "We describe a new algorithm, the $(k,\ell)$-pebble game with colors, and use it obtain a characterization of the family of $(k,\ell)$-sparse graphs and algorithmic solutions to a family of problems concerning tree decompositions of graphs. Special instances of sparse graphs appear in rigidity theory and have received increased attention in recent years. In particular, our colored pebbles generalize and strengthen the previous results of Lee and Streinu and give a new proof of the Tutte-Nash-Williams characterization of arboricity. We also present a new decomposition that certifies sparsity based on the $(k,\ell)$-pebble game with colors. Our work also exposes connections between pebble game algorithms and previous sparse graph algorithms by Gabow, Gabow and Westermann and Hendrickson.", "update_date": "2008-12-13" }

数据字段

  • id: arXiv ID(可用于访问论文)
  • submitter: 提交者
  • authors: 作者
  • title: 标题
  • comments: 附加信息,如页数和图表
  • journal-ref: 论文发表的期刊信息
  • doi: 数字对象标识符
  • report-no: 报告编号
  • abstract: 摘要
  • categories: arXiv 系统中的类别/标签

数据分割

数据未分割。

数据集创建

策划理由

为了使 arXiv 更易于访问,提供了一个免费的、开放的 Kaggle 管道,通往机器可读的 arXiv 数据集:一个包含 170 万篇文章的仓库,具有文章标题、作者、类别、摘要、全文 PDF 等相关的特征,以支持新的用例,这些用例可以引导探索结合多模态特征的更丰富的机器学习技术,用于趋势分析、论文推荐引擎、类别预测、共引用网络、知识图谱构建和语义搜索接口等应用。

源数据

数据基于 arXiv 论文。

注释

该数据集不包含注释。

使用数据的注意事项

数据集的社会影响

[更多信息需补充]

偏见的讨论

[更多信息需补充]

其他已知限制

[更多信息需补充]

附加信息

数据集策展人

原始数据由 arXiv 维护。

许可信息

数据集在 Creative Commons CC0 1.0 Universal Public Domain Dedication 下发布。

引用信息

bibtex @misc{clement2019arxiv, title={On the Use of ArXiv as a Dataset}, author={Colin B. Clement and Matthew Bierbaum and Kevin P. OKeeffe and Alexander A. Alemi}, year={2019}, eprint={1905.00075}, archivePrefix={arXiv}, primaryClass={cs.IR} }

贡献

感谢 @tanmoyio 添加此数据集。

搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集包含170万篇arXiv学术文章的元数据,适用于趋势分析、推荐引擎等应用,支持英语文本处理任务,采用CC0 1.0许可证。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作