arxiv-community/arxiv_dataset
收藏arXiv 数据集概述
数据集描述
数据集摘要
arXiv 数据集包含 170 万篇论文,适用于趋势分析、论文推荐引擎、类别预测、共引用网络、知识图谱构建和语义搜索接口等应用。
支持的任务和排行榜
- 翻译
- 摘要
- 文本检索
- 文档检索
- 实体链接检索
- 解释生成
- 事实检查检索
- 文本简化
语言
支持的语言是英语。
数据集结构
数据实例
数据集是原始 arXiv 数据的镜像,提供了一个 JSON 格式的元数据文件。示例如下:
json { "id": "0704.0002", "submitter": "Louis Theran", "authors": "Ileana Streinu and Louis Theran", "title": "Sparsity-certifying Graph Decompositions", "comments": "To appear in Graphs and Combinatorics", "journal-ref": null, "doi": null, "report-no": null, "categories": "math.CO cs.CG", "license": "http://arxiv.org/licenses/nonexclusive-distrib/1.0/", "abstract": "We describe a new algorithm, the $(k,\ell)$-pebble game with colors, and use it obtain a characterization of the family of $(k,\ell)$-sparse graphs and algorithmic solutions to a family of problems concerning tree decompositions of graphs. Special instances of sparse graphs appear in rigidity theory and have received increased attention in recent years. In particular, our colored pebbles generalize and strengthen the previous results of Lee and Streinu and give a new proof of the Tutte-Nash-Williams characterization of arboricity. We also present a new decomposition that certifies sparsity based on the $(k,\ell)$-pebble game with colors. Our work also exposes connections between pebble game algorithms and previous sparse graph algorithms by Gabow, Gabow and Westermann and Hendrickson.", "update_date": "2008-12-13" }
数据字段
id: arXiv ID(可用于访问论文)submitter: 提交者authors: 作者title: 标题comments: 附加信息,如页数和图表journal-ref: 论文发表的期刊信息doi: 数字对象标识符report-no: 报告编号abstract: 摘要categories: arXiv 系统中的类别/标签
数据分割
数据未分割。
数据集创建
策划理由
为了使 arXiv 更易于访问,提供了一个免费的、开放的 Kaggle 管道,通往机器可读的 arXiv 数据集:一个包含 170 万篇文章的仓库,具有文章标题、作者、类别、摘要、全文 PDF 等相关的特征,以支持新的用例,这些用例可以引导探索结合多模态特征的更丰富的机器学习技术,用于趋势分析、论文推荐引擎、类别预测、共引用网络、知识图谱构建和语义搜索接口等应用。
源数据
数据基于 arXiv 论文。
注释
该数据集不包含注释。
使用数据的注意事项
数据集的社会影响
[更多信息需补充]
偏见的讨论
[更多信息需补充]
其他已知限制
[更多信息需补充]
附加信息
数据集策展人
原始数据由 arXiv 维护。
许可信息
数据集在 Creative Commons CC0 1.0 Universal Public Domain Dedication 下发布。
引用信息
bibtex @misc{clement2019arxiv, title={On the Use of ArXiv as a Dataset}, author={Colin B. Clement and Matthew Bierbaum and Kevin P. OKeeffe and Alexander A. Alemi}, year={2019}, eprint={1905.00075}, archivePrefix={arXiv}, primaryClass={cs.IR} }
贡献
感谢 @tanmoyio 添加此数据集。




