unarXive
收藏OpenXLab2026-04-18 收录
下载链接:
https://openxlab.org.cn/datasets/OpenDataLab/unarXive
下载链接
链接失效反馈官方服务:
资源简介:
包含出版物全文、带注释的文本引用和元数据链接的学术数据集。 unarXive 数据集包含 100 万篇纯文本论文 6300 万引文上下文 3900 万参考字符串 1600 万个连接的引文网络 数据来自 1991 年至 2020/07 年期间 arXiv 上的所有 LaTeX 源,因此质量高于生成的数据从 PDF 文件。此外,由于所有施引论文均以全文形式提供,因此可以提取任意大小的引文上下文。数据集的典型用途是引文推荐中的方法 引文上下文分析 参考字符串解析 生成数据集的代码是公开的。
提供机构:
OpenDataLab
创建时间:
2022-08-19



