saier/unarXive_citrec
收藏Hugging Face2023-04-02 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/saier/unarXive_citrec
下载链接
链接失效反馈官方服务:
资源简介:
unarXive引用推荐数据集包含来自计算机科学论文的250万段落,并带有注释的引用标记。这些段落和引用信息来源于unarXive项目。每个数据实例包含段落的文本以及其中一个引用标记的信息,形式为标签(被引用文档的OpenAlex ID)、引用标记和引用标记偏移量。数据集分为训练集、开发集和测试集,分别包含2,043,192、225,084和225,348个实例。数据集的创建过程涉及从unarXive数据集中提取段落文本,并通过自动方式确定引用信息。数据集发布在Creative Commons Attribution-ShareAlike 4.0许可证下。
unarXive引用推荐数据集包含来自计算机科学论文的250万段落,并带有注释的引用标记。这些段落和引用信息来源于unarXive项目。每个数据实例包含段落的文本以及其中一个引用标记的信息,形式为标签(被引用文档的OpenAlex ID)、引用标记和引用标记偏移量。数据集分为训练集、开发集和测试集,分别包含2,043,192、225,084和225,348个实例。数据集的创建过程涉及从unarXive数据集中提取段落文本,并通过自动方式确定引用信息。数据集发布在Creative Commons Attribution-ShareAlike 4.0许可证下。
提供机构:
saier
原始信息汇总
数据集概述
- 名称: unarXive citation recommendation
- 语言: 英语
- 语言创建者: 发现
- 许可: CC-BY-SA-4.0
- 多语言性: 单语
- 大小: 1M<n<10M
- 标签: arXiv.org, arXiv, citation recommendation, citation, reference, publication, paper, preprint, section, physics, mathematics, computer science, cs
- 任务类别: 文本分类
- 任务ID: 多类分类
- 源数据集: 扩展自10.5281/zenodo.7752615
数据集结构
- 特征:
_id: 字符串text: 字符串marker: 字符串marker_offsets: 整数序列label: 字符串
- 分割:
- 训练: 2,043,192实例
- 验证: 225,084实例
- 测试: 225,348实例
数据集创建
- 源数据: 从unarXive提取的段落文本
- 注释创建者: 机器生成
- 注释过程: 自动确定引用信息
附加信息
-
许可信息: 数据集根据Creative Commons Attribution-ShareAlike 4.0许可发布
-
引用信息:
@inproceedings{Saier2023unarXive, author = {Saier, Tarek and Krause, Johan and F"{a}rber, Michael}, title = {{unarXive 2022: All arXiv Publications Pre-Processed for NLP, Including Structured Full-Text and Citation Network}}, booktitle = {Proceedings of the 23rd ACM/IEEE Joint Conference on Digital Libraries}, year = {2023}, series = {JCDL 23} }



