five

saier/unarXive_citrec

收藏
Hugging Face2023-04-02 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/saier/unarXive_citrec
下载链接
链接失效反馈
官方服务:
资源简介:
unarXive引用推荐数据集包含来自计算机科学论文的250万段落,并带有注释的引用标记。这些段落和引用信息来源于unarXive项目。每个数据实例包含段落的文本以及其中一个引用标记的信息,形式为标签(被引用文档的OpenAlex ID)、引用标记和引用标记偏移量。数据集分为训练集、开发集和测试集,分别包含2,043,192、225,084和225,348个实例。数据集的创建过程涉及从unarXive数据集中提取段落文本,并通过自动方式确定引用信息。数据集发布在Creative Commons Attribution-ShareAlike 4.0许可证下。

unarXive引用推荐数据集包含来自计算机科学论文的250万段落,并带有注释的引用标记。这些段落和引用信息来源于unarXive项目。每个数据实例包含段落的文本以及其中一个引用标记的信息,形式为标签(被引用文档的OpenAlex ID)、引用标记和引用标记偏移量。数据集分为训练集、开发集和测试集,分别包含2,043,192、225,084和225,348个实例。数据集的创建过程涉及从unarXive数据集中提取段落文本,并通过自动方式确定引用信息。数据集发布在Creative Commons Attribution-ShareAlike 4.0许可证下。
提供机构:
saier
原始信息汇总

数据集概述

  • 名称: unarXive citation recommendation
  • 语言: 英语
  • 语言创建者: 发现
  • 许可: CC-BY-SA-4.0
  • 多语言性: 单语
  • 大小: 1M<n<10M
  • 标签: arXiv.org, arXiv, citation recommendation, citation, reference, publication, paper, preprint, section, physics, mathematics, computer science, cs
  • 任务类别: 文本分类
  • 任务ID: 多类分类
  • 源数据集: 扩展自10.5281/zenodo.7752615

数据集结构

  • 特征:
    • _id: 字符串
    • text: 字符串
    • marker: 字符串
    • marker_offsets: 整数序列
    • label: 字符串
  • 分割:
    • 训练: 2,043,192实例
    • 验证: 225,084实例
    • 测试: 225,348实例

数据集创建

  • 源数据: 从unarXive提取的段落文本
  • 注释创建者: 机器生成
  • 注释过程: 自动确定引用信息

附加信息

  • 许可信息: 数据集根据Creative Commons Attribution-ShareAlike 4.0许可发布

  • 引用信息:

    @inproceedings{Saier2023unarXive, author = {Saier, Tarek and Krause, Johan and F"{a}rber, Michael}, title = {{unarXive 2022: All arXiv Publications Pre-Processed for NLP, Including Structured Full-Text and Citation Network}}, booktitle = {Proceedings of the 23rd ACM/IEEE Joint Conference on Digital Libraries}, year = {2023}, series = {JCDL 23} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作