five

jpwahle/dblp-discovery-dataset

收藏
Hugging Face2022-11-28 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/jpwahle/dblp-discovery-dataset
下载链接
链接失效反馈
官方服务:
资源简介:
DBLP Discovery Dataset (D3)是一个大规模的计算机科学文献元数据集,包含了从DBLP和SemanticScholar中提取的超过600万篇论文的元数据。该数据集可用于分析计算机科学研究的趋势、活动、生产力、焦点、偏见、可访问性和影响力。数据集包含论文和作者两个部分,论文部分记录了论文的唯一标识符、标题、作者、出版年份、摘要、引用次数等信息,作者部分记录了作者的唯一标识符、姓名、所属机构、论文数量、引用次数等信息。数据集的总大小为8.71 GB,其中论文部分占8.13 GB,作者部分占0.58 GB。
提供机构:
jpwahle
原始信息汇总

数据集概述

基本信息

  • 名称: DBLP Discovery Dataset (D3)
  • 语言: 英语
  • 许可证: CC-BY-4.0
  • 多语言性: 单语种
  • 大小: 1M<n<10M
  • 标签: dblp, s2, scientometrics, computer science, papers, arxiv
  • 任务类别: 其他
  • 数据集ID: d3

数据集结构

  • 总大小: 8.71 GB
  • 数据集配置:
    • papers:
      • 下载大小: 15876152
      • 数据集大小: 15876152
    • authors:
      • 下载大小: 1177888
      • 数据集大小: 1177888

数据实例

  • Papers: 8.13 GB
  • Authors: 0.58 GB

数据字段

  • Papers:

    • corpusid: 论文唯一标识符
    • externalids: 其他仓库中的同一论文标识(如DOI, ACL)
    • title: 论文标题
    • authors: 论文作者及其authoridname
    • venue: 论文发表场所
    • year: 论文发表年份
    • publicationdate: 论文更精确的发表日期
    • abstract: 论文摘要
    • outgoingcitations: 论文引用次数
    • ingoingcitations: 论文被引用次数
    • isopenaccess: 论文是否开放获取
    • influentialcitationcount: 根据SemanticScholar的影响力引用次数
    • s2fieldsofstudy: 根据SemanticScholar的论文研究领域
    • publicationtypes: 论文发表类型
    • journal: 论文发表的期刊
    • updated: 论文最后更新时间
    • url: SemanticScholar上的论文链接
  • Authors:

    • authorid: 作者唯一标识符
    • externalids: 其他仓库中的同一作者标识(如ACL, PubMed)
    • name: 作者姓名
    • affiliations: 作者所属机构
    • homepage: 作者主页
    • papercount: 作者发表的论文数量
    • citationcount: 作者收到的引用次数
    • hindex: 作者的h指数
    • updated: 作者信息最后更新时间
    • email: 作者电子邮件
    • s2url: SemanticScholar上的作者链接

数据分割

  • papers
  • authors

数据集创建

  • 来源数据: DBLP和SemanticScholar v2.0
  • 目的: 提供一个资源,用于统计和语义上分析计算机科学研究的现状

许可证信息

  • 许可证: CC BY-NC 4.0

引用信息

  • 使用数据集时,请引用以下文献: bib @inproceedings{Wahle2022c, title = {D3: A Massive Dataset of Scholarly Metadata for Analyzing the State of Computer Science Research}, author = {Wahle, Jan Philip and Ruas, Terry and Mohammad, Saif M. and Gipp, Bela}, year = {2022}, month = {July}, booktitle = {Proceedings of The 13th Language Resources and Evaluation Conference}, publisher = {European Language Resources Association}, address = {Marseille, France}, doi = {}, }

    同时,如果使用SemanticScholar数据,还需引用相关文献。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作