DBLP Discovery Dataset (D3)

github2022-11-25 更新2024-05-31 收录

下载链接：

https://github.com/jpwahle/lrec22-d3-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集提供了来自DBLP的大量学术论文元数据，包括超过590万篇文章和超过380万作者的信息，旨在为计算机科学研究的状态分析提供全面的数据资源。

This dataset provides extensive metadata of academic papers sourced from DBLP, encompassing information on over 5.9 million articles and more than 3.8 million authors. It is designed to offer a comprehensive data resource for analyzing the state of computer science research.

创建时间：

2022-09-06

原始信息汇总

数据集概述

数据集名称

名称: The DBLP Discovery Dataset (D3)

数据集描述

来源: 数据集包含从DBLP爬取的论文元数据，涵盖超过5.9百万篇文章和3.8百万作者（截至2022年9月）。
爬虫工具: 使用cs-insights-crawler进行数据爬取。
数据更新: 目标是每月更新，提供完整的DBLP集合。

数据集版本更新

版本2.1: 添加了Computer Science Ontology，包含子领域信息。
版本2.0: 开始使用SemanticScholar数据。

数据集内容

数据集大小:
- 论文元数据: 2.7G (gz)
- 作者元数据: 188M (gz)

数据集特征

论文特征

特征	描述
`corpusid`	论文的唯一标识符。
`externalids`	论文在其他数据库中的标识（如DOI, ACL）。
`title`	论文标题。
`authors`	论文作者及其`authorid`和`name`。
`venue`	论文发表的场所。
`year`	论文发表年份。
`publicationdate`	论文更精确的发表日期。
`abstract`	论文摘要。
`referencecount`	论文引用次数。
`citationcount`	论文被引次数。
`isopenaccess`	论文是否为开放获取。
`influentialcitationcount`	根据SemanticScholar的影响性引用次数。
`s2fieldsofstudy`	论文的学科领域。
`publicationtypes`	论文的出版类型。
`journal`	论文发表的期刊信息。
`updated`	论文最后更新时间。
`url`	论文在SemanticScholar的链接。

作者特征

特征	描述
`authorid`	作者的唯一标识符。
`externalids`	作者在其他数据库中的标识（如ORCID, PubMed）。
`name`	作者姓名。
`affiliations`	作者的隶属关系。
`homepage`	作者的个人主页。
`papercount`	作者发表的论文数量。
`citationcount`	作者被引用的次数。
`hindex`	作者的h指数。
`updated`	作者信息最后更新时间。
`email`	作者的电子邮件。
`s2url`	作者在SemanticScholar的链接。

数据集引用

引用格式: bib @inproceedings{Wahle2022c, title = {D3: A Massive Dataset of Scholarly Metadata for Analyzing the State of Computer Science Research}, author = {Wahle, Jan Philip and Ruas, Terry and Mohammad, Saif M. and Gipp, Bela}, year = {2022}, month = {July}, booktitle = {Proceedings of The 13th Language Resources and Evaluation Conference}, publisher = {European Language Resources Association}, address = {Marseille, France}, doi = {}, }

数据集许可证

许可证: CC BY-NC 4.0

搜集汇总

数据集介绍

构建方式

DBLP Discovery Dataset (D3) 的构建基于对 DBLP 数据库的全面爬取，涵盖了超过 590 万篇论文和 380 万位作者的信息。数据集通过 cs-insights-crawler 工具进行数据采集，并结合了 SemanticScholar 的数据，进一步丰富了论文的元数据信息。此外，数据集还引入了计算机科学本体（Computer Science Ontology），提供了关于子领域的详细信息。数据集的更新频率为每月一次，确保其内容的时效性和全面性。

特点

D3 数据集的特点在于其丰富的元数据信息，涵盖了论文的唯一标识符、标题、作者、发表年份、摘要、引用次数、开放访问状态、研究领域等多个维度。此外，数据集还提供了作者的详细信息，包括作者的唯一标识符、所属机构、论文数量、引用次数、h-index 等。这些特征使得 D3 数据集成为计算机科学研究领域的宝贵资源，能够支持广泛的学术分析和研究。

使用方法

D3 数据集的使用方法简便，用户可以通过 Hugging Face Datasets 平台直接加载数据集。数据集以 JSONL 格式提供，用户可以通过 Python 代码轻松访问和解析数据。例如，使用 `load_dataset` 函数即可加载论文或作者数据，并进行进一步的分析或处理。数据集的使用不仅限于学术研究，还可用于构建推荐系统、知识图谱等应用场景。

背景与挑战

背景概述

DBLP Discovery Dataset (D3) 是由 Jan Philip Wahle 等研究人员于2022年创建的一个大规模学术元数据集，旨在为计算机科学研究领域提供全面的文献分析工具。该数据集基于 DBLP 数据库，涵盖了超过590万篇论文和380万位作者的信息，并结合了 Semantic Scholar 的数据，进一步丰富了元数据的深度和广度。D3 的创建旨在解决计算机科学领域文献数据的整合与分析问题，为研究者提供了一个强大的工具，用于探索学术趋势、作者影响力以及研究领域的演变。该数据集不仅支持学术界的文献计量分析，还为自然语言处理和知识图谱构建等任务提供了重要的数据支持。

当前挑战

DBLP Discovery Dataset (D3) 在构建和应用过程中面临多重挑战。首先，数据整合的复杂性是一个主要问题，DBLP 和 Semantic Scholar 的数据格式和结构存在差异，如何高效地融合这些异构数据源并确保数据的一致性和完整性是一个技术难点。其次，数据规模的庞大性带来了存储和计算资源的压力，如何优化数据存储结构并实现高效的查询和分析功能是另一个挑战。此外，数据更新频率较高，如何实现数据的实时同步和版本管理也是一个需要解决的问题。最后，尽管数据集提供了丰富的元数据，但在实际应用中，如何有效利用这些数据进行领域特定的分析（如研究趋势预测或作者影响力评估）仍需进一步的研究和算法优化。

常用场景

经典使用场景

DBLP Discovery Dataset (D3) 在计算机科学领域的研究中，常被用于分析学术论文的引用网络和作者合作模式。通过该数据集，研究者可以深入探讨学术影响力、研究趋势以及领域内的知识传播路径。特别是在计算机科学的子领域中，D3 提供了丰富的元数据，使得研究者能够精确地追踪特定主题的发展历程和关键贡献者。

实际应用

在实际应用中，D3 数据集被广泛用于构建学术推荐系统、优化科研资源分配以及支持学术机构的决策制定。例如，高校和研究机构可以利用该数据集分析其科研产出和影响力，从而制定更具针对性的科研战略。此外，D3 还为学术搜索引擎和知识图谱的构建提供了基础数据，提升了学术信息的可访问性和利用效率。

衍生相关工作

D3 数据集催生了一系列相关研究，特别是在学术网络分析和知识图谱构建领域。例如，基于 D3 的研究工作包括学术影响力预测模型、跨领域合作网络分析以及学术文献的自动分类系统。这些研究不仅推动了计算机科学领域的发展，还为其他学科的学术研究提供了可借鉴的方法和工具。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集