DBLP-Dataset-Topic-aware

github2022-05-09 更新2024-05-31 收录

下载链接：

https://github.com/5555lan/DBLP-Dataset-Topic-aware

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集基于2017年3月31日的DBLP协作数据，每个节点代表一个作者，边表示他们的合作关系。标签（主题）从所有论文标题中提取，例如数据库系统、神经网络、FPGA等，基于它们的频率和代表计算机科学各个子领域的能力。总共选择了230个标签。只有至少有一篇包含这些标签的论文的作者才会出现在此数据集中。最终数据集包含704266个节点和4727290条边。标签c在边(u,v)上的概率由P((u,v)|c)=1-e^(-t/a)给出，其中t是标签c在作者u和v合作的所有论文标题中出现的频率，a是一个常数（此处设置为5）。

This dataset is based on the DBLP collaboration data as of March 31, 2017, where each node represents an author and edges denote their collaborative relationships. Labels (topics) are extracted from all paper titles, such as database systems, neural networks, FPGA, etc., based on their frequency and ability to represent various subfields of computer science. A total of 230 labels were selected. Only authors with at least one paper containing these labels are included in this dataset. The final dataset comprises 704,266 nodes and 4,727,290 edges. The probability of label c on edge (u,v) is given by P((u,v)|c)=1-e^(-t/a), where t is the frequency of label c appearing in all paper titles co-authored by authors u and v, and a is a constant (set to 5 here).

创建时间：

2018-06-19

原始信息汇总

DBLP-Dataset-Topic-aware 数据集概述

数据集描述

基础数据源：基于2017年3月31日的DBLP合作数据。
数据结构：
- 节点：代表作者。
- 边：表示作者间的合作关系。
- 标签（主题）：从所有论文标题中提取，共230个标签，如数据库系统、神经网络、FPGA等。
数据筛选：仅包含至少有一篇论文包含上述标签的作者。
数据规模：
- 节点数：704,266。
- 边数：4,727,290。
标签概率计算：P((u,v)|c)=1-e^(-t/a)，其中t是标签c在作者u和v合作的所有论文标题中出现的频率，a为常数（此处设为5）。

数据格式

DBLP.txt
- 格式：Author1 Author2 Probability1 Tag1 Probability2 Tag2 ... ProbabilityN TagN
AuthorHash.txt
- 格式：Index : Author Name
TopicHash.txt
- 格式：Index : Topic(s)

搜集汇总

数据集介绍

构建方式

DBLP-Dataset-Topic-aware数据集基于著名的DBLP合作数据构建，数据截至2017年3月31日。每个节点代表一位作者，边表示作者之间的合作关系。标签（主题）从所有论文标题中提取，涵盖数据库系统、神经网络、FPGA等计算机科学的子领域，共筛选出230个标签。仅包含至少有一篇论文涉及这些标签的作者，最终数据集包含704,266个节点和4,727,290条边。边(u,v)上标签c的概率由公式P((u,v)|c)=1-e^(-t/a)计算，其中t为标签c在作者u和v合作论文标题中的出现频率，a为常数（此处设为5）。

特点

该数据集的特点在于其主题感知能力，能够反映作者在不同计算机科学子领域中的合作模式。通过提取论文标题中的高频标签，数据集不仅捕捉了作者之间的合作关系，还量化了这些合作在特定主题上的强度。数据集包含704,266个节点和4,727,290条边，覆盖了广泛的合作网络。此外，数据集提供了详细的标签概率计算，使得研究者能够深入分析合作网络中的主题分布及其影响。

使用方法

数据集的使用方法较为直观，主要包含三个文件：DBLP.txt、AuthorHash.txt和TopicHash.txt。DBLP.txt文件记录了作者之间的合作关系及其对应的标签概率，格式为“作者1 作者2 概率1 标签1 概率2 标签2 ... 概率N 标签N”。AuthorHash.txt文件提供了作者索引与姓名的映射，TopicHash.txt文件则记录了标签索引与具体主题的对应关系。研究者可以通过这些文件进行网络分析、主题建模以及影响力最大化等研究。使用该数据集时，建议引用相关文献以支持学术诚信。

背景与挑战

背景概述

DBLP-Dataset-Topic-aware数据集由南洋理工大学的Xiangyu Ke等人于2017年创建，基于著名的DBLP合作数据。该数据集以作者为节点，合著关系为边，通过从论文标题中提取的230个标签（如数据库系统、神经网络、FPGA等）来表征计算机科学的各个子领域。数据集包含704,266个节点和4,727,290条边，旨在通过标签概率模型揭示作者之间的合著关系及其研究主题的关联性。该数据集在社交网络分析、影响力传播等领域具有重要应用，尤其在目标影响力最大化问题的研究中发挥了关键作用。

当前挑战

DBLP-Dataset-Topic-aware数据集在构建和应用中面临多重挑战。首先，标签提取的准确性和代表性是关键问题，需确保所选标签能够全面覆盖计算机科学的子领域。其次，标签概率模型的设计需平衡计算复杂性与模型精度，以准确反映作者间的合著主题关联。此外，数据集的规模庞大，处理和分析高维稀疏图结构对计算资源和算法效率提出了较高要求。最后，如何将数据集应用于实际场景，如社交网络中的目标影响力最大化，仍需进一步探索有效的算法和优化策略。

常用场景

经典使用场景

DBLP-Dataset-Topic-aware数据集在计算机科学领域的社交网络分析中具有重要应用。该数据集通过提取作者合作网络中的主题标签，为研究者提供了一个丰富的平台，用于分析学者之间的合作模式及其研究兴趣的分布。特别是在研究学术影响力传播、合作网络结构分析以及主题演化等方面，该数据集提供了详实的数据支持。

解决学术问题

该数据集解决了学术研究中关于合作网络与主题关联的多个关键问题。通过引入主题标签，研究者能够更精确地识别学者之间的合作动机及其研究兴趣的交叉点。此外，数据集中的概率模型为分析合作关系的强度及其与特定主题的关联提供了量化依据，极大地推动了社交网络分析、影响力传播模型以及主题演化研究的发展。

衍生相关工作

基于DBLP-Dataset-Topic-aware数据集，许多经典研究工作得以展开。例如，Ke等人提出的联合种子与标签选择方法，为社交网络中的目标影响力最大化问题提供了新的解决方案。此外，Khan等人利用该数据集研究了不确定图中的条件可靠性问题，进一步拓展了图数据挖掘的应用场景。这些工作不仅验证了数据集的价值，也为相关领域的研究提供了新的思路和方法。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集