DBLP, SLAP, ACM, IMDB
收藏github2024-02-29 更新2024-05-31 收录
下载链接:
https://github.com/zechengz/hin-dataset
下载链接
链接失效反馈官方服务:
资源简介:
DBLP包含14475个节点,涉及作者、论文和会议等类型,具有多种元路径和标签。SLAP包含20419个节点,涉及基因、基因本体、通路等多种类型,具有多种元路径和标签。ACM包含12499个节点,涉及论文、作者、会议等多种类型,具有多种元路径和标签。IMDB包含18352个节点,涉及电影、演员、导演等类型,具有多种元路径和标签。
The DBLP dataset comprises 14,475 nodes, encompassing entities such as authors, papers, and conferences, and features multiple meta-paths and labels. The SLAP dataset includes 20,419 nodes, covering various types such as genes, gene ontologies, and pathways, and also features multiple meta-paths and labels. The ACM dataset consists of 12,499 nodes, involving entities like papers, authors, and conferences, and includes multiple meta-paths and labels. The IMDB dataset contains 18,352 nodes, involving types such as movies, actors, and directors, and features multiple meta-paths and labels.
创建时间:
2019-05-26
原始信息汇总
数据集概述
数据集列表
| 数据集 | 大小 |
|---|---|
| DBLP | 601.4MB |
| SLAP | 295.8MB |
| ACM | 752.1MB |
| IMDB | 94.3MB |
数据集详细信息
| 数据集 | 节点数 | 节点类型 | 元路径 | 元路径实例数 | 标签数 | 特征数 |
|---|---|---|---|---|---|---|
| DBLP | 14475 | Author(A)<br>Paper(P)<br>Conference(C) | APA<br>APCPA | 40269<br>19445349 | 4 | 5000+ |
| SLAP | 20419 | Gene(G)<br>Gene Ontology(O)<br>Pathway(P)<br>Compound(C)<br>Tissue(T)<br>Gene Family(F)<br>Disease(D) | GTG<br>GFG<br>GDG<br>GPG<br>GOG<br>GG<br>GDCDG | 303487<br>582741<br>7494<br>416462<br>3185779<br>172248<br>18095 | 15 | 2695 |
| ACM | 12499 | Paper(P)<br>Author(A)<br>Proceeding(O)<br>Institute(I)<br>Conference(C) | PAP<br>PAIAP<br>POP<br>POCOP<br>PP | 91662<br>13303015<br>700386<br>7849967<br>30621 | 11 | 8000 |
| IMDB | 18352 | Movie(M)<br>Actor(A)<br>Actress(E)<br>Director(D) | MAM<sup>?</sup><br>MDM<sup>?</sup><br>MEM<sup>?</sup> | 63659<sup>?</sup><br>1085810<sup>?</sup><br>565443<sup>?</sup> | 9 | 1000 |
注意事项
- IMDB 数据集为多标签数据集。
- IMDB 数据集的元路径实例数对应关系不确定。
- DBLP、SLAP 和 ACM 数据集的特征提取使用了
nltk.corpus.stopwords和词袋表示法。 - 关于 DBLP、SLAP 和 ACM 数据集的详细信息,请参考论文 Meta Path-Based Collective Classification in Heterogeneous Information Networks。
- 关于 IMDB 数据集的详细信息,请参考论文 Column Networks for Collective Classification。
搜集汇总
数据集介绍

构建方式
该数据集通过整合DBLP、SLAP、ACM和IMDB四个异构信息网络,构建了一个多领域、多类型的复杂网络结构。每个数据集均包含多种节点类型和元路径,如DBLP数据集包含作者、论文和会议节点,并通过APA和APCPA元路径进行连接。SLAP数据集则涵盖基因、基因本体、通路等多种生物学实体,通过多种元路径如GTG、GFG等进行关联。ACM数据集结合了论文、作者、会议等学术实体,而IMDB数据集则涉及电影、演员、导演等娱乐行业实体。这些数据集的构建基于特定的元路径设计,旨在捕捉不同领域内的复杂关系网络。
特点
这些数据集的显著特点在于其异构性和多样性。每个数据集不仅包含多种节点类型,还通过精心设计的元路径来描述节点间的复杂关系。例如,DBLP数据集通过APA和APCPA元路径捕捉作者与论文之间的合作关系,而SLAP数据集则通过GTG和GFG元路径揭示基因间的相互作用。此外,ACM和IMDB数据集分别反映了学术界和娱乐行业的独特网络结构。这些数据集还提供了丰富的特征和标签信息,支持多种机器学习任务,如分类和聚类。
使用方法
这些数据集适用于多种机器学习和数据挖掘任务,如异构信息网络中的集体分类、链接预测和社区检测。用户可以通过下载链接获取数据集,并根据提供的元路径信息进行数据预处理和特征提取。例如,DBLP数据集的特征提取使用了`nltk.corpus.stopwords`和词袋表示法。对于具体的分析任务,用户可以选择合适的元路径和特征,结合现有的机器学习算法进行模型训练和评估。此外,参考文献提供了详细的背景知识和使用案例,帮助用户更好地理解和应用这些数据集。
背景与挑战
背景概述
DBLP、SLAP、ACM和IMDB数据集是异构信息网络(Heterogeneous Information Networks, HIN)研究领域的重要资源,由多个知名研究机构和学者共同创建。这些数据集的构建旨在解决异构信息网络中的集体分类问题,通过引入元路径(Meta-paths)来捕捉不同类型节点之间的复杂关系。DBLP数据集主要关注学术出版物网络,SLAP数据集聚焦于基因与生物医学领域,ACM数据集涉及计算机科学领域的论文与会议,而IMDB数据集则专注于电影产业中的演员、导演与电影之间的关系。这些数据集的发布为研究者提供了丰富的实验数据,推动了异构信息网络在多个领域的应用与发展。
当前挑战
这些数据集在构建过程中面临诸多挑战。首先,异构信息网络的复杂性要求设计有效的元路径来捕捉不同类型节点间的关联,这需要深入理解领域知识。其次,数据集的规模庞大,DBLP、ACM和SLAP分别包含数万到数十万个节点,处理这些数据需要高效的算法和计算资源。此外,IMDB数据集的多标签特性增加了分类任务的复杂性,而SLAP数据集涉及的基因与生物医学领域则需要高度专业化的知识来解析。最后,数据集的标注和特征提取过程也面临挑战,如DBLP数据集中的特征提取依赖于自然语言处理技术,而IMDB数据集的元路径实例数量尚不明确,增加了研究的难度。
常用场景
经典使用场景
在异构信息网络(Heterogeneous Information Networks, HINs)的研究领域中,DBLP、SLAP、ACM和IMDB数据集被广泛用于探索多类型节点和复杂关系的高级分析。这些数据集通过提供丰富的元路径(Meta-paths)实例,支持基于路径的集体分类和网络嵌入任务。例如,DBLP数据集常用于研究作者、论文和会议之间的复杂关系,而SLAP数据集则用于基因、疾病和化合物等生物医学网络的分析。
衍生相关工作
基于这些数据集,研究者们开发了多种算法和模型,推动了异构信息网络分析的前沿研究。例如,DBLP数据集启发了基于元路径的集体分类算法,如PathSim和Metapath2vec;SLAP数据集则促进了生物网络中的路径分析和疾病基因预测模型。ACM数据集的相关工作包括学术影响力评估和合作网络分析模型。IMDB数据集的研究则涉及电影推荐系统和演员关系网络的深度学习模型。
数据集最近研究
最新研究方向
在异构信息网络(Heterogeneous Information Networks, HINs)领域,DBLP、SLAP、ACM和IMDB等数据集的研究正聚焦于元路径(Meta-paths)的挖掘与应用。这些数据集通过丰富的节点类型和复杂的网络结构,为研究者提供了探索网络中复杂关系的机会。当前的研究趋势集中在利用元路径进行集体分类、链接预测和网络嵌入等任务,以揭示网络中隐藏的模式和知识。特别是在生物信息学(如SLAP数据集)和学术出版物分析(如DBLP和ACM数据集)领域,元路径的应用已成为解决复杂网络问题的关键工具。此外,IMDB数据集的多标签特性为电影推荐系统和角色关系分析提供了新的研究视角。这些研究不仅推动了异构信息网络的理论发展,也为实际应用如社交网络分析、生物网络建模等提供了强有力的支持。
以上内容由遇见数据集搜集并总结生成



