【我遇到的问题】 • 现象:该数据集的下载链接已失效 【相关信息】 • 可考虑访问这个链接获取类似文件~https://www.selectdataset.com/dataset/3688356173feccbcf1f1e490ddc6bc72
DBLP, SLAP, ACM, IMDB
收藏github2024-02-29 更新2024-05-31 收录
下载链接:
https://github.com/RagnaroWA/hin-dataset
下载链接
链接失效反馈官方服务:
资源简介:
DBLP: 包含作者、论文和会议的异构信息网络数据集。<br>SLAP: 包含基因、基因本体、途径、化合物、组织、基因家族和疾病的异构信息网络数据集。<br>ACM: 包含论文、作者、会议和机构的异构信息网络数据集。<br>IMDB: 包含电影、演员、女演员和导演的异构信息网络数据集。
DBLP: A heterogeneous information network dataset comprising authors, papers, and conferences.<br>SLAP: A heterogeneous information network dataset encompassing genes, gene ontologies, pathways, compounds, tissues, gene families, and diseases.<br>ACM: A heterogeneous information network dataset consisting of papers, authors, conferences, and institutions.<br>IMDB: A heterogeneous information network dataset featuring movies, actors, actresses, and directors.
创建时间:
2019-05-26
原始信息汇总
数据集概述
1. 数据集下载链接
- DBLP: Google Drive, 601.4MB
- SLAP: Google Drive, 295.8MB
- ACM: Google Drive, 752.1MB
- IMDB: Google Drive, 94.3MB
2. 数据集信息
| 数据集 | 节点数 | 节点类型 | 元路径 | 元路径实例数 | 标签数 | 特征数 |
|---|---|---|---|---|---|---|
| DBLP | 14475(A) | Author(A)<br>Paper(P)<br>Conference(C) | APA<br>APCPA | 40269<br>19445349 | 4 | 5000+ |
| SLAP | 20419(G) | Gene(G)<br>Gene Ontology(O)<br>Pathway(P)<br>Compound(C)<br>Tissue(T)<br>Gene Family(F)<br>Disease(D) | GTG<br>GFG<br>GDG<br>GPG<br>GOG<br>GG<br>GDCDG | 303487<br>582741<br>7494<br>416462<br>3185779<br>172248<br>18095 | 15 | 2695 |
| ACM | 12499(P) | Paper(P)<br>Author(A)<br>Proceeding(O)<br>Institute(I)<br>Conference(C) | PAP<br>PAIAP<br>POP<br>POCOP<br>PP | 91662<br>13303015<br>700386<br>7849967<br>30621 | 11 | 8000 |
| IMDB | 18352(M) | Movie(M)<br>Actor(A)<br>Actress(E)<br>Director(D) | MAM?<br>MDM?<br>MEM? | 63659?<br>1085810?<br>565443? | 9 | 1000 |
3. 注意事项
- IMDB 是多标签数据集。
- IMDB 的元路径实例数对应关系不确定。
- DBLP, SLAP, ACM 的特征提取使用了
nltk.corpus.stopwords和词袋表示法。 - 相关论文参考:
搜集汇总
数据集介绍

构建方式
在构建DBLP、SLAP、ACM和IMDB这四个异构信息网络数据集时,研究者们采用了多源数据整合与结构化处理的方法。首先,通过爬取和整理学术论文、基因信息、会议记录、电影数据库等多源数据,构建了包含多种节点类型和复杂关系的网络结构。随后,基于这些数据,定义了多种元路径(Meta-paths),以捕捉不同类型节点之间的语义关联。例如,DBLP数据集通过APA和APCPA元路径连接作者、论文和会议,而SLAP数据集则通过GTG、GFG等元路径连接基因、基因家族和疾病。此外,为了增强数据集的特征表示,部分数据集还采用了自然语言处理技术,如使用`nltk.corpus.stopwords`提取词袋表示。
使用方法
使用这些数据集时,研究者可以根据具体的研究需求选择合适的元路径和特征表示方法。首先,可以通过分析数据集的元路径结构,选择适合的元路径进行网络分析或分类任务。例如,在DBLP数据集中,可以选择APA元路径来研究作者之间的合作关系。其次,可以利用数据集提供的特征表示,结合机器学习算法进行模型训练和评估。对于IMDB数据集,由于其支持多标签分类,研究者可以探索多标签分类算法在该数据集上的表现。最后,建议参考相关文献,如DBLP和ACM数据集的[Meta Path-Based Collective Classification in Heterogeneous Information Networks](https://arxiv.org/pdf/1305.4433.pdf),以及IMDB数据集的[Column Networks for Collective Classification](https://arxiv.org/pdf/1609.04508.pdf),以获取更详细的使用指导和研究思路。
背景与挑战
背景概述
DBLP、SLAP、ACM和IMDB数据集是异构信息网络(Heterogeneous Information Network, HIN)领域的关键资源,由多个研究机构和学者共同创建。这些数据集的构建旨在解决异构信息网络中的集体分类问题,通过引入元路径(Meta-paths)来捕捉不同类型节点之间的复杂关系。DBLP数据集主要关注学术出版物网络,SLAP数据集聚焦于基因与生物医学领域,ACM数据集涉及计算机科学领域的论文与会议,而IMDB数据集则围绕电影产业中的演员、导演和电影之间的关系。这些数据集的发布为研究者提供了丰富的实验数据,推动了异构信息网络分析技术的发展,尤其在社交网络分析、推荐系统和知识图谱等领域具有深远影响。
当前挑战
这些数据集在构建和应用过程中面临多项挑战。首先,异构信息网络的复杂性使得元路径的选择和定义成为关键问题,如何有效地捕捉节点间的语义关系仍需深入研究。其次,数据集的规模和多样性带来了计算和存储上的挑战,尤其是在处理大规模网络时,如何高效地进行数据处理和模型训练是一个重要问题。此外,数据集的标注和特征提取也面临困难,例如DBLP和IMDB数据集中的文本特征提取,需要依赖自然语言处理技术,且标注的准确性和一致性直接影响模型的性能。最后,不同数据集之间的异构性也增加了跨领域研究的难度,如何实现跨领域的知识迁移和模型泛化是当前研究的热点。
常用场景
经典使用场景
在异构信息网络(Heterogeneous Information Networks, HINs)的研究领域中,DBLP、SLAP、ACM和IMDB数据集被广泛用于探索和验证基于元路径的集体分类方法。这些数据集通过丰富的节点类型和复杂的元路径结构,为研究者提供了多样的网络拓扑信息,从而支持在不同领域中进行网络分析和模式识别。例如,DBLP数据集常用于研究作者、论文和会议之间的关联关系,而IMDB数据集则用于分析电影、演员和导演之间的复杂互动。
解决学术问题
这些数据集解决了异构信息网络中集体分类和关系预测的关键学术问题。通过提供多类型的节点和复杂的元路径实例,它们帮助研究者探索如何在异构网络中有效地进行信息传播和特征提取,从而提升分类和预测的准确性。此外,这些数据集还为研究者提供了丰富的实验平台,用于验证新的网络分析算法和模型,推动了异构信息网络领域的理论和方法的发展。
实际应用
在实际应用中,这些数据集被广泛用于推荐系统、社交网络分析、生物信息学和电影产业等领域。例如,DBLP数据集可用于学术论文推荐系统,帮助研究者发现与其研究兴趣相关的论文和会议;IMDB数据集则可用于电影推荐系统,通过分析演员、导演和电影之间的关系,为用户提供个性化的电影推荐。这些应用不仅提升了用户体验,还为相关行业提供了数据驱动的决策支持。
数据集最近研究
最新研究方向
在异构信息网络(Heterogeneous Information Networks, HINs)领域,DBLP、SLAP、ACM和IMDB等数据集的研究正聚焦于元路径(Meta-paths)的挖掘与应用。这些数据集通过丰富的节点类型和复杂的网络结构,为研究者提供了探索多层次、多维度信息关联的宝贵资源。当前,前沿研究主要集中在基于元路径的集体分类、网络嵌入以及图神经网络的应用上,旨在揭示复杂网络中的隐含模式与知识。这些研究不仅推动了信息检索、推荐系统和生物信息学等领域的技术进步,还为跨学科的数据分析提供了新的视角和方法。
以上内容由遇见数据集搜集并总结生成



