five

DBLP, SLAP, ACM, IMDB|信息网络分析数据集|跨领域数据数据集

收藏
github2024-02-29 更新2024-05-31 收录
信息网络分析
跨领域数据
下载链接:
https://github.com/RagnaroWA/hin-dataset
下载链接
链接失效反馈
资源简介:
DBLP: 包含作者、论文和会议的异构信息网络数据集。<br>SLAP: 包含基因、基因本体、途径、化合物、组织、基因家族和疾病的异构信息网络数据集。<br>ACM: 包含论文、作者、会议和机构的异构信息网络数据集。<br>IMDB: 包含电影、演员、女演员和导演的异构信息网络数据集。

DBLP: A heterogeneous information network dataset comprising authors, papers, and conferences.<br>SLAP: A heterogeneous information network dataset encompassing genes, gene ontologies, pathways, compounds, tissues, gene families, and diseases.<br>ACM: A heterogeneous information network dataset consisting of papers, authors, conferences, and institutions.<br>IMDB: A heterogeneous information network dataset featuring movies, actors, actresses, and directors.
创建时间:
2019-05-26
原始信息汇总

数据集概述

1. 数据集下载链接

2. 数据集信息

数据集 节点数 节点类型 元路径 元路径实例数 标签数 特征数
DBLP 14475(A) Author(A)<br>Paper(P)<br>Conference(C) APA<br>APCPA 40269<br>19445349 4 5000+
SLAP 20419(G) Gene(G)<br>Gene Ontology(O)<br>Pathway(P)<br>Compound(C)<br>Tissue(T)<br>Gene Family(F)<br>Disease(D) GTG<br>GFG<br>GDG<br>GPG<br>GOG<br>GG<br>GDCDG 303487<br>582741<br>7494<br>416462<br>3185779<br>172248<br>18095 15 2695
ACM 12499(P) Paper(P)<br>Author(A)<br>Proceeding(O)<br>Institute(I)<br>Conference(C) PAP<br>PAIAP<br>POP<br>POCOP<br>PP 91662<br>13303015<br>700386<br>7849967<br>30621 11 8000
IMDB 18352(M) Movie(M)<br>Actor(A)<br>Actress(E)<br>Director(D) MAM?<br>MDM?<br>MEM? 63659?<br>1085810?<br>565443? 9 1000

3. 注意事项

AI搜集汇总
数据集介绍
main_image_url
构建方式
在构建DBLP、SLAP、ACM和IMDB这四个异构信息网络数据集时,研究者们采用了多源数据整合与结构化处理的方法。首先,通过爬取和整理学术论文、基因信息、会议记录、电影数据库等多源数据,构建了包含多种节点类型和复杂关系的网络结构。随后,基于这些数据,定义了多种元路径(Meta-paths),以捕捉不同类型节点之间的语义关联。例如,DBLP数据集通过APA和APCPA元路径连接作者、论文和会议,而SLAP数据集则通过GTG、GFG等元路径连接基因、基因家族和疾病。此外,为了增强数据集的特征表示,部分数据集还采用了自然语言处理技术,如使用`nltk.corpus.stopwords`提取词袋表示。
使用方法
使用这些数据集时,研究者可以根据具体的研究需求选择合适的元路径和特征表示方法。首先,可以通过分析数据集的元路径结构,选择适合的元路径进行网络分析或分类任务。例如,在DBLP数据集中,可以选择APA元路径来研究作者之间的合作关系。其次,可以利用数据集提供的特征表示,结合机器学习算法进行模型训练和评估。对于IMDB数据集,由于其支持多标签分类,研究者可以探索多标签分类算法在该数据集上的表现。最后,建议参考相关文献,如DBLP和ACM数据集的[Meta Path-Based Collective Classification in Heterogeneous Information Networks](https://arxiv.org/pdf/1305.4433.pdf),以及IMDB数据集的[Column Networks for Collective Classification](https://arxiv.org/pdf/1609.04508.pdf),以获取更详细的使用指导和研究思路。
背景与挑战
背景概述
DBLP、SLAP、ACM和IMDB数据集是异构信息网络(Heterogeneous Information Network, HIN)领域的关键资源,由多个研究机构和学者共同创建。这些数据集的构建旨在解决异构信息网络中的集体分类问题,通过引入元路径(Meta-paths)来捕捉不同类型节点之间的复杂关系。DBLP数据集主要关注学术出版物网络,SLAP数据集聚焦于基因与生物医学领域,ACM数据集涉及计算机科学领域的论文与会议,而IMDB数据集则围绕电影产业中的演员、导演和电影之间的关系。这些数据集的发布为研究者提供了丰富的实验数据,推动了异构信息网络分析技术的发展,尤其在社交网络分析、推荐系统和知识图谱等领域具有深远影响。
当前挑战
这些数据集在构建和应用过程中面临多项挑战。首先,异构信息网络的复杂性使得元路径的选择和定义成为关键问题,如何有效地捕捉节点间的语义关系仍需深入研究。其次,数据集的规模和多样性带来了计算和存储上的挑战,尤其是在处理大规模网络时,如何高效地进行数据处理和模型训练是一个重要问题。此外,数据集的标注和特征提取也面临困难,例如DBLP和IMDB数据集中的文本特征提取,需要依赖自然语言处理技术,且标注的准确性和一致性直接影响模型的性能。最后,不同数据集之间的异构性也增加了跨领域研究的难度,如何实现跨领域的知识迁移和模型泛化是当前研究的热点。
常用场景
经典使用场景
在异构信息网络(Heterogeneous Information Networks, HINs)的研究领域中,DBLP、SLAP、ACM和IMDB数据集被广泛用于探索和验证基于元路径的集体分类方法。这些数据集通过丰富的节点类型和复杂的元路径结构,为研究者提供了多样的网络拓扑信息,从而支持在不同领域中进行网络分析和模式识别。例如,DBLP数据集常用于研究作者、论文和会议之间的关联关系,而IMDB数据集则用于分析电影、演员和导演之间的复杂互动。
解决学术问题
这些数据集解决了异构信息网络中集体分类和关系预测的关键学术问题。通过提供多类型的节点和复杂的元路径实例,它们帮助研究者探索如何在异构网络中有效地进行信息传播和特征提取,从而提升分类和预测的准确性。此外,这些数据集还为研究者提供了丰富的实验平台,用于验证新的网络分析算法和模型,推动了异构信息网络领域的理论和方法的发展。
实际应用
在实际应用中,这些数据集被广泛用于推荐系统、社交网络分析、生物信息学和电影产业等领域。例如,DBLP数据集可用于学术论文推荐系统,帮助研究者发现与其研究兴趣相关的论文和会议;IMDB数据集则可用于电影推荐系统,通过分析演员、导演和电影之间的关系,为用户提供个性化的电影推荐。这些应用不仅提升了用户体验,还为相关行业提供了数据驱动的决策支持。
数据集最近研究
最新研究方向
在异构信息网络(Heterogeneous Information Networks, HINs)领域,DBLP、SLAP、ACM和IMDB等数据集的研究正聚焦于元路径(Meta-paths)的挖掘与应用。这些数据集通过丰富的节点类型和复杂的网络结构,为研究者提供了探索多层次、多维度信息关联的宝贵资源。当前,前沿研究主要集中在基于元路径的集体分类、网络嵌入以及图神经网络的应用上,旨在揭示复杂网络中的隐含模式与知识。这些研究不仅推动了信息检索、推荐系统和生物信息学等领域的技术进步,还为跨学科的数据分析提供了新的视角和方法。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。

www.pbc.gov.cn 收录

CMNEE(Chinese Military News Event Extraction dataset)

CMNEE(Chinese Military News Event Extraction dataset)是国防科技大学、东南大学和清华大学联合构建的一个大规模的、基于文档标注的开源中文军事新闻事件抽取数据集。该数据集包含17,000份文档和29,223个事件,所有事件均基于预定义的军事领域模式人工标注,包括8种事件类型和11种论元角色。数据集构建遵循两阶段多轮次标注策略,首先通过权威网站获取军事新闻文本并预处理,然后依据触发词字典进行预标注,经领域专家审核后形成事件模式。随后,通过人工分批、迭代标注并持续修正,直至满足既定质量标准。CMNEE作为首个专注于军事领域文档级事件抽取的数据集,对推动相关研究具有显著意义。

github 收录

TaRF

TaRF 是由密歇根大学、耶鲁大学和加州大学伯克利分校联合创建的视触融合场景数据集,旨在将视觉与触觉信号对齐至共享的三维空间。该数据集包含 19.3k 对齐的视觉与触觉样本,覆盖 13 个普通场景,如办公室、走廊和户外环境。数据采集通过结合神经辐射场(NeRF)和触觉传感器完成,利用多视图几何方法校准视觉与触觉信号,实现空间对齐。TaRF 的创建过程包括场景的多视角视觉重建和同步采集触觉信号,最终通过扩散模型生成未直接采样的触觉信号。该数据集可用于触觉信号估计、触觉定位和材料属性理解等任务,为机器人交互和虚拟世界构建提供重要支持。

github 收录

Stanford Cars

Cars数据集包含196类汽车的16,185图像。数据被分成8,144训练图像和8,041测试图像,其中每个类被大致分成50-50。类别通常在品牌,型号,年份,例如2012特斯拉Model S或2012 BMW M3 coupe的级别。

OpenDataLab 收录

长江干流实时水位观测数据集(2024年)

该数据集为长江干流主要水文站实时水位观测数据集,包含了汉口、户口、九江、宜昌等16个水文站点的逐小时或逐日水位观测数据。 该数据集包含3个excel表格文件,长江干流站点.xls,逐日水位.xlsx,逐小时水位.xlsx。

国家地球系统科学数据中心 收录