ACM-1, ACM-2, ACM-3, MovieLens, Douban Movie, Douban Book, Amazon, LastFM
收藏github2024-05-06 更新2024-05-31 收录
下载链接:
https://github.com/Jhy1993/Datasets-for-Heterogeneous-Graph
下载链接
链接失效反馈官方服务:
资源简介:
这些数据集包括ACM系列、MovieLens、Douban Movie、Douban Book、Amazon和LastFM,每个数据集都提供了详细的实体和关系统计信息,用于异构图分析。
These datasets include the ACM series, MovieLens, Douban Movie, Douban Book, Amazon, and LastFM. Each dataset provides detailed entity and relationship statistics for heterogeneous graph analysis.
创建时间:
2019-09-12
原始信息汇总
ACM-1
- Entity: Paper, Author, Conf, Term (paper feature), Index(paper label)
- Statistics:
- Paper: 12,500
- Term: 300
- Index: 11
ACM-2
- Entity: Paper, Author, Subject, Term (paper feature), Research area(paper label)
- Statistics:
- Paper: 3,025
- Author: 5,835
- Subject: 56
- Term: 1,830
- Research area: 3
ACM-3
- Entity: Paper, Author, Affiliations, Term, Subjects
- Statistics:
- Paper: 12,000
- Author: 17,000
- Affiliations: 1,800
- Term: 1,500
- Subjects: 73
MovieLens
- Entity: User, Age, Occupation, Movie, Genre
- Statistics:
- User: 943
- Age: 8
- Occupation: 21
- Movie: 1,682
- Genre: 18
- Relation Statistics:
- User - Movie: 100,000
- User - User (KNN): 47,150
- User - Age: 943
- User - Occupation: 943
- Movie - Movie (KNN): 82,798
- Movie - Genre: 2,861
Douban Movie
- Entity: User, Movie, Group, Actor, Director, Type
- Statistics:
- User: 13,367
- Movie: 12,677
- Group: 2,753
- Actor: 6,311
- Director: 2,449
- Type: 38
- Relation Statistics:
- User - Movie: 1,068,278
- User - Group: 570,047
- User - User: 4,085
- Movie - Actor: 33,587
- Movie - Director: 11,276
- Movie - Type: 27,668
Douban Book
- Entity: User, Book, Group, Location, Author, Publisher, Year
- Statistics:
- User: 13,024
- Book: 22,347
- Group: 2,936
- Location: 38
- Author: 10,805
- Publisher: 1,815
- Year: 64
- Relation Statistics:
- User - Book: 792,062
- User - Group: 1,189,271
- User - User: 169,150
- User - Location: 10,592
- Book - Author: 21,907
- Book - Publisher: 21,773
- Book - Year: 21,192
Amazon
- Entity: User, Item, View, Category, Brand
- Statistics:
- User: 6,170
- Item: 2,753
- View: 3,857
- Category: 22
- Brand: 334
- Relation Statistics:
- User - Item: 195,791
- Item - View: 5,694
- Item - Category: 5,508
- Item - Brand: 2,753
LastFM
- Entity: User, Artist, Tag
- Statistics:
- User: 1,892
- Artist: 17,632
- Tag: 11,945
- Relation Statistics:
- User - Artist: 92,834
- User - User (Original): 25,434
- User - User (KNN): 18,802
- Artist - Artist (KNN): 153,399
- Artist - Tag: 184,941
Yelp
- Entity: User, Business, Compliment, Category, City
- Statistics:
- User: 16,239
- Business: 14,284
- Compliment: 11
- Category: 47
- City: 511
- Relation Statistics:
- User - Business: 198,397
- User - User: 158,590
- User - Compliment: 76,875
- Business - City: 14,267
- Business - Category: 40,009
Yelp-2
- Entity: User, Business, Service, Star level, Reservation, Category
- Statistics:
- User: 1,286
- Business: 2,614
- Service: 2
- Star level: 9
- Reservation: 2
- Category: 3
- Relation Statistics:
- User - Business: 30,838
- Business - Service: 2,614
- Business - Star level: 2,614
- Business - Reservation: 2,614
- Business - Category: 2,614
DBLP-1
- Entity: Author, Paper, Author_label, Conference, Type
- Statistics:
- Author: 14,475
- Paper: 14,376
- Author_label: 4
- Conference: 20
- Type: 8,920
- Relation Statistics:
- Author - Label: 4,057
- Paper - Author: 41,794
- Paper - Conference: 14,376
- Paper - Type: 114,624
DBLP-2
- Entity: Paper, Author, Conf, Term, Profile(author feature), Research area(author label)
- Statistics:
- Paper: 14,328
- Author: 4,057
- Conf: 20
- Term: 8,789
- Profile: 334
- Research area: 4
Aminer
- Entity: Author, Paper, Papel_label, Conference, Reference
- Statistics:
- Author: 164,472
- Paper: 127,623
- Papel_label: 10
- Conference: 101
- Reference: 147,251
- Relation Statistics:
- Paper - Label: 127,623
- Paper - Author: 355,072
- Paper - Conference: 127,632
- Paper - Reference: 392,519
IMDB
- Entity: Movie, Actress, Actor, Director, Plot(movie feature), Genre(movie label)
- Statistics:
- Movie: 14,475
- Plot: 1,000
- Genre: 9
SLAP
- Entity: Gene, Ontology(gene feature), Tissue, Pathway, Diease, Chemical Compound, Family(gene label)
- Statistics:
- Gene: 20,419
- Ontology: 3,000
- Family: 15
搜集汇总
数据集介绍

构建方式
ACM-1、ACM-2、ACM-3等数据集的构建基于学术论文、作者、会议等实体及其相互关系。ACM-1数据集通过收集12.5k篇论文及其300个特征和11个标签构建而成。ACM-2数据集则进一步扩展,包含3025篇论文、5835位作者、56个主题及其1830个特征和3个研究领域标签。ACM-3数据集规模更大,涵盖12k篇论文、17k位作者、1.8k个机构、1.5k个术语和73个主题。这些数据集通过系统性地整合学术资源,形成了丰富的多维关系网络。
使用方法
这些数据集可广泛应用于学术推荐系统、网络嵌入、社区发现等研究领域。研究者可以通过分析论文与作者、主题之间的关系,构建学术推荐模型,提升推荐系统的准确性和个性化程度。同时,这些数据集的多维特征和标签信息,也为深度学习模型的训练提供了丰富的数据支持。例如,ACM-2数据集的1830个特征可以用于训练复杂的机器学习模型,以预测研究领域或推荐相关论文。
背景与挑战
背景概述
ACM系列数据集(ACM-1、ACM-2、ACM-3)是由不同研究团队在学术领域构建的,主要用于研究学术论文的特征、作者关系以及研究领域的分类。这些数据集的创建旨在通过分析学术论文的结构和内容,揭示学术网络中的潜在模式和关联。ACM-1数据集包含12.5k篇论文和300个术语特征,ACM-2则扩展到3025篇论文、5835位作者和1830个术语特征,而ACM-3进一步涵盖了12k篇论文、17k位作者及1.5k个术语。这些数据集的构建为学术网络分析、推荐系统和知识图谱研究提供了丰富的资源,推动了相关领域的技术进步。
当前挑战
ACM系列数据集在构建过程中面临多重挑战。首先,数据集的规模和复杂性使得数据清洗和预处理成为一项艰巨任务,尤其是处理大量学术论文的文本特征和作者关系时。其次,如何有效提取和表示学术论文的特征,以便进行准确的分类和推荐,是另一个关键挑战。此外,学术网络的动态性和多样性要求数据集能够不断更新和扩展,以适应学术研究的不断变化。最后,数据集的隐私和版权问题也需要谨慎处理,确保数据使用的合法性和伦理性。
常用场景
经典使用场景
ACM系列数据集,尤其是ACM-1、ACM-2和ACM-3,广泛应用于学术研究领域,主要用于研究论文与作者、主题之间的关系。这些数据集通过丰富的实体和关系信息,为学术网络分析提供了坚实的基础。例如,研究者可以利用这些数据集进行学术影响力分析、作者合作网络构建以及研究领域的趋势预测。此外,MovieLens、Douban Movie和Douban Book等数据集则常用于推荐系统研究,通过分析用户与电影、书籍之间的交互行为,构建个性化的推荐模型。
解决学术问题
ACM系列数据集通过提供详细的论文、作者和主题信息,解决了学术研究中的多个关键问题。首先,它们为学术影响力分析提供了数据支持,帮助研究者识别高影响力论文和作者。其次,这些数据集有助于构建和分析作者合作网络,揭示学术合作模式和趋势。此外,通过分析论文与研究领域的关系,研究者可以预测学术研究的未来发展方向。在推荐系统领域,MovieLens和Douban系列数据集解决了用户个性化推荐的问题,通过分析用户行为和偏好,提升了推荐系统的准确性和用户满意度。
实际应用
ACM系列数据集在实际应用中主要用于学术研究管理和决策支持。例如,高校和研究机构可以利用这些数据集进行学术资源的优化配置,识别和培养有潜力的研究者。在推荐系统领域,MovieLens和Douban系列数据集被广泛应用于在线平台,如电影和书籍推荐服务,通过个性化推荐提升用户体验。此外,Amazon数据集在电子商务领域也有广泛应用,帮助商家优化产品推荐策略,提高销售转化率。
数据集最近研究
最新研究方向
在推荐系统和社交网络分析领域,ACM系列数据集因其丰富的学术论文和作者信息,成为研究学术网络结构和知识传播的重要资源。最新研究方向集中在利用图神经网络(GNN)和异质信息网络(HIN)技术,探索学术论文与作者之间的复杂关系,以提升学术推荐系统的准确性和个性化。此外,MovieLens和Douban Movie等数据集的研究则聚焦于用户行为分析和电影推荐算法,特别是结合时间戳和评分信息,优化协同过滤和深度学习模型,以实现更精准的推荐。这些研究不仅推动了推荐系统技术的发展,也为理解用户偏好和行为模式提供了新的视角。
以上内容由遇见数据集搜集并总结生成



