five

ACM-1, ACM-2, ACM-3, MovieLens, Douban Movie, Douban Book, Amazon, LastFM

收藏
github2024-05-06 更新2024-05-31 收录
下载链接:
https://github.com/Jhy1993/Datasets-for-Heterogeneous-Graph
下载链接
链接失效反馈
官方服务:
资源简介:
这些数据集包括ACM系列、MovieLens、Douban Movie、Douban Book、Amazon和LastFM,每个数据集都提供了详细的实体和关系统计信息,用于异构图分析。

These datasets include the ACM series, MovieLens, Douban Movie, Douban Book, Amazon, and LastFM. Each dataset provides detailed entity and relationship statistics for heterogeneous graph analysis.
创建时间:
2019-09-12
原始信息汇总

ACM-1

  • Entity: Paper, Author, Conf, Term (paper feature), Index(paper label)
  • Statistics:
    • Paper: 12,500
    • Term: 300
    • Index: 11

ACM-2

  • Entity: Paper, Author, Subject, Term (paper feature), Research area(paper label)
  • Statistics:
    • Paper: 3,025
    • Author: 5,835
    • Subject: 56
    • Term: 1,830
    • Research area: 3

ACM-3

  • Entity: Paper, Author, Affiliations, Term, Subjects
  • Statistics:
    • Paper: 12,000
    • Author: 17,000
    • Affiliations: 1,800
    • Term: 1,500
    • Subjects: 73

MovieLens

  • Entity: User, Age, Occupation, Movie, Genre
  • Statistics:
    • User: 943
    • Age: 8
    • Occupation: 21
    • Movie: 1,682
    • Genre: 18
  • Relation Statistics:
    • User - Movie: 100,000
    • User - User (KNN): 47,150
    • User - Age: 943
    • User - Occupation: 943
    • Movie - Movie (KNN): 82,798
    • Movie - Genre: 2,861

Douban Movie

  • Entity: User, Movie, Group, Actor, Director, Type
  • Statistics:
    • User: 13,367
    • Movie: 12,677
    • Group: 2,753
    • Actor: 6,311
    • Director: 2,449
    • Type: 38
  • Relation Statistics:
    • User - Movie: 1,068,278
    • User - Group: 570,047
    • User - User: 4,085
    • Movie - Actor: 33,587
    • Movie - Director: 11,276
    • Movie - Type: 27,668

Douban Book

  • Entity: User, Book, Group, Location, Author, Publisher, Year
  • Statistics:
    • User: 13,024
    • Book: 22,347
    • Group: 2,936
    • Location: 38
    • Author: 10,805
    • Publisher: 1,815
    • Year: 64
  • Relation Statistics:
    • User - Book: 792,062
    • User - Group: 1,189,271
    • User - User: 169,150
    • User - Location: 10,592
    • Book - Author: 21,907
    • Book - Publisher: 21,773
    • Book - Year: 21,192

Amazon

  • Entity: User, Item, View, Category, Brand
  • Statistics:
    • User: 6,170
    • Item: 2,753
    • View: 3,857
    • Category: 22
    • Brand: 334
  • Relation Statistics:
    • User - Item: 195,791
    • Item - View: 5,694
    • Item - Category: 5,508
    • Item - Brand: 2,753

LastFM

  • Entity: User, Artist, Tag
  • Statistics:
    • User: 1,892
    • Artist: 17,632
    • Tag: 11,945
  • Relation Statistics:
    • User - Artist: 92,834
    • User - User (Original): 25,434
    • User - User (KNN): 18,802
    • Artist - Artist (KNN): 153,399
    • Artist - Tag: 184,941

Yelp

  • Entity: User, Business, Compliment, Category, City
  • Statistics:
    • User: 16,239
    • Business: 14,284
    • Compliment: 11
    • Category: 47
    • City: 511
  • Relation Statistics:
    • User - Business: 198,397
    • User - User: 158,590
    • User - Compliment: 76,875
    • Business - City: 14,267
    • Business - Category: 40,009

Yelp-2

  • Entity: User, Business, Service, Star level, Reservation, Category
  • Statistics:
    • User: 1,286
    • Business: 2,614
    • Service: 2
    • Star level: 9
    • Reservation: 2
    • Category: 3
  • Relation Statistics:
    • User - Business: 30,838
    • Business - Service: 2,614
    • Business - Star level: 2,614
    • Business - Reservation: 2,614
    • Business - Category: 2,614

DBLP-1

  • Entity: Author, Paper, Author_label, Conference, Type
  • Statistics:
    • Author: 14,475
    • Paper: 14,376
    • Author_label: 4
    • Conference: 20
    • Type: 8,920
  • Relation Statistics:
    • Author - Label: 4,057
    • Paper - Author: 41,794
    • Paper - Conference: 14,376
    • Paper - Type: 114,624

DBLP-2

  • Entity: Paper, Author, Conf, Term, Profile(author feature), Research area(author label)
  • Statistics:
    • Paper: 14,328
    • Author: 4,057
    • Conf: 20
    • Term: 8,789
    • Profile: 334
    • Research area: 4

Aminer

  • Entity: Author, Paper, Papel_label, Conference, Reference
  • Statistics:
    • Author: 164,472
    • Paper: 127,623
    • Papel_label: 10
    • Conference: 101
    • Reference: 147,251
  • Relation Statistics:
    • Paper - Label: 127,623
    • Paper - Author: 355,072
    • Paper - Conference: 127,632
    • Paper - Reference: 392,519

IMDB

  • Entity: Movie, Actress, Actor, Director, Plot(movie feature), Genre(movie label)
  • Statistics:
    • Movie: 14,475
    • Plot: 1,000
    • Genre: 9

SLAP

  • Entity: Gene, Ontology(gene feature), Tissue, Pathway, Diease, Chemical Compound, Family(gene label)
  • Statistics:
    • Gene: 20,419
    • Ontology: 3,000
    • Family: 15
搜集汇总
数据集介绍
main_image_url
构建方式
ACM-1、ACM-2、ACM-3等数据集的构建基于学术论文、作者、会议等实体及其相互关系。ACM-1数据集通过收集12.5k篇论文及其300个特征和11个标签构建而成。ACM-2数据集则进一步扩展,包含3025篇论文、5835位作者、56个主题及其1830个特征和3个研究领域标签。ACM-3数据集规模更大,涵盖12k篇论文、17k位作者、1.8k个机构、1.5k个术语和73个主题。这些数据集通过系统性地整合学术资源,形成了丰富的多维关系网络。
使用方法
这些数据集可广泛应用于学术推荐系统、网络嵌入、社区发现等研究领域。研究者可以通过分析论文与作者、主题之间的关系,构建学术推荐模型,提升推荐系统的准确性和个性化程度。同时,这些数据集的多维特征和标签信息,也为深度学习模型的训练提供了丰富的数据支持。例如,ACM-2数据集的1830个特征可以用于训练复杂的机器学习模型,以预测研究领域或推荐相关论文。
背景与挑战
背景概述
ACM系列数据集(ACM-1、ACM-2、ACM-3)是由不同研究团队在学术领域构建的,主要用于研究学术论文的特征、作者关系以及研究领域的分类。这些数据集的创建旨在通过分析学术论文的结构和内容,揭示学术网络中的潜在模式和关联。ACM-1数据集包含12.5k篇论文和300个术语特征,ACM-2则扩展到3025篇论文、5835位作者和1830个术语特征,而ACM-3进一步涵盖了12k篇论文、17k位作者及1.5k个术语。这些数据集的构建为学术网络分析、推荐系统和知识图谱研究提供了丰富的资源,推动了相关领域的技术进步。
当前挑战
ACM系列数据集在构建过程中面临多重挑战。首先,数据集的规模和复杂性使得数据清洗和预处理成为一项艰巨任务,尤其是处理大量学术论文的文本特征和作者关系时。其次,如何有效提取和表示学术论文的特征,以便进行准确的分类和推荐,是另一个关键挑战。此外,学术网络的动态性和多样性要求数据集能够不断更新和扩展,以适应学术研究的不断变化。最后,数据集的隐私和版权问题也需要谨慎处理,确保数据使用的合法性和伦理性。
常用场景
经典使用场景
ACM系列数据集,尤其是ACM-1、ACM-2和ACM-3,广泛应用于学术研究领域,主要用于研究论文与作者、主题之间的关系。这些数据集通过丰富的实体和关系信息,为学术网络分析提供了坚实的基础。例如,研究者可以利用这些数据集进行学术影响力分析、作者合作网络构建以及研究领域的趋势预测。此外,MovieLens、Douban Movie和Douban Book等数据集则常用于推荐系统研究,通过分析用户与电影、书籍之间的交互行为,构建个性化的推荐模型。
解决学术问题
ACM系列数据集通过提供详细的论文、作者和主题信息,解决了学术研究中的多个关键问题。首先,它们为学术影响力分析提供了数据支持,帮助研究者识别高影响力论文和作者。其次,这些数据集有助于构建和分析作者合作网络,揭示学术合作模式和趋势。此外,通过分析论文与研究领域的关系,研究者可以预测学术研究的未来发展方向。在推荐系统领域,MovieLens和Douban系列数据集解决了用户个性化推荐的问题,通过分析用户行为和偏好,提升了推荐系统的准确性和用户满意度。
实际应用
ACM系列数据集在实际应用中主要用于学术研究管理和决策支持。例如,高校和研究机构可以利用这些数据集进行学术资源的优化配置,识别和培养有潜力的研究者。在推荐系统领域,MovieLens和Douban系列数据集被广泛应用于在线平台,如电影和书籍推荐服务,通过个性化推荐提升用户体验。此外,Amazon数据集在电子商务领域也有广泛应用,帮助商家优化产品推荐策略,提高销售转化率。
数据集最近研究
最新研究方向
在推荐系统和社交网络分析领域,ACM系列数据集因其丰富的学术论文和作者信息,成为研究学术网络结构和知识传播的重要资源。最新研究方向集中在利用图神经网络(GNN)和异质信息网络(HIN)技术,探索学术论文与作者之间的复杂关系,以提升学术推荐系统的准确性和个性化。此外,MovieLens和Douban Movie等数据集的研究则聚焦于用户行为分析和电影推荐算法,特别是结合时间戳和评分信息,优化协同过滤和深度学习模型,以实现更精准的推荐。这些研究不仅推动了推荐系统技术的发展,也为理解用户偏好和行为模式提供了新的视角。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务