graphs-datasets/IMDB-BINARY|电影网络分析数据集|图数据挖掘数据集
收藏hugging_face2023-02-07 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/graphs-datasets/IMDB-BINARY
下载链接
链接失效反馈资源简介:
IMDB-BINARY数据集是一个电影合作数据集,包含1000个演员/演员的自我网络,这些演员在IMDB的电影中扮演角色。在每个图中,节点代表演员,如果他们在同一部电影中出现,则他们之间有边。这些图源自动作和爱情两种电影类型。数据集主要用于图分类任务,特别是用于预测电影图是动作片还是爱情片的二元分类任务。
提供机构:
graphs-datasets
原始信息汇总
数据集概述
数据集名称
- IMDb-B (IMDB-BINARY)
数据集描述
- 摘要: IMDb-B数据集包含1,000个演员/女演员的自我网络,这些演员/女演员在IMDb中的电影中扮演角色。在每个图中,节点代表演员/女演员,如果他们出现在同一部电影中,则节点之间存在边。这些图来自动作和浪漫电影类型。
- 任务: 用于图分类,目的是预测电影图是动作还是浪漫电影,这是一个二分类任务。
- 评估指标: 使用准确性作为评分,采用10折交叉验证。
数据集结构
- 数据属性:
- 规模: 中等
- 图数量: 1000
- 平均节点数: 19.79
- 平均边数: 193.25
- 数据字段:
edge_index: 边索引,2 x #edges的列表,表示构成边的节点对y: 标签列表,1 x #labels,包含可用于预测的标签数量(此处为1,等于零或一)num_nodes: 图的节点数量
许可证信息
- 许可证: 未知
引用信息
@inproceedings{10.1145/2783258.2783417, author = {Yanardag, Pinar and Vishwanathan, S.V.N.}, title = {Deep Graph Kernels}, year = {2015}, publisher = {Association for Computing Machinery}, address = {New York, NY, USA}, url = {https://doi.org/10.1145/2783258.2783417}, booktitle = {Proceedings of the 21th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining}, pages = {1365–1374}, numpages = {10}, keywords = {collaboration networks, bioinformatics, r-convolution kernels, graph kernels, structured data, deep learning, social networks, string kernels}, location = {Sydney, NSW, Australia}, series = {KDD 15} }
贡献者
- 贡献者: @clefourrier
AI搜集汇总
数据集介绍

构建方式
IMDb-BINARY数据集的构建基于电影协作网络,从中提取了1000位演员/女演员的 ego-networks。这些网络以IMDb数据库中的动作和浪漫电影为来源,每个图中的节点代表一位演员/女演员,若两位演员共同出演同一部电影,则节点之间存在一条边。数据集通过梳理演员间的协作关系,形成了包含1000个图的集合,旨在为图分类任务提供支持。
使用方法
使用IMDb-BINARY数据集时,可以通过PyGeometric库加载。用户首先需要利用`load_dataset`函数从HuggingFace的datasets库中加载数据集,然后将每个图的边索引、标签和节点数转换为PyGeometric的Data对象,并使用DataLoader进行批量处理。此外,数据集还提供了从PyGeometric的TUDataset直接加载的方式,方便用户快速获取数据并进行后续的图分类研究。
背景与挑战
背景概述
在深度学习与图论相结合的研究领域,IMDb-BINARY数据集应运而生,旨在推动图分类任务的深入研究。该数据集创建于2015年,由Yanardag Pinar与Vishwanathan S.V.N.等研究人员提出,并在ACM SIGKDD国际会议上发表相关论文。IMDb-BINARY数据集源自IMDb数据库,包含了1000名演员的社交网络图,这些图反映了演员之间的合作关系。每个图中的节点代表一名演员,节点间的边代表演员共同出演过的电影。该数据集的核心研究问题是利用图核方法对电影图进行分类,预测电影属于动作片还是爱情片类别。IMDb-BINARY数据集在图分类任务上具有显著的影响力,为相关领域的研究提供了重要的实验基础。
当前挑战
IMDb-BINARY数据集在构建与应用过程中面临的挑战主要包括:如何有效提取和利用图结构中的复杂关系信息,以及如何在保持数据集规模可控的同时,确保数据的多样性和代表性。此外,由于数据集的构建基于特定的电影类型,其在扩展到其他类型的电影或更广泛的娱乐领域时可能存在局限性。在数据集的使用上,研究者还需面对数据版权与使用许可的不确定性,这对数据集的广泛采用和共享构成了挑战。
常用场景
经典使用场景
在电影行业领域,IMDb-BINARY数据集以其独特的电影合作网络结构,被广泛应用于图分类任务中。该数据集包含1000位演员的 ego-networks,节点代表演员,若两位演员共同出演过电影,则节点间存在边。经典的场景是将该数据集用于预测电影图属于动作片还是爱情片,采用10-fold交叉验证的方式评估模型的准确性。
解决学术问题
IMDb-BINARY数据集解决了如何利用图结构数据对电影类型进行分类的问题。通过这一数据集,研究者能够探索演员合作网络中的隐藏模式,进而提升对电影类型预测的准确性。这对于电影推荐系统、电影市场分析等应用具有重要的学术意义和实际价值。
实际应用
实际应用中,IMDb-BINARY数据集可以被用来优化电影分类算法,为电影流媒体平台提供更加精准的电影类型分类,从而改善用户体验。此外,它还可以用于电影行业市场分析,帮助制片人和发行商更好地理解市场趋势。
数据集最近研究
最新研究方向
在图形机器学习领域,IMDb-BINARY数据集作为电影合作网络的数据来源,其最新研究方向主要集中在图分类任务上,尤其是利用深度学习技术对电影图进行动作或浪漫类别的预测。近期研究通过引入深度图核方法,致力于学习子结构的潜在表征,从而提升分类准确性。此类研究不仅有助于电影行业的精准推荐系统,也对社交网络分析、生物信息学等领域具有深远影响。
以上内容由AI搜集并总结生成
