five

cora, citeseer|引文网络数据集|文本分析数据集

收藏
github2023-03-23 更新2024-05-31 收录
引文网络
文本分析
下载链接:
https://github.com/djsaber/Keras-GraphSAGE
下载链接
链接失效反馈
资源简介:
cora:包含2708篇科学出版物网络,共有5429条边,总共7种类别。数据集中的每个出版物都由一个 0/1 值的词向量描述,表示字典中相应词的缺失/存在。该词典由 1433 个独特的词组成。<br />citeseer:包含3312个节点,4723条边构成的引文网络。标签共6个类别。数据集的特征维度是3703维。

cora: This dataset comprises a network of 2,708 scientific publications, interconnected by 5,429 edges, and categorized into 7 distinct classes. Each publication within the dataset is represented by a binary word vector (0/1 values), indicating the absence or presence of corresponding words from a dictionary. This dictionary consists of 1,433 unique words.<br />citeseer: This dataset features a citation network with 3,312 nodes and 4,723 edges. It is labeled across 6 categories. The feature dimension of the dataset is 3,703.
创建时间:
2023-03-22
原始信息汇总

数据集概述

数据集名称

  • cora
  • citeseer

数据集描述

  • cora: 包含2708篇科学出版物网络,共有5429条边,总共7种类别。每个出版物由一个0/1值的词向量描述,词典由1433个独特的词组成。
  • citeseer: 包含3312个节点,4723条边构成的引文网络。标签共6个类别,数据集的特征维度是3703维。

数据集用途

用于训练GraphSAGE模型,进行节点分类测试。

数据集存储位置

  • 数据集文件解压至项目内目录的/datasets文件夹。
AI搜集汇总
数据集介绍
main_image_url
构建方式
Cora和Citeseer数据集是图神经网络领域中广泛使用的基准数据集,主要用于节点分类任务。Cora数据集构建于科学出版物网络,包含2708个节点和5429条边,每个节点代表一篇科学文献,边表示文献之间的引用关系。Citeseer数据集则构建于引文网络,包含3312个节点和4723条边,节点代表科学文献,边表示文献之间的引用关系。两个数据集均通过提取文献的文本特征,将其转化为0/1值的词向量,分别使用1433维和3703维的特征向量表示节点。
使用方法
Cora和Citeseer数据集通常用于图神经网络模型的训练和评估,特别是GraphSAGE等基于邻居采样的模型。使用这些数据集时,首先需要将数据集文件解压至指定目录,随后通过图神经网络框架(如Keras)加载数据并进行预处理。在训练过程中,模型通过采样和聚合节点及其邻居的信息,逐步学习节点的特征表示,最终完成节点分类任务。训练完成后,模型权重可保存至指定目录,以便后续加载和测试。
背景与挑战
背景概述
Cora和Citeseer数据集是图神经网络(Graph Neural Network, GNN)领域中的经典基准数据集,广泛应用于节点分类任务的研究。Cora数据集由2708篇科学出版物构成,涵盖7个类别,每篇出版物通过1433维的词向量表示。Citeseer数据集则包含3312个节点和4723条边,特征维度为3703维,标签分为6个类别。这两个数据集自2000年代初被引入以来,已成为评估图神经网络算法性能的重要工具,尤其是在GraphSAGE等算法的研究中,它们为验证模型的有效性提供了坚实的基础。
当前挑战
Cora和Citeseer数据集在应用过程中面临多重挑战。首先,节点分类任务需要模型能够有效捕捉图结构中的局部和全局信息,这对算法的表达能力提出了较高要求。其次,数据集的稀疏性和高维特征增加了模型训练的难度,尤其是在处理大规模图数据时,计算复杂度显著上升。此外,GraphSAGE等算法在构建过程中需解决邻居采样和特征聚合的优化问题,如何在保证模型性能的同时降低计算开销是一个关键挑战。最后,数据集的标签不平衡问题也可能影响模型的泛化能力,需要设计有效的策略加以应对。
常用场景
经典使用场景
在学术研究领域,Cora和Citeseer数据集常被用于图神经网络(GNN)的节点分类任务。这些数据集通过模拟科学出版物之间的引用关系,提供了一个理想的实验平台,用于验证和比较不同图神经网络算法的性能。特别是在GraphSAGE等模型的训练过程中,这些数据集能够有效地展示模型在处理图结构数据时的表现。
解决学术问题
Cora和Citeseer数据集解决了图神经网络在节点分类任务中的关键问题。传统的图卷积网络(GCN)在处理大规模图数据时,往往需要全局图结构信息,这限制了其应用范围。GraphSAGE通过引入采样和聚合机制,能够在不需要全局图结构的情况下,有效地利用局部邻域信息进行节点分类,从而提高了模型的泛化能力和计算效率。
实际应用
在实际应用中,Cora和Citeseer数据集被广泛用于推荐系统、社交网络分析和知识图谱构建等领域。例如,在推荐系统中,这些数据集可以帮助模型理解用户与物品之间的复杂关系,从而提供更精准的推荐。在社交网络分析中,它们可以用于识别社区结构和关键节点,为网络优化提供支持。
数据集最近研究
最新研究方向
近年来,随着图神经网络(GNN)技术的快速发展,GraphSAGE作为一种重要的图嵌入方法,在节点分类任务中展现出显著的优势。特别是在cora和citeseer等引文网络数据集上的应用,GraphSAGE通过采样和聚合机制,能够有效处理大规模图数据中的节点特征。当前的研究热点主要集中在优化聚合函数的设计,以提升模型的泛化能力和计算效率。例如,研究者们正在探索如何结合注意力机制或自适应采样策略,以更好地捕捉节点间的复杂关系。此外,GraphSAGE在跨领域知识图谱构建、社交网络分析等场景中的应用也备受关注,推动了图神经网络在实际问题中的广泛应用。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。

arXiv 收录

FAOSTAT Agricultural Data

FAOSTAT Agricultural Data 是由联合国粮食及农业组织(FAO)提供的全球农业数据集。该数据集涵盖了农业生产、贸易、价格、土地利用、水资源、气候变化、人口统计等多个方面的详细信息。数据包括了全球各个国家和地区的农业统计数据,旨在为政策制定者、研究人员和公众提供全面的农业信息。

www.fao.org 收录

UAVDT Dataset

The authors constructed a new UAVDT Dataset focused on complex scenarios with new level challenges. Selected from 10 hours raw videos, about 80, 000 representative frames are fully annotated with bounding boxes as well as up to 14 kinds of attributes (e.g., weather condition, flying altitude, camera view, vehicle category, and occlusion) for three fundamental computer vision tasks: object detection, single object tracking, and multiple object tracking.

datasetninja.com 收录

HIT-UAV

HIT-UAV数据集包含2898张红外热成像图像,这些图像从43,470帧无人机拍摄的画面中提取。数据集涵盖了多种场景,如学校、停车场、道路和游乐场,在不同的光照条件下,包括白天和夜晚。

github 收录

Beijing Traffic

The Beijing Traffic Dataset collects traffic speeds at 5-minute granularity for 3126 roadway segments in Beijing between 2022/05/12 and 2022/07/25.

Papers with Code 收录