five

DyGraphs|动态图数据集|链接预测数据集

收藏
github2024-12-08 更新2024-12-09 收录
动态图
链接预测
下载链接:
https://github.com/weichow23/CrossLink
下载链接
链接失效反馈
资源简介:
DyGraphs数据集包含跨多个领域的动态图,涵盖600万个动态边。该数据集用于训练和评估CrossLink模型,以进行跨域链接预测。
创建时间:
2024-12-04
原始信息汇总

CrossLink: Enhancing Cross-domain Link Prediction via Evolution Process Modeling

数据集概述

  • 数据集名称: CrossLink
  • 数据集用途: 用于跨域链接预测,通过建模图的演化过程来增强链接预测。
  • 数据集规模: 包含600万个动态边。
  • 数据集格式:
    • 数据集包含以下字段:
      • Unnamed: 0: 索引
      • u: 源节点
      • i: 目标节点
      • ts: 交互时间
      • label: 默认值为0
      • idx: 从1到边的总数
  • 数据集来源:

数据集特点

  • 技术方法: 采用条件链接生成技术,结合演化和结构建模进行演化特定的链接预测。
  • 模型架构: 使用Transformer解码器架构,支持高效的并行训练和推理。
  • 性能表现: 在八个未训练的图上进行广泛实验,CrossLink在跨域链接预测中达到了最先进的性能,平均精度提高了11.40%。

数据集使用

  • 数据准备: 可以使用preprocess_data文件夹中的代码准备数据。
  • 训练与评估: 训练和评估代码将在未来发布。

引用

  • 引用信息: bibtex @misc{huang2024graphmodelcrossdomaindynamic, title={One Graph Model for Cross-domain Dynamic Link Prediction}, author={Xuanwen Huang and Wei Chow and Yang Wang and Ziwei Chai and Chunping Wang and Lei Chen and Yang Yang}, year={2024}, eprint={2402.02168}, archivePrefix={arXiv}, primaryClass={cs.LG}, url={https://arxiv.org/abs/2402.02168}, }
AI搜集汇总
数据集介绍
main_image_url
构建方式
DyGraphs数据集的构建基于跨域动态图的演化过程建模,通过集成演化和结构建模的*conditioned link generation*技术,利用transformer-decoder架构进行高效的并行训练和推理。该数据集涵盖了6百万动态边,跨越多个领域,旨在捕捉特定下游图的演化模式,从而实现进化特定的链接预测。
使用方法
使用DyGraphs数据集时,用户需将数据按指定格式准备,包括源节点、目标节点、交互时间等信息。数据预处理代码可在`preprocess_data`文件夹中找到,或直接使用Hugging Face上预处理的数据。训练和评估代码将在后续版本中发布,用户可参考项目网站获取更多详细信息。
背景与挑战
背景概述
DyGraphs数据集由Xuanwen Huang、Wei Chow及其团队于2024年创建,旨在解决跨领域动态链接预测的核心研究问题。该数据集通过整合进化和结构建模,采用条件链接生成技术,利用transformer-decoder架构进行高效的并行训练和推理。DyGraphs涵盖了600万条动态边,跨越多个领域,显著提升了跨领域链接预测的性能,平均精度提高了11.40%,并在多个未训练图上超越了先进的监督学习基线。这一数据集的开发对动态图分析领域具有重要影响,为未来的研究提供了丰富的资源和基准。
当前挑战
DyGraphs数据集在构建过程中面临多重挑战。首先,跨领域动态链接预测需要处理不同领域间数据结构的差异,确保模型在多样性数据上的泛化能力。其次,动态图的进化模式建模要求高效的时间序列分析和复杂的结构变化捕捉,这对计算资源和算法设计提出了高要求。此外,数据集的预处理和标准化格式确保了数据的一致性和可用性,但这也增加了数据处理的复杂性。最后,尽管数据集在多个实验中表现优异,但其广泛应用仍需进一步验证和优化,特别是在不同应用场景下的适应性。
常用场景
经典使用场景
在动态图分析领域,DyGraphs数据集以其丰富的跨域动态边信息,成为研究者进行跨域链接预测的经典工具。通过集成进化与结构建模的条件链接生成技术,DyGraphs能够高效地进行进化特异性链接预测。其采用的transformer-decoder架构不仅支持并行训练与推理,还显著提升了预测精度,使其在多个未训练图上的平均精度提升了11.40%。
解决学术问题
DyGraphs数据集解决了动态图分析中跨域链接预测的核心问题,即如何在不同领域间有效捕捉和利用图的进化模式。通过提供600万条动态边的详尽数据,DyGraphs为研究者提供了一个强大的工具,用以探索和验证新的链接预测算法。其对学术研究的意义在于,它不仅推动了动态图分析技术的发展,还为跨域数据融合提供了新的视角和方法。
实际应用
在实际应用中,DyGraphs数据集被广泛用于社交网络分析、推荐系统优化以及金融风险评估等领域。例如,在社交网络中,通过分析用户间的动态互动,可以更精准地预测未来的社交关系;在推荐系统中,利用商品与用户间的动态交互数据,可以提升推荐的准确性和用户满意度;在金融领域,通过分析交易网络的动态变化,可以更早地识别和防范潜在风险。
数据集最近研究
最新研究方向
在动态图分析领域,DyGraphs数据集的最新研究方向主要集中在跨域链接预测的进化过程建模。通过引入条件链接生成技术,研究者们致力于整合进化和结构建模,以实现特定进化模式的链接预测。这一方法利用了transformer-decoder架构,不仅提升了训练和推理的效率,还在跨域链接预测任务中展示了显著的性能提升,平均精度提高了11.40%。此外,该研究在未训练的图数据上超越了8个先进基线的表现,显示出其在动态图分析中的前沿性和实用性。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国1km分辨率逐月降水量数据集(1901-2023)

该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2023.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

中国行政区划数据

本项目为中国行政区划数据,包括省级、地级、县级、乡级和村级五级行政区划数据。数据来源于国家统计局,存储格式为sqlite3 db文件,支持直接使用数据库连接工具打开。

github 收录

THUCNews

THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。本次比赛数据集在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。提供训练数据共832471条。

github 收录

Wind Turbine Data

该数据集包含风力涡轮机的运行数据,包括风速、风向、发电量等参数。数据记录了多个风力涡轮机在不同时间点的运行状态,适用于风能研究和风力发电系统的优化分析。

www.kaggle.com 收录