DTGB|动态文本属性图数据集|数据分析数据集

github2024-06-14 更新2024-06-22 收录

动态文本属性图

数据分析

下载链接：

https://github.com/zjs123/DTGB

下载链接

链接失效反馈

资源简介：

DTGB提供了一个综合基准数据集，包含八个动态文本属性图，用于研究和分析动态文本属性图的特性和应用。

创建时间：

2024-05-30

原始信息汇总

DTGB: A Comprehensive Benchmark for Dynamic Text-Attributed Graphs

数据集

DTGB提供了八个动态文本属性图数据集，可以从这里下载。

数据格式

每个图数据集包含三个文件：

edge_list.csv: 存储每条边的信息，格式为 (u, v, r, t, l)，其中 u 是源实体的ID，v 是目标实体的ID，r 是关系的ID，t 是边的发生时间戳，l 是边的标签。
entity_text.csv: 存储实体ID与实体文本描述的映射。
relation_text.csv: 存储关系ID与关系文本描述的映射。

使用方法

下载数据集后，应将其解压缩到 DyLink_Datasets 文件夹中。
运行 get_pretrained_embeddings.py 获取基于Bert的节点和边文本嵌入，分别保存为 e_feat.npy 和 r_feat.npy。
运行 get_LLM_data.ipynb 获取文本关系生成任务的训练和测试集，分别保存为 LLM_train.pkl 和 LLM_test.pkl。

结果复现

未来链接预测任务

在 GDELT 数据集上训练 DyGFormer 模型，不使用文本属性的示例： bash python train_link_prediction.py --dataset_name GDELT --model_name DyGFormer --patch_size 2 --max_input_sequence_length 64 --num_runs 5 --gpu 0 --use_feature no
在 GDELT 数据集上训练 DyGFormer 模型，使用文本属性的示例： bash python train_link_prediction.py --dataset_name GDELT --model_name DyGFormer --patch_size 2 --max_input_sequence_length 64 --num_runs 5 --gpu 0 --use_feature Bert
测试集的 AP 和 AUC-ROC 指标将自动保存到 saved_resuts/DyGFormer/GDELT/DyGFormer_seed0no.json。
最佳检查点将保存到 saved_resuts/DyGFormer/GDELT/ 文件夹中。

目标节点检索任务

在获得未来链接预测任务的最佳检查点后，可以通过运行以下命令复现目标节点检索任务的 Hits@k 指标： bash python evaluate_node_retrieval.py --dataset_name GDELT --model_name DyGFormer --patch_size 2 --max_input_sequence_length 64 --negative_sample_strategy random --num_runs 5 --gpu 0 --use_feature no

negative_sample_strategy 参数控制候选采样策略，可以是 random 或 historical。
use_feature 参数控制是否使用基于Bert的嵌入，可以是 no 或 Bert。

边分类任务

在 GDELT 数据集上训练 DyGFormer 模型，不使用文本属性的示例： bash python train_edge_classification.py --dataset_name GDELT --model_name DyGFormer --patch_size 2 --max_input_sequence_length 64 --num_runs 5 --gpu 0 --use_feature no
测试集的 Precision、Recall 和 F1-score 指标将自动保存到 saved_resuts/DyGFormer/GDELT/edge_classification_DyGFormer_seed0no.json。

文本关系生成任务

在获得 LLM_train.pkl 和 LLM_test.pkl 文件后，可以通过运行以下命令复现原始LLMs的性能： bash python LLM_eval.py -config_path=LLM_configs/vicuna_7b_qlora_uncensored.yaml -model=raw

可以通过 config_path 参数更改LLMs。
生成的文本将保存到 s_his_o_des_his_result_vicuna7b.pkl。

然后，可以通过更改 LLM_metric.py 中的文件路径并运行以下命令获取 Bert_score 指标： bash python LLM_metric.py

如果需要微调LLMs，可以运行： bash python LLM_train.py LLM_configs/vicuna_7b_qlora_uncensored.yaml

然后通过运行以下命令复现微调后LLMs的性能： bash python LLM_eval.py -config_path=LLM_configs/vicuna_7b_qlora_uncensored.yaml -model=lora

AI搜集汇总

数据集介绍

构建方式

DTGB数据集的构建基于动态文本属性图（Dynamic Text-Attributed Graphs），涵盖了八个不同的图结构。每个图通过三个文件进行保存：edge_list.csv记录了图中的每条边，包括源实体、目标实体、关系、时间戳和边的标签；entity_text.csv和relation_text.csv分别存储了实体和关系的文本描述。这种结构化的数据存储方式确保了数据的完整性和可访问性，为后续的分析和模型训练提供了坚实的基础。

特点

DTGB数据集的显著特点在于其动态性和文本属性的结合。首先，数据集中的图结构是动态的，能够捕捉到随时间变化的关系和实体状态。其次，每个实体和关系都附有详细的文本描述，这为基于文本的分析和模型提供了丰富的信息。此外，数据集的多样性体现在其包含的八个不同图结构，涵盖了多种应用场景，使得研究者可以在不同情境下验证和优化模型。

使用方法

使用DTGB数据集时，首先需下载并解压缩数据至指定文件夹。随后，通过运行get_pretrained_embeddings.py脚本，可以获取基于Bert的节点和边文本嵌入，这些嵌入将分别保存为e_feat.npy和r_feat.npy。此外，运行get_LLM_data.ipynb脚本可生成用于文本关系生成任务的训练和测试集，分别保存为LLM_train.pkl和LLM_test.pkl。这些步骤为后续的模型训练和评估提供了必要的数据准备。

背景与挑战

背景概述

DTGB数据集，全称为Dynamic Text-Attributed Graphs Benchmark，是由Zhang, Jiasheng等研究人员在2024年创建的，旨在为动态文本属性图提供一个全面的基准。该数据集的核心研究问题是如何在动态文本属性图上进行有效的链接预测、节点检索和边分类等任务。DTGB的发布对图神经网络和自然语言处理领域具有重要影响，特别是在处理具有时间属性和文本描述的复杂图结构时，为研究人员提供了一个标准化的测试平台。

当前挑战

DTGB数据集在构建过程中面临多个挑战。首先，动态文本属性图的数据结构复杂，涉及时间戳、文本描述等多维信息，如何高效地存储和处理这些信息是一个主要挑战。其次，数据集的多样性和规模要求高效的算法和模型来处理，特别是在链接预测和节点检索任务中，模型的性能和计算效率需要平衡。此外，文本属性与图结构的结合增加了模型的复杂性，如何在保持高精度的同时减少计算成本是一个持续的研究问题。

常用场景

经典使用场景

DTGB数据集在动态文本属性图（DyTAG）的研究中展现了其经典应用场景。该数据集通过提供丰富的动态文本属性图，支持未来链接预测、目标节点检索、边分类以及文本关系生成等多项任务。例如，在未来的链接预测任务中，研究人员可以利用DTGB数据集训练DyGFormer模型，通过调整是否使用文本属性来评估模型的性能。此外，目标节点检索任务中，DTGB数据集的高效性使得研究人员能够精确地检索到目标节点，从而提升图分析的准确性。

衍生相关工作

DTGB数据集的发布催生了多项相关研究工作。首先，基于DTGB数据集，研究人员开发了多种图神经网络模型，如DyGFormer，用于处理动态文本属性图。其次，该数据集促进了大规模语言模型在图数据上的应用，推动了文本关系生成任务的研究。此外，DTGB数据集还激发了新的图数据预处理方法和评估指标的开发，为动态图分析提供了更为丰富的工具和方法。这些衍生工作不仅扩展了DTGB数据集的应用范围，也为动态图领域的研究提供了新的视角和方法。

数据集最近研究

最新研究方向

在动态文本属性图（Dynamic Text-Attributed Graphs, DTGB）领域，最新的研究方向主要集中在如何有效整合文本信息与图结构数据，以提升图神经网络在动态环境下的表现。具体而言，研究者们致力于开发能够处理时间序列数据和文本属性的新型图神经网络模型，如DyGFormer，以实现更精准的未来链接预测、目标节点检索和边分类任务。此外，利用预训练语言模型（如BERT）生成节点和边的文本嵌入，进一步增强了模型的表达能力。这些研究不仅推动了图神经网络在实际应用中的性能提升，也为跨领域的知识融合提供了新的思路。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息，涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类，提供了详细的农村金融发展状况。

www.pbc.gov.cn 收录

Subway Dataset

该数据集包含了全球多个城市的地铁系统数据，包括车站信息、线路图、列车时刻表、乘客流量等。数据集旨在帮助研究人员和开发者分析和模拟城市交通系统，优化地铁运营和乘客体验。

www.kaggle.com 收录

中国高分辨率高质量PM2.5数据集（2000-2023）

ChinaHighPM2.5数据集是中国高分辨率高质量近地表空气污染物数据集（ChinaHighAirPollutants, CHAP）中PM2.5数据集。该数据集利用人工智能技术，使用模式资料填补了卫星MODIS MAIAC AOD产品的空间缺失值，结合地基观测、大气再分析和排放清单等大数据生产得到2000年至今全国无缝隙地面PM2.5数据。数据十折交叉验证决定系数R2为0.92，均方根误差RMSE为10.76 µg/m3。主要范围为整个中国地区，空间分辨率为1 km，时间分辨率为日、月、年，单位为µg/m3。注意：该数据集持续更新，如需要更多数据，请发邮件联系作者（weijing_rs@163.com; weijing@umd.edu）。数据文件中包含NC转GeoTiff的四种代码（Python、Matlab、IDL和R语言）nc2geotiff codes。

国家青藏高原科学数据中心收录

Materials Project 在线材料数据库

Materials Project 是一个由伯克利加州大学和劳伦斯伯克利国家实验室于 2011 年共同发起的大型开放式在线材料数据库。这个项目的目标是利用高通量第一性原理计算，为超过百万种无机材料提供全面的性能数据、结构信息和计算模拟结果，以此加速新材料的发现和创新过程。数据库中的数据不仅包括晶体结构和能量特性，还涵盖了电子结构和热力学性质等详尽信息，为研究人员提供了丰富的材料数据资源。相关论文成果为「Commentary: The Materials Project: A materials genome approach to accelerating materials innovation」。

超神经收录

中国区域地面气象要素驱动数据集 v2.0（1951-2020）

中国区域地面气象要素驱动数据集（China Meteorological Forcing Data，以下简称 CMFD）是为支撑中国区域陆面、水文、生态等领域研究而研发的一套高精度、高分辨率、长时间序列数据产品。本页面发布的 CMFD 2.0 包含了近地面气温、气压、比湿、全风速、向下短波辐射通量、向下长波辐射通量、降水率等气象要素，时间分辨率为 3 小时，水平空间分辨率为 0.1°，时间长度为 70 年（1951~2020 年），覆盖了 70°E~140°E，15°N~55°N 空间范围内的陆地区域。CMFD 2.0 融合了欧洲中期天气预报中心 ERA5 再分析数据与气象台站观测数据，并在辐射、降水数据产品中集成了采用人工智能技术制作的 ISCCP-ITP-CNN 和 TPHiPr 数据产品，其数据精度较 CMFD 的上一代产品有显著提升。 CMFD 历经十余年的发展，其间发布了多个重要版本。2019 年发布的 CMFD 1.6 是完全采用传统数据融合技术制作的最后一个 CMFD 版本，而本次发布的 CMFD 2.0 则是 CMFD 转向人工智能技术制作的首个版本。此版本与 1.6 版具有相同的时空分辨率和基础变量集，但在其它诸多方面存在大幅改进。除集成了采用人工智能技术制作的辐射和降水数据外，在制作 CMFD 2.0 的过程中，研发团队尽可能采用单一来源的再分析数据作为输入并引入气象台站迁址信息，显著缓解了 CMFD 1.6 中因多源数据拼接和气象台站迁址而产生的虚假气候突变。同时，CMFD 2.0 数据的时间长度从 CMFD 1.6 的 40 年大幅扩展到了 70 年，并将继续向后延伸。CMFD 2.0 的网格空间范围虽然与 CMFD 1.6 相同，但其有效数据扩展到了中国之外，能够更好地支持跨境区域研究。为方便用户使用，CMFD 2.0 还在基础变量集之外提供了若干衍生变量，包括近地面相对湿度、雨雪分离降水产品等。此外，CMFD 2.0 摒弃了 CMFD 1.6 中通过 scale_factor 和 add_offset 参数将实型数据化为整型数据的压缩技术，转而直接将实型数据压缩存储于 NetCDF4 格式文件中，从而消除了用户使用数据时进行解压换算的困扰。本数据集原定版本号为 1.7，但鉴于本数据集从输入数据到研制技术都较上一代数据产品有了大幅的改变，故将其版本号重新定义为 2.0。CMFD 2.0 的数据内容与此前宣传的 CMFD 1.7 基本一致，仅对 1983 年 7 月以后的向下短/长波辐射通量数据进行了更新，以修正其长期趋势存在的问题。2021 年至 2024 年的 CMFD 数据正在制作中，计划于 2025 年上半年发布，从而使 CMFD 2.0 延伸至 2024 年底。

国家青藏高原科学数据中心收录